Fédération EOSC : top départ pour le cloud européen de la science ouverte
Avec la sélection de 13 premiers nœuds, la fédération de l’European Open Science Cloud (EOSC) ouvre la voie vers son futur portail européen d’accès et de mise à disposition de données et de logiciels pour l’ensemble des communautés scientifiques. Parmi ces nœuds, Data Terra, une infrastructure de recherche dédiée au système Terre et à l’environnement, dont la candidature était portée par le CNRS.
Elle favorise les avancées scientifiques et les innovations, contribue à accélérer la circulation de la connaissance, et participe à la démocratisation de l’accès au savoir. Les atouts de la science ouverte sont nombreux. Mais au niveau européen, cette dernière reste encore peu développée et structurée. Pour pallier ce manque, une gouvernance tripartite formée par la Commission européenne, les États membres et l’association EOSC pose les bases du futur cloud européen de la science ouverte avec la création de la Fédération EOSC.
Une structuration en nœuds
« Concrètement, il s’agira d’un système distribué d’infrastructures chargé de fournir un ensemble de services et d’outils sur tous les domaines de la recherche. Et il devra être accessible à tous les scientifiques européens. », détaille Suzanne Dumouchel, responsable de la coopération internationale à la direction des données ouvertes de la recherche du CNRS (DDOR) et membre du comité directeur de l’association EOSC. Le chantier est immense. « Cette fédération, c’est un objet dont on parle depuis près d’un an maintenant et qui se construit peu à peu. La science ouverte a toujours été pratiquée car elle est à la base du mécanisme de la recherche. Depuis quelques années, elle est devenue une politique publique très suivie également au niveau international. Et la fédération EOSC est une de ses manifestations majeures en Europe, très enviée par ailleurs. », poursuit Suzanne Dumouchel.
À l’image d’un réseau comme la toile internet, cette fédération EOSC se structure en différents nœuds. Chacun d’entre eux regroupe un ensemble de services mis à disposition des scientifiques. « Il s’agit de partager des données de la recherche, mais aussi des publications et des moyens de calculs », détaille Sylvie Rousset, directrice de la DDOR. « Un nœud peut correspondre à une thématique particulière, comme les sciences de la Terre, mais il peut aussi réunir plusieurs infrastructures de calcul afin de faire du calcul intensif par exemple », complète Suzanne Dumouchel. Enfin, ces nœuds peuvent aussi regrouper un ensemble d’outils et de services proposés par un pays. Dans ce dernier cas, on parle alors de « nœuds nationaux ».
Chaque nœud bénéficiera de son modèle de gouvernance et de sa gestion propre. Mais chacun devra être interopérable avec le nœud central porté par la Commission européenne qui constitue le cœur de la fédération : le « EOSC EU Node ». « C’est le noyau dur de la fédération. Il vise à proposer un certain nombre de services communs à toute la fédération. », précise Sylvie Rousset.
Un seul nœud national français, porté par le CNRS
Pour poser les bases de ce cloud européen de la science ouverte, la fédération EOSC a lancé en août 2024 un premier appel à candidature afin d’intégrer des services et infrastructures qui répondent déjà au niveau d’exigence souhaité par la fédération. Parmi les 121 propositions reçues, les membres de la fédération EOSC ont sélectionné les 13 premiers nœuds en mars dernier. Dans les heureux élus, un seul français : l’infrastructure de recherche Data Terra dont la candidature est portée par le CNRS. Cette e-infrastructure nationale, pilotée par 34 organismes et universités, concentre les données d’observation du système Terre, climat, environnement et biodiversité. « Depuis notre création en 2016, nous regroupons et mettons en relations toutes les données produites par les communautés scientifiques qui travaillent sur les sciences du système Terre en France, souligne Frédéric Huynh, directeur de l’infrastructure de recherche Data Terra. Les scientifiques ont besoin d’accéder à des données de terrain, à des informations récoltées par satellites, par bateaux, par avions, au sol et à des modélisations climatiques et géologiques par exemple. Et ils doivent pouvoir utiliser des outils et services numériques de traitements de la manière la plus fluide possible. Or, aujourd’hui aucun laboratoire n’est en capacité de réaliser une telle prouesse à lui seul, car cela nécessite notamment d’avoir accès à des plateformes d’accès, de stockage, de calculs et de traitements distribuées. ».
L’objectif de Data Terra est donc d’organiser la collecte et la FAIRisation1 de ces données, de les rendre interopérables afin de les mettre en relation, puis de les rendre accessibles aux chercheurs et aux chercheuses dans l’hexagone, en Europe et à l’international. Un ensemble de catalogues opérés par les cinq pôles de données thématiques est proposé : Terre solide, atmosphère, océan, surfaces continentales, et biodiversité. Cela représente un travail immense, souligne Frédéric Huynh, car la mise en relation de données et services numériques hétérogènes issues de différents laboratoires est un véritable défi : « Il nous faut disposer de méthodes et outils pour découvrir les données, les décrire, puis les renseigner avec le plus haut niveau de qualité scientifique, tout en s’assurant que nos approches correspondent aux demandes et aux habitudes de travail des communautés scientifiques. Au sein de Data Terra, ce travail mobilise plus de 200 personnes à temps plein. C’est un chantier énorme, mais ce travail est nécessaire pour créer des conditions permettant de faire de la belle science et d’obtenir ainsi de nouveaux résultats ».
Avec l’intégration dans la fédération EOSC, le directeur de Data Terra se prépare à changer d’échelle : « Cela va avoir un coût en termes de temps et de moyens, mais c’est aussi une excellente manière pour nous de bénéficier d’une plus grande visibilité auprès de nos collègues et instances européens. ».
Une implication forte dans trois nœuds thématiques
Le CNRS est également impliqué dans trois des 12 autres nœuds sélectionnés au cours de cette première phase par la fédération EOSC. Parmi eux, un nœud thématique autour de l’organisation européenne pour la recherche nucléaire et destiné à étudier la physique des particules : la plateforme Inspire-HEP, fruit d'une collaboration entre le CERN, l’institut CNRS Nucléaire & particules (IN2P3) et plusieurs laboratoires internationaux, et qui regroupe les informations déposées par les chercheurs et chercheuses en physique des hautes énergies, vient ainsi enrichir la fédération EOSC.
L’institut de bio-informatique (IFB) est, quant à elle, une infrastructure nationale des domaines de la biologie et de la santé pilotée par le CNRS, INRAE, le CEA et l’Inserm : elle fournit des données, des outils, des formations, et un accompagnement de projets de recherche en biologie. Elle est impliquée dans un nœud thématique autour des recherches menées en sciences de la vie, le Life Science Research Node. « Ce nœud est porté par plusieurs infrastructures européennes qui se sont rassemblées autour de ce vaste domaine de recherche », précise Suzanne Dumouchel.
Le cloud de science ouverte autour des photons et des neutrons (PaNOSC) vient également former l’un des nœuds d’EOSC. Ce cluster scientifique représentant les infrastructures de recherche européennes sur les photons et les neutrons sera hébergé par l’Installation européenne de rayonnement synchrotron (ESRF), auxquels le CNRS et le CEA contribuent. L’objectif du nœud PaNOSC sera notamment de rendre les données scientifiques produites par les principales sources européennes de photons et de neutrons pleinement accessibles, interopérables et réutilisables.
Bientôt d’autres nœuds
En parallèle, la fédération EOSC continuera de grandir. Un nouvel appel à participation va être lancé cet été afin de recruter des nœuds supplémentaires. Le regroupement thématique ESCAPE, un cluster européen de l’astronomie et de la physiques des particules réunissant les principales infrastructures de recherche du Vieux Continent dans ce domaine, devrait se porter candidat. ESCAPE est coordonné par le CNRS. « Il est déjà bien structuré et il est doté d’un certain nombre de services qui ont fait leurs preuves. ESCAPE devrait rejoindre rapidement la liste des nœuds d’EOSC, que ce soit lors de l’appel à participation de cet été, ou bien lors des suivants. », confie la responsable de la coopération internationale à la DDOR.
La plateforme d’accès ouvert aux publications scientifiques HAL+ pourrait aussi rejoindre prochainement la fédération EOSC. « Il existe plusieurs stratégies possibles pour l’intégrer dans EOSC, précise Suzanne Dumouchel. Elle peut être déposée comme un nœud seul ou rejoindre d’autres propositions, telles que le nœud Diamant qui réunit tous les services et outils de publication autour du modèle d’accès ouvert Diamant. L’intégration d’HAL+ dans la fédération EOSC fait donc encore l’objet d’une réflexion pour l’instant afin d’étudier comment nous pourrions assurer le maximum de visibilité à ce service ».
Concernant les 13 nœuds déjà intégrés dans la fédération EOSC, un premier bilan est prévu en novembre prochain, confie Suzanne Dumouchel : « Ce sera l’occasion de faire le point sur ce qui a bien marché, et sur ce qui reste améliorable. Il s’agit d’un travail colossal, nous sommes donc conscients que toutes les bonnes solutions ne seront pas trouvées du premier coup ».
- 1Pour des données faciles à trouver, accessibles, interopérables et réutilisables (FAIR).