La France à l’avant-garde de la science ouverte
Pour sa sixième journée science ouverte le 27 novembre 2024, le CNRS faisait le point sur les avancées et perspectives dans ce domaine. Au programme, un tour d’horizon des infrastructures de stockage et de calcul intensif à l’échelle nationale, l’implication du CNRS dans la fédération européenne EOSC, la refonte internationale de l’évaluation des chercheurs et les enjeux des bases de données bibliographiques ouvertes.
Après les publications scientifiques en 2020, l’évaluation de la recherche en 2021, les données de la recherche en 2022 et les logiciels libres et la fouille de textes en 2023, que recelait la sixième journée science ouverte organisée le 27 novembre 2024 par la Direction des données ouvertes de la recherche du CNRS (DDOR) ? Un peu de tout cela et plus encore. Cinq ans après le lancement de sa feuille de route dédiée à la science ouverte, le CNRS, à la pointe du mouvement en France, dressait, à l’occasion de cette journée, un point d’étape des avancées et perspectives en ce domaine.
Renforcer, mutualiser et pérenniser le calcul intensif
Des perspectives, il y en a tout d’abord en matière de calcul intensif. Le directeur adjoint de la DDOR, Denis Veynante, rappelle à ce titre que le CNRS fait figure « d’acteur majeur du paysage du calcul intensif et des données via les deux datacentres d’envergure nationale dont il est opérateur », soit le Centre de Calcul de l’IN2P3 1 et l'Institut du développement et des ressources en informatique scientifique2 , opérateur du supercalculateur Jean-Zay dédié à l'intelligence artificielle. Conformément à la politique de l’organisme qui, comme le souligne le directeur adjoint, « soutient fortement la rationalisation des infrastructures matérielles encouragée par le ministère de l’Enseignement supérieur et de la Recherche et la Cour des comptes, pour éviter la dispersion des efforts ou la construction de solutions individuelles ad hoc », deux nouveaux projets d’envergure devraient voir le jour dans les prochaines années. Le premier est un projet commun entre l'Idris et les infrastructures de recherche Data Terra3 et France Grilles4 pour déployer une nouvelle génération d’offre de service pour le stockage, le traitement et la mise à disposition des données massives. C’est un projet d’interconnexion entre les infrastructures de stockage (l’Idris, le mésocentre de Clermont-Ferrand et le Centre de données astronomiques de Strasbourg) et extensible à d’autres mésocentres pour une intégration harmonieuse avec l’écosystème existant des acteurs du cloud. Un projet qui vise rien de moins que « la première offre unifiée et souveraine d'infrastructures de calcul et de services cloud », précise Pierre-François Lavallée, directeur de l’Idris. En pratique, son institut et France-Grilles se doteront courant 2025 de capacités de stockage supplémentaires, en partie financées par un fond d’amorçage de la DGRI à hauteur de 2 millions d’euros et les 500 000 € économisés par le CNRS via son désabonnement de Scopus en début d’année. Le second projet, FITS, cherche à « fédérer les savoir-faire et services de l'Idris et du CC-IN2P3 dans le respect de leurs missions spécifiques à travers la mise en œuvre d'une infrastructure répartie de stockage, de traitement, de mise à disposition, diffusion et valorisation des données, hébergées dans des conditions environnementales à faible empreinte carbone », explique Pierre-Etienne Macchi, directeur du CC-IN2P3. Concrètement, pour faire face à « l’explosion du volume des données des infrastructures de recherche », les deux centres mettront à niveau leurs capacités d'accueil respectives d’ici 2026.
- 1Le Centre de calcul de l’Institut national de physique nucléaire et de physique des particules (CC-IN2P3), à Villeurbanne, est une infrastructure de recherche nationale, qui conçoit et opère un ensemble de services, en particulier un système de stockage de masse et de moyens de traitement de grandes masses de données.
- 2L’Idris, à Orsay, est le centre majeur du CNRS pour le calcul numérique intensif de très haute performance, il opère le supercalculateur Jean-Zay dont une partie est dédiée à la communauté de recherche en intelligence artificielle.
- 3L’infrastructure de recherche Data Terra permet d’accéder, de traiter et de combiner des données multi-sources pour l’observation du système Terre.
- 4Les infrastructures de France Grilles sont un ensemble de machines (matériel) sur lesquelles sont déployés des services et des logiciels pour le traitement des données scientifiques.
Vers des bases bibliométriques ouvertes
Outre le financement partiel de la nouvelle offre de service de l’Idris, le désabonnement de Scopus soutiendra la transition complète du CNRS vers un modèle ouvert et non-commercial. Une démarche qu’a rappelée Antoine Petit, président-directeur général de l’organisme, dans son allocution : « On doit à terme arrêter d'utiliser les bases de données payantes pour la bibliométrie et bibliographie ». Actuellement, le CNRS conserve son abonnement auprès de la base Web of Science de Clarivate, en attendant des bases bibliographiques libres abouties, à l’instar de la base en accès ouvert et non-lucrative OpenAlex. En complément d’OpenAlex pour la bibliométrie, les scientifiques peuvent utiliser la plateforme Matilda, qui permet notamment d’opérer des recherches bibliographiques sur les textes complets et pas uniquement sur les métadonnées (titre, auteur, mots-clés, résumé) des publications. Le texte plein permet aussi d’autres usages : « Matilda permet de repérer les traces suspectes d’usages des IA génératives et les citations inattendues de ces textes », indique Didier Torny, directeur de recherches au CNRS au sein du Centre de sociologie de l'innovation1 et délégué scientifique économie des publications à la DDOR.
Refondre l’évaluation de la recherche
Cette transition vers l’accès ouvert s’accompagne d’une refonte de l’évaluation des scientifiques, tant au niveau français qu’international. En France, Alain Schuhl, directeur général délégué à la science du CNRS, revient sur les quatre principes mis en place lors de la refonte de l’évaluation des chercheurs au CNRS en 2019. Plutôt que de s’appuyer uniquement sur des indicateurs bibliométriques et le prestige des revues – aux frais de publication toujours plus coûteux – où les articles sont publiés, l’évaluation devrait se focaliser sur les résultats scientifiques et mieux reconnaitre la diversité des activités du métier de chercheur. L’objectif de la refonte ne se borne pas à la seule carrière des scientifiques : « Garantir une évaluation de qualité est aujourd’hui nécessaire afin de maintenir l’excellence de la recherche française », affirme Alain Schuhl.
C’est pourquoi le CNRS s’investit pleinement au sein de la coalition internationale CoARA2 qui, depuis son lancement en 2022, réunit désormais plus de 700 membres, 13 groupes de travail internationaux et 15 chapitres nationaux. Parmi ses premiers signataires, le CNRS y pilote, via la DDOR, un work package destiné à l’analyse des plans d'action des signataires. Sylvie Rousset, directrice de la DDOR, représentante de l’établissement auprès de la CoARA et membre de son comité exécutif, envisage cette coalition comme « un lieu de discussions et d'échanges, dans lequel on s’aperçoit que réformer aujourd’hui l'évaluation de la recherche est une préoccupation internationale ». Ce constat doit s’accompagner d’une action collective comme le rappelle Sylvie Rousset : « C’est la force du collectif et l’implication des acteurs académiques dans le monde entier qui permettra de repenser durablement le système d’évaluation, le plus intègre possible ».
EOSC rassemble ses forces au sein d’une fédération
Autre collaboration internationale, à l’échelle européenne cette fois-ci : le programme European Open Science Cloud (EOSC), qui offre aux scientifiques de toutes disciplines un catalogue de services mutualisés pour la science ouverte. Presque dix ans après son lancement par la Commission européenne en 2016, EOSC rassemble désormais ses forces au sein d'un nouvel environnement tangible et persistant : la fédération EOSC. Volker Beckmann, responsable de la mise en œuvre de l’EOSC en France, explique la genèse de cette nouvelle approche : « Jusqu’à présent, l'EOSC a fonctionné sur la base de projets, avec de nouveaux appels pour gérer le cœur de l'EOSC tous les trois ans, ce qui limitait sa durabilité et sa soutenabilité. Ce mode de fonctionnement fragilisait l’offre de services. Cette fédération regroupant des fournisseurs de données et de services de recherche, dont le soutien reposera sur un modèle économique solide, permet d’offrir un élan à la hauteur des ambitions des recherches européennes. Cela n'empêche pas les appels à projets pour continuer à développer EOSC mais dans un contexte de gouvernance et d'opérations clarifiés et bien identifiés. »
Annoncée cette année, la fédération EOSC a déjà reçu 121 propositions, dont 17 en France. Le CNRS n’est pas en reste avec son souhait de contribuer à différents nœuds de la fédération – c’est-à-dire des structures composites articulées en plusieurs services offerts à la communauté scientifique – et d’en coordonner potentiellement trois autour de Data Terra pour le système Terre, Escape pour l’astronomie et la physique des particules et HAL+ pour les archives ouvertes. Suzanne Dumouchel, coordinatrice du CNRS sur les sujets EOSC, certifie que l’organisme de recherche « est largement impliqué à plusieurs niveaux dans la construction de la fédération EOSC » avec le soutien aux nœuds mais également en participant aux travaux de l’association EOSC.
La France en tête du Leiden Ranking
En phase avec la dynamique européenne de science ouverte, André Brasil, chercheur au Centre for Science and Technology Studies de l'université de Leyde, est venu partager les avancées de l’expérimentation de son classement international qui intègre désormais les principes de science ouverte. Le Leiden Ranking est le premier classement à mobiliser exclusivement des données ouvertes – notamment via la base OpenAlex – et cohabitera avec le classement historique, qui s’appuie quant à lui sur des données propriétaires, pour en comparer les résultats. La disponibilité et la centralisation des données et des métadonnées ouvertes est un processus récent qui s’organise progressivement à l’échelle internationale.
Six ans après le lancement du premier Plan national pour la science ouverte, force est de constater le rôle majeur de la France à l’international au niveau des pratiques de science ouverte comme le souligne André Brasil sur l’analyse des préprints : « Si l’on regarde la liste des préprints dans OpenAlex, la France montre la voie aux autres pays et le CNRS est rien de moins que l’institution numéro 1 mondiale ».