Conditor – référencement de la production scientifique française

actus

L’objectif du projet Conditor est de recenser l’ensemble de la production scientifique (articles, ouvrages, congrès, thèses, rapports …) de la communauté de l’Enseignement Supérieur et de la Recherche.

Pour construire ce référentiel, la complémentarité est la règle :

  • Conditor s’alimentera à partir des archives et autres réservoirs de métadonnées sur la production scientifique, et servira également de source pour ces réservoirs.
  • La valorisation de la production scientifique référencée dans Conditor sera facilitée, au travers d’applications qui pourront exploiter ses données.
  • Les partenaires du projet pourront bénéficier de l’apport de chacun en matière de métadonnées.
  • Les professionnels de l’IST seront mis à contribution pour assurer l’administration du référentiel.

Etapes du projet:

Un pré-cadrage en 2012
Une expérimentation en 2013
Un bilan de l’expérimentation et une restitution des travaux en 2014
Une mise en œuvre du projet Conditor : 2017-2018

*Un pré-cadrage en 2012

Un comité de pilotage dédié à ce projet a été mis en place sous la présidence du ministère de la recherche, avec la participation de responsables ou experts de différents organismes et universités (ABES, AMUE, CEA, CNRS, INRA, IRD, OST, Université Charles de Gaulle, Lille 3, Université de Lorraine, Université François Rabelais de Tours, Université Paris XI). La première réunion s’est tenue en avril 2012.

A la demande du comité de pilotage, le paysage en matière de signalement de la production scientifique a été clarifié. Des enquêtes menées auprès des organismes, des rencontres avec les acteurs métier et des présentations de systèmes existants ou initiatives connexes ont permis de préciser les objectifs et le positionnement de Conditor dans ce paysage.

Les principaux constats sont les suivants :

  • Des pratiques et dispositifs variés de recensement coexistent au sein des institutions et des laboratoires.
  • Un repérage des adresses de chaque institution dans le WOS [1] est réalisé pour la production annuelle d’indicateurs nationaux par l’OST.
  • Des bases commerciales sont utilisées pour recenser la production d’un établissement, d’un laboratoire voire d’un chercheur mais elles ne permettent pas d’aboutir à un recensement exhaustif.
  • Différents référentiels de structures, dictionnaires d’affiliations, auteurs, personnel, revues, colloques, thématiques… existent au niveau international, national, institutionnel, local : le besoin de référentiels communs (ou liés entre eux) est exprimé par tous.

Dans la mesure où les travaux de référencement peuvent être faits plusieurs fois dans des contextes différents, la mutualisation paraît donc aller de soi, mais pas le moyen d’y parvenir. C’est pourquoi l’idée d’utiliser dans un premier temps les réservoirs existants puis de s’organiser progressivement entre partenaires pour partager les données et minimiser les efforts de chacun a été privilégiée.

Une expérimentation a été proposée au comité de pilotage du projet fin décembre 2012 dans ce sens avec pour objectif d’appréhender concrètement les difficultés de tous ordres et les bénéfices que chaque partenaire pourrait tirer.

*Une expérimentation en 2013

Les travaux se sont déroulés entre avril 2013 et janvier 2014 en utilisant les ressources que chaque partenaire pouvait mettre à disposition car il ne s’agissait pas d’aboutir à un corpus « parfait » mais de voir comment y parvenir.

Les partenaires de l’expérimentation étaient :

  • fournisseur de corpus de notices (archives, bases bibliographiques ou bibliométriques, catalogue, base de données décrivant l’activité des chercheurs),
  • fournisseur de référentiels (structures, auteurs,…),
  • opérateur technique,
  • expert,
  • organisateur.

Pour réaliser les travaux, a été mis en place un groupe technique :

  • multi-acteurs : ABES, CNRS (-DASTR, -DIST/INIST/CCSD, -INSHS), INRA, INRIA, IRD, MESR, Université Paris Dauphine, Université de Bordeaux,
  • multi-métiers : bibliométricien, curateur, documentaliste, gestionnaire d’archive ou de base de données, informaticien, urbaniste, …

Un corpus commun « enrichi » a été constitué à partir des notices de productions 2011 fournies par chaque partenaire-fournisseur :

  • détection des doublons entre corpus de notices [2] ,
  • ajout des identifiants nationaux de structure du RNSR [3] et des partenaires institutionnels de la structure [4],
  • ajout à chaque auteur, des identifiants IdRef [5] potentiels,
  • constitution d’un signalement « enrichi » des données de chacun.

Un partenaire pouvait ensuite étudier la pertinence des signalements :

  • non fournis par lui mais pouvant potentiellement lui être attribués [6],
  • fournis par lui et enrichis des données provenant des autres réservoirs de notices et du RNSR notamment.

*Un bilan de l’expérimentation et une restitution des travaux en 2014…

L’expérimentation a donné une idée concrète des difficultés notamment du fait de la variété des corpus de notices (contenus et formats) et d’une volumétrie conséquente (une année de production).

Des pistes d’amélioration ont été dégagées :

  • Les corpus de notices sources doivent être sélectionnés pour éviter de traiter inutilement des notices dont la pertinence est incertaine (notices ne correspondant pas à une production de l’ESR ou ne comportant pas d’affiliation par exemple).
  • La méthode de détection automatique des doublons fondée sur l’alignement de chaînes de caractères s’est avérée efficace mais le tout automatique ne peut pas être la règle : une validation humaine des doublons incertains devra être mise en place par exemple.
  • Certains ajouts de tutelles ont paru inopportuns et une réflexion entre les partenaires devra donc être menée pour clarifier les règles de génération de données complémentaires à l’aide des référentiels de structure.
  • La gestion du lien avec IdRef par alignement de chaînes de caractères fondé sur les noms et prénoms des auteurs n’est bien sûr pas suffisante pour distinguer des homonymes et d’autres approches sont à prévoir.
  • L’absence de format imposé pour la fourniture des corpus de notices source à l’opérateur technique a facilité grandement la tâche des fournisseurs mais a alourdi fortement celle de l’opérateur technique. La complexité du format de restitution a également compliqué la tâche d’analyse du corpus Conditor. Il sera important de travailler à un tronc commun de métadonnées et à un format d’échange pour la suite.

L’expérimentation a permis d’identifier les bénéfices liés à la mise en place d’un réservoir partagé de métadonnées « normalisées » décrivant la production scientifique :

  • limiter les saisies multiples aux chercheurs et faciliter le dépôt dans les archives ouvertes, du fait d’une limitation des métadonnées à saisir dans l’archive,
  • éviter d’avoir à faire les mêmes travaux de recensement au sein des institutions partenaires d’une même UMR (mutualiser le repérage dans le WoS par exemple),
  • limiter la saisie, dans son propre dispositif, aux notices ou métadonnées non présentes dans Conditor,
  • contribuer à la mutualisation des référentiels nécessaires à Conditor (structures, tutelles, dictionnaires d’affiliations, revues, colloques, projets….), qu’il s’agisse d’améliorer les référentiels nationaux existants (RNSR et IdRef par exemple), de partager d’autres référentiels existants ou de mettre à la disposition des autres partenaires ses propres référentiels.

Une restitution des travaux a été réalisée aux membres de BSN3 en mai et lors d’une réunion satellite des journées des directeurs de bibliothèques et responsables IST des organismes de recherche en juin.

*Une mise en œuvre du projet Conditor : 2017-2018

Après cette phase d’étude et de preuve de concept, il s’agit maintenant de mettre concrètement en place :

  • un « pot » commun de métadonnées qui sera alimenté au fil de l’eau par des sources ESR existantes (archives, bases bibliométriques…) ou internationales (libres et gratuites ou commerciales)  et des référentiels communs comme  le Répertoire National des Structures de Recherche (RNSR) ou des référentiels choisis collégialement,
  • un « outillage » adapté pour le construire (collecte, conversion de format, appariements entre signalements pour la détection des doublons, alignement avec des référentiels pour enrichissement) et fournir en métadonnées les applicatifs de l’ESR,
  • une organisation multipartenaires pour le faire vivre : réseau métier réparti dans les établissements (fournisseurs, administrateurs, applications utilisatrices des données produites), équipe informatique (administration, maintenance), structure de pilotage du service (évolutions du produit …).

La phase projet doit répondre à ces trois enjeux. Lancé officiellement le 5 décembre 2016, ce projet multi-partenaires  soutenu par le MESRI et porté par le CNRS Dist, prévoit d’y aboutir en 2 ans (fin 2018).

Cette phase projet permettra  aussi d’engager le processus de mutualisation du signalement de la production scientifique et d’intégration progressive du référentiel Conditor dans les différents dispositifs de l’ESR.

Les travaux à mener ont été découpés en six ensembles :

  • Lot1 : gestion de projet et coordination d’ensemble
  • Lot2 : formalisation des usages des données collectées et produites par Conditor
  • Lot3 : stratégie de construction des corpus de signalements et constitution « itérative » de corpus
  • Lot4 : conception/développement itératif/déploiement  de l’applicatif
  • Lot5 : mise en place du service Conditor
  • Lot6 : communication

Les lots sont pris en charge par des groupes multi-partenaires autour d’un ou deux partenaires pilote ou copilotes.

Un comité de suivi opérationnel auquel participent les pilotes ou copilotes de lots et les initiateurs du projet assure la coordination d’ensemble. Il joue également un rôle de facilitation.

Les acteurs opérationnels impliqués sont l’Abes, Agreenium, l’Amue, le CCSD, l’Inist, la Dist, l’InSHS et la Dastr – SAP2S du CNRS, Huma-Num, l’Inra, Inria, l’Irstea, le MENESR (équipes RNSR et ScanR), l’OST du HCERES, ainsi que les universités de Bordeaux, Paris-Dauphine, Paris-Diderot et l’UPMC.

Macroplanning de réalisation :macro Planning du projet Conditor

 


[1] WoS : Web of Science, fait partie des produits du Web of Knowledge développé par la société ISI de Thomson Reuters et permet la recherche de références bibliographiques scientifiques

[2] La méthode de détection de doublons ou d’appariement entre notices de corpus sources différents est totalement automatique (aucune validation humaine des appariements). Elle se fonde sur l’alignement strict de chaînes de caractères de certains éléments pris isolément (comme les identifiants de notices) ou en combinaison (volume, numéro, première page, ISSN, titre, auteur).

[3] Le Répertoire National des Structures de Recherche (RNSR) géré par une équipe du ministère de la recherche, comporte pour chaque structure un identifiant national en plus des données telles que libellé, sigle, responsables,… mais il comporte aussi (s’il y a lieu) les identifiants et autres données propres à chaque partenaire institutionnel

[4] Un alignement de chaînes de caractères entre les données de l’affiliation présente dans les notices et les données présentes dans le référentiel a d’abord été effectué puis les données du référentiel non présentes dans la notice, ajoutées (partenaires institutionnels du laboratoire notamment)

[5] IdRef est un référentiel national, géré par l’ABES, comportant notamment pour chaque auteur répertorié un certain nombre d’informations le concernant et une liste de publications. Voir : www.idref.fr/

[6] Dans la mesure où dans les notices fournies par chaque partenaire institutionnel, l’identifiant ou certaines données propres à une structure sont présents le plus souvent dans l’affiliation, il s’avère possible grâce au référentiel de structure d’ajouter l’identifiant national RNSR et les autres partenaires institutionnels de la structure et donc de détecter des signalements susceptibles d’être attribués à ces derniers