Conditor

L’objectif du projet Conditor est de recenser l’ensemble de la production scientifique (articles, ouvrages, congrès, thèses, rapports …) de la communauté de l’Enseignement Supérieur et de la Recherche.

Pour construire ce référentiel, la complémentarité est la règle :

  • Conditor s’alimentera à partir des archives et autres réservoirs de métadonnées sur la production scientifique, et servira également de source pour ces réservoirs.
  • La valorisation de la production scientifique référencée dans Conditor sera facilitée, au travers d’applications qui pourront exploiter ses données.
  • Les partenaires du projet pourront bénéficier de l’apport de chacun en matière de métadonnées.
  • Les professionnels de l’IST seront mis à contribution pour assurer l’administration du référentiel.

Un pré-cadrage en 2012
Une expérimentation en 2013
Un bilan de l’expérimentation et une restitution des travaux en 2014

Un pré-cadrage en 2012 Un comité de pilotage dédié à ce projet a été mis en place sous la présidence du ministère de la recherche, avec la participation de responsables ou experts de différents organismes et universités (ABES, AMUE, CEA, CNRS, INRA, IRD, OST, Université Charles de Gaulle, Lille 3, Université de Lorraine, Université François Rabelais de Tours, Université Paris XI). La première réunion s’est tenue en avril 2012.

A la demande du comité de pilotage, le paysage en matière de signalement de la production scientifique a été clarifié. Des enquêtes menées auprès des organismes, des rencontres avec les acteurs métier et des présentations de systèmes existants ou initiatives connexes ont permis de préciser les objectifs et le positionnement de Conditor dans ce paysage.

Les principaux constats sont les suivants :

  • Des pratiques et dispositifs variés de recensement coexistent au sein des institutions et des laboratoires.
  • Un repérage des adresses de chaque institution dans le WOS [1] est réalisé pour la production annuelle d’indicateurs nationaux par l’OST.
  • Des bases commerciales sont utilisées pour recenser la production d’un établissement, d’un laboratoire voire d’un chercheur mais elles ne permettent pas d’aboutir à un recensement exhaustif.
  • Différents référentiels de structures, dictionnaires d’affiliations, auteurs, personnel, revues, colloques, thématiques… existent au niveau international, national, institutionnel, local : le besoin de référentiels communs (ou liés entre eux) est exprimé par tous.

Dans la mesure où les travaux de référencement peuvent être faits plusieurs fois dans des contextes différents, la mutualisation paraît donc aller de soi, mais pas le moyen d’y parvenir. C’est pourquoi l’idée d’utiliser dans un premier temps les réservoirs existants puis de s’organiser progressivement entre partenaires pour partager les données et minimiser les efforts de chacun a été privilégiée.

Une expérimentation a été proposée au comité de pilotage du projet fin décembre 2012 dans ce sens avec pour objectif d’appréhender concrètement les difficultés de tous ordres et les bénéfices que chaque partenaire pourrait tirer.

Une expérimentation en 2013 Les travaux se sont déroulés entre avril 2013 et janvier 2014 en utilisant les ressources que chaque partenaire pouvait mettre à disposition car il ne s’agissait pas d’aboutir à un corpus « parfait » mais de voir comment y parvenir.

Les partenaires de l’expérimentation étaient :

  • fournisseur de corpus de notices (archives, bases bibliographiques ou bibliométriques, catalogue, base de données décrivant l’activité des chercheurs),
  • fournisseur de référentiels (structures, auteurs,…),
  • opérateur technique,
  • expert,
  • organisateur.

Pour réaliser les travaux, a été mis en place un groupe technique :

  • multi-acteurs : ABES, CNRS (-DASTR, -DIST/INIST/CCSD, -INSHS), INRA, INRIA, IRD, MESR, Université Paris Dauphine, Université de Bordeaux,
  • multi-métiers : bibliométricien, curateur, documentaliste, gestionnaire d’archive ou de base de données, informaticien, urbaniste, …

Un corpus commun « enrichi » a été constitué à partir des notices de productions 2011 fournies par chaque partenaire-fournisseur :

  • détection des doublons entre corpus de notices [2] ,
  • ajout des identifiants nationaux de structure du RNSR [3] et des partenaires institutionnels de la structure [4],
  • ajout à chaque auteur, des identifiants IdRef [5] potentiels,
  • constitution d’un signalement « enrichi » des données de chacun.

Un partenaire pouvait ensuite étudier la pertinence des signalements :

  • non fournis par lui mais pouvant potentiellement lui être attribués [6],
  • fournis par lui et enrichis des données provenant des autres réservoirs de notices et du RNSR notamment.

Un bilan de l’expérimentation et une restitution des travaux en 2014… L’expérimentation a donné une idée concrète des difficultés notamment du fait de la variété des corpus de notices (contenus et formats) et d’une volumétrie conséquente (une année de production).

Des pistes d’amélioration ont été dégagées :

  • Les corpus de notices sources doivent être sélectionnés pour éviter de traiter inutilement des notices dont la pertinence est incertaine (notices ne correspondant pas à une production de l’ESR ou ne comportant pas d’affiliation par exemple).
  • La méthode de détection automatique des doublons fondée sur l’alignement de chaînes de caractères s’est avérée efficace mais le tout automatique ne peut pas être la règle : une validation humaine des doublons incertains devra être mise en place par exemple.
  • Certains ajouts de tutelles ont paru inopportuns et une réflexion entre les partenaires devra donc être menée pour clarifier les règles de génération de données complémentaires à l’aide des référentiels de structure.
  • La gestion du lien avec IdRef par alignement de chaînes de caractères fondé sur les noms et prénoms des auteurs n’est bien sûr pas suffisante pour distinguer des homonymes et d’autres approches sont à prévoir.
  • L’absence de format imposé pour la fourniture des corpus de notices source à l’opérateur technique a facilité grandement la tâche des fournisseurs mais a alourdi fortement celle de l’opérateur technique. La complexité du format de restitution a également compliqué la tâche d’analyse du corpus Conditor. Il sera important de travailler à un tronc commun de métadonnées et à un format d’échange pour la suite.

L’expérimentation a permis d’identifier les bénéfices liés à la mise en place d’un réservoir partagé de métadonnées « normalisées » décrivant la production scientifique :

  • limiter les saisies multiples aux chercheurs et faciliter le dépôt dans les archives ouvertes, du fait d’une limitation des métadonnées à saisir dans l’archive,
  • éviter d’avoir à faire les mêmes travaux de recensement au sein des institutions partenaires d’une même UMR (mutualiser le repérage dans le WoS par exemple),
  • limiter la saisie, dans son propre dispositif, aux notices ou métadonnées non présentes dans Conditor,
  • contribuer à la mutualisation des référentiels nécessaires à Conditor (structures, tutelles, dictionnaires d’affiliations, revues, colloques, projets….), qu’il s’agisse d’améliorer les référentiels nationaux existants (RNSR et IdRef par exemple), de partager d’autres référentiels existants ou de mettre à la disposition des autres partenaires ses propres référentiels.

Une restitution des travaux a été réalisée aux membres de BSN3 en mai et lors d’une réunion satellite des journées des directeurs de bibliothèques et responsables IST des organismes de recherche en juin.

La mise en œuvre du projet est en cours de préparation…


[1] WoS : Web of Science, fait partie des produits du Web of Knowledge développé par la société ISI de Thomson Reuters et permet la recherche de références bibliographiques scientifiques

[2] La méthode de détection de doublons ou d’appariement entre notices de corpus sources différents est totalement automatique (aucune validation humaine des appariements). Elle se fonde sur l’alignement strict de chaînes de caractères de certains éléments pris isolément (comme les identifiants de notices) ou en combinaison (volume, numéro, première page, ISSN, titre, auteur).

[3] Le Répertoire National des Structures de Recherche (RNSR) géré par une équipe du ministère de la recherche, comporte pour chaque structure un identifiant national en plus des données telles que libellé, sigle, responsables,… mais il comporte aussi (s’il y a lieu) les identifiants et autres données propres à chaque partenaire institutionnel

[4] Un alignement de chaînes de caractères entre les données de l’affiliation présente dans les notices et les données présentes dans le référentiel a d’abord été effectué puis les données du référentiel non présentes dans la notice, ajoutées (partenaires institutionnels du laboratoire notamment)

[5] IdRef est un référentiel national, géré par l’ABES, comportant notamment pour chaque auteur répertorié un certain nombre d’informations le concernant et une liste de publications. Voir : www.idref.fr/

[6] Dans la mesure où dans les notices fournies par chaque partenaire institutionnel, l’identifiant ou certaines données propres à une structure sont présents le plus souvent dans l’affiliation, il s’avère possible grâce au référentiel de structure d’ajouter l’identifiant national RNSR et les autres partenaires institutionnels de la structure et donc de détecter des signalements susceptibles d’être attribués à ces derniers