Le Très Grand Equipement Adonis du CNRS est destiné à offrir aux Sciences Humaines et Sociales (SHS) les moyens dont elles ont besoin pour assurer leur rayonnement : conservation pérenne des données, diffusion des savoirs, partage. Isidore en est le composant clé : il s’agit de la plateforme d’agrégation et d’enrichissement, le moteur de recherche et de diffusion de toutes les données SHS.
Toutes les disciplines des Sciences Humaines et Sociales (SHS) sont confrontées à un accroissement accéléré des données numérisées ou nativement numériques. Ces masses de données hétérogènes – sources textuelles, orales, iconographiques, audiovisuelles, images 3D, publications électroniques, séries de calculs – soulèvent de nombreuses questions : accessibilité, interopérabilité, publication, conservation, pérennité. Face à de tels enjeux, le CNRS met en œuvre une infrastructure pour la recherche et l’enseignement supérieur qui permettra d’accroître la visibilité des travaux et des résultats de la recherche par une meilleure mise à disposition des données.
Fin 2009, le TGE Adonis a lancé la réalisation du socle de services et le moteur de recherche pour accéder aux données et documents des SHS. Cette plateforme, nommée Isidore, doit permettre :
Le cahier des charges de la plateforme Isidore est particulièrement ambitieux, tant en termes de diversité et de volumétrie des données, qu’en termes de fonctionnalités :
A l’issue d’un appel d’offres, le CNRS a retenu les solutions Information Factory (AIF) et Finder Suite (AFS) d’Antidot pour la réalisation de la plateforme Isidore.
Antidot a répondu à la demande du CNRS TGE Adonis avec ses solutions Antidot Information Factory et Antidot Finder Suite :
Antidot Information Factory (AIF) est une solution logicielle conçue spécialement pour répondre aux enjeux de valorisation et d’exploitation des données non structurées ou semi structurées. Antidot Information Factory est une « machine à produire de l’information » qui industrialise la captation et le traitement des données existantes puis la mise à disposition automatisée d’informations enrichies.
AIF s’utilise comme un jeu de construction : pour créer des chaines de traitement, il suffit d’assembler et de paramétrer des modules prêts à l’emploi. Il en existe plus de 50 disponibles :
En bout de chaine, les données enrichies ou créées peuvent être exposées / publiées de plusieurs façons telles que la génération de fichiers ou l’injection dans une base ou un triplestore RDF. Bien évidemment en bout de chaine il est possible connecter le moteur de recherche AFS afin d’offrir en plus un service de recherche performant et riche sur l’ensemble des données.
Le moteur de recherche Antidot Finder Suite permet d’offrir un accès fonctionnellement riche sur l’ensemble des données constituées :
Classification des données :
Parmi les 860 sources, il en est une, l’archive en ligne HAL-SHS (http://halshs.archives-ouvertes.fr) qui propose près de 30 000 documents déjà tous affectés dans un plan de classement. Cette taxonomie est assez simple et représentative du domaine des SHS, si bien qu’il a été décidé de l’étendre à l’ensemble de 860 sources grâce au module de classification d’AIF. Cela signifie que les millions de documents du corpus Isidore doivent être rangés dans ces catégories. Vu les volumes, toute intervention manuelle est bien évidemment exclue.
La première étape consiste à utiliser les 30 000 documents de HAL-SHS déjà catégorisés pour entrainer le module de classification AIF. Celui-ci regarde pour chaque document la ou les catégories dans lesquelles celui-ci est rangé afin d’apprendre. A l’issu de cette phase, ce module génère une base de signatures sémantiques.
La base de signatures ainsi générée est exploitée lors de la phase de traitement. Lorsqu’un document passe à travers le module de classification, il se voit automatiquement attribuer une ou plusieurs catégories de la taxonomie HAL-SHS. Même les documents de HAL-SHS sont retraités et certains qui n’avaient qu’une catégorie s’en voient affecter une seconde. Une des applications de cette classification est de pouvoir offrir, lors de la recherche, une facette (un filtre) qui s’applique à l’ensemble des documents et pas seulement à ceux issus de HAL-SHS.
Les résultats obtenus ont été évalués et sont d’excellente qualité puisque le score de précision est supérieur à 90%. Ce sont en toute 4 classifications différentes qui sont réalisées dans Isidore puisque les éléments du corpus sont analysés et rangés selon d’autres taxonomies comme les sujets et les époques historiques.
Gestion des sources :
Pour chacune des 860 sources à capter et enrichir, ce sont plus de 30 modules de traitement qui s’enchainent. Certains sont propres au type de la source (flux RSS, site, entrepôt OAI …). D’autres sont communs. Chaque module nécessite un ensemble de paramètres de configuration qui spécifient les actions à réaliser.
La définition des sources et de leurs caractéristiques est réalisée à travers une application dédiée qui fournit ces paramètres sous forme de fichiers XML. Une chaine de traitement AIF a été configurée afin de transformer ces fichiers XML de définition des sources en fichiers de configuration de la chaine et des modules AIF. Ainsi la configuration de la captation et de l’enrichissement des 860 sources est auto générée et chaque ajout/modification de source depuis l’interface de gestion modifie dynamiquement le comportement de l’ensemble de la solution.
Web de données :
Afin de rendre les documents SHS compatibles avec le Web de données, une URI pérenne leur est attribuée si elles n’en possèdent pas déjà. En effet, seules quelques rares sources (telles que la BnF) attribuent à leurs données des URI (Uniform Resource Identifier) stables et pérennes. Or l’URI est l’élément fondamental du Web de données : c’est l’identifiant unique de la ressource par lequel le lien entre données est fait. Ainsi, lorsqu’un document a déjà une URI, celle-ci est repérée et utilisée. Sinon une URI pérenne lui est attribuée lors de la phase de normalisation. Le système de gestion des URI utilisé est Handle (www.handle.net). Un module AIF dédié est chargé de repérer si un document possède déjà un URI et sinon d’en demander un au système Handle.
En bout de chaine AIF, un sous-ensemble choisi de métadonnées est transformé en RDF selon une ontologie cible, et ces triplets RDF sont injectés dans des entrepôts. Plusieurs triplestore sont constitués, contenant chacun les triplets nécessaires à des usages spécifiques. Ces entrepôts sont rendus accessibles par un point d’accès SPARQL. Les données SHS sont ainsi exposées dans le Web de données dans une perspective d’Open Data. Respectant les principes de la négociation de contenu en vigueur sur le Web, chaque ressource informationnelle est accessible selon plusieurs formats : HTML, RDF/XML, N3. D
La maîtrise d’ouvrage, le TGE Adonis, avait posé un cahier des charges ambitieux et visionnaire. Grâce au travail commun de la maitrise d’œuvre CNRS (le CCSD), de l’intégrateur (Sword) et du fournisseur des composants technologiques (Antidot), l’ensemble des défis fonctionnels et techniques ont été relevés et résolus avec succès.
Le résultat est reconnu par la communauté comme une réussite indéniable. Le CNRS dispose à présent d’un plateforme ouverte dont les services (enrichissement, maillage, recherche, navigation) peuvent être intégrés des applications variées dont le portail Isidore est le premier représentant.
Témoignage de M. Stéphane Pouyllau – co-directeur du projet :
« La mission principale du projet, réalisé par le très grand équipement Adonis du CNRS, était de proposer un accès unifié à des données hétérogènes et distribuées. Il s'agit de valoriser des données structurées et le texte intégral associé, produits dans les laboratoires et les bibliothèques de recherche. L'unification des données et l'enrichissement offre la possibilité de naviguer dans un espace documentaire et informationnel étendu permettant d'explorer des questions scientifiques nouvelles mais aussi les frontières scientifiques des disciplines. Les trois modes d'accès (web, api, 3store RDF) sont complémentaires et permettent de développer des outils à géométrie variable suivant les usages. Ainsi, la solution Information Factory d'Antidot, qui est au cœur d'ISIDORE, correspond pleinement aux attentes du TGE Adonis car elle permet de traiter à la fois les données structurées, le texte intégral, l'enrichissement, les modes accès dans le respect des standards du web sémantique ce qui est un réel plus pour nous.
Télécharger la présentation PDF 4 pages du projet ISIDORE
Télécharger la présentation PDF 4 pages de la solution Antidot Information Factory
