Introduction

Ce travail vise à produire une analyse de texte du corpus suivant :

l’ensemble des entrées de la discipline « Sciences de l’information et de la communication » (référentiel contrôlé pour la discipline : http://aurehal.archives-ouvertes.fr/subject/shs.info) rendues disponibles sur le moteur de recherche Isidore.
l’ensemble des entrées traitant d’éditorialisation dans Isidore (référentiel contrôlé pour le sujet « éditorialisation » : http://data.bnf.fr/ark:/12148/cb16597433g).

J’ai procédé à une analyse comparative entre un corpus de référence (1) et un corpus cible ou de comparaison (2) afin de le caractériser par rapport au premier.

Par exemple, l’article de Marcello Vitali-Rosati Qu’est-ce que l’éditorialisation ? s’inscrit dans la discipline des « Sciences de l’information et de la communication ». Plusieurs documents « sur le même sujet » et « sur la même discipline » sont par ailleurs recommandés par Isidore. J’ai cherché, dans une analyse comparative, à montrer ce que des documents portant sur le concept d’éditorialisation ont de différent par rapport aux documents de la même discipline, à la lumière de leurs métadonnées.

Isidore proposant un accès aux résultats de son moteur de recherche sous forme de données structurées, j’en ai profité pour segmenter les textes du corpus grâce aux balises XML. Le titre, le résumé ainsi que des mots-clés (identifiés avec des référentiels communs, comme ceux de RAMEAU) sont extraits pour constituer les différentes segmentations.

Titre du corpus

« Documents indexés par Isidore en matière d’éditorialisation ».

Auteur(s)

Les auteurs de ce corpus sont multiples et de nature différentes. J’en retiens quelques-uns :

les auteurs des documents indexés par Isidore, comme les auteurs d’un article scientifique ;
les éditeurs d’Isidore et des revues, qui assurent la gestion des termes d’indexation sur la plateforme (entités, mots-clés contrôlés, etc.) ;
les développeurs, administrateurs système et autres acteurs des solutions logicielles sur lesquelles reposent le moteur de recherche.

Date de publication

La date de publication du corpus pourrait être la date l’envoi de la requête à Isidore. Puisqu’il s’agit d’une opération dynamique, les résultats pourraient varier en fonction du temps. Il pourrait être pertinent de fixer (ou non) la date de création du corpus par requête à l’API et d’archiver cette dernière pour fins d’analyse.

Référence complète

Les données du corpus peuvent être obtenues en effectuant des requêtes sous la forme suivante suivante (la valeur du paramètre uri correspond à l’identifiant unique d’un document sur la plateforme Isidore) :

https://api.isidore.science/resource/content?uri=10670/1.edu0k3

Droits d’auteur et contraintes juridiques

À première vue, les données distribuées par Isidore ne semblent pas soumis à des contraintes juridiques particulières, outre la reproduction du site Isidore lui-même, considéré comme « œuvre de création, propriété exclusive du CNRS, protégé par la législation française et internationale sur le droit de la propriété intellectuelle ». Dans le catalogue, seuls les titres et les métadonnées des articles sont distribués, non le corps des articles scientifiques eux-mêmes : aucune mention de non-reproductibilité n’y figure, et je présume que l’information y est distribuée légalement.

Taille

	Corpus de référence	Corpus cible	Proportion
Nb de documents	1452	440	30,30 %
Nb de mots (titres)	18 847	5 767	30,07 %
Nb de mots (résumés)	166 503	44 984	27,02 %
Nb de mots-clés	144 595	39 443	27,28 %

Critères technologiques

Provenance

Les données proviennent du moteur de recherche Isidore (hébergée par Huma-Num, la très grande infrastructure de recherche française), et en particulier via l’API d’Isidore (ensemble de points d’accès web).

Support

Les documents sont sur support numérique.

Format(s) des documents constituant le corpus

Les documents sont fournis en format XML ou JSON (option paramétrable lors de la requête).

Critères informationnels

Discipline

La discipline des documents est « Sciences de l’information et de la communication ».

Sujets

Le sujet commun du corpus à l’étude est celui d’éditorialisation. Toutefois, les sujets traités par les documents sont nombreux. J’étudierai notamment les mots-clés énoncés dans la réponse XML (couples de balises <concepts>) et de leurs « extensions sémantiques » (couples de balises <semanticExpansion>). L’annexe I présente un exemple de document XML.

Tâches à réaliser sur le corpus

Constitution du corpus ;
Analyse la taille du corpus ;
Analyse le nombre de mots-clés, la longueur des titres et des résumés ;
Caractérisation des documents du corpus cible.

Critères linguistiques

Genre

Les textes recensés sont généralement des articles (publiés dans des revues scientifiques), parfois des chapitres d’ouvrages ou encore des billets de blogue. Ils sont rédigés par des chercheurs universitaires dans une perspective de publication scientifique.

Registre de langue

Le registre de langue est généralement soutenu ou recherché, particulièrement en sciences humaines où les formulations plus littéraires sont acceptées. On y trouve généralement un lexique de langue spécialisé pour la ou les disciplines de l’article. Les mots-clés renvoient généralement à un vocabulaire commun (ex. RAMEAU).

Langue

Les documents sont généralement en français, bien qu’ils soient généralement indexés dans plus d’une langue (français, anglais, espagnol). Le recours aux référentiels et aux mots-clés contrôlés (avec des traductions communes) permettent néanmoins une interopérabilité théorique entre des ressources documentaires de langues différentes. L’attribut @xml:lang permet d’extraire uniquement les mots-clés de la même langue (ici, en français), mais un examen en pratique montrera que l’indexation n’est pas aussi fiable (des termes balisés avec l’attribut xml:lang="fr" peuvent appartenir en réalité à une autre langue, comme l’anglais ou l’espagnol). Un certain nettoyage doit être fait.

Manipulation et organisation des documents

J’envisage, grâce aux points d’accès web d’Isidore, obtenir des descriptions de ressources portant sur 1) la discipline « Science de l’information et de la communication » (corpus de référence) et en particulier 2) le sujet de l’« éditorialisation » (corpus cible). Le format sera XML.

Je constituerai les corpus suivants (une fois pour le corpus de référence et une fois pour le corpus cible) afin d’effectuer des analyses comparatives :

titres (titre du document en français)
résumés (le résumé du document en français, lorsqu’il est disponible)
mots-clés (termes d’indexation ajoutés à un document)

Problèmes et choix théoriques

L’approche focalisée sur l’API d’Isidore ne permet pas de travailler sur les corps des articles comme tel, mais à partir des métadonnées (ce qui comprend tout de même le résumé). Le volume d’information est donc d’emblée réduit à la source, mais il a l’avantage d’être hautement structuré (contrairement à la prose, qui n’est généralement balisée que d’un nombre très restreint d’éléments comme des intertitres, des paragaphes, des passages en italique ou des appels de notes). Un grand nombre de ressources électroniques (difficilement évaluable à première vue) seront exclus, du fait d’une indexation variable ou inexistante (plusieurs revues ne sont tout simplement pas moissonnées par Isidore).

L’indexation des documents s’avère de qualité variable : bien que les réponses soient hautement structurées en format XML ou JSON, certains documents ne comportent pas de résumés ou sont mal balisés (par exemple avec la mauvaise langue pour l’attribut xml:lang), auquel un nettoyage sommaire mais astucieux permet de remédier partiellement (par exemple : tous les titres ou résumés contenant des caractères accentués tels que ñ sont réputés être en espagnol et peuvent donc être exclus).