Conclusion

J’ai effectué une analyse textuelle d’un corpus constitué pour cette occasion : un ensemble de documents issus de la plateforme Isidore portant sur un sujet particulier, celui d’éditorialisation (440 documents). J’ai utilisé un corpus composé de l’ensemble des documents pour la discipline « sciences de l’information et de la communication » comme corpus de référence (1452 documents).

Grâce à la structuration des données en format XML, j’ai pu effectuer une segmentation efficace en trois parties : titres, résumés et mots-clés des documents indexés par Isidore. J’en ai ensuite produit une analyse comparative sommaire.

Parmi les mots-clés, la présence significative de la forme « art » et de la forme « recherche » est particulièrement notable, en ce sens qu’elle s’avère discriminante dans la distinction du corpus cible du corpus de référence.

L’étude des résumés évoque un autre élément important : lorsqu’on traite d’éditorialisation, on traite presque certainement de questions numériques, ce terme étant plus fréquent encore que la forme « éditorialisation ».

Quant aux titres, peu de termes outre la présence de la forme « éditorialisation » elle-même permettent de distinguer le corpus cible du corpus de référence. La taille générale des titres (nombre de mots et de caractères) n’apporte aucun élément discriminant.