Analyse des mots-clés
L’extraction des mots-clés pour chaque document du corpus de réfèrence est quantifiée dans le tableau suivant :
| Descripteur | Corpus de référence | Corpus cible |
|---|---|---|
| Minimum | 1 | 2 |
| Maximum | 385 | 332 |
| Somme | 144 595 | 39 443 |
| Moyenne | 99,583 | 89,643 |
| Médiane | 99 | 77 |
Globalement, les documents du corpus cible possèdent moins de mots-clés que ceux du corpus de référence. La moyenne est de 89,643 contre 99,583 pour le corpus de référence, soit une différence d’environ 10 %. La médiane montre un écart beaucoup plus prononcé, soit de 77 contre 99 pour le corpus de référence, correspondant à une différence d’environ 20 %. Cela montre qu’il y a généralement un plus petit nombre mots-clés par document pour le corpus d’éditorialisation, comparativement aux documents de la discipline de sciences de l’information et de la communication.
Sciences de l’information et de la communication (corpus de référence)
Éditorialisation (corpus cible)
Ce qui est notable, c’est que la forme « art » arrive au 5e rang en termes de fréquence parmi les documents traitant d’éditorialisation, alors qu’il n’arrive qu’au 33e rang dans le corpus de référence. (« arts », la forme plurielle, arrive au 35e rang dans le corpus éditorialisation et au 78e dans le corpus de référence.) Il est comparable à la fréquence du terme « recherche ».
Le tableau suivant montre justement que les mots-clés avec le meilleur indice de représentation (keyness) pour ce corpus sont « art » et « recherche ». Les valeurs ont été obtenues avec l’outil keyword du logiciel AntConc en comparant le corpus « éditorialisation » contre le corpus de référence.
Le troisième mot-clé en termes d’occurrence est « France », ce qui peut dénoter un biais important de la plateforme d’Isidore pour le moissonnage de contenus issus de ce pays (l’infrastructure de recherche étant elle-même basée en France).
Cela n’a rien d’étonnant pour des contenus publiés principalement en langue française, mais on pourrait s’interroger plus longuement sur la diversité des source indexées par Isidore.
Les formes « montréal » et « province de québec » arrivent au rang 58 (keyness de 0.001), ex-aequo avec la forme « rennes » – ce qui témoigne d’un poids d’indexation peut-être comparable pour ces mots-clés régionaux.
Nous savons toutefois que Montréal constitue un pôle de recherche francophone important en matière d’éditorialisation, et il n’est pas étonnant qu’on le retrouve dans la liste de mots-clés.
Cependant, la comparaison avec des sources supplémentaires de documents permettrait peut-être d’évaluer s’il s’agit d’une sous-représentation, en regard de la forte représentation de la France.