Analyse des résumés

Formes récurrentes dans les résumés des documents portant sur l’éditorialisation, et leur distribution en regard du corpus de référence :

La forme « numérique » est celle qui comporte le plus d'occurrences dans les résumés. C’est aussi celle qui a un indice de représentativité (keyness effect) par rapport au corpus de référence, avec une valeur de 0.011 et une fréquence de 257 – devant la forme « éditorialisation », dont l’indice est de 0.01, soit le deuxième plus élevé de la série (fréquence de 233). Les formes « contenus », « production », « analyse » et « données » suivent ex-aequo avec un indice de 0.004 et une fréquence identique de 10.

À la lumière de cette statistique, il semble que lorsqu’un texte traite d’éditorialisation, il se spécialise également dans le champ du numérique.

Nuage de mots-clés pour les résumés du corpus éditorialisation.

Lexicométrie

Distribution des documents en fonction du nombre de mots et du nombre de caractères du résumé :

Descripteur	Caractères (ref)	Mots (ref)	Caractères (cible)	Mots (cible)
Minimum	0	0	0	0
Maximum	5 945	870	4 414	665
Total	1 141 976	166 503	307 600	44 984
Moyenne	786,485	114,671	699,091	102,236
Médiane	805	116	661	95

Les textes des résumés sont tout à fait comparables : les résumés des documents du corpus cible se situent pour la plupart à l’intérieur de la distribution normale du corpus de référence. Les résumés traitant d’éditorialisation sont un peu plus courts, faisant 102 mots en moyenne (médiane 95) contre 114 en moyenne dans le corpus de référence (médiane 116). Le nombre de caractères suit cette tendance de manière à peu près linéaire. Il y a une plus forte concentration de résumés plus courts (250 mots et moins) dans le corpus cible que dans le corpus de référence.