Analyse des résumés

Formes récurrentes dans les résumés des documents portant sur l’éditorialisation, et leur distribution en regard du corpus de référence :

La forme « numérique » est celle qui comporte le plus d'occurrences dans les résumés. C’est aussi celle qui a un indice de représentativité (keyness effect) par rapport au corpus de référence, avec une valeur de 0.011 et une fréquence de 257 – devant la forme « éditorialisation », dont l’indice est de 0.01, soit le deuxième plus élevé de la série (fréquence de 233). Les formes « contenus », « production », « analyse » et « données » suivent ex-aequo avec un indice de 0.004 et une fréquence identique de 10.

À la lumière de cette statistique, il semble que lorsqu’un texte traite d’éditorialisation, il se spécialise également dans le champ du numérique.

Nuage de mots-clés pour les résumés du corpus éditorialisation.
Nuage de mots-clés pour les résumés du corpus éditorialisation.

Lexicométrie

Distribution des documents en fonction du nombre de mots et du nombre de caractères du résumé :

Descripteur Caractères (ref) Mots (ref) Caractères (cible) Mots (cible)
Minimum 0 0 0 0
Maximum 5 945 870 4 414 665
Total 1 141 976 166 503 307 600 44 984
Moyenne 786,485 114,671 699,091 102,236
Médiane 805 116 661 95

Les textes des résumés sont tout à fait comparables : les résumés des documents du corpus cible se situent pour la plupart à l’intérieur de la distribution normale du corpus de référence. Les résumés traitant d’éditorialisation sont un peu plus courts, faisant 102 mots en moyenne (médiane 95) contre 114 en moyenne dans le corpus de référence (médiane 116). Le nombre de caractères suit cette tendance de manière à peu près linéaire. Il y a une plus forte concentration de résumés plus courts (250 mots et moins) dans le corpus cible que dans le corpus de référence.