Analyse des résumés
Formes récurrentes dans les résumés des documents portant sur l’éditorialisation, et leur distribution en regard du corpus de référence :
La forme « numérique » est celle qui comporte le plus d'occurrences dans les résumés.
C’est aussi celle qui a un indice de représentativité (keyness effect) par rapport au corpus de référence, avec une valeur de 0.011 et une fréquence de 257 – devant la forme « éditorialisation », dont l’indice est de 0.01, soit le deuxième plus élevé de la série (fréquence de 233).
Les formes « contenus », « production », « analyse » et « données » suivent ex-aequo avec un indice de 0.004 et une fréquence identique de 10.
À la lumière de cette statistique, il semble que lorsqu’un texte traite d’éditorialisation, il se spécialise également dans le champ du numérique.
Lexicométrie
Distribution des documents en fonction du nombre de mots et du nombre de caractères du résumé :
| Descripteur | Caractères (ref) | Mots (ref) | Caractères (cible) | Mots (cible) |
|---|---|---|---|---|
| Minimum | 0 | 0 | 0 | 0 |
| Maximum | 5 945 | 870 | 4 414 | 665 |
| Total | 1 141 976 | 166 503 | 307 600 | 44 984 |
| Moyenne | 786,485 | 114,671 | 699,091 | 102,236 |
| Médiane | 805 | 116 | 661 | 95 |
Les textes des résumés sont tout à fait comparables : les résumés des documents du corpus cible se situent pour la plupart à l’intérieur de la distribution normale du corpus de référence. Les résumés traitant d’éditorialisation sont un peu plus courts, faisant 102 mots en moyenne (médiane 95) contre 114 en moyenne dans le corpus de référence (médiane 116). Le nombre de caractères suit cette tendance de manière à peu près linéaire. Il y a une plus forte concentration de résumés plus courts (250 mots et moins) dans le corpus cible que dans le corpus de référence.