Analyse des titres

Formes récurrentes dans les titres des documents portant sur l’éditorialisation, et leur distribution en regard du corpus de référence :

Sans surprise, on retrouve en tête de liste la forme « éditorialisation » comme étant celle de la fréquence la plus élevèe (114x sur 440 entrées) avec un indice de représentativité (keyness effect) de 0.037 – de loin supérieur à n’importe quelle autre forme. Elle est présente dans 114 titres sur un total de 440. La forme « données » suit avec un indice de 0.010 et une fréquence de 31.

Nuage de mots-clés pour les titres du corpus éditorialisation.
Nuage de mots-clés pour les titres du corpus éditorialisation.

Lexicométrie

Distribution des documents en fonction du nombre de mots et du nombre de caractères dans le titre :

Descripteur Caractères (ref) Mots (ref) Caractères (cible) Mots (cible)
Minimum 8 1 1 0
Maximum 411 58 359 48
Total 133 963 18 847 41 273 5 767
Moyenne 92,261 12,98 93,802 13,107
Médiane 86,5 12 88 12

On remarque une distribution tout à fait similaire entre la longueur des titres du corpus cible et celle des titres du corpus de référence. Outre des données aberrantes aux extrêmes, les valeurs moyennes et médiane du nombre de mots sont pratiquement identiques. Le nombre de caractères moyen est également très similaire, avec un écart moyen de moins de 2 %. En somme, les titres sont généralement de longueur homogène par rapport à ceux du corpus de référence.