Diversité linguistique des sources d'information sur Internet

Quelques études ont effectué une analyse quantitative à grande échelle sur les langues utilisées sur Internet. Ces études portent généralement sur le Web, à l’exclusion des autres modes de communication tels le courriel et le clavardage (chat), puisque le Web s’observe plus directement et s’étudie plus facilement que les autres formes de communication Internet.

Les études de l’Online Computer Library Center (OCLC) (Lavoie et O’Neill, 1999 ; O’Neill, Lavoie et Bennett, 2003) ont eu recours à un échantillon au hasard de sites Web disponibles sur Internet. Pour y parvenir, ils ont généré des numéros de protocole Internet (IP) et tenté de se relier à un site Web pour chaque adresse. Si un serveur Web répondait, les chercheurs téléchargeaient alors sa page d’accueil et activaient un système automatisé de classification linguistique sur cette page. Cette méthode d’échantillonnage a l’avantage d’être non biaisée. Toutes les autres méthodes d’échantillonnage reposent directement ou non sur des moteurs de recherche ou des « robots Web » (web spiders), soient des programmes qui découvrent de nouvelles pages Web en suivant tous les liens dans une série connue de pages Web.

L’étude menée en 1998-1999 suggérait qu’une certaine expansion internationale était en cours sur le Web, et que l’usage de différentes langues correspondait étroitement au domaine de provenance de chaque site Web. Ainsi, l’échantillon de 1999 comportant 2 229 sites Web au hasard permit d’identifier 29 langues différentes dont la répartition est présentée à la Figure 3.

Comme on pouvait le prévoir, l’anglais domine clairement dans 72% de l’ensemble des sites Web échantillonnés. L’indice de diversité de cet échantillon de pages Web équivaut à 2,47, soit moins que celui d’un pays caractéristique de l’Asie du Sud-est et plus qu’un pays caractéristique du Centre-Sud de l’Asie. Cet indice est aussi des centaines de fois plus petit que l’indice linguistique global. En ce sens, la diversité linguistique sur le Web, même si elle s’apparente à celle de plusieurs pays multilingues, constitue une faible représentation de la diversité linguistique à travers le monde.

Retour en haut de la page