Organisation des Nations Unies
pour lâĂ©ducation, la science et la culture
Organisation des Nations Unies
pour lâĂ©ducation, la science et la culture
Le texte complet des ouvrages
est disponible Ă :
http://www.unesco.org/wsis
UNESCO
Publications de lâUNESCO pour le Sommet mondial sur la sociĂ©tĂ© de lâinformation
Sommet mondial sur la sociĂ©tĂ© de lâinformation
M
es
ur
er
l
a
di
ve
rs
it
Ă©
li
ng
ui
st
iq
ue
s
ur
I
nt
er
ne
t
Sommet mondial sur la sociĂ©tĂ© de lâinformation
Mesurer la diversité linguistique
sur Internet
Mesurer la diversité linguistique
sur Internet
Un ensemble dâarticles signĂ©s par :
John Paolillo, Daniel Pimienta,
Daniel Prado et autres
Révisé et accompagné
dâune introduction de lâInstitut
de statistique de lâUNESCO
Montréal (Canada)
Organisation
des Nations Unies
pour lâĂ©ducation,
la science et la culture
2005
Publié en 2005
Par lâOrganisation des Nations Unies
pour lâĂ©ducation, la science et la culture
7, place de Fontenoy, 75352 PARIS 07 SP
ComposĂ© et imprimĂ© dans les ateliers de lâUNESCO
© UNESCO 2005
Printed in France
(CI-2005/WS/06 CLD 24822)
Table des matiĂšres
1. Introduction â Institut de statistique de lâUNESCO
5
2. ModĂšles et approches
13
a. Diversité linguistique dans le cyberespace :
modĂšles de dĂ©veloppement et de mesure â Daniel Pimienta
13
b.
Le contexte politique et juridique â Daniel Prado
35
3. Diversité linguistique sur Internet :
examen des biais linguistiques â John Paolillo
43
4. Perspectives alternatives
93
a. Diversité linguistique sur Internet :
une perspective asiatique â Yoshiki Mikami et autres
93
b.
Une note sur les langues africaines
sur la Toile mondiale â Xavier Fantognan
107
5
Introduction
LâUNESCO a mis en lumiĂšre le concept de « sociĂ©tĂ© du savoir », qui met lâaccent
sur la pluralitĂ© et la diversitĂ©, plutĂŽt que sur lâuniformitĂ© gĂ©nĂ©ralisĂ©e, comme Ă©tant
susceptible de réduire le fossé numérique et de donner naissance à une société
de lâinformation inclusive. Le multilinguisme est lâun des thĂšmes importants que
sous-tend ce concept, pour assurer une diversité culturelle et une participation de
toutes les langues dans le cyberespace. Il existe une inquiĂ©tude croissante Ă lâeffet
que, dans la foulée des efforts de réduire le fossé numérique, des centaines de lan-
gues locales puissent ĂȘtre laissĂ©es de cĂŽtĂ©, bien que de façon non intentionnelle. Il
en dĂ©coule lâimportance qui est accordĂ©e Ă la diversitĂ© linguistique et au contenu
local dans le cadre dâune ligne dâaction du Plan dâaction du Sommet mondial sur
la sociĂ©tĂ© de lâinformation (SMSI) dont la responsabilitĂ© de la coordination a Ă©tĂ©
conïŹ Ă©e Ă lâUNESCO.
1
De plusieurs façons inattendues, lâenjeu de la diversitĂ© linguistique sur
Internet se rĂ©vĂšle au cĆur du dĂ©bat qui entoure la sociĂ©tĂ© de lâinformation. De
prime abord, la question semble tourner autour des communautés qui utilisent
Internet, leur permettant ainsi de se parler les unes avec les autres dans leurs
langues maternelles, mais dâautres questions ne tardent pas Ă surgir.
Par lâentremise de quels canaux la communication sâexprime-t-elle sur
Internet ? La Toile mondiale sâapparente Ă une sĂ©rie de sources dâinformation
gĂ©nĂ©rant peu dâinteractivitĂ©. Les forums de discussions et le courriel permettent
des Ă©changes plus directs. Cependant, il existe trop peu de renseignements au sujet
des langues utilisées dans les courriels ou les forums de discussion (consultez cer-
tains Ă©changes sur ce sujet dans lâarticle de John Paolillo au chapitre 3, y compris
les efforts de Sue Wright).
1.
1
Voir le discours de lâUNESCO Ă la DĂ©lĂ©gation permanente au SMSI prononcĂ©, le 8 juillet 2005,
par Koïchiro Matsuura, Directeur Général.
6
Mesurer la diversité linguistique sur Internet
Pour la plupart des chercheurs en analyse du langage, il faut par conséquent
se tourner vers les pages Web. Dans ce domaine, comme dans toutes les formes
de communications, nous devons prendre en considération les caractéristiques
de lâauditoire. Une page Web ne pourra ĂȘtre lue que par des gens qui disposent
dâun accĂšs Ă Internet. ConsĂ©quemment, alors que la diversitĂ© linguistique pourrait
bĂ©nĂ©ïŹ cier de lâexistence de pages Web dans la langue « en voie de disparition »
dâune tribu fort lointaine, trĂšs peu de gens les liraient car il est peu vraisemblable
que les membres dâune tribu puissent disposer dâun accĂšs Ă Internet. Par contre,
des pages au sujet de la langue de la tribu rédigées dans une langue plus inter-
nationale pourraient jouer un rĂŽle important en attirant lâattention sur la valeur
culturelle de la langue visée et, possiblement, susciter un soutien pour le groupe
linguistique dont il est question. De plus, il sâagirait dâune contribution Ă la prĂ©-
servation de langues en voie de disparition.
Les articles de ce volume illustrent lâexistence de nombreux problĂšmes tech-
niques au niveau de lâĂ©valuation de la diversitĂ© linguistique sur Internet. Nous pou-
vons facilement obtenir un compte aléatoire de pages sur Internet en utilisant un
nombre quelconque de moteurs de recherche commerciaux, mais nous ne pouvons
pas Ă©valuer Ă quelle frĂ©quence ces pages Web sont lues ou encore si la lecture dâune
page a aidĂ© le lecteur dâune façon ou dâune autre. Aussi il est nĂ©cessaire de sâassurer
que les Ă©lĂ©ments qui font lâobjet dâune recherche dans diffĂ©rentes langues possĂšdent
une valeur, une signiïŹ cation et une utilisation Ă©quivalentes (voir Pimienta).
Les langues et la sociĂ©tĂ© de lâinformation
LâInstitut de statistique de lâUNESCO sâest engagĂ© Ă adopter une approche
dâĂ©valuation de la sociĂ©tĂ© de lâinformation qui se situe au-delĂ dâun aperçu
technocentriste pour considĂ©rer lâimpact social dâInternet et dâautres canaux de
diffusion de lâinformation. DâĂ©normes problĂšmes se doivent dâĂȘtre surmontĂ©s en
ce qui a trait Ă
â la standardisation des dĂ©ïŹ nitions pour obtenir une comparabilitĂ©
internationale ;
â lâidentiïŹ cation dâindicateurs pertinents pour les politiques des pays
développés et en voie de développement ;
7
1. Introduction
â le renforcement des capacitĂ©s aux niveaux national et international
pour permettre la collecte réguliÚre de données de qualité.
La langue est le médium qui permet tous les échanges suscités par la société de
lâinformation. La langue est un mĂ©dium fondamental de toute communication,
le fondement grĂące auquel les individus et les collectivitĂ©s sâexpriment que ce soit
sous la forme dâune tradition orale ou dâun texte Ă©crit. Pour lâUNESCO, lâen-
seignement de la langue maternelle sâapparente Ă un droit pour tous les enfants.
LâUNESCO soutient aussi la diversitĂ© linguistique en sâassurant que la richesse
culturelle représentée par la diversité sera préservée dans tous les pays et dans le
monde entier.
Lâenjeu culturel des langues sur Internet sâoppose une perception des
problĂšmes entourant la sociĂ©tĂ© de lâinformation centrĂ©e sur les technologies de
lâinformation et de la communication (TIC) et leurs rĂ©percussions. LâInstitut de
statistique de lâUNESCO souhaite prĂ©senter un point du vue qui soulĂšve des
questions au sujet de lâimportance des problĂšmes associĂ©s au « contenu » et Ă
lâenvironnement favorable qui, par la mĂȘme occasion, lĂšverait le voile sur les
problĂšmes techniques relatifs Ă la mesure de la culture et du contenu dans la
sociĂ©tĂ© de lâinformation.
Les articles apparaissant dans ce volume présentent une variété de perspec-
tives diverses sur la nature de ce problĂšme. LâĂ©tude que signe le professeur John
Paolillo prĂ©sente le point de vue dâun linguiste professionnel oeuvrant dans lâuni-
vers anglophone. LâĂ©tude comporte quatre grands chapitres. Le premier chapitre
traite du cadre Ă©thique relatif Ă lâĂ©valuation des biais des systĂšmes informatiques
et il établit un lien entre ce cadre et le statut, sur Internet, des langues parlées
dans le monde. Le deuxiÚme chapitre porte sur les enjeux des biais préexistants
au niveau du dĂ©veloppement rĂ©cent dâInternet, et fait appel Ă des statistiques
relatives Ă la croissance dâInternet et leurs rapports avec la diversitĂ© linguistique Ă
lâĂ©chelle mondiale. Le troisiĂšme chapitre examine les enjeux des biais linguistiques
qui apparaissent dans le sillage dâInternet. Le quatriĂšme chapitre se penche sur
de tels biais dans les systĂšmes techniques dâInternet.
Comme complĂ©ments Ă ce texte, sont prĂ©sentĂ©s un ensemble dâarticles plus
brefs issus de contextes non anglophones. Ils ont été recueillis et organisés par
Daniel Pimienta de FUNREDES, un projet non gouvernemental dans le cadre
duquel a Ă©tĂ© Ă©laborĂ© un systĂšme dâĂ©numĂ©ration des langues dans une perspective
8
Mesurer la diversité linguistique sur Internet
qui privilĂ©gie les langues latines. Pimienta adoptant le point de vue dâune ONG de
la société civile, décrit les obstacles auxquels sont confrontés les groupes locaux au
niveau de lâaccĂšs Ă Internet et un aperçu des indicateurs actuellement disponibles.
Son article est suivi dâune note, en provenance de Daniel Prado, prĂ©sentant la
réaction de la communauté linguistique « néo-latine » à la domination apparente
de lâanglais. Ces articles plus brefs comportent aussi un point de vue asiatique
fort intĂ©ressant de Yoshiki Mikami et autres, ainsi quâune note sur la situation
en Afrique signée par Xavier Fantognan qui résume la situation qui prévaut en
Afrique dans une perspective africaine.
Le volume nâoffre aucune rĂ©ponse dĂ©ïŹ nitive quant Ă la façon de mesurer
les langues sur Internet, mais il tente de réfuter nombre des mythes entourant les
chiffres qui ont couramment été publiés. Il précise que le simple fait de compter
des pages Web ne sufïŹ t pas et quâil faudra que les fournisseurs de service Internet
et les gouvernements consentent plus dâefforts de dĂ©veloppement. Chaque auteur
présente, dans une perspective qui lui est propre, un certain nombre de sugges-
tions sur les façons dâaborder ces nĂ©cessaires efforts de dĂ©veloppement.
Diversité linguistique sur Internet : un aperçu
La diversitĂ© linguistique peut en soi faire lâobjet de diffĂ©rentes interprĂ©-
tations. Lâanglais est une langue parlĂ©e assez uniformĂ©ment Ă la grandeur des
pays oĂč elle joue un rĂŽle prĂ©dominant. La Papouasie-Nouvelle-GuinĂ©e compte
plus de 830 langues. Les résidents des pays anglophones peuvent posséder de
nombreuses autres aptitudes langagiĂšres, mais rares sont les pays qui peuvent
rivaliser avec la Papouasie en ce qui concerne la diversitĂ© au sein dâun mĂȘme
pays. MĂȘme si le nombre de locuteurs de langues nĂ©o-latines, y compris ceux
aux Ătats-Unis, peut Ă©quivaloir au double du nombre de personnes de langue
maternelle anglaise (voir Daniel Prado), nĂ©anmoins les Ătats-Unis contrĂŽlent en
grande partie les rouages qui sous-tendent la Toile mondiale (voir John Paolillo,
Yoshiki Mikami). Le rapport entre les langues sur Internet et la diversité linguis-
tique au sein dâun pays indique que, mĂȘme en prĂ©sence dâun rĂ©seau mondial, les
Etats nations continuent dâavoir un rĂŽle Ă jouer au niveau de lâencouragement Ă
apporter à la diversité linguistique dans le cyberespace. La diversité linguistique
peut ĂȘtre perçue autant Ă lâintĂ©rieur mĂȘme dâun pays quâĂ lâĂ©chelle dâInternet
dans son ensemble.
9
1. Introduction
Il est communĂ©ment admis que lâanglais joue un rĂŽle dominant sur Inter-
net. Les articles dans ce volume diffĂšrent en ce qui concerne lâinterprĂ©tation Ă
donner Ă cette question. John Paolillo se rallie Ă la proposition et il prend pour
acquis, comme la plupart des gens qui perçoivent lâanglais comme la langue
dominante, que cela pose problĂšme. Daniel Pimienta considĂšre que lâanglais
englobe environ la moitié de toutes les pages Web, et que cette proportion est
en baisse Ă mesure que dâautres nations et groupes linguistiques accroissent leur
prĂ©sence sur la Toile. John Paolillo sâattarde sur la domination des Ătats-Unis sur
les forces qui sous-tendent la Toile, tant de nature commerciale que réglementaire,
dans la mesure oĂč cette derniĂšre existe. Mikami appuie Paolillo sur ce point et
met lâaccent sur les difïŹ cultĂ©s quâil y a Ă rĂ©concilier les technologies, Ă©tats-unien-
nes ou occidentales, de lâinformation et des communications et les conventions
linguistiques avec les scriptes asiatiques. Cependant, Mikami laisse entrevoir,
tout comme Pimienta, quâun changement est sur le point dâintervenir Ă mesure
quâaugmentent les clientĂšles indienne et chinoise. Cette divergence dâopinion sur
la domination de la langue anglaise et lâavenir des langues sur la Toile ne peut
ĂȘtre facilement rĂ©solue. Au bout du compte, cette division pourrait amener Ă
faire lâillustration de la difïŹ cultĂ© de mesurer lâutilisation des langues sur Internet
Ă lâĂ©gard de laquelle, malgrĂ© la myriade de plates-formes des TIC, mais en partie
Ă cause dâune pĂ©nurie de rĂ©glementation et dâune croissance phĂ©nomĂ©nale, nous
ne possédons aucun indicateur statistique valable. Pimienta laisse à penser que le
domaine des indicateurs dâInternet a Ă©tĂ© en grande partie pris en charge par les
entreprises commerciales et quâil existe un besoin pour des analyses universitaires
de grande qualité.
Paolillo allĂšgue que les compagnies de tĂ©lĂ©communications qui proïŹ tent
de la demande pour des services de technologie et de communication se doivent
de garder Ă lâesprit quâils possĂšdent une responsabilitĂ© spĂ©ciale en ce qui concerne
la diversité linguistique des pays dont ils desservent les marchés. Les sociétés
actives dans les domaines du matériel et des logiciels informatiques exercent une
inïŹ uence de mĂȘme type sur la mise en place linguistique dâInternet, en produi-
sant des ordinateurs qui disposent de claviers, de présentations et de systÚmes
dâexploitation qui favorisent certaines langues en particulier. Les gestes posĂ©s
par les sociétés informatiques tournées essentiellement vers la concurrence pour
la domination du marchĂ© ont des effets nuisibles sur le climat de lâinformatique
multilingue et de la diversité linguistique en ligne. Dans de telles circonstances,
la prise de conscience ethnolinguistique des compagnies de télécommunications,
des sociétés informatiques et des autorités qui régissent Internet ne commencera
10
Mesurer la diversité linguistique sur Internet
Ă sâĂ©tendre que si une masse critique de groupes ethnolinguistiques sous-reprĂ©-
sentĂ©s puisse retenir leur attention. Par consĂ©quent, lâenjeu gĂ©nĂ©ral des biais lin-
guistiques Ă©mergents exige une surveillance Ă©troite Ă lâĂ©chelle mondiale, rĂ©gionale
et locale.
La mesure des langues sur Internet peut ĂȘtre utilisĂ©e Ă titre de paradigme
pour de nombreux enjeux relatifs Ă la mesure du contenu. Mais, Ă proprement
parler, si nous ne pouvons pas mesurer cette dimension apparemment simple du
contenu dâun site Web, que pouvons-nous mesurer au juste ? Toutefois, nous ne
devrions pas faire preuve dâautant de pessimisme. Le projet de Mikami offre de
grandes possibilités de composer avec plusieurs des problÚmes techniques soule-
vés par les articles précédents et qui, de son propre aveu, adoptaient un point de
départ non anglophone.
Il nous faut opter pour la mise au point dâindicateurs plus intelligents. Le
fait de mesurer la présence des langues sur un nombre global de pages Web suscite
de plus en plus de dĂ©ïŹ s Ă cause de lâampleur mĂȘme de leur contenu, et la prĂ©sence
dâune page sur le Web ne signiïŹ e pas pour autant quâelle soit utilisĂ©e ou mĂȘme
quâelle soit « visitĂ©e ». Si nous voulons vraiment mesurer lâimpact de la sociĂ©tĂ©
de lâinformation, nous avons besoin de statistiques sur les modalitĂ©s dâutilisation
dâInternet et sur ses utilisateurs. Ă cet Ă©gard, les pages Web se prĂ©sentent tout sim-
plement comme des mesures visant lâoffre, dans toute sa diversitĂ© ou homogĂ©nĂ©itĂ©
linguistique, et pas nĂ©cessairement comme un outil de rĂ©ïŹ exion de lâutilisation et
de la demande. Dans un marchĂ© dâoffre excĂ©dentaire de pages Web, par exemple
en anglais, qui offrent une variété de services, il est possible que de nombreux
sites médiocres ne reçoivent que peu ou pas de visiteurs. Il est aussi de notoriété
publique que, pendant des annĂ©es, de nombreux sites Internet ne sont pas mis Ă
jour ou demeurent tels quels.
Dâun point de vue Ă©conomique, la Toile prĂ©sente certains aspects dâun
marchĂ© libre et un certain nombre dâĂ©checs du marchĂ© (voir Paolillo). Les sites
Web sont Ă©laborĂ©s pour rĂ©pondre aux besoins dâun auditoire particulier. Si lâaccĂšs
à Internet est peu développé sur le marché intérieur, les sites Web commerciaux
seront conçus en fonction dâun marchĂ© Ă©tranger extĂ©rieur et, par consĂ©quent,
seront Ă©crits dans une langue internationale comme lâanglais. Dâautre part, une
faible utilisation dâun site Internet ainsi que les coĂ»ts peu Ă©levĂ©s dâentretien de
sites Web signiïŹ ent quâils peuvent continuer dâexister et dâĂȘtre enregistrĂ©s auprĂšs
de moteurs de recherche bien aprĂšs la derniĂšre visite dâun utilisateur Ă©ventuel.
11
1. Introduction
Dâun point de vue idĂ©al, il nous faut une analyse de sites « utiles » et des visiteurs
qui les fréquentent.
MĂȘme en tenant compte des limites des prĂ©sentes Ă©tudes, ces derniĂšres
révÚlent à quel point les statistiques sur le pourcentage des personnes qui possÚ-
dent un ordinateur ou sur le nombre dâabonnements Ă Internet (deux indicateurs
des Objectifs de développement du millénaire) sont peu révélateurs sur les change-
ments fondamentaux en matiĂšre dâĂ©change dâinformation auxquels a donnĂ© lieu
la sociĂ©tĂ© de lâinformation. Si nous mettons de cĂŽtĂ© les arguments Ă lâappui ou Ă
lâencontre de la domination de la langue anglaise, nous pouvons constater dans ce
volume la rapide expansion de lâutilisation dâInternet en Asie et, consĂ©quemment,
la croissance des sites Web en langues asiatiques (voir Mikami) et, dans la foulée
de lâexpansion du Web, les modalitĂ©s de rapprochement des communautĂ©s « nĂ©o-
latines » aïŹ n dâexaminer la place quâelles occupent dans une sociĂ©tĂ© du savoir
mondiale (voir Prado). Il est important de souligner que lâunivers numĂ©rique
fournit un environnement porteur Ă autant de langues que possible. Cela pourrait
assurer une véritable inclusion linguistique numérique.
Les prochaines Ă©tapes
Il est à souhaiter que ce rapport relÚve le besoin, tel que suggéré ci-dessus, pour
tous les organismes dâĆuvrer aux niveaux national et international. Le Sommet
mondial sur la sociĂ©tĂ© de lâinformation offre un contexte favorable Ă des discus-
sions portant Ă la fois sur la politique linguistique et les normes technologiques,
ainsi que sur les objectifs dâune politique Ă venir par la promotion dâune libĂ©rali-
sation des Ă©changes dâinformation.
Les Ă©tudes montrent Ă quel point il est important de comprendre le con-
texte culturel propre Ă lâĂ©change dâinformation. Ătant donnĂ© cette situation, il
semble improbable quâune quelconque perspective mondiale soit susceptible de
fournir des données comparables ou pertinentes par rapport à la politique qui
sâavĂšrent sufïŹ samment sensibles aux enjeux soulevĂ©s sur le plan technique et sur
celui de la politique. Il y aurait plutĂŽt lieu de conïŹ er Ă des initiatives rĂ©gionales la
direction de la surveillance, et les rĂ©sultats de leurs Ă©tudes pourraient ensuite ĂȘtre
fusionnĂ©s dans une perspective globale Ă lâĂ©chelle mondiale. Le projet FUNRE-
DES et lâObservatoire de Mikami constituent deux projets Ă©ventuels susceptibles
de nous montrer les modalitĂ©s de fonctionnement dâun tel rĂ©seau rĂ©gional.
12
Mesurer la diversité linguistique sur Internet
En conclusion, ainsi que lâĂ©nonce si adroitement Paolillo dans son rapport,
il se peut que des gestes soient nĂ©cessaires pour sâassurer que les valeurs de lâaccĂšs
numĂ©rique et de lâalphabĂ©tisme numĂ©rique soient conïŹ rmĂ©es, tout spĂ©cialement
pour le compte des nombreux pays en voie de développement et touchés par une
diversité linguistique.
LâUNESCO recommande aux instances nationales, rĂ©gionales et inter-
nationales de travailler ensemble aïŹ n de fournir les ressources nĂ©cessaires et Ă
prendre les mesures qui sâimposent pour allĂ©ger les barriĂšres linguistiques et pro-
mouvoir lâinteraction humaine sur Internet en favorisant la crĂ©ation, le traitement
et lâaccĂšs Ă un contenu Ă©ducatif, culturel et scientiïŹ que sous forme numĂ©rique,
de façon Ă sâassurer que toutes les cultures puissent sâexprimer et avoir accĂšs au
cyberespace dans toutes les langues, y compris les langues indigĂšnes.
2
2
Pour plus de plus amples renseignements, veuillez consulter : La Recommandation de
lâUNESCO relative Ă la promotion et Ă lâutilisation du multilinguisme et lâaccĂšs universel au
cyberespace et le document 32 C/27, 2003, DĂ©claration sur la diversitĂ© culturelle de lâUNESCO,
Paris, 02.11.2001.
13
ModĂšles et approches
a. Diversité linguistique dans le cyberespace :
modÚles de développement et de mesure
Daniel Pimienta, FUNREDES
Introduction
Il est un mot que les acteurs et actrices de la société civile sur le thÚme de la
société de l'information, spécialement, ceux et celles qui pensent que l'essence des
nouveaux paradigmes qu'appelle la société des savoirs partagés et la démocratie
participative réside dans une
Ă©thique des processus,
utilisons pour traduire notre
vision :
la cohérence.
La cohérence entre le dire et le faire est pour nous ce qui permet de croire
aux déclarations et de pardonner les erreurs qui, dans une approche de processus,
deviennent des occasions d'apprendre, de tirer les leçons et de continuer à croßtre.
Cette démarche, propre de la recherche-action, particuliÚrement adaptée pour
traiter des questions de développement est celle qui nous habite dans ce docu-
ment dont la prétention, plus qu'apporter des solutions pour une question aussi
complexe que la diversité linguistique dans Internet, est de questionner les fausses
Ă©vidences, d'apporter des points de vue provocateurs, pour ouvrir des pistes de
rĂ©ïŹ exion et d'action qui sortent des sentiers battus et des jugements prĂ©conçus
et puissent rendre compte de la complexité du sujet traité ; cela avec à la fois la
modestie du chercheur qui tùtonne et la fermeté de la personne d'action qui s'est
engagée sur le terrain.
2.
14
Mesurer la diversité linguistique sur Internet
La cohérence s'exprimera dans ce document de plusieurs maniÚres :
â le choix de la langue maternelle, un droit Ă©lĂ©mentaire aprĂšs tout, pour
l'expression ;
â une volontĂ© de laisser la diversitĂ© s'exprimer dans la sĂ©lection des person-
nes, compétentes sur le thÚme, invitées à s'exprimer. Nous avons essayé
de couvrir aussi bien que possible les lieux géographiques, les cultures,
les langues, les proïŹ ls, les secteurs, les Ăąges et les genres. A l'Ă©vidence,
nous n'avons pas réussi complÚtement (nous regrettons, par exemple,
que la place faite aux textes au féminin n'ait pas été plus grande) mais
la cohérence s'exprime surtout dans l'authenticité de l'intention ;
â la dĂ©cision de ne pas faire un texte « langue de bois » et de prendre le
risque de la provocation, jamais gratuite, parfois gratiïŹ ante, toujours
assise sur l'expérience de terrain et avec l'intention de déranger pour
ouvrir les esprits, pas pour le plaisir de déranger.
Un approche structurĂ©e pour lâintĂ©gration des TIC et du dĂ©ve-
loppement humain
La « fracture numérique » est un concept qui est devenu trÚs à la mode et
a engendrĂ© beaucoup de rĂ©ïŹ exions et de rĂ©unions internationales. La vision plutĂŽt
consensuelle de la société civile (Pimienta, 2002, Communauté MISTICA, 2002)
est quâil ne faut pas se tromper de fracture et Ă©viter la simpliïŹ cation qui consiste
Ă tout mettre sur le dos de la technologie. Nous proposons ci-aprĂšs une grille ori-
ginale de lecture et analyse de lâutilisation des TIC pour le dĂ©veloppement pour
illustrer le fait que la rĂ©solution de la fracture numĂ©rique nâest pas, loin de lĂ , une
simple question dâaccĂšs Ă la technologie et que la question de la langue y joue
Ă©galement un rĂŽle essentiel.
Le principe de la grille est dâidentiïŹ er les obstacles successifs Ă surmonter
pour permettre lâutilisation des TIC pour le dĂ©veloppement humain. La grille
sous-entend une progression dans lâĂ©numĂ©ration des obstacles, Ă partir des infras-
tructures vers lâinfoculture en passant par lâinfostructure. Il est probable que cette
progression ne corresponde pas exactement à la réalité vécue par chaque per-
sonne ou groupe social et que lâordre des facteurs dĂ©pende des contextes. NĂ©an-
15
2. ModĂšles et approches
moins, pour des raisons pratiques et pĂ©dagogiques nous acceptons de simpliïŹ er
cette rĂ©alitĂ© complexe de cette maniĂšre, en forme dâune sĂ©rie dâobstacles successifs
Ă surmonter ou de niveau progressifs Ă atteindre.
Tableau 1. TIC pour dĂ©veloppement : le long chemin semĂ© dâobstacles
de lâaccĂšs au dĂ©veloppement humain
Niveau dâusage
Description des usages
et des obstacles
Questions concernant
les langues
ACCES
La possibilité pour
une personne ou un groupe
de personnes de détenir
un moyen physique dâutiliser
les TIC.
Les obstacles Ă surmonter
pour obtenir un accĂšs
sont multiples et peuvent
également se présenter
sous forme de couches
progressives :
â existence dâune
infrastructure.
Les interfaces doivent
permettre lâaccĂšs dans
la langue maternelle
de lâutilisateur et dâune
maniÚre adaptée à sa
culture.
â existence dâune
infrastructure.
cÎté service :
fournisseurs
dâaccĂšs TIC et fournisseurs
dâaccĂšs aux rĂ©seaux de
télécommunications
dimensionnés de maniÚre
à servir la quantité
dâutilisateurs avec des
temps de réponse et
des taux de congestion
acceptables.
La question linguistique se
retrouve, pour le matériel,
dans les claviers des
ordinateurs mais aussi,
en ce qui concerne les
logiciels, dans la gestion
des caractĂšres associĂ©s Ă
une langue et qui doivent
ĂȘtre codiïŹ Ă©s pour le
traitement informatique.
Cependant la partie
logiciel opérationnelle
qui concerne les langues
ne sâarrĂȘte pas Ă la
codiïŹ cation :
16
Mesurer la diversité linguistique sur Internet
Niveau dâusage Description des usages
et des obstacles
Questions concernant
les langues
cÎté utilisateurs :
le
matériel informatique
requis pour cet accĂšs
avec les caractéristiques
adéquates pour offrir des
performances acceptables.
Cela peut ĂȘtre fait de
maniĂšre individuelle
(station de travail
personnelle) ou collective
(télécentres ou kiosques
Internet).
les programmes dâĂ©dition
nécessitent, pour leur
fonctionnement optimum
dans une langue donnée, des
corpus et dictionnaires pour
la correction orthographique
et de syntaxe. Une vision Ă
long terme plus ambitieuse
pourrait dâailleurs considĂ©rer
que les programmes de
traduction automatique
font partie de la couche
opérationnelle (et non de
la couche applicative). Un
Ă©norme travail reste Ă faire
au niveau des programmes
de traduction pour les
Ă©tendre au-delĂ des langues
dites dominantes. Câest un
espace tout à fait indiqué
pour le développement
en logiciel libre mais
malheureusement cet
espace est pratiquement
vide et un trĂšs grand
effort de sensibilisation
et dâencouragement doit
encore ĂȘtre rĂ©alisĂ©.
Un aspect linguistique, qui
est maintenant considéré
par lâICANN (Webopedia,
2005b), est celui des noms
de domaine Internet
dans toutes les langues
(Wikipedia, 2005a)
17
2. ModĂšles et approches
Niveau dâusage
Description des usages
et des obstacles
Questions concernant
les langues
â accĂšs Ă©conomique Ă
lâinfrastructure
Que les prix pour lâutilisation
de lâinfrastructure soient
accessibles aux utilisateurs.
Il y a Ă©videmment plusieurs
éléments directs ou indirects
dans lâĂ©quation de prix
3
et
lâaccĂšs collectif et lâaccĂšs
individuel présentent des
paramÚtres différents.
Il sufïŹ t de comparer, par
exemple, lâordre de grandeur
des prix pour un accĂšs
ADSL (Webopedia, 2005a)
(entre 10 et 50 $EU par
mois) et les salaires dans
la pyramide sociale pour
découvrir que ceci représente
plus dâun an de salaire pour
une proportion importante
de lâhumanitĂ© (celle qui
vit en dessous du seuil de
pauvreté), une valeur de
lâordre dâun mois de salaire
pour une autre proportion
importante (une proportion
notable des peuples des
pays du Sud), une valeur de
lâordre de 10% du salaire
â accĂšs Ă©conomique Ă
lâinfrastructure
Le principe de « lâaccĂšs
universel » doit inclure la
considération sur un prix
dâaccĂšs cohĂ©rent avec le
niveau Ă©conomique des
populations concernées.
3
Directs, comme le prix du poste dâaccĂšs, celui du fournisseur dâaccĂšs, dans certains cas, celui de
la liaison tĂ©lĂ©phonique ou celui du fournisseur dâinformation, celui du logement dâun serveur ou
dâun domaine Internet (car lâaccĂšs câest aussi la production de contenus) ; ou indirects, comme
les économies que permettent un accÚs (par exemple, téléphone IP ou facture de déplacement
évitée) ou les coûts de maintenance des équipements et de formation du personnel.
18
Mesurer la diversité linguistique sur Internet
Niveau dâusage
Description des usages
et des obstacles
Questions concernant
les langues
mensuel pour les classes
moyennes des pays en
développement et une valeur
de lâordre de 1% pour les
classes moyennes des pays
développés.
La premiĂšre fracture nâest
ïŹ nalement pas numĂ©rique
elle est Ă©conomique et
sociale ...
La résolution des deux
premiĂšres couches mention-
nées devrait
4
représenter
ce quâil est convenu
dâappeler, par lâUIT et les
organismes régulateurs
des télécommunications
(UIT, 2003),
« lâaccĂšs
universel ».
Mais, sâil sâagit
dâune condition nĂ©cessaire
pour résoudre la fracture
numérique, elle est trÚs
loin dâĂȘtre une condition
sufïŹ sante ...
â accĂšs Ă©conomique Ă
lâinfrastructure
Le principe de « lâaccĂšs
universel » doit inclure la
considération sur un prix
dâaccĂšs cohĂ©rent avec le
niveau Ă©conomique des
populations concernées.
â alphabĂ©tisation
fonctionnelle
Que la personne qui utilise
lâinfrastructure ait la capacitĂ©
fonctionnelle de lire et Ă©crire
â alphabĂ©tisation
fonctionnelle
Il nâest certes pas exclu
de tirer parti de la
composante multimédia
4
Nous Ă©crivons «devrait» car trop souvent lâaspect Ă©conomique est nĂ©gligĂ© dans les plans dâaccĂšs
universel et le concept est compris comme une couverture physique totale des accĂšs aux infras-
tructures, ce qui fait certainement lâaffaire des vendeurs de matĂ©riel mais pas forcĂ©ment celui des
utilisateurs.
19
2. ModĂšles et approches
Niveau dâusage
Description des usages
et des obstacles
Questions concernant
les langues
dans sa langue. Il sâagit
probablement de la seconde
fracture quâil faut rĂ©soudre
quand on prétend offrir, par
exemple, « Internet pour
tous ».
des TIC pour adapter
des interfaces permettant
un certain nombre de
possibilités aux personnes
analphabĂštes. Cependant,
il faut se rendre Ă
lâĂ©vidence sâil sâagit
dâaccĂšs Ă la connaissance
et non simplement
dâaccĂšs aux technologies,
lâalphabĂ©tisation
fonctionnelle est une
priorité au dessus de
lâaccĂšs technologique
pour les populations non
alphabétisées.
Ici se pose aussi la
question des langues
seulement orales pour
lesquelles lâespace
numérique représente
un handicap fatal sauf Ă
rĂ©aliser lâeffort dâinventer
une forme Ă©crite et
codiïŹ able.
â numĂ©risation de
lâalphabet
Que la langue maternelle
de la personne qui utilisera
lâinfrastructure puisse se
prĂȘter Ă un traitement
informatique. Pour cela il
faut quâelle existe sous forme
Ă©crite et que les caractĂšres
de son alphabet soient
convenablement codiïŹ Ă©s.
â numĂ©risation de
lâalphabet
Câest aujourdâhui encore
un obstacle majeur pour
une trĂšs grande proportion
des langues et cela doit
représenter une priorité
initiale majeure. Des
efforts sont en cours dans
le cadre de UNICODE
(Wikepedia, 2005b) et
20
Mesurer la diversité linguistique sur Internet
Niveau dâusage
Description des usages
et des obstacles
Questions concernant
les langues
Ce nâest malheureusement
pas le cas pour la majorité
des langues encore en usage.
doivent ĂȘtre maintenus et
ampliïŹ Ă©s.
UTILISATION
La possibilité de faire une
utilisation efïŹ ciente (qui conduise
Ă lâobjectif ïŹ xĂ©) et efïŹ cace (que
le processus soit optimum dans
lâutilisation du temps) des TIC.
Pour cela il faut que la
personne dispose dâun grand
nombre de capacités de
gestion des outils numériques
et de compréhension des
éléments conceptuels,
méthodologiques et culturels
associĂ©s Ă lâespace numĂ©rique.
Il ne faut pas sous-estimer
lâampleur des capacitĂ©s
requises qui nous conduit au
concept dâ
alphabétisation
numérique
(en anglais,
« digital literacy »).
Lâapprentissage de lâespace
numérique, qui ne doit pas
ĂȘtre un simple entraĂźnement
Ă lâutilisation de certains pro-
grammes dâordinateurs mais
devrait inclure une vision
holistique des considérations
et impacts sociétaux
5
de
lâutilisation des TIC pour le
développement, est sans
â alphabĂ©tisation
numérique
Lâeffort formidable
nécessaire pour une
éducation numérique
(apprentissage) doit
impĂ©rativement ĂȘtre
conçu et réalisé dans les
langues maternelles des
populations concernées
et en tenant compte
de leurs cultures. Il est
important de noter que
ce critÚre impératif
sâapplique Ă©galement aux
interfaces des applications
de gouvernement
Ă©lectronique.
5
Impact politique, Ă©conomique, social, culturel, linguistique, organisationnel, Ă©thique, biologique,
psychologique.
21
2. ModĂšles et approches
Niveau dâusage
Description des usages
et des obstacles
Questions concernant
les langues
aucun doute le nĆud le plus
difïŹ cile Ă rĂ©soudre, lâĂ©lĂ©ment
Ă la fois le plus important et
le plus nĂ©gligĂ©, de lâeffort Ă
consentir pour surmonter la
fracture numérique.
Les trois piliers de la société
de lâinformation Ă construire
ne sont pas, contrairement Ă
la croyance la plus répandue,
les télécommunications,
les Ă©quipements et les
logiciels mais lâĂ©thique de
lâinformation, lâĂ©ducation et
la participation ...
APROPRIA-
TION
TECHNOLO-
GIQUE
Quand la personne qui utilise est
sufïŹ samment habile pour que la
technologie soit
transparente
de son utilisation
personnelle.
Par exemple, une paire de
lunettes, une technologie
optique que lâon met sur
son nez le matin et que
lâon oublie totalement
toute la journée ou encore,
dans le champ des TIC,
la personne qui fait usage
de son téléphone sans que
lâexistence de ce mĂ©dia
participe dâaucune maniĂšre
du dialogue Ă distance.
De maniĂšre Ă©vidente, pour les
TIC, cette appropriation
Comment rendre
transparente la technologie
si son accĂšs demande de
passer par une langue
autre que la langue
maternelle ? Ce niveau
renforce clairement les
arguments avancés pour
les niveaux précédents.
22
Mesurer la diversité linguistique sur Internet
Niveau dâusage
Description des usages
et des obstacles
Questions concernant
les langues
demande des capacités plus
sophistiquées qui concernent
lâusage dâun PC et des
applications informatiques qui
interviennent dans les proces-
sus, ainsi, bien entendu,
quâune certaine expertise dans
la recherche dâinformation ou
la maniĂšre de communiquer
par courrier Ă©lectronique
et de se comporter en
communauté virtuelle.
En plus dâune bonne
éducation numérique, une
pratique
minimum est
nécessaire pour atteindre ce
stade.
USAGE
PORTEUR
DE SENS
La capacité de faire un usage des
TIC qui possĂšde une signiïŹ cation
sociale pour la personne dans son
contexte personnel, professionnel et
communautaire.
Il sâagit de dĂ©passer
lâutilisation ludique
et de simple outil
de communication
interpersonnelle et dâorienter
lâusage vers des ïŹ ns de
développement humain.
Câest ici que doivent
apparaßtre des capacités
fondamentales pour ne pas
ĂȘtre un simple consommateur
et passer du cÎté de la
Le thĂšme linguistique est
essentiel dans ce niveau et
renvoie à la possibilité et
la motivation Ă produire
des contenus et des
communautés virtuelles
localisées. Il pose aussi
clairement la question
du multilinguisme et de
la nécessité de dispositif
de passerelles entre les
langues.
23
2. ModĂšles et approches
Niveau dâusage
Description des usages
et des obstacles
Questions concernant
les langues
production
(de
contenus
par exemple) et de
création
(de c
ommunautés
virtuelles
par exemple).
APPRO-
PRIATION
SOCIALE
Quand la personne qui utilise est
sufïŹ samment habile pour que la
technologie soit
transparente
de son utilisation sociale.
Ce niveau Ă©voque une
compréhension lucide des
impacts sociĂ©taux de lâusage
des TIC pour le dévelop-
pement et des
implications
culturelles et Ă©thiques
propres Ă cet usage (culture/
éthique de réseau, culture/
Ă©thique de lâinformation
et une connaissance des
aspects méthodologiques
liées aux usages productifs de
développement).
En plus dâune bonne
éducation numérique une
pratique orientée vers le
développement est nécessaire
pour atteindre ce stade.
Les aspects Ă©thiques et
culturels des réseaux ne
sont pas entiĂšrement
neutres et doivent
passer par le ïŹ ltre du
mĂ©tissage (voire mĂȘme
dâune certaine forme
de syncrétisme) avec les
cultures et les Ă©thiques
locales. La langue Ă©tant un
des vecteurs de transport
des cultures nâest pas
indifférente aux questions
complexes et délicates qui
se posent.
24
Mesurer la diversité linguistique sur Internet
Niveau dâusage
Description des usages
et des obstacles
Questions concernant
les langues
«EMPOWER-
MENT»
6
Quand la personne et/ou la
communauté est en mesure de
transformer sa réalité
sociale
grĂące Ă lâappropriation
sociale des TIC Ă des ïŹ ns de
développement.
Ici, il ne sâagit plus
seulement des capacités
elles-mĂȘmes mais de leur
mise en pratique
aussi
bien au niveau individuel
que collectif. Cette mise
en pratique demande
Ă©videmment lâapplication des
valeurs associées à la culture
de réseau et la culture de
lâinformation : lâorganisation
en réseau, la propension
au travail collaboratif, la
transparence active, la
participation proactive.
Clairement, plus on
sâapproche de la ïŹ n de
la chaĂźne qui conduit
de lâaccĂšs vers le
développement plus il est
clair que câest lâaspect
culturel qui prend de
lâimportance, sans perdre
de vue quâil est souvent
impossible de le dissocier
complĂštement de lâaspect
linguistique.
Que signiïŹ e
« lâempowerment » et
comment se manifeste-t-il
dans chaque culture ?
INNOVATION
SOCIALE
Quand lâaction de transformation
de la réalité sociale est porteuse de
solutions originales
créées
par la personne ou la communauté.
Le nouveau paradigme de
travail en réseau porte les
germes de lâinnovation, en
particulier sociale (nouvelles
formes dâorganisation, rĂ©pon-
ses nouvelles Ă problĂšmes
connus ...).
Que signiïŹ e
« lâinnovation » et
comment se manifeste-t-
elle dans chaque culture ?
6
Ce mot anglais rassemble à la fois les sens de recevoir et de prendre la capacité ainsi que la notion
de prise de pouvoir à travers cette capacité.
25
2. ModĂšles et approches
Niveau dâusage
Description des usages
et des obstacles
Questions concernant
les langues
DEVELOP-
PEMENT
HUMAIN
Quand les options de libertés
individuelles et collectives sâouvrent
à la personne ou la communauté et
peuvent sâexercer sous la forme de
« capacités ».
7
Il sâagit lĂ de la ïŹ nalitĂ©
du processus, mais il doit
rester clair que dans tout
processus social on ne
peut retrouver Ă la ïŹ n que
ce que lâon a entretenu
tout au long du processus
depuis sa conception. Ainsi
les options de libertés ne
pourront sâĂ©panouir que si la
participation
des personnes
et des communautés a été
une réalité dans tout le
processus décrit.
options de libertés
en
forme de
« capacités ».
Que signiïŹ e « la
participation » et comment
se manifeste-t-elle dans
chaque culture ? Une
réelle « participation »
dans des processus sociaux
est-elle possible si une
langue différente de la
langue maternelle est
imposée ?
SociĂ©tĂ© de lâinformation : enjeux croisĂ©s pour les langues
et cultures
Il est une discipline essentielle qui a vu le jour ces derniÚres années et pour
laquelle lâUNESCO a apportĂ© de nombreuses contributions : celle de lâĂ©thique
de lâinformation. Le croisement de cette discipline avec la question de la diver-
sitĂ© culturelle et linguistique ouvre des perspectives et des rĂ©ïŹ exions tout Ă fait
7
« Le dĂ©veloppement peut ĂȘtre vu comme un processus dâexpansion des libertĂ©s rĂ©elles dont les
personnes bĂ©nĂ©ïŹ cient. ConsidĂ©rer les libertĂ©s humaines (ou les capacitĂ©s) diffĂšre des visions plus
Ă©troites du dĂ©veloppement, comme celles qui lâidentiïŹ e avec la croissance du PNB, lâaugmenta-
tion des revenus personnels, lâindustrialisation, lâavance technologique ou la modernisation so-
ciale. » (Sen, 2005).
26
Mesurer la diversité linguistique sur Internet
pertinentes de notre débat. Un congrÚs a été consacré à ce thÚme en 2004
8
par
lâICIE (International Center for Information Ethics) et un livre sera publiĂ© Ă la
ïŹ n de lâannĂ©e 2005 avec les textes du CongrĂšs qui sont autant de contributions
pertinentes par rapport au sujet qui nous préoccupe (Capuro, 2005).
Parmi celles-ci, Charles Ess (2004) nous fait remarquer que contrairement
aux hypothÚses fréquentes selon lesquelles les TIC sont culturellement neutres,
un grand nombre dâĂ©tudes ont pu montrer que les TIC, ayant leur origine dans
les cultures occidentales, et plus spécialement nord-américaine, transportent et
dâune certaine maniĂšre font la promotion de leurs valeurs culturelles et leurs prĂ©-
férences en termes de communication. Ceci est manifeste, selon Charles Ess, dans
les multiples façons avec lesquelles ces valeurs et prĂ©fĂ©rences rentrent en conïŹ it
avec celles des cultures qui reçoivent les technologies (plus particuliÚrement les
cultures indigĂšnes, asiatiques, latines et arabes). Ces conïŹ its se traduisent dans
les Ă©checs parfois spectaculaires dâefforts de bonne volontĂ© pour surmonter la
pauvreté et la marginalisation (Postma, 2001). Ess va encore plus loin en souli-
gnant le danger dâune « colonisation assistĂ©e par ordinateur » qui pourrait ĂȘtre
le produit dâun plan naĂŻf pour « brancher le monde » qui ne prĂȘte pas attention
aux risques avĂ©rĂ©s dâaffecter les valeurs et cultures locales par une implantation
imprudente des TIC.
Charles Ess nous rassure cependant en indiquant que de tels conïŹ its sont
Ă©vitables, tout dâabord en adoptant une attitude consciente des enjeux culturels
et il nous indique des pistes pour structurer un design des interactions homme-
machine qui réponde à ce critÚre (Hall, 1976).
Si lâon convient que lâĂ©ducation numĂ©rique est lâun des enjeux essentiel
du passage Ă une sociĂ©tĂ© de lâinformation inclusive, il devient Ă©galement clair que
cette éducation doit répondre à ce critÚre éthique fondamental de respect de la
diversitĂ© culturelle et linguistique et donc Ă©viter lâethnocentrisme et la colonisation
implicite par les technologies.
Il est une autre question essentielle et transversale parmi les enjeux de la
sociĂ©tĂ© de lâinformation : celle dâun domaine publique de la connaissance qui
8
« Localizing the Internet: Ethical Issues in Intercultural Perspective », 4-6 October, 2004 â Kar-
sluhe - http://icie.zkm.de/congress2004
27
2. ModĂšles et approches
devrait échapper à la logique du marché, et en dérivation celle des contenus et
des logiciels ouverts. Cette question se croise également avec celle de la diversité
linguistique dans la sociĂ©tĂ© de lâinformation.
José Antonio Millån (2001), le spécialiste espagnol du thÚme des langues
et Internet, nous rappelle que nos langues restent lâinterface le plus complet qui
existe et que, sous la forme orale ou écrite, elles sont de plus en plus utilisées pour
rentrer en relation avec une variété de programmes, comme par exemple dans
le cas de la recherche de lâinformation. Le savoir linguistique qui est incorporĂ©
dans les programmes (correction automatique, fabrication de synthĂšse, transfor-
mation texte/voix, etc.) nâest pas forcĂ©ment visible Ă lâutilisateur; pourtant son
importance économique est énorme. Les ressources élémentaires qui ont servi de
substrat aux programmes proviennent le plus souvent de recherches ïŹ nancĂ©es par
des fonds publics. Pourtant, elles bĂ©nĂ©ïŹ cient souvent Ă des logiciels commerciaux
dont la source nâest pas ouverte qui ne peuvent donc pas ĂȘtre amĂ©liorĂ©s et Ă©tendus
(par exemple pour se préoccuper des variantes minoritaires des langues les plus
répandues) ni servir de base pour que des langues minoritaires puissent créer
leur propres logiciels. La démocratisation des logiciels linguistiques passe, selon
Millån, par la libération (sous licences GPL ou similaires - Wikipedia, 2005c) des
ressources linguistiques produites avec des fonds publics ou qui font simplement
partie du domaine public.
En tout Ă©tat de cause, les logiciels libres qui, par leur nature, devraient
jouer un rĂŽle particuliĂšrement important dans le secteur linguistique nây ont
quâune prĂ©sence modeste et un effort de sensibilisation vers les communautĂ©s de
développeurs est nécessaire.
Le thÚme des contenus ouverts nous conduit naturellement à considérer
les changements requis par un systĂšme dâĂ©dition scientiïŹ que qui est considĂ©rĂ©,
par les acteurs de la société civile qui travaillent sur le thÚme de la société de
lâinformation (GuĂ©don, 1998) comme obsolĂšte parce que reprĂ©sentant un frein
au partage de la connaissance scientiïŹ que en particulier vers les pays du Sud. Ce
systĂšme commence Ă ĂȘtre remis en question par des initiatives comme « Public
Library Of Science » et la dĂ©claration de Berlin sur lâaccĂšs ouvert au savoir dans
les Sciences (ZIM, 2003). La diversitĂ© linguistique a tout Ă gagner dâune Ă©volution
du systĂšme dâĂ©dition scientiïŹ que vers des modĂšles tirant meilleur parti des TIC et
basés sur les notions de contenus ouverts.
28
Mesurer la diversité linguistique sur Internet
DerriĂšre cette situation et un certain immobilisme des Ătats concernĂ©s se
cachent lâabsence de politiques linguistiques et, en fait, la lacune critique Ă com-
bler, comme le souligne JosĂ© Antonio MillĂĄn, est celle dâune vĂ©ritable politique
des contenus numériques (qui inclut bien entendu une politique linguistique dans
le monde numérique). A ce sujet, le rÎle des organisations internationales comme
lâUNESCO pourrait ĂȘtre de sensibiliser les Ătats membres sur lâimportance de
politiques volontaristes de promotion du multilinguisme.
Les mesures et les indicateurs
Est-il raisonnable de dĂ©ïŹ nir et conduire des politiques linguistiques dans lâespace
numĂ©rique sans dĂ©tenir des indications amples, ïŹ ables et prĂ©cises sur la situation
de la langue et son Ă©volution ?
TrĂšs paradoxalement, le monde des rĂ©seaux qui est nĂ© et sâest dĂ©veloppĂ©
au sein de lâuniversitĂ© a pendant longtemps abandonnĂ© la mesure de la place des
langues à des entreprises de marketing répondant à des logiques distinctes de
celle de la publication scientiïŹ que (et donc peu soucieuses de documenter leurs
mĂ©thodes). Il en a rĂ©sultĂ© un dĂ©sordre et une confusion sur lâĂ©tat des langues dans
lâInternet qui a pu faire le lit de la dĂ©sinformation. Ainsi, alors que le nombre de
locuteurs de langue anglaise qui utilise le rĂ©seau a pu passĂ© de plus de 80%, lâan-
nĂ©e de la naissance du Web, a environ 35% aujourdâhui, les chiffres qui circulent
dans les médias sur le pourcentage de pages Web en anglais continuent, contre
toute Ă©vidence, Ă se situer de maniĂšre stable entre 70 et 80% !
Il est urgent que lâacadĂ©mie reprenne son rĂŽle dans cette affaire (ainsi que
les institutions gouvernementales nationales et internationales) et les signes sont
clairs que cette Ă©volution est en cours, enïŹ n ! Pour sâen rendre compte, il faut
consulter les prĂ©sentations en ligne de la rĂ©union organisĂ©e par lâUNESCO (avec
lâACALAN et lâAIF) Ă Bamako sur le multilinguisme dans le cyberespace
9
.
En attendant que cette Ă©volution porte ses fruits (des indicateurs ïŹ ables,
documentĂ©s et mis Ă jour Ă la vitesse de lâĂ©volution du mĂ©dia), obtenir une pers-
pective sur la situation et les tendances est extrĂȘmement difïŹ cile.
9
http://portal.UNESCO.org/ci/en/ev.php-URL_ID=19088&URL_DO=DO_TOPIC&URL_
SECTION=-465.html ou http://www.UNESCO.org/webworld/multilingualism.
29
2. ModĂšles et approches
I - En ce qui concerne les données sur la proportion des internautes
dans chaque langue,
une source a rĂ©ussi Ă sâimposer depuis plusieurs annĂ©es.
Global Reach fournit avec une grande régularité des chiffres qui reposent, certes,
sur des sources multiples et non cohérentes sur le plan méthodologique, mais au
moins elles sont connues (Figure 1). Les chiffres ne sont pas dâune totale ïŹ abilitĂ©
mais ils ont le mĂ©rite dâexister et dâĂȘtre maintenu Ă jour avec frĂ©quence; si on leur
accorde une conïŹ ance relative (plus ou moins 20% dâerreur), ils permettent dâob-
tenir une perspective raisonnable de lâĂ©volution de la population dâinternautes en
termes de langue.
Figure 1 : Nombre dâinternautes par langue dâutilisation
Source : Global Reach 2005.
(http://global-reach.biz/globalstats/index.php3)
II - Pour la place des langues sur le Web
il y a un certain nombre dâappro-
ches qui cohabitent :
1)
Lâune consiste Ă extrapoler les chiffres des moteurs de recherche par lan-
gue. Câest la plus facile et elle donne des ordres de grandeur acceptable mais pas
de chiffre assez ïŹ able pour maintenir une veille sĂ©rieuse, Ă©tant donnĂ© les faiblesses
des algorithmes de reconnaissance des langues et les comportements erratiques
des moteurs sur les totalisations.
30
Mesurer la diversité linguistique sur Internet
2)
Une autre a Ă©tĂ© lancĂ©e par une des premiĂšres Ă©tudes sur le sujet, quâAlis
Technologies a rĂ©alisĂ©e en juin 1997, avec le soutien de lâInternet Society et dont
la mĂ©thode a Ă©tĂ© reprise par dâautres, en particulier lâĂ©tude de lâOCLC (« Online
Computer Library Center ») qui semble ĂȘtre la rĂ©fĂ©rence sur laquelle sâappuie
de nombreux auteurs et médias pour continuer à proposer une valeur de plus
de 70% pour les pages Web en anglais (OâNeill, 2003). La mĂ©thode consiste Ă
créer un échantillon de quelques milliers de sites Web par le jeu du hasard sur
les adresses IP (Wikipedia, 2005d), Ă appliquer les moteurs de reconnaissance des
langues sur cet ensemble de site et à en généraliser les résultats.
Elle partage avec la premiĂšre approche la limitation des algorithmes de
reconnaissance des langues, quoique lâon puisse espĂ©rer que des progrĂšs impor-
tants aient été réalisés depuis 1997 et que dans le futur les techniques augmente-
ront de maniĂšre dĂ©cisive la ïŹ abilitĂ© des rĂ©sultats.
La seconde limitation nous prĂ©occupe beaucoup plus car elle est dâor-
dre statistique. Le traitement mathématique prévu pour une variable aléatoire
(comme câest le cas de lâĂ©chantillon de sites Web pris au hasard sur lequel est
appliquĂ© la reconnaissance des langues) est dâen Ă©tudier la distribution statistique
pour en extraire la moyenne, la variance et en dĂ©duire lâintervalle de conïŹ ance.
Une seule prise faite au hasard ne peut fournir aucun résultat crédible (que repré-
sentent 8000 sites Web en face des 8000 millions de pages indexées par Google ?).
A travers le peu de documentation publié il semble pourtant que les chiffres soient
produits de cette maniĂšre par OCLC.
3)
Il existe une ample catĂ©gorie oĂč des chiffres sont avancĂ©s et aucune
mĂ©thode nâest rĂ©vĂ©lĂ©e. Il est impossible de valider les rĂ©sultats. CâĂ©tait le cas de
lâĂ©tude de Inktomi en 2001 qui Ă©tait lancĂ©e avec un grand fracas de marketing
et qui en plus comportait des erreurs grossiÚres (elle annonçait des pourcentages
globaux de pages Web dans un nombre limité de langues et le total de ces pour-
centages Ă©tait de 100% ...) !
4)
EnïŹ n la derniĂšre catĂ©gorie regroupe quelques rares mĂ©thodes qui sont
documentĂ©es comme lâapproche trĂšs originale des chercheurs de Xerox en 2001
(Grefenstette & Nioche, 2001), parmi celles-ci, lâapproche que FUNREDES et
lâUnion Latine ont utilisĂ©e depuis 1996 (voir Figure 2).
31
2. ModĂšles et approches
Figure 2 : Proportion de pages Web composées dans une langue donnée
Source: FUNREDES 2003, http://funredes.org/lc
Le principe de la méthode est le suivant : les moteurs de recherche permet-
tent d'obtenir la valeur du nombre d'occurrence d'un mot donné dans l'espace
recherché (pages Web ou groupes de discussion, par exemple). Un échantillon de
mots-concepts dans chacune des langues étudiées a été construit avec un souci
de fournir la meilleure équivalence sémantique et syntaxique entre les mots-
concepts. Les valeurs d'apparition de chaque mot mesurées par les moteurs de
recherche sont compilées pour chaque concept dans chaque langue. Ces valeurs
sont traitées comme une variable aléatoire dont la distribution mathématique est
étudiée avec les outils traditionnels de la statistique (moyenne, variance, intervalles
de conïŹ ance, loi de Fisher) et le rĂ©sultat consiste, pour chaque langue Ă©tudiĂ©e, en
une estimation du poids de sa présence relativement à l'anglais qui est pris comme
langue de référence. Cette estimation est de plus validée quantitativement par les
instruments statistiques (intervalle de conïŹ ance). La rĂ©pĂ©tition de la mĂ©thode Ă
intervalles successifs permet d'obtenir une vision de l'évolution de la présence des
langues dans les espaces considĂ©rĂ©s et en mĂȘme temps d'apprĂ©cier la valeur de la
méthode qui a donné des résultats cohérents tout au long des mesures.
Si la mĂ©thode publiĂ©e intĂ©gralement depuis son origine nâa pas reçu Ă ce
jour dâarguments lâinvalidant, elle prĂ©sente un certain nombre de limitations :
32
Mesurer la diversité linguistique sur Internet
â Elle fournit une valeur du pourcentage de pages Web dans une des
langues travaillées (allemand, espagnol, français, italien, portugais et
roumain) par rapport Ă lâanglais mais pas de valeur absolue. Pour
lâobtenir, il faut Ă©tablir une estimation du poids absolu de lâanglais Ă
partir de recoupements de plus en plus difïŹ ciles et incertains avec la
multiplication des langues ;
â Il est difïŹ cile (sur le plan linguistique) et coĂ»teux de rajouter une
nouvelle langue ;
â Elle donne une valeur qui correspond Ă lâespace des pages indexĂ©es
par les moteurs et ne prend pas en compte le Web invisible (Berg-
man, 2001). Mais quelle « existence » ont réellement les pages non
indexées ? ;
â Mais surtout elle est trĂšs dĂ©pendante des possibilitĂ©s de comptage
ïŹ able quâoffrent les moteurs de recherche
10
, ce qui Ă terme risque de
la disqualiïŹ er puisque les moteurs prennent de plus en plus de libertĂ©
avec le traitement de la recherche par mot
11
.
Du cĂŽtĂ© des avantages, la mĂ©thode a permis de maintenir un suivi dâobservation
cohĂ©rent sur une longue pĂ©riode, dâexaminer dâautres espaces que le Web
12
et
surtout, en bĂ©nĂ©ïŹ ciant des techniques de recherche par pays et par domaine, de
produire une sĂ©rie dâindicateurs originaux et trĂšs signiïŹ ants (Pimienta, 2001).
Perspectives pour de nouvelles approches
Le projet maintenant avancĂ© de lâObservatoire des Langues (voir lâarticle de
Yoshiki Mikami, plus loin) porte de nombreux espoirs pour occuper ce vide et
10
La majeure partie du travail pour les mesures consiste aujourdâhui Ă vĂ©riïŹ er le comportement des
moteurs, sĂ©lectionner les plus ïŹ ables et compenser leurs comportements erratiques, en particulier
dans le traitement des signes diacritiques.
11
Il est probable que dâici peu les moteurs offriront des rĂ©sultats comportant des textes avec la
traduction des mots de recherche dans dâautres langues.
12
Elle a également permis une premiÚre approximation certes grossiÚre mais intéressante sur le
plan des Ă©volutions de la prĂ©sence des cultures dans lâInternet.
33
2. ModĂšles et approches
apporter les réponses dont les politiciens ont besoin pour établir leur choix et en
mesurer lâimpact.
Notre expĂ©rience de terrain nous fait penser quâune approche trĂšs promet-
teuse et qui ne semble pas encore exploitée consisterait en une méthode similaire
Ă celle quâutilise Alexa pour dresser le hit parade des sites visitĂ©s et pour apporter
de prĂ©cieux renseignements. Alexa compile les donnĂ©es de comportement dâun
grand nombre dâutilisateurs qui ont acceptĂ© le chargement dâun programme
espion dans leur ordinateur et en tire des statistiques extrĂȘmement riches. Sur
le mĂȘme principe, il est possible dâimaginer un programme qui soit capable de
mesurer les langues utilisées dans divers contextes pertinents pour les indicateurs
comme : langues de lecture et écriture des courriels, langues des sites visités, etc.
Bibliographie
Bergman, M.K. 2001. The Deep Web: Surfacing Hidden Value.
Bright Planet â Deep Web.
http://www.brightplanet.com/technology/deepweb.asp
Capurro, R. & al. (Eds.) 2005. Localizing the Internet. Ethical Issues in Intercultural Perspective.
Schriftenreihe des ICIE
Bd. 4, MĂŒnchen: Fink Verlag.
Schriftenreihe des ICIE
Schriftenreihe des ICIE
CommunautĂ© MISTICA. 2002. « Travailler lâInternet avec une vision sociale ».
http://funredes.org/mistica/francais/cyberotheque/thematique/fra_doc_olist2.html
Ess, C. 2004. Moral Imperatives for Life in an Intercultural Global Village in The Internet
and Our Moral Lives, ed. R. Cavalier, State University of New York Press, Albany. pp.
161-193.
Ess, C. 2005. Can the Local Reshape the Global? Ethical Imperatives for Human Intercultural
Communication Online, in (Capurro, 2005).
Ess, C. 2006. From Computer-Mediated Colonization to Culturally-Aware ICT Usage and
Design, In P. Zaphiris and S. Kurniawan (eds.),
Human Computer Interaction Research in Web
Design and Evaluation.
Hershey, PA: Idea Publishing.
Ess, C. & Fay S. 2005. Introduction: Culture and Computer-Mediated Communication
â Toward New Understandings,
Journal of Computer-Mediated Communication Vol. 11, No. 1.
< http://jcmc.indiana.edu/>
Grefenstette, G. & Nioche, J. 2001. Estimation of English and non-English Language. Use on
the WWW. Xerox Research Centre Europe, Meylan.
Guédon, J.C. 1998. « La bibliothÚque virtuelle : une antinomie ? » conférence prononcée à la
National Library of Medicine. Washington. http://sophia.univ-lyon2.fr/francophonie/
doc/nlm-fr.html
34
Mesurer la diversité linguistique sur Internet
Hall, E.T. 1976. Beyond Culture. Anchor Books, New York.
MillĂĄn, J.A. âHow much is a language worth: A QuantiïŹ cation of the Digital Industry for the
Spanish Languageâ.
Language Diversity in the Information Society International Colloquium.
Paris,
France. http://jamillan.com/worth.htm
O'Neill & al. 2003. Trends in the Evolution of the Public Web: 1998 â 2002 http://www.dlib.
org/dlib/april03/lavoie/04lavoie.html
Pimienta, D. 2002. « La fracture numérique, un concept boiteux. »
Communauté Virtuelle MIS-
TICA.
http://funredes.org/mistica/francais/cyberotheque/thematique/fra_doc_wsis1.
html
Pimienta, D. & Lamey B. 2001. âLengua Española y Culturas Hispanicas en la Internet:
ComparaciĂłn con el inglĂ©s y el francĂ©s.â
II Congreso Internacional de la Lengua.
Valladolid.
http://www.funredes.org/LC/L5/valladolid.html
Postma, L. 2001. âA Theoretical Argumentation and Evaluation of South African Learnersâ.
Orientation towards and Perceptions of the Empowering Use of Information.
New Media
and Society.
Vol. 3 No. 3. pp. 315-28.
Sen, A. 2005.
Human Development and Capability Association.
http://www.fas.harvard.edu/
~freedoms/
UIT. Union Internationale des télécommunications. 2003.
Competitive Markets Required to Bridge
Digital Divide : Regulators map âUniversal Accessâ route to Information and Communication Technology.
http://www.itu.int/newsarchive/press_releases/2003/33.html
UNESCO. 2000. âInfoethicsâ.
UNESCO WebWorld News.
http://www.UNESCO.org/webworld/
news/infoethics.shtm
UNESCO. 2005. Multilinguisme pour la diversité culturelle et la participation de tous dans le
cyberespace. http://portal.unesco.org/ci/fr/ev.php-URL_ID=17688&URL_DO=DO_
TOPIC&URL_SECTION=201.html
ZIM. 2003. âBerlin Declaration on Open Access to Knowledge in the Sciences and Humani-
tiesâ.
Conference on Open Access to Knowledge in the Sciences and Humanities.
Berlin. http://www.
zim.mpg.de/openaccess-berlin/berlindeclaration.html
Glossaire
Webopedia.2005a.
ADSL.
http://www.webopedia.com/TERM/A/ADSL.html
Webopedia. 2005b.
ICANN.
http://www.webopedia.com/TERM/I/icann.html
Wikipedia. 2005a.
Internationalized Domain Name.
http://en.wikipedia.org/wiki/IDNA
http://en.wikipedia.org/wiki/IDN
http://en.wikipedia.org/wiki/IDN
Wikipedia. 2005b.
Unicode.
http://en.wikipedia.org/wiki/Unicode
Wikipedia. 2005c.
GNU General Public License.
http://en.wikipedia.org/wiki/GNU_General_
Public_License
Wikipedia. 2005d.
IP Address.
http://en.wikipedia.org/wiki/IP_address
35
2. ModĂšles et approches
b. Le contexte politique et juridique
Daniel Prado, Union Latine
En rÚgle générale, les grandes langues occidentales connaissent un recul impor-
tant dans la communication scientiïŹ que et technique au proïŹ t de lâanglais. A
lâexception de certaines langues de moindre diffusion qui ont su reprendre une
place ces derniĂšres annĂ©es, les grandes langues dâorigine europĂ©enne comme
lâallemand, lâespagnol, le français, lâitalien, le portugais, le russe et les langues
scandinaves sont touchées (Hamel, 2002).
Parmi ces langues européennes, les langues néolatines sont particuliÚrement
touchĂ©es, que ce soit dans lâĂ©dition spĂ©cialisĂ©e, dans les congrĂšs scientiïŹ ques, dans
les organisations internationales, dans les mĂ©dias ou dans lâenseignement, etc.
En novembre 2002, le premier CongrĂšs international sur la place des
langues néolatines dans la communication spécialisée (UNILAT, 2002a) réunissait
des spécialistes des politiques linguistiques de trois espaces linguistiques : la fran-
cophonie, la lusophonie et lâhispanophonie.
Lors de ce congrÚs, des statistiques et des constatations ont montré la perte
vertigineuse de vitalitĂ© des langues dâorigine nĂ©olatines dans plusieurs secteurs
touchant aux sciences et techniques. MalgrĂ© le fait dâĂȘtre langues ofïŹ cielles dans
plus dâun quart des pays de la planĂšte (27,53 %) selon Calvet (2002) et dâĂȘtre par-
lĂ©es par prĂšs dâun milliard de locuteurs, des langues comme le français, lâespagnol,
le portugais, lâitalien, le roumain, le catalan et une vingtaine dâautre langues de
moindre diffusion, ne produisent quâun dixiĂšme des publications scientiïŹ ques par
rapport Ă lâanglais, en suivant les bases de donnĂ©es internationales les plus impor-
tantes
13
. En effet, selon ce que nous rappelle Hamel, lâanglais reprĂ©senterait entre
80 et 90 % des publications scientiïŹ ques en sciences naturelles et entre 74 et 82 %
en sciences humaines et sociales tandis que les trois langues néolatines les mieux
13
Il est souvent considĂ©rĂ© que les journaux scientiïŹ ques en langue anglaise sont surreprĂ©sentĂ©s dans
ces bases de donnĂ©s internationales, et quâen contrepartie les journaux des pays au dehors de
ceux de lâOCDE sont sous-reprĂ©sentĂ©s [UIS].
36
Mesurer la diversité linguistique sur Internet
représentées proposeraient 12 % des publications en sciences sociales et 18 % en
sciences humaines. Mais Hamel nuance ses propos, rappelant que ces statistiques
proviennent des bases de donnĂ©es des publications scientiïŹ ques et que lâĂ©dition
de livres est tout aussi vigoureuse que les revues scientiïŹ ques. Il est intĂ©ressant de
noter que le monde de lâĂ©dition des pays latins se porte bien, avec 18,9 % de la
production mondiale (Rousseau, 2002), mais câest la littĂ©rature qui est concernĂ©e
majoritairement par ce chiffre (Leåñez Aristimuño, 2002).
Bien entendu, par comparaison avec la plupart des langues de la planĂšte,
la situation des langues nĂ©olatines dans la diffusion de connaissances nâest pas la
pire. En effet, pour 100 pages Web mesurables en anglais, on trouve prĂšs de 38
pages (UNILAT, 2005) en langues latines
14
; le français est la deuxiÚme langue
dâusage international; lâespagnol prend une confortable troisiĂšme place dans cet
univers et son enseignement croĂźt dans le monde entier ; le portugais a une belle
implantation dĂ©mographique et intercontinentale et lâitalien reste une langue de
prestige culturel malgré sa faible démographie et son cantonnement géographique
(Italie, Suisse et Saint-Marin).
Mais, il ne faut pas oublier que lâanglais, avec deux fois et demie moins de
locuteurs que lâensemble des locuteurs latins a deux fois et demie plus de pages
Web que toutes les langues latines réunies. Il ne faut pas non plus oublier que les
publications scientiïŹ ques Ă©ditĂ©es en anglais reprĂ©sentent plus des deux tiers de
lâensemble mondial, tandis que toutes les langues latines rĂ©unies ne reprĂ©sente-
raient quâenviron une publication scientiïŹ que sur dix.
Loin de notre Ă©tude lâintention dâignorer la situation de dĂ©clin scientiïŹ que
ou technique que vivent dâautres langues comme celles du Nord de lâEurope (lan-
gues scandinaves, notamment) pour lesquelles des pans de vocabulaire scientiïŹ que
disparaissent du fait du monolinguisme anglais que pratiquent les spécialistes
de certaines disciplines (Nilsson, 2005). Ăgalement loin de nous lâintention de
vouloir dramatiser la situation des langues européennes lorsque, comme nous le
rappelle Leåñez, 98 % des langues de cette planĂšte ne disposent mĂȘme pas de
certains vocabulaires spĂ©cialisĂ©s de base, quâils soient administratifs, scientiïŹ ques,
techniques, juridiques ou commerciaux. Il sâagit de tirer la sonnette dâalarme sur
14
LâĂ©tude a Ă©tĂ© rĂ©alisĂ©e sur les cinq premiĂšres langues nĂ©olatines en nombre de locuteurs, soit espa-
gnol, français, italien, portugais et roumain.
37
2. ModĂšles et approches
une situation inquiĂ©tante qui nâĂ©pargne pratiquement aucune langue en dehors
de lâanglais.
Pour revenir sur la prĂ©sence des langues sur lâInternet, mĂȘme si les statisti-
ques Funredes/Union Latine nous montrent quâen 2003 prĂšs de 14 % des pages
Web étaient éditées en au moins une langue latine, prÚs de 45 % le sont en anglais.
MĂȘme lâallemand, avec dix fois moins de locuteurs, avait Ă peine deux fois moins
de pages que lâensemble des langues romanes. Mais ce qui est le plus inquiĂ©tant
sur la place des langues latines sur lâInternet ce sont les donnĂ©es non publiĂ©es,
lâInternet invisible, les Intranet, les bases de donnĂ©es, les listes de diffusion, les
forums, etc. Nous ne disposons pas de statistiques sur ce sujet, mais une simple
pratique quotidienne montre la prédominance majeure de la langue anglaise dÚs
quâune discussion technique internationale sâengage dans un forum Ă©lectronique
ou dĂšs quâune base de donnĂ©es scientiïŹ ques a une portĂ©e internationale ou mĂȘme
dans une conversation de jeunes sur leur star prĂ©fĂ©rĂ©e. Ce phĂ©nomĂšne sâexpli-
quait bien aux dĂ©buts des rĂ©seaux tĂ©lĂ©matiques, car ils sâadressaient Ă un public
de chercheurs internationaux, et il est inutile de rappeler que lâanglais est perçu
dans le milieu scientiïŹ que comme la langue principale de communication. Mais
ce qui est regrettable, câest que ce modĂšle nâa pas su Ă©voluer, excluant de ce fait
des populations ou des collectifs moins habitués à manier la langue anglaise.
Leåñez nous rappelait quâ« une langue qui a peu de valeur est peu utilisĂ©e
et une langue peu utilisĂ©e a peu de valeur » [traduction libre] et afïŹ rmait que si
nos langues ne couvrent pas nos besoins, nous apprenons et en enseignons une
autre.
Face Ă cette afïŹ rmation, le plan dâaction de lâUNESCO (2005) pour le
SMSI tombe Ă point nommĂ©. En effet, dans le premier chapitre, lâune de ses lignes
dâaction concerne la diversitĂ© culturelle et linguistique et il y est recommandĂ©
« dâĂ©laborer des politiques qui encouragent le respect, la prĂ©servation, la promo-
tion et le renforcement de la diversité culturelle et linguistique et du patrimoine
culturel dans le contexte de la sociĂ©tĂ© de l'information ⊠». A lâheure actuelle,
aucun Etat latin ne sâest dotĂ© dâune politique qui permette un usage des langues
latines dans leur plénitude et notamment dans la Société de la Connaissance et
du Partage du Savoir.
En effet, en matiĂšre de politiques linguistiques, les pays latins (sauf Ă de
rares exceptions) sont trop concentrés sur les aspects exclusivement administratifs
38
Mesurer la diversité linguistique sur Internet
dâune part, sur la protection des langues endogĂšnes, dâautre part, et plus rarement,
sur la protection du consommateur. Ne créant pas les dispositifs de contrÎle néces-
saires et ne se donnant pas les moyens pour mettre en pratique ce que les textes
lĂ©gislatifs prĂŽnent, ils ne disposent pas des ressources sufïŹ santes pour dĂ©velopper
leur langue et laissent vacante une place vite reprise par lâanglais, notamment
dans le discours scientiïŹ que, dans la documentation technique, dans lâenseigne-
ment supĂ©rieur, dans lâInternet, etc.
Ă lâexception du QuĂ©bec, de la Catalogne et de la France, aucun organisme
dâĂtat ne prend en charge, dans les pays latins, toutes les composantes permettant
une politique globale de dĂ©veloppement, dâenrichissement, de modernisation et
de diffusion dâune langue. En Belgique, en Suisse, en Espagne, au Portugal des ins-
titutions existent mais ne sâoccupent que partiellement de cette tĂąche. Et encore,
dans les régions ou pays les plus développés en matiÚre de politiques linguistiques,
une politique de soutien au multilinguisme numérique fait défaut. Trop souvent,
ce sont des associations de droit privé (ayant peu de moyens) ou des organismes
intergouvernementaux (nâayant pas un mandat clair pour ce faire) qui doivent
venir compléter ces actions.
Heureusement, beaucoup de langues minoritaires ou « minorisées », con-
trairement Ă ce qui se passe avec les grandes langues, prennent une place dans la
communication spĂ©cialisĂ©e quâelles ne connaissaient pas auparavant. Câest notam-
ment le cas du catalan, mais aussi du galicien, du basque, voire du sarde et autres.
Cependant il reste encore beaucoup Ă faire et il nâest pas dit quâelles pourront
couvrir toutes les sphĂšres nĂ©cessaires Ă lâĂ©panouissement de leurs populations.
Reste lâĂ©pine principale de lâaccĂšs Ă lâinformation lorsquâelle a Ă©tĂ© produite
dans une langue que nous ne maĂźtrisons pas. Les traductions, nous le savons, sont
chĂšres. Pour certains processus (la traduction dâun appel dâoffre dâune OIG, par
exemple) la traduction est lente.
La traduction automatique, qui, rappelons-le, ne remplacera jamais la
traduction humaine, (simplement lâaidera Ă ĂȘtre plus performante, rapide et abor-
dable) est lâinstrument indispensable Ă une transformation nĂ©cessaire du monde
de lâĂ©dition numĂ©rique et papier.
Aucun systĂšme actuel ne permet des traductions satisfaisantes pour les
couples de langues les plus usitées. Toute traduction pour ces couples a besoin
39
2. ModĂšles et approches
dâune rĂ©vision. Mais le plus grave, câest que la plupart des systĂšmes de traduction
automatiques ou de TAO ne prennent en charge quâun nombre dĂ©risoire de
couples de langues.
15
La qualitĂ© des systĂšmes existants doit sâamĂ©liorer et voyant leur Ă©volution,
ceci se fera sans doute, mais rien ne laisse présager que ce pourcentage fatidique
de moins de 1 % de couples de langue puisse ĂȘtre dĂ©passĂ© prochainement. Des
initiatives volontaristes doivent montrer le chemin de la traduction entre des lan-
gues qui ne présentent aucun débouché pouvant intéresser les compagnies com-
merciales. LâUnion latine a initiĂ© certaines dĂ©marches dans ce sens
16
, lâUniversitĂ©
des Nations Unies Ă©galement. Il est Ă attendre que dâautres puissent Ă©galement se
produire pour les langues les moins favorisées.
Que faire alors pour parvenir à un monde numérique multilingue ? La
récente discussion franco-française reprise par la presse internationale sur un
« Google » europĂ©en a suscitĂ© certaines idĂ©es (MillĂĄn, 2005) et lâUNESCO insiste
sur le rĂŽle des bibliothĂšques et des collections. Une idĂ©e pourrait ĂȘtre celle de
mettre en place de vastes programmes dâinformatisation des collections, faisant
appel autant aux Etats quâaux OIG ou ONG ou bien aux fournisseurs de ser-
vices Internet privĂ©s, mais seulement ceux qui pourraient sâengager Ă respecter
une charte Ă©thique dans lâutilisation de cette information. Il faut Ă©videmment
empĂȘcher lâappropriation Ă des ïŹ ns commerciales de lâinformation numĂ©risĂ©e ou
exigeant des droits de diffusion ou dâexploitation de cette information. Lâobjectif
est de diffuser librement et gratuitement les contenus numérisés, seul moyen de
garantir une véritable diversité linguistique.
LâInternet nous montre dans son quotidien, de façon spontanĂ©e, de nou-
velles voies : des organes de presse indépendants et autonomes, des blogues, des
initiatives citoyennes voient le jour de façon quotidienne et elles démontrent que
dâautres voies aux monopoles monolingues existent. Il faudrait peut-ĂȘtre mieux
observer ces initiatives alternatives, les soutenir et sâen inspirer.
15
En effet, lâon recense bien moins de 100 langues traitĂ©es par des systĂšmes de traduction automa-
tique ou de TAO sur prĂšs de 6000 langues existantes.
16
Notamment en introduisant la langue roumaine dans le projet Atamiri (http://lux0.atamiri.cc/
forum/init.do).
40
Mesurer la diversité linguistique sur Internet
En rÚgle générale, les Etats latins sont en retard par rapport aux enjeux
que représente la présence de leurs langues dans la société numérique. En ce
sens, plusieurs actions sâimposent : la crĂ©ation dâune politique volontariste de
numĂ©risation des fonds et des catalogues existant, Ă lâheure actuelle seulement sur
papier et dâune politique constante de production scientiïŹ que en langue nationale
ou, à défaut, de traduction de cette production si elle est réalisée en anglais, et de
son immĂ©diate diffusion sur lâInternet; la mise en place dâune charte de respect du
droit des citoyens de sâinformer dans leur langue et donc une obligation respectĂ©e
de multilinguisme sur les sites des organisations internationales, des compagnies
internationales et bien entendu, une obligation de diffusion en langue locale
pour les corporations nationales; et ïŹ nalement, une proposition de dynamisation
des projets de traduction automatique, notamment pour les couples de langues
inexistants.
LâUnion latine prĂ©pare une deuxiĂšme rencontre sur la place des langues
latines dans la communication spécialisée pour pouvoir mettre en pratique les
recommandations que la premiÚre rencontre avait proposées (UNILAT, 2002b).
Elles prĂ©voient des mĂ©canismes de consultation, de suivi, de statistiques, dâaction
visant Ă encourager lâĂ©dition en langues latines, Ă favoriser la recherche en lan-
gues latines et à développer des outils linguistiques performants. Cette rencontre
devrait avoir lieu en 2006 en Espagne, en Ă©troite relation avec les institutions des
Trois Espaces Linguistiques et il est à espérer que des solutions aux problÚmes
soulevés seront trouvées.
Bibliographie
Calvet, L.J. 2002. Le marché aux langues. Plon, Paris.
Hamel, R.E. 2002. âEl español como lengua de las ciencias frente a la globalizaciĂłn del inglĂ©s.
DiagnĂłstico y propuestas de acciĂłn para una polĂtica iberoamericana del lenguaje en las
cienciasâ au
CongrÚs international sur les langues néolatines dans la communication spécialisée.
Mexi-
que. http://unilat.org/dtil/cong_com_esp/comunicaciones_es/hamel.htm#a
Leåñez Aristimuño, C. 2002. âEspañol, francĂ©s, portuguĂ©s: Âżequipamiento o merma?â au
CongrĂšs
international sur les langues néolatines dans la communication spécialisée.
Mexique. http://unilat.
org/dtil/cong_com_esp/comunicaciones_es/leanez.htm#a
Millån, J.A. 2005. « A quoi bon un projet européen concurrent ? ».
Courrier International.
http://
www.courrierint.com/article.asp?obj_id=51004&provenance=hebdo
Nilsson, H. 2005. « Perte de domaine, perte de fonctionnalité : indicateurs et enjeux ».
Au Lexi-
praxi.
http://www.ailf.asso.fr/presentation.htm
41
2. ModĂšles et approches
Rousseau, L.-J-. 2002. « Le français dans la communication scientiïŹ que et technique » au Con-
grÚs international sur les langues néolatines dans la communication spécialisée Mexique.
http://unilat.org/dtil/cong_com_esp/comunicaciones_es/rousseau.htm#a
UNESCO. 2005.
Plan dâaction du SMSI.
http://portal.UNESCO.org/ci/fr/ev.php-URL_
ID=15897&URL_DO=DO_TOPIC&URL_SECTION=201.html
UNILAT. 2002a.
CongrÚs international sur les langues néolatines dans la communication spécialisée.
http://
www.unilat.org/dtil/cong_com_esp/es/index.htm
UNILAT. 2002b.
Recommandations. CongrÚs international sur les langues néolatines dans la communication
spécialisée.
http://www.unilat.org/dtil/cong_com_esp/es/index.htm
UNILAT. 2005.
Etude sur La place des langues latines sur lâInternet
(
Etude sur La place des langues latines sur lâInternet
Etude sur La place des langues latines sur lâInternet
http://www.unilat.org/dtil/
LI/2003_2005.htm)
43
Diversité linguistique sur Internet :
examen des biais linguistiques
John Paolillo, School of Informatics,
Indiana University
Plus de deux dĂ©cennies aprĂšs lâarrivĂ©e dâInternet dans le monde anglophone,
la représentation des différentes langues sur Internet reste largement biaisée en
faveur de lâanglais. Cette langue reste en effet la plus rĂ©pandue sur Internet,
alors que certaines langues trÚs parlées sont peu ou pas représentées. Dans quelle
mesure une telle situation constitue-t-elle un biais en faveur de lâanglais et au
détriment des autres langues ? Cet article
17
aborde cette question en présentant
le cadre Ă©thique de Friedman et Nissenbaum (1997) aïŹ n dâĂ©valuer le biais dans
les systÚmes informatiques, lié au statut sur Internet des langues parlées à travers
le monde. Ce cadre conceptuel nous aide à interpréter les causes probables ainsi
que les solutions de ce biais Ă©ventuel. Les revendications actuelles relativement au
statut linguistique international sur Internet sont aussi présentées et reformulées
dans lâoptique de leur signiïŹ cation dans ce cadre, nous amenant Ă examiner non
seulement la distribution et lâusage des langues sur Internet, mais aussi des insti-
tutions sociales guidant la gouvernance et le dĂ©veloppement dâInternet pouvant
mener Ă ce que Friedman et Nissenbaum appellent le « biais Ă©mergent ». EnïŹ n,
nous examinons les enjeux liés au biais linguistique dans les systÚmes techniques
dâInternet.
3.
17
Ont collaboré à ce rapport : ELIJAH WRIGHT et HONG ZHANG, Indiana University, Baska-
ran, S., G. V., Ramanan, S. V., Rameshkumar, S., SHOBA NAIR, L., VINOSHBABU JAMES,
VISWANATHAN, S. Anna University, Chennai, Inde. On peut accéder à la version complÚte du
rapport sur le site: http://ella.slis.indiana.edu/~paolillo/paolillo.diversity.pdf.
44
Mesurer la diversité linguistique sur Internet
Biais, multiculturalisme et systĂšmes
informatiques
La « fracture numĂ©rique », c'est-Ă -dire la distribution inĂ©gale de lâaccĂšs aux sour-
ces et aux services dâinformation numĂ©rique, sâavĂšre lâun des principaux enjeux
politiques Ă notre Ă©poque dâinformation numĂ©rique. Les gouvernements, agences
internationales, groupes de citoyens, sociĂ©tĂ©s et autres cherchent tous Ă proïŹ ter
des promesses de moindres coĂ»ts et dâaccĂšs instantanĂ© Ă lâinformation en migrant
plusieurs de leurs systÚmes de communications sur des ordinateurs en réseaux.
Mais si les barriĂšres sociales traditionnelles, tels que le statut socio-Ă©conomique,
lâĂ©ducation, lâorigine ethnique, le genre, etc. entravent lâaccĂšs Ă lâinformation
numĂ©rique, les politiques doivent alors ĂȘtre formulĂ©es en vue dâĂ©galiser lâaccĂšs
pour que ces avantages se concrétisent.
Les questions relatives au statut linguistique international en ligne peuvent
sâexprimer sous forme de fracture numĂ©rique. Dans certaines langues, le contenu
informatique est déjà facilement accessible en grand nombre. Les internautes qui
parlent, lisent et Ă©crivent ces langues ont beaucoup moins de difïŹ cultĂ©s Ă accĂ©der
et Ă partager de lâinformation utile que ceux qui parlent des langues moins bien
représentées. Une telle situation soulÚve évidemment la question à savoir si les
systĂšmes dâinformation numĂ©rique, leur conïŹ guration, ou leur usage constituent
une forme de biais envers les langues moins bien représentées. La différence
linguistique est-elle devenue un obstacle Ă lâaccĂšs Ă lâinformation, constituant un
avantage injuste pour certains et un dĂ©savantage pour dâautres ? Par dĂ©ïŹ nition,
les questions de cette nature sont fondamentalement dâordre Ă©thique et moral, et
le cadre conceptuel doit en tenir compte.
UNESCO et diversité culturelle
En 2001, les Etats membres de lâUNESCO ont adoptĂ© une DĂ©claration univer-
selle sur la diversité culturelle.
18
Lâarticle 6 « Vers une diversitĂ© culturelle accessible
à tous », énonce :
18
http://unesdoc.UNESCO.org/images/0012/001271/127160m.pdf.
45
3. Diversité linguistique sur Internet : examen des biais linguistiques
Tout en assurant la libre circulation des idées par le mot et par l'image, il
faut veiller Ă ce que toutes les cultures puissent s'exprimer et se faire con-
naßtre. La liberté d'expression, le pluralisme des médias, le multilinguisme,
l'Ă©galitĂ© d'accĂšs aux expressions artistiques, au savoir scientiïŹ que et techno-
logique - y compris sous la forme numérique - et la possibilité, pour toutes
les cultures, d'ĂȘtre prĂ©sentes dans les moyens d'expression et de diffusion,
sont les garants de la diversité culturelle.
En ce sens, lâUNESCO favorise clairement lâaccĂšs Ă©gal Ă lâinformation
numĂ©rique, autant Ă la production quâĂ lâutilisation, pour tous les groupes lin-
guistiques et culturels. La déclaration développe cette position en énumérant
plusieurs orientations concrĂštes pour sa mise en Ćuvre. Trois aspects concernent
directement les questions liées aux moyens numériques et à la technologie de
lâinformation.
9. encourager « lâalphabĂ©tisation numĂ©rique » et accroĂźtre la maĂźtrise
des nouvelles technologies de l'information et de la communication,
qui doivent ĂȘtre considĂ©rĂ©es aussi bien comme des disciplines d'ensei-
gnement que comme des outils pédagogiques susceptibles de renfor-
cer l'efïŹ cacitĂ© des services Ă©ducatifs ;
10. promouvoir la diversité linguistique dans l'espace numérique et
encourager l'accÚs universel, à travers les réseaux mondiaux, à toutes
les informations qui relĂšvent du domaine public ;
11. lutter contre la fracture numĂ©rique â en Ă©troite coopĂ©ration avec les
institutions compétentes du systÚme des Nations Unies - en favorisant
l'accÚs des pays en développement aux nouvelles technologies, en les
aidant Ă maĂźtriser les technologies de l'information et en facilitant Ă la
fois la circulation numérique des produits culturels endogÚnes et l'ac-
cÚs de ces pays aux ressources numériques d'ordre éducatif, culturel et
scientiïŹ que, disponibles Ă l'Ă©chelle mondiale (UNESCO, 2001, p.8).
Ces principes et orientations concrÚtes déterminent les valeurs permettant
dâĂ©valuer les attributs de la sociĂ©tĂ© de lâinformation en termes Ă©thiques, ainsi que
ses objectifs de développement. Ils ne fournissent cependant pas un aperçu suf-
ïŹ sant des causes possibles de tout biais pouvant survenir. Et en ce sens, il sâavĂšre
difïŹ cile de faire des recommandations dâaction appropriĂ©es dans des cas prĂ©cis.
46
Mesurer la diversité linguistique sur Internet
Ă titre dâexemple, les Maori de la Nouvelle-ZĂ©lande nâont pas bien acceptĂ©
les bibliothĂšques numĂ©riques. PlutĂŽt quâun simple problĂšme dâalphabĂ©tisation
numĂ©rique, une Ă©tude attentive a rĂ©vĂ©lĂ© que plusieurs enjeux dâordre culturel
nuisent au succĂšs de cette ressource, notamment le fait que la bibliothĂšque est
une forme dâinstitution « Pakeha » (EuropĂ©en de lâOuest de race blanche) suppo-
sant un accĂšs Ă lâinformation mĂ©connu dans la culture Maori (Dunker, 2002). La
grande disponibilitĂ© de lâinformation, traditionnellement protĂ©gĂ©e dans la culture
Maori (notamment lâinformation gĂ©nĂ©alogique) constitue un aspect essentiel du
problĂšme pour ce peuple. Par dĂ©ïŹ nition, les bibliothĂšques permettent un libre
accĂšs Ă lâinformation, peu importe le contenu, et ignorent donc cette valeur.
Câest pourquoi il faut revoir le modĂšle dâaccĂšs Ă lâinformation aux bibliothĂšques
numĂ©riques avant quâune telle institution ne soit mise en place et acceptĂ©e chez
les Maori.
19
Un cadre Ă©thique
Friedman et Nissenbaum (1995, 1997) fournissent un cadre conceptuel utile pour
analyser le biais dans les systĂšmes informatiques, en aidant Ă concentrer lâatten-
tion sur les causes du biais. Ces auteurs identiïŹ ent trois principales catĂ©gories de
biais : préexistant, technique et émergent. Le biais préexistant est ancré dans les
institutions, les pratiques et les attitudes sociales, et existe indépendamment des
systÚmes informatiques. Le biais technique est issu des propriétés techniques des
systÚmes utilisés, quand les hypothÚses ne correspondent pas à tous les aspects
auxquels ils sont appliquĂ©s. Quant au biais Ă©mergent, il survient lors de lâutili-
sation concrĂšte avec les usagers ; ce biais nâest pas inhĂ©rent Ă la conception du
systĂšme ni au contexte social, mais survient plutĂŽt Ă la suite de lâinteraction des
deux dans un cas particulier.
Des exemples de ces trois formes de biais peuvent ĂȘtre trouvĂ©s lors de
lâĂ©tude des langues. Le biais prĂ©existant sâavĂšre Ă©vident lorsquâun gouvernement,
une industrie ou une puissante sociĂ©tĂ© refuse de rendre lâinformation, les techno-
logies ou les produits disponibles aux personnes parlant une ou plusieurs langues.
Ainsi, au milieu des années 90, Microsoft Inc. refusa de fabriquer des versions
de ses produits pouvant sâavĂ©rer compatibles avec des systĂšmes dâĂ©criture non
19
Cette situation est similaire aux problÚmes soulevés lorsque des dossiers médicaux personnels
deviennent accidentellement publics par Internet.
47
3. Diversité linguistique sur Internet : examen des biais linguistiques
romaine, tel que WorldScript, de Apple Computer Inc. Microsoft justiïŹ a sa dĂ©ci-
sion en invoquant que le marché des applications non romaines était trop limité
pour justiïŹ er une nouvelle version de leur produit ; par consĂ©quent, cet exemple
de biais prĂ©-Ă©mergent Ă©tait dictĂ© par des raisons dâordre Ă©conomique.
20
Le biais
technique survient avec les séquences de code de texte tel Unicode UTF-8, faisant
en sorte quâun texte en format non romain exige de deux Ă trois fois plus dâes-
pace quâun texte comparable en format romain. Ici, la raison provient dâaspects
de compatibilité entre les anciens systÚmes romains et les systÚmes Unicode plus
rĂ©cents. Et ïŹ nalement, le biais Ă©mergent survient lorsque des systĂšmes informati-
ques crĂ©Ă©s Ă une ïŹ n sont utilisĂ©s Ă dâautres. Câest le cas du systĂšme de bibliothĂšque
numérique développé pour un contexte urbain et blanc en Nouvelle-Zélande, et
qui fut mal accueilli par la population rurale des Maori.
Ces trois types de biais doivent ĂȘtre abordĂ©s de diffĂ©rentes façons. Le biais
prĂ©existant doit lâĂȘtre par les ressources Ă©ducatives, juridiques et institutionnelles
des pays, industries ou sociĂ©tĂ©s. Le biais technique peut ĂȘtre abordĂ© dans la con-
ception des principes sous-jacents aux systĂšmes informatiques eux-mĂȘmes. Et les
biais Ă©mergents doivent ĂȘtre abordĂ©s Ă la fois par lâĂ©ducation et le design, Ă partir
des informations obtenues sur lâutilisation concrĂšte des systĂšmes informatiques.
Ătant donnĂ© que le dĂ©veloppement dâInternet implique lâinteraction de
technologies, de conditions prĂ©alables, dâobjectifs, dâindustries et dâintervenants,
ces trois formes de biais sont impliquées dans le développement linguistique sur
Internet, à plusieurs périodes et endroits différents.
Internationalisation et Internet : conceptions populaires
Le contenu des médias populaires relativement au potentiel de biais linguistique
sur Internet a tendance Ă reïŹ Ă©ter deux perspectives opposĂ©es. Wasserman a dĂ©crit
cette opposition dans les termes suivants :
Puisque Internet contribue à ⊠lâaugmentation de la prise de conscience
au fait que la planÚte est interconnectée et interdépendante, il pourrait
20
Depuis cette Ă©poque, Microsoft a modiïŹ Ă© sa position et crĂ©Ă© des versions de ses produits pour les
autres marchés linguistiques.
48
Mesurer la diversité linguistique sur Internet
sâagir de lâun des plus rĂ©cents dĂ©veloppements accĂ©lĂ©rant la globalisationâŠ
Parce que la globalisation est perçue comme une force émanant du monde
dit « développé », certaines critiques entrevoient la destruction des lieux et
de spĂ©ciïŹ citĂ©s culturelles au sein des pays et communautĂ©s minoritaires.
Dâautre part, certaines critiques font valoir que les forces internationales
et locales interagissent dans le processus de globalisation, en faisant un
processus multidirectionnel pouvant sâavĂ©rer bĂ©nĂ©ïŹ que aux cultures et
aux langues locales, et mĂȘme favoriser leur autonomisation (Wasserman,
2002:2).
Ceux appuyant cette deuxiÚme perspective tentent à défendre les droits des
minorités, alors que ceux en faveur de la premiÚre soutiennent les nouvelles tech-
nologies de rĂ©seaux dâinformation. La deuxiĂšme perspective constitue en quelque
sorte une réaction aux changements rapides et profonds résultant de la popularité
dâInternet, tandis que la premiĂšre est largement favorisĂ©e depuis ses dĂ©buts par les
partisans de la technologie.
Il est assez facile de trouver des comptes-rendus connus des Ă©quipes dâin-
gĂ©nierie ayant travaillĂ© sur les premiĂšres versions dâARPANET (le premier rĂ©seau
informatique) et qui prĂ©sentent lâorganisation de façon idĂ©alisĂ©e, dĂ©mocratique et
décentralisée (par ex. Hafner et Lyon, 1996) ou le Whole Earth Lectronic Link
(aussi connu sous lâacronyme WELL) dissĂ©minant des communautĂ©s virtuelles
Ă travers le monde par le biais dâInternet (Rheingold, 2000). Ă partir de cette
perspective, il est facile dâextrapoler que la domination linguistique serait une
forme dâinĂ©galitĂ© que la technologie Internet permettra dâĂ©liminer rapidement.
Tout dâabord (selon cet argument), Internet est international et dĂ©centralisĂ© ;
aucun usager ou groupe dâusagers ne peut possĂ©der un contrĂŽle hiĂ©rarchique
sur un autre usager ou groupe dâusagers, parce que Internet permet une libertĂ©
complĂšte dâassociation. En ce sens, nâimporte qui peut utiliser nâimporte quelle
langue, Ă condition quâune autre personne soit disposĂ©e Ă faire de mĂȘme. Ensuite,
la croissance des internautes non anglophones, et notamment les personnes par-
lant chinois, devrait dépasser le taux de croissance actuel des internautes parlant
anglais. En dâautres mots, lâanglais ne dominera Ă©ventuellement plus Internet,
parce que beaucoup plus de gens parlent les autres langues. La question sur la
détermination de quelle langue domine en ligne est simplement une affaire de dis-
tribution dĂ©mographique. Et ïŹ nalement, les partisans font valoir que les capacitĂ©s
suggestives dâaction dâInternet tel Unicode pour le texte multilingue et les systĂš-
mes comme BabelFish pour la traduction dâinstance de documents Web, peuvent
49
3. Diversité linguistique sur Internet : examen des biais linguistiques
rĂ©soudre tous les problĂšmes que les internautes parlant dâautres langues peuvent
avoir en utilisant lâinformation sur Internet. Il est Ă noter que cette perspective
caractérise largement la position retenue dans le document
La diversité culturelle et
linguistique dans la sociĂ©tĂ© de lâinformation,
une publication de lâUNESCO prĂ©parĂ©e
pour le Sommet mondial sur la sociĂ©tĂ© de lâinformation (UNESCO, 2003).
Chacun de ces arguments possÚde une perspective opposée qui, de façon
plus spĂ©ciïŹ que, soutient que la langue anglaise â et dans une certaine mesure
dâautres langues europĂ©ennes â domine les communications sur Internet. Les
raisons invoquĂ©es sont en partie sociales et techniques. Dâabord, on fait valoir que
Internet est basé sur une infrastructure de télécommunications économiquement
dominée par des sociétés américaines. Le centre géographique de connectivité du
rĂ©seau global de tĂ©lĂ©communications est situĂ© aux Ătats-Unis, de sorte que tout ce
qui le favorise proïŹ tera de façon dĂ©mesurĂ©e aux Ătats-Unis, par le biais de coĂ»ts
de communications moindres et dâun nombre accru de destinations atteignables.
Ensuite, en dĂ©pit des tendances rĂ©centes, les internautes utilisant lâanglais restent
le plus important groupe dâusagers sur Internet. Ă tout le moins, la proportion
dâusagers parlant anglais sur Internet est disproportionnĂ©e par rapport aux popu-
lations parlant dâautres langues. Et en dernier lieu, la plupart des technologies sur
Internet sont mieux adaptĂ©es Ă lâanglais. Les interfaces pour les alphabets non
romains sont complexes ou nâexistent pas encore pour certaines langues. MĂȘme
des systĂšmes tel que Unicode comportent des biais techniques au proïŹ t de lâan-
glais, tandis que les systĂšmes de traduction ne sont pas sufïŹ samment ïŹ ables pour
fonctionner Ă lâĂ©chelle requise.
21
Ces perspectives diffĂšrent dans la maniĂšre dont les trois types de biais
identiïŹ Ă©s par Friedman et Nissenbaum (1997) sont perçus. La dĂ©mographie
linguistique des usagers dâInternet soulĂšve des questions de biais prĂ©existant
Lâaspect de la disponibilitĂ© des capacitĂ©s suggestives dâaction (affordances) pour
différentes langues soulÚve des questions de biais techniques. De plus, les enjeux
liés à la décentralisation en opposition au contrÎle central de facto soulÚvent la
question de biais émergeant dans un systÚme ayant dépassé ses frontiÚres natio-
nales dâorigine.
21
Des variantes de ces deux positions, ainsi que leurs rapports avec des perspectives semblables sur
la globalisation sont discutées dans Block (2004).
50
Mesurer la diversité linguistique sur Internet
MalgrĂ© les divergences dâopinions et de vifs dĂ©bats parfois suscitĂ©s, il existe
une pénurie de recherche empirique portant directement sur ces questions de
biais linguistique prĂ©existant, technique et Ă©mergent sur Internet. Ceci sâexpli-
que en partie par lâĂ©tendue et lâĂ©volution rapide dâInternet. Ces deux conditions
compliquent lâobtention de donnĂ©es ïŹ ables. Et mĂȘme si des sondages linguistiques
sont parfois effectués par des entreprises de marketing comme Jupiter Research
(http://www.jupiterresearch.com/), et Global Reach (http://www.glreach.com/),
ces données ont une valeur discutable sur le plan du biais linguistique, en raison
des intĂ©rĂȘts Ă©conomiques sous-jacents des spĂ©cialistes du marketing et de leurs
clients. De plus, un sondage ïŹ able et effectuĂ© Ă grande Ă©chelle sur le multilin-
guisme en ligne serait dispendieux, au-delà des budgets limités ou des recherches
non ïŹ nancĂ©es.
Sources de biais préexistant
Les biais préexistant concernent les institutions, pratiques et attitudes sociales
indépendantes des technologies. Les sources de biais préexistant incluent la répar-
tition historique des populations linguistiques, les ententes Ă©conomiques favorisant
des langues plus répandues, ainsi que les politiques institutionnelles des états
nations. Au chapitre de la diversité linguistique sur Internet, les biais préexistant
se retrouvent Ă la disposition des gouvernements, institutions et entreprises envers
les personnes de différentes origines linguistiques, face à la mise en application
dâune politique sur les technologies de lâinformation. La comprĂ©hension de tels
biais sâavĂšre complexe, mais puisque Internet est un phĂ©nomĂšne international,
cette comprĂ©hension doit sâeffectuer dans le contexte de la diversitĂ© linguistique
globale.
Diversité linguistique globale
Toute discussion sĂ©rieuse sur la diversitĂ© linguistique Ă lâĂ©chelle internationale ou
régionale requiert un indice quantitatif de diversité. Malheureusement, de telles
mesures quantitatives de diversitĂ© linguistique sont rarement utilisĂ©es Ă lâheure
actuelle en recherche linguistique, et aucune mesure reconnue nâest utilisĂ©e Ă
grande Ă©chelle. Les mesures dĂ©jĂ existantes ont tendance Ă ĂȘtre plutĂŽt simplistes,
tel le nombre de langues ou le nombre de groupes linguistiques, utilisés par Bar-
rera-Brassols et Zenck (2002) ainsi que Smith (2001). Des mesures de diversité
51
3. Diversité linguistique sur Internet : examen des biais linguistiques
plus élaborées furent proposées par le passé (par ex. Greenberg, 1956 ; Lieberson,
1964), mais leur valeur statistique nâĂ©tait pas toujours bien fondĂ©e et elles sont
devenues dĂ©suĂštes. Lâapproche retenue dans le prĂ©sent rapport suit celle de Nettle
(1999) et utilise une mesure de la variance comme indice de diversité.
Un indice de diversité linguistique satisfaisant doit tenir compte de plu-
sieurs facteurs. Dâabord, il doit comporter une certaine unitĂ© dâanalyse, tel un
pays, un continent ou Internet. Ensuite, cette diversité linguistique devrait tenir
compte des probabilitĂ©s de trouver des usagers dâune langue particuliĂšre. Le
minimum naturel devrait ĂȘtre zĂ©ro, dans le cas dâune population entiĂšrement
homogĂšne, et ne comporter aucune valeur maximale ïŹ xe. Une variĂ©tĂ© accrue
de langues devrait augmenter la valeur de lâindice, mais Ă mesure que la propor-
tion du groupe linguistique diminue, sa contribution à la diversité devrait aussi
diminuer. De cette façon, les pays oĂč lâon retrouve plusieurs groupes linguistiques
dâimportance semblable (par ex. la Tanzanie ; Mafu, 2004) dĂ©montreront une
diversité linguistique plutÎt élevée, tandis que les pays ayant un nombre com-
parable de langues, mais avec seulement une ou deux langues dominantes (par
ex. les Ătats-Unis), afïŹ cheront une diversitĂ© linguistique relativement peu Ă©levĂ©e.
Une mesure qui possÚde ces propriétés est la construction information-théorique
appelée « entropie », sur laquelle nous pouvons baser notre mesure de diversité
linguistique. En termes statistiques, lâentropie est une mesure de variance (Ă©cart).
Lâentropie est calculĂ©e Ă partir de la proportion estimĂ©e de la population du pays
pour chaque langue, multipliée par son logarithme naturel et en faisant la somme
de toutes les données pour une unité particuliÚre (pays, région). La valeur de
lâindice ïŹ nal reprĂ©sente - 2 fois cette somme.
Le Tableau 1 et la Figure 1 présentent les chiffres pour cette mesure de
diversitĂ© basĂ©e sur lâentropie, dans diffĂ©rentes rĂ©gions du monde, en fonction
des 7 639 chiffres sur les populations linguistiques présentés dans Ethnologue
(www.ethnologue.co
((
m) et allant de la diversité linguistique la plus faible à la plus
Ă©levĂ©e. Les Ătats-Unis, dâoĂč provient Internet, ont Ă©tĂ© sĂ©parĂ©s dans la premiĂšre
rangĂ©e Ă des ïŹ ns comparatives. Les rĂ©gions bien connues pour leur diversitĂ©
linguistique (par ex. lâAfrique, lâOcĂ©anie) font voir la plus grande diversitĂ© lin-
guistique, tandis que les régions ayant des langues nationales trÚs répandues (Asie
de lâEst, AmĂ©rique du Nord) afïŹ chent la plus faible diversitĂ©. Ces deux derniĂšres
régions sont particuliÚrement importantes pour comprendre la diversité linguisti-
que sur Internet. Les Ătats-Unis et la Chine sont sans doute les deux joueurs les
plus importants sur Internet (certaines prĂ©visions estiment que le nombre dâusa-
52
Mesurer la diversité linguistique sur Internet
gers en Chine pourrait supplanter celui aux Ătats-Unis au cours des prochaines
annĂ©es), et aucun de ces deux pays nâest trĂšs diversiïŹ Ă© sur le plan linguistique,
en comparaison Ă lâOcĂ©anie ou Ă lâAfrique. Dans la mesure oĂč ces deux pays
dominent Internet (ou par extension, la discussion de la diversité linguistique sur
Internet), ce dernier ne peut prĂ©tendre reïŹ Ă©ter la diversitĂ© linguistique Ă lâĂ©chelle
internationale.
Tableau 1. Résultats aux indices de diversité linguistique par région
RĂ©gion
Langues
Indice
de diversité
Proportion
de population
mondiale
Ătats-Unis
170
0,7809
0,0020
Amérique du Nord
(incl. Etats-Unis)
248
3,3843
0,0086
Asie de lâEst
200
4,4514
0,0112
Asie de lâOuest
159
26,1539
0,0659
Centre Sud de lâAsie
661
29,8093
0,0752
Amérique du Sud
930
30,5007
0,0769
Europe
364
32,4369
0,0818
Asie du Sud-est
1 317
37,6615
0,0949
Océanie
1 322
46,5653
0,1174
Afrique
2390
185,6836
0,4681
Source : Ethnologue.
53
3. Diversité linguistique sur Internet : examen des biais linguistiques
Figure 1. Indice de diversité linguistique par région
Source : Ethnologue.
Ăvolution de la diversitĂ© linguistique
Pour obtenir une perspective sur la signiïŹ cation de la diversitĂ© linguistique, on
peut examiner lâimportance des populations linguistiques. La Figure 2 illustre dif-
fĂ©rents groupes linguistiques de diffĂ©rentes tailles, aussi issus des donnĂ©es dâEthno-
logue. Lâaxe horizontal est Ă lâĂ©chelle logarithmique, ce qui signiïŹ e que la courbe
en forme de cloche reïŹ Ăšte une distribution normale (Grimes, 1986). Lâimportance
habituelle dâun groupe linguistique se chiffre dans les dizaines de milliers de per-
sonnes â soit la taille dâune petite communautĂ© urbaine. Les langues parlĂ©es par
centaines de millions de personnes telles lâanglais, le chinois, lâespagnol, le français,
etc. sont plutĂŽt atypiques, tout comme le sont les plus petits groupes linguistiques
regroupant quelques centaines de personnes. En termes dâexpĂ©rience humaine, la
situation est différente : prÚs de la moitié de la population de la planÚte parle une
langue parlĂ©e par des centaines de millions dâautres personnes.
54
Mesurer la diversité linguistique sur Internet
Figure 2. Taille des groupes linguistiques
Source : Ethnologue, UNPD.
La diversitĂ© linguistique internationale et rĂ©gionale nâest pas statique mais Ă©volue
avec le temps. Elle subit lâinïŹ uence dâĂ©vĂ©nements socio-historiques telles lâimmi-
gration massive, la colonisation, les guerres, les Ă©pidĂ©mies, et autres. Ă lâheure
actuelle, la diversité linguistique globale est en déclin et ce depuis longtemps. Pour
les linguistes qui étudient la diversité de la parole humaine, la situation actuelle
est une catastrophe. La disparition de centaines de langages à une époque récente
signiïŹ e que des pans entiers de connaissances sur cette capacitĂ© propre Ă lâhumain
sont perdus Ă jamais, tout comme le sont les littĂ©ratures, lâhistoire et les cultures
des populations qui parlaient ces langues. La situation est catastrophique pour les
populations concernées. Selon certaines estimations, prÚs de la moitié des langues
parlĂ©es dans le monde auront disparu dâici lâan 2050 (Dalby, 2003 ; Krauss, 1992 ;
Nettle et Romaine, 2000). Alors que la diversitĂ© linguistique disparaĂźt avec lâex-
tinction des plus petits groupes linguistiques, la proportion de personnes parlant
une langue trÚs répandue augmente à travers le monde.
La perte de la diversitĂ© linguistique nâest pas tributaire dâune rĂ©gion par-
ticuliĂšre dans le monde : beaucoup de langues ont disparu en Europe depuis la
montĂ©e des Ă©tats nations. En AmĂ©rique du Nord, en AmĂ©rique du Sud ainsi quâen
Australie, la colonisation européenne fut suivie de pertes tragiques qui continuent
Ă notre Ă©poque. Dans les Ăźles du PaciïŹ que et en IndonĂ©sie, lâanglais et lâindonĂ©sien
55
3. Diversité linguistique sur Internet : examen des biais linguistiques
remplacent les langues autochtones. Et en Asie, les principales langues parlées en
Chine, au Japon, en Inde et en Russie se sont développées depuis des siÚcles au
dĂ©triment dâautres langues (Crystal, 2000 ; Muhlhausler, 1996).
Certaines causes de disparition linguistique sont Ă©videntes. Par exemple,
lâextermination accidentelle ou voulue dâun groupe de gens peut entraĂźner la
disparition de sa langue (Wurm, 1991). La majeure partie de la diversité linguis-
tique nord-américaine disparut de cette façon : les guerres avec les immigrants
europĂ©ens et lâapparition de maladies Ă©trangĂšres qui se rĂ©pandirent au contact
des Européens décimÚrent les populations autochtones à un point tel que leur
langue disparut. Dâautres causes de disparition linguistique sont moins Ă©videntes,
notamment quand ces changements sont attribuables Ă lâĂ©cologie culturelle.
Diversité linguistique globale et Internet
La faible diversité linguistique, notamment en Amérique du Nord, en Amérique
latine et dans les CaraĂŻbes, en Europe ainsi quâen Asie de lâEst, facilite lâaccĂšs Ă
Internet par le truchement dâun nombre rĂ©duit de solutions technologiques stan-
dardisées visant chaque population linguistique majeure. Dans les régions et pays
ayant une plus grande diversité linguistique, des ententes plus complexes pour
lâaccĂšs Ă Internet sont gĂ©nĂ©ralement requises, pouvant exiger lâadaptation des
ressources Ă chacune des nombreuses langues minoritaires. En ce sens et dĂšs le
dĂ©part, Internet sâavĂšre biaisĂ© en faveur des langues plus rĂ©pandues. Mais mĂȘme
les groupes linguistiques importants ont rarement des normes techniques soute-
nues. Par exemple, des centaines de millions de personnes parlent hindi, mais un
chercheur de lâUniversitĂ© Southern California estime que la plupart des sites Web
en hindi possĂšdent leurs propres polices de caractĂšres en hindi, non compatibles
avec les autres polices en hindi. Les usagers désireux de lire le matériel en hindi
sur ces sites Web doivent installer les polices de caractĂšres requises sur chaque
site individuel, et la recherche sur ces diffĂ©rents sites sâavĂšre extrĂȘmement ardue
puisque les mots ne correspondent pas aux différentes représentations (Informa-
tion Sciences Institute, 2003). En dâautres mots, Internet ne favorise pas dâune
maniĂšre Ă©gale les grands groupes linguistiques. Les rĂ©gions comme lâAfrique,
lâOcĂ©anie et lâAsie du Sud-est font face Ă des dĂ©ïŹ s encore plus sĂ©rieux, en raison
du grand nombre de langues non encore en usage sur Internet. Par conséquent,
des dĂ©veloppements techniques importants restent Ă faire avant de parvenir Ă
atteindre ces groupes linguistiques.
56
Mesurer la diversité linguistique sur Internet
Il importe de conserver une perspective Ă©volutionniste lorsque lâon exa-
mine les effets dâInternet. MĂȘme si Internet peut trĂšs bien avoir un impact Ă long
terme sur la diversitĂ© linguistique, tant la nature que lâenvergure de cet impact en
termes historiques ne sont pas claires. Puisque Internet amĂ©liore lâaccĂšs aux lan-
gues individuelles, il contribue Ă©ventuellement Ă les renforcer, mais puisquâil fait
de mĂȘme pour les langues plus rĂ©pandues en favorisant les Ă©changes linguistiques,
il contribue Ă©galement Ă les affaiblir. Ces deux effets pourraient ĂȘtre beaucoup
moins importants que lâinïŹ uence dâautres causes sociales tout aussi omniprĂ©sentes
dans la diversité linguistique. Elles représentent notamment le développement de
lâagriculture, de lâurbanisation des populations, des Ă©vĂ©nements gĂ©opolitiques,
etc., dont tout gouvernement ou agence de coopération telle les Nations Unies
pourraient trĂšs bien ne pas pouvoir empĂȘcher. Par la mĂȘme occasion, le monde
constate le déclin réel de la diversité linguistique, alors que la survie de centaines
de communautés historiques et culturelles à travers le monde est directement
menacée. Il importe donc que toute politique axée sur la diversité linguistique sur
Internet tienne compte de ces préoccupations.
Sources de biais Ă©mergent
Le biais Ă©mergent porte sur les effets du biais survenant avec lâusage actuel des
technologies Internet. Eu égard à la diversité linguistique sur Internet, le biais
Ă©mergent est fondĂ© sur lâexpĂ©rience des usagers des technologies de lâinformation
quand leurs antĂ©cĂ©dents linguistiques deviennent tributaires de leur capacitĂ© Ă
employer la technologie ou lâinformation fournie. Ce biais se manifeste surtout de
deux façons : dâabord dans la distribution linguistique sur Internet, et ensuite par
le contrÎle économique du marché des télécommunications et des technologies
de lâinformation. Dans cette section, nous examinerons les sources de tels biais
Ă©mergents. Les rĂ©sultats prĂ©sentĂ©s ici suggĂšrent Ă lâheure actuelle un biais impor-
tant en faveur de lâanglais.
DiversitĂ© linguistique des sources dâinformation sur Internet
Quelques études ont effectué une analyse quantitative à grande échelle sur les
langues utilisĂ©es sur Internet. Ces Ă©tudes portent gĂ©nĂ©ralement sur le Web, Ă
lâexclusion des autres modes de communication tels le courriel et le clavardage
(chat), puisque le Web sâobserve plus directement et sâĂ©tudie plus facilement que
57
3. Diversité linguistique sur Internet : examen des biais linguistiques
les autres formes de communication Internet. Deux recherches dignes dâĂȘtre
mentionnées ont produit des résultats intéressants dans ce domaine : une série
dâĂ©tudes par Lavoie, OâNeill et des collĂšgues du Online Computer Library Center
(OCLC), ainsi quâune Ă©tude de Nunberg (1998) Ă PARC sur des sites Web non
anglais.
Les Ă©tudes du OCLC (Lavoie et OâNeill, 1999 ; OâNeill, Lavoie et Bennett,
2003) ont eu recours Ă un Ă©chantillon au hasard de sites Web disponibles sur Inter-
net. Pour y parvenir, ils ont généré des numéros de protocole Internet (IP) et tenté
de se relier à un site Web pour chaque adresse. Si un serveur Web répondait, les
chercheurs tĂ©lĂ©chargeaient alors sa page dâaccueil et activaient un systĂšme automa-
tisĂ© de classiïŹ cation linguistique sur cette page (OâNeill, McClain et Lavoie, 1997).
Cette mĂ©thode dâĂ©chantillonnage a lâavantage dâĂȘtre non biaisĂ©e. Toutes les autres
mĂ©thodes dâĂ©chantillonnage reposent directement ou non sur des moteurs de
recherche ou des « robots Web » (web spiders), soient des programmes qui décou-
vrent de nouvelles pages Web en suivant tous les liens dans une série connue de
pages Web. Les robots Web produisent ce quâon appelle un « sondage cumulatif »,
câest-Ă -dire un Ă©chantillon biaisĂ© en raison de sa proximitĂ© Ă un point de dĂ©part
arbitraire. Les moteurs de recherche dépendent des robots Web pour développer
leurs indices, de sorte que les échantillons qui en sont tirés sont également biaisés.
De tels Ă©chantillons biaisĂ©s sont Ă Ă©viter, si lâon veut obtenir une estimation ïŹ able
de la fréquence des différentes langues sur le Web.
La premiÚre étude fut effectuée à deux périodes différentes, à intervalle
dâune annĂ©e, aïŹ n dâĂ©valuer les tendances dans lâusage de ces diffĂ©rentes langues.
En 2002, une Ă©tude subsĂ©quente chercha Ă conïŹ rmer ces observations. LâĂ©tude
menĂ©e en 1998-1999 suggĂ©rait quâune certaine expansion internationale Ă©tait en
cours sur le Web, et que lâusage de diffĂ©rentes langues correspondait Ă©troitement
au domaine de provenance de chaque site Web. Ainsi, lâĂ©chantillon de 1999 com-
portant 2 229 sites Web au hasard permit dâidentiïŹ er 29 langues diffĂ©rentes dont
la rĂ©partition est prĂ©sentĂ©e Ă la Figure 3. Comme on pouvait le prĂ©voir, lâanglais
domine clairement dans 72% de lâensemble des sites Web Ă©chantillonnĂ©s. Lâindice
de diversité de cet échantillon de pages Web équivaut à 2,47, soit moins que celui
dâun pays caractĂ©ristique de lâAsie du Sud-est et plus quâun pays caractĂ©ristique
du Centre-Sud de lâAsie. Cet indice est aussi des centaines de fois plus petit que
lâindice linguistique global. En ce sens, la diversitĂ© linguistique sur le Web, mĂȘme
si elle sâapparente Ă celle de plusieurs pays multilingues, constitue une faible reprĂ©-
sentation de la diversité linguistique à travers le monde.
58
Mesurer la diversité linguistique sur Internet
Figure 3. Proportion de langues sur le Web Ă partir dâun Ă©chantillon au
hasard de pages Web
Source : OâNeill, Lavoie et Bennett (2003).
En relation Ă lâĂ©tude prĂ©cĂ©dente, lâĂ©tude de suivi effectuĂ©e en 2002 indique que la
proportion de lâanglais sur le Web semble constante, mĂȘme si de petites diffĂ©rences
surviennent parmi les autres langues (OâNeill, Lavoie et Bennett, 2003). Lâindice
de diversitĂ© Ă©tait de 2,44 en 2002, dĂ©montrant peu dâĂ©cart sur lâĂ©tude prĂ©cĂ©dente,
ce qui pourrait ĂȘtre en partie attribuable Ă la mĂ©thodologie utilisĂ©e. Les 29 langues
identiïŹ Ă©es dans lâĂ©chantillon des pages Web reprĂ©sentent en fait la limite du pro-
gramme dâidentiïŹ cation linguistique utilisĂ© par ces chercheurs (http://www-rali.
iro.umontreal.ca/SILC/SILC.en.cgi), et les nouvelles langues utilisées sur le Web
ne peuvent ĂȘtre dĂ©couvertes de cette façon. MĂȘme si le programme dâidentiïŹ ca-
tion linguistique pouvait englober davantage de langues, celles-ci ne représentent
que de faibles proportions et par conséquent, changeraient peu la diversité cal-
culée sur le Web.
En 1999, lâĂ©tude de lâOCLC identiïŹ a aussi les proportions de pages Web
multilingues Ă partir de chaque domaine dâorigine, et quelles combinaisons de
deux langues Ă©taient employĂ©es. Si un site Web comptait plus dâune langue,
lâanglais Ă©tait toujours lâune dâelles : lâensemble (100%) des 156 sites multilingues
identiïŹ Ă©s utilisait lâanglais. Le français, lâallemand, lâitalien et lâespagnol Ă©taient
59
3. Diversité linguistique sur Internet : examen des biais linguistiques
chacun présents sur environ 30 % des sites Web multilingues, tandis que les autres
langues étaient beaucoup moins bien représentées. De plus, 87 % des sites Web
multilingues provenaient de domaines situĂ©s Ă lâextĂ©rieur des principaux pays
anglophones (Australie, Canada, Royaume-Uni et Ătats-Unis). Pour lâensemble
des domaines, le taux de multilinguisme allait de 6 sur 13 (42 %) sur les sites
russes, à 16 sur 1 103 (1,5 %) pour les sites américains. On constate donc que le
Web penche fortement vers le monolinguisme, et la plupart des sites multilingues
ne viennent que reïŹ Ă©ter la domination de lâanglais. Ce rĂ©sultat est directement
Ă lâopposĂ© de la croyance rĂ©pandue selon laquelle le Web favorise la diversitĂ©
linguistique.
Les tendances observĂ©es dans les Ă©tudes de lâOCLC ont Ă©tĂ© conïŹ rmĂ©es
dans lâĂ©tude de Nunberg (1998), qui a retenu une mĂ©thodologie diffĂ©rente. Dans
cette Ă©tude, un robot Web
(web crawl)
de 2,5 millions de pages collectées en 1997
par Alexa, une ïŹ rme de services Internet, fut analysĂ© Ă lâaide dâun identiïŹ cateur
automatique de langue prĂ©parĂ© par Heinrich SchĂŒtze, un collĂšgue de Nunberg.
MĂȘme sâil sâagit dâun sondage cumulatif biaisĂ©, il est nĂ©anmoins plus de mille fois
plus grand que celui de lâOCLC. Nunberg a surtout constatĂ© que les pays ayant un
faible taux de pĂ©nĂ©tration dâInternet utilisent surtout lâanglais sur leurs sites Web,
tandis que ceux ayant un taux plus élevé de pénétration ont davantage recours
Ă des langues autres que lâanglais. Il est Ă noter que lâAmĂ©rique latine sâinscrit Ă
contre-courant de cette tendance, avec un taux de pénétration Internet trÚs faible
en 1997 et une prédominance écrasante de sites Web dans une autre langue que
lâanglais. En ce sens, lâĂ©tendue du bilinguisme anglais dans un pays non anglo-
phone peut inïŹ uencer lâexpression de la diversitĂ© linguistique sur ses sites Web.
Outre les études déjà citées, quelques autres tentatives ont voulu mesurer la
distribution linguistique Ă partir des statistiques obtenues des moteurs de recher-
che. Pour diverses raisons, lâinformation recueillie nâest pas aussi utilisable. Par
exemple, FUNREDES, une ONG favorisant les technologies de lâinformation et
de communication en AmĂ©rique latine, a menĂ© une sĂ©rie dâĂ©tudes depuis 1995 en
vue dâĂ©valuer la distribution linguistique et les inïŹ uences nationales sur Internet
(Pimienta et Lamey, 2001 ; Pimienta et autres, 1995-2003). Ces études ont recensé
le nombre de pages Web indexĂ©es par des moteurs de recherche bien connus, Ă
partir de certains mots sélectionnés dans différentes langues et groupes nationaux.
Ces chercheurs ont notamment recueilli une proportion beaucoup plus faible de
pages anglaises (52 % en 2001, 45 % en 2003) que dans les études menées par
Lavoie et OâNeill ainsi que Nunberg.
60
Mesurer la diversité linguistique sur Internet
Le calcul du nombre de pages dĂ©rivĂ©es des moteurs de recherche sâavĂšre
toutefois une mĂ©thodologie non ïŹ able en vue de dĂ©terminer la reprĂ©sentation
linguistique sur le Web. Outre les échantillons biaisés fournissant des pages aux
moteurs de recherche, on retrouve plusieurs autres inïŹ uences confondantes. Les
moteurs de recherche ont gĂ©nĂ©ralement recours Ă diffĂ©rentes mĂ©thodes dâindexa-
tion propriĂ©taire ne pouvant ĂȘtre inspectĂ©es, ce qui peut biaiser le total de pages
retournĂ©es de façon impossible Ă corriger ni mĂȘme dâĂ©valuer. Un mot qui nâest
pas sur une page peut ĂȘtre calculĂ© dans le total, tandis que des pages contenant
le mĂȘme mot peuvent ne pas ĂȘtre calculĂ©es. De plus, la mĂ©thode assume que la
fréquence des mots reliés aux concepts « culturellement neutres » est uniforme
dâune langue Ă lâautre. Cependant, la neutralitĂ© culturelle est inaccessible. Beau-
coup de mots observés fréquemment représentent des concepts culturels, tel que
le mot « cheese ». La culture anglo-américaine et la culture française continentale
attribuent une signiïŹ cation alimentaire trĂšs diffĂ©rente aux mots
cheese
et
cheese
cheese
fromage
respectivement. Ces faits seront représentés par la fréquence des termes corres-
pondants. De plus, puisque le total des pages est retourné (plutÎt que le total de
mots), les totaux retournés pour différentes formes linguistiques peuvent inclure
des pages bilingues à multilingues, calculées plusieurs fois.
DiversitĂ© linguistique parmi les usagers dâInternet
La ïŹ rme de services de traduction Global Reach a dĂ©ployĂ© les efforts les plus
directs en vue dâĂ©valuer la diversitĂ© linguistique des internautes. Ces Ă©valuations,
préparées annuellement de 1996 à 2002, sont largement citées comme montrant
un Internet oĂč la diversitĂ© linguistique sâaccroĂźt sans cesse.
22
Ces estimations sont
basĂ©es sur celles de lâUnion internationale des tĂ©lĂ©communications (UIT) pour les
populations dâusagers dans chaque pays, qui dĂ©ïŹ nissent un « usager » comme une
personne ayant utilisé Internet au cours des trois derniers mois. Ces populations
dâusagers sont rĂ©parties en populations linguistiques calculĂ©es Ă partir des estima-
tions dâEthnologue et rĂ©ajustĂ©es avec des donnĂ©es dĂ©mographiques de lâONU,
comme nous lâavons fait plus haut dans le calcul de la diversitĂ© linguistique. Dans
certains cas, les auteurs ont complété ces sources avec des statistiques de marke-
ting obtenues de ïŹ rmes telles que Nielsen Net Ratings. Ces donnĂ©es nâincluent
aucune forme dâĂ©tude rĂ©elle auprĂšs des internautes, de sorte que les donnĂ©es de
22
Ces données sont disponibles sur le site http://global-reach.biz/globstats/evol.html.
61
3. Diversité linguistique sur Internet : examen des biais linguistiques
Global Reach ne représentent pas les langues vraiment parlées par les usagers
dâInternet. Puisque ces ïŹ gures sont souvent citĂ©es Ă lâappui de la diversitĂ© linguis-
tique des internautes, il est approprié de les examiner de plus prÚs.
Figure 4. Estimation des populations linguistiques dâutilisateurs Inter-
net (Ă©chelle logarithmique pour lâaxe y).
Source : Global Reach.
La Figure 4 prĂ©sente lâestimation de Global Reach pour les populations des diffĂ©-
rentes langues. La période de 2003 à 2005 est indiquée par une ligne pointillée,
puisquâil sâagit de prĂ©visions. Les langues identiïŹ Ă©es sâapparentent Ă celles des Ă©tu-
des de lâOCLC. Comme il fallait sây attendre, lâanglais avec quelque 230 millions
dâusagers avait prĂšs de trois fois plus dâusagers en 2001 que la langue suivante,
le chinois, avec environ 60 millions dâusagers.
23
La Figure 4 fait voir que tous ces
groupes dâusagers semblent en croissance exponentielle, sauf pour lâanglais et le
japonais qui semblent ralentir. On estime quâenviron 50 % de la population de
ces deux groupes linguistiques utilise déjà Internet.
23
Ces estimations semblent traiter de façon semblable toutes les formes de chinois, mĂȘme si les lin-
guistes estiment que le chinois représente un groupe de neuf langues différentes (souvent appelés
« dialectes » dans le grand public).
62
Mesurer la diversité linguistique sur Internet
Ă partir des estimations de Global Reach, on peut calculer les indices de
diversitĂ© linguistique pour lâensemble des usagers dâInternet ; ces valeurs sont
présentées à la Figure 5. Puisque la composition du groupe linguistique « Autres »
nâest pas dĂ©ïŹ nie dans les donnĂ©es de Global Reach, nous avons calculĂ© des valeurs
minimum et maximum pour lâindice, en assumant que « Autres » reprĂ©sente une
seule langue (diversité minimale) ou une distribution uniforme parmi 6 000 lan-
gues (distribution maximale). Il est Ă©tonnant de constater quâen dĂ©pit dâimportants
gains initiaux de lâindice de diversitĂ© entre 1996 et 1999, la diversitĂ© linguistique
semble se stabiliser aprĂšs lâan 2000, en dĂ©pit de la croissance exponentielle de
beaucoup de langues. De plus, les prévisions pour 2003-2005 continuent de
dĂ©montrer cette tendance Ă la stabilisation ; lâaugmentation prĂ©vue du nombre
de personnes parlant chinois, en raison de son importance, limite dans les faits
lâaugmentation de diversitĂ©. Il en rĂ©sulte un indice de diversitĂ© linguistique se
situant entre celui dâun pays africain typique et les indices rĂ©gionaux combinĂ©s de
lâAmĂ©rique du Nord et de lâEurope. Ce rĂ©sultat nâest probablement pas Ă©tonnant,
étant donné que les hÎtes Internet restent concentrés en Amérique du Nord et
en Europe. MalgrĂ© tout, la diversitĂ© linguistique dâInternet nâest nulle part aussi
grande que lâindice de toute autre rĂ©gion ou du monde dans son ensemble. Par
consĂ©quent, et contrairement Ă lâopinion rĂ©pandue, on ne peut afïŹ rmer que Inter-
net englobe la diversité linguistique en ce sens.
Figure 5. Estimation de la diversitĂ© des usagers dâInternet
Source : Global Reach.
63
3. Diversité linguistique sur Internet : examen des biais linguistiques
En ce sens, Internet nâa pas acquis sa diversitĂ© linguistique simplement en
Ă©tant international et en reliant entre eux beaucoup dâinternautes. Pour sâassurer
que les langues des internautes sont reprĂ©sentĂ©es en ligne, il faudra sâattaquer Ă
dâautres enjeux, et comme on peut le constater ci-dessous, ces enjeux peuvent
sâavĂ©rer trĂšs spĂ©ciïŹ ques aux contextes des communautĂ©s en ligne.
Internet et la pratique du multiculturalisme
LâaccĂšs Ă Internet est un prĂ© requis Ă lâutilisation de lâinformation quâil fournit.
Jusquâici, nous avons examinĂ© ce quâun tel accĂšs signiïŹ e en termes globaux.
Cependant, un tel effort ne saurait réussir si les personnes parlant les différentes
langues Ă travers le monde choisissent tout simplement quelques langues dominan-
tes. Quels sont alors les facteurs qui dictent le choix linguistique sur Internet ?
Les langues ne servent pas seulement Ă transmettre des informations â il
sâagit aussi de systĂšmes complexes de symboles comportant des Ă©valuations riches
et subtiles de leur contexte dâapplication. Les Ă©tudes sociolinguistiques sur le
multiculturalisme ont largement détaillé les écologies sensibles et turbulentes des
langues en contact ; des recherches rĂ©centes sur le multiculturalisme dâInternet
soulignent la pertinence de ces leçons en rapport Ă Internet. De plus, lâintĂ©rĂȘt
international Ă©vident envers Internet repose sur les avantages Ă©conomiques offerts.
Internet favorise-t-il aussi de la mĂȘme façon les langues plus rĂ©pandues ?
Il nâest pas simple dâidentiïŹ er en termes gĂ©nĂ©raux quelles langues sont
employées en ligne et la façon dont elles le sont. Plusieurs enjeux sont impliqués,
allant des communautĂ©s linguistiques individuelles Ă lâaccĂšs diffĂ©rentiel Ă Internet,
aux diffĂ©rents systĂšmes dâĂ©criture et de codage informatique, jusquâaux divers
modes de communication. La majeure partie de la recherche disponible concer-
nant les effets Ă©ventuels dâInternet sur la langue et la culture porte sur des Ă©tudes
de cas de groupes linguistiques particuliers utilisant Internet dans des contextes
précis, plutÎt que dans une perspective macro sociale. Ces études de cas suggÚ-
rent que le contact linguistique sur Internet favorise les langues répandues, tout
comme les contacts hors ligne. Ainsi, Wright (2004) et Holmes (2004) ont examiné
le comportement linguistique en ligne dâĂ©tudiants de niveau universitaire dans
huit pays. Leurs rĂ©sultats indiquent que lâampleur avec laquelle les gens utilisent
leur langue maternelle en ligne varie énormément selon le contexte examiné.
Par la mĂȘme occasion, aucune population Ă©tudiĂ©e ne dĂ©montre quâelle utilise son
64
Mesurer la diversité linguistique sur Internet
répertoire linguistique complet en ligne. Les langues moins utilisées ne semblent
pas ĂȘtre du tout employĂ©es sur Internet. En ce sens, les questions concernant cet
enjeu sont Ă la fois subtiles et complexes.
Lors de recherches prĂ©liminaires, Paolillo (1996) constata que lâanglais est
largement préféré au pendjabi lors de discussions de groupes Usenet regroupant
principalement des internautes de langue pendjabi. Un tel comportement est en
partie prévisible de la part des participants majoritairement expatriés et éduqués
en anglais, mais les tendances observĂ©es marginalisent lâusage en ligne du pend-
jabi au point oĂč il devient rĂ©servĂ© Ă des fonctions de communications de nature
trĂšs rituelle ou nationaliste, et sert davantage dâoutil dâidentiïŹ cation que de trans-
mission de lâinformation. Dans un article subsĂ©quent, Paolillo (2006) compara lâin-
teractivitĂ© et lâhomogĂ©nĂ©itĂ© linguistiques des Asiatiques du Sud en contact entre
eux dans les clavardoirs (chat rooms) et des groupes de discussion sur Internet, et
constata que ces deux moyens favorisent le recours Ă une langue minoritaire (hindi
ou pendjabi, selon le forum). Ces tendances sont aussi signalées dans Peel (2004),
qui indique que des clavardoirs interactifs dans les Ămirats arabes unis favorisent
lâarabe, alors que les courriels privilĂ©gient lâanglais. Dans un autre article, Paolillo
(2001) constata que les participants centraux sur un canal de clavardage Ă©taient
plus enclins à utiliser des langues minoritaires que les participants périphériques.
Puisque les clavardoirs facilitent le va-et-vient des participants, les participants
périphériques et leurs préférences linguistiques prédominent. En ce sens, les
aspects technologiques et sociaux de la communication Internet interagissent de
façons complexes qui favorisent néanmoins les langues majoritaires, plutÎt que
minoritaires. Il est possible de manipuler les variables technologiques aïŹ n de
limiter dans une certaine mesure les effets de la domination linguistique, mais
leur efïŹ cacitĂ© est inconnue.
LâĂ©tude du grec dans les communications sur Internet par Koutsogiannis
et Mitsakopolou (2004), Georgakopoulou (2004, Ă paraĂźtre) et Androtsopolous
(1998) explore une gamme dâenjeux recoupant les Ă©tudes citĂ©es plus haut. Tout
comme le caractĂšre dâĂ©criture gurmukhi du pendjabi, lâalphabet grec est difïŹ cile
Ă utiliser sur Internet, de sorte que lâon prĂ©fĂšre une forme « romanisĂ©e » du grec
adaptĂ©e dâun alphabet hors ligne appelĂ© « greeklish », surtout chez les expatriĂ©s
vivant en milieu multilingue prĂ©fĂ©rant lâanglais (Georgakopoulou, 2004) ou lâal-
lemand (Androtsopolous, 1998). Cet Ă©tat de fait corrompt en retour la norme
grecque de la diglossie (Ferguson, 1959), alors que ceux qui lâutilisent ont recours
à une forme vernaculaire distincte pour la langue parlée informelle et à la langue
65
3. Diversité linguistique sur Internet : examen des biais linguistiques
classique Ă lâĂ©crit. Ă diffĂ©rentes Ă©poques par le passĂ©, le gouvernement de la GrĂšce
a dĂ©ployĂ© beaucoup dâefforts pour conserver lâalphabĂ©tisme envers le Kathare-
vousa, la langue classique pour lâĂ©criture formelle, mais lâĂ©rosion de la diglossie
grecque sur Internet risque de miner ces efforts. Dans un autre contexte de diglos-
sie, arabe cette fois, Warschauer et autres (2002) observent que lâĂ©gyptien, lâarabe
et lâanglais vernaculaires empiĂštent sur les fonctions traditionnelles de lâarabe
classique. De tels empiétements tendent à déstabiliser les situations diglossiques,
menant éventuellement à un changement linguistique vers une langue extérieure
dominante. En ce sens, lorsque les normes linguistiques sont érodées sur Internet,
la disposition universelle de lâaccĂšs Ă Internet pourrait avoir un effet potentielle-
ment nuisible sur une telle diversité linguistique.
LâinïŹ uence de lâanglais est Ă la fois rĂ©pandue et subtile. Des situations trĂšs
diffĂ©rentes impliquent lâusage du courriel en Suisse (Durham, 2004) et dâInternet
en Tanzanie (Mafu, 2004), oĂč les rĂ©sidents bilingues de chaque pays prĂ©fĂšrent
utiliser lâanglais plutĂŽt que les langues locales plus Ă©videntes. Alors quâil existe un
prĂ©cĂ©dent colonial favorisant lâanglais chez les Ă©lites de la Tanzanie, ce nâest pas
du tout le cas en Suisse. Lâexplication dâun tel phĂ©nomĂšne se constate en raison du
statut international de lâanglais (Crystal, 2003 ; Phillipson, 1992, 2003). Un autre
exemple de lâinïŹ uence de lâanglais sur Internet implique la diffusion de certaines
caractĂ©ristiques de la langue parlĂ©e dans lâĂ©crit, par le biais de courts messages
(SMS), de messages instantanés (IM), et de clavardage sur le Web en suédois
(HĂ„rd af Segerstad, 2002). De mĂȘme, Torres (1999, 2001) observe plusieurs fonc-
tions pragmatiques des émoticons (« binettes » ou smileys) en clavardage catalan.
Ces formes proviennent de contextes parlĂ©s anglais, et tĂ©moignent de lâinïŹ uence
du contact de lâanglais au catalan par le biais dâInternet.
Ces Ă©tudes et dâautres font ressortir tant la richesse que la complexitĂ© des
facteurs reliĂ©s Ă lâusage des langues minoritaires par des usagers multilingues
dâInternet. Plusieurs de ces Ă©tudes soulignent la prĂ©caritĂ© de lâusage des langues
non dominantes dans les communications Internet.
Institutions et intĂ©rĂȘts gouvernant Internet
Contrairement Ă la croyance populaire, Internet nâest pas une institution ouverte
et dĂ©mocratique (ou anarchique). Il sâagit plutĂŽt dâune institution ayant un rĂ©seau
complexe dâintĂ©rĂȘts puissants, dont beaucoup sont trĂšs centralisĂ©s. Ces intĂ©rĂȘts
66
Mesurer la diversité linguistique sur Internet
puissants se préoccupent peu des actions des usagers individuels, laissant croire
que Internet ne subit aucunement la contrainte des intĂ©rĂȘts civils, gouvernemen-
taux ou corporatifs. NĂ©anmoins, chaque niveau dâintĂ©rĂȘt constitue lâoccasion de
biais linguistiques en vue de déterminer quelles langues sont utilisées sur Internet.
Plusieurs acteurs importants et différents sont impliqués dans la réglemen-
tation dâInternet. En premier lieu, on retrouve des monopoles et oligopoles en
télécommunications dans différentes régions du monde. Ces sociétés maintiennent
les infrastructures permettant aux individus de se brancher Ă Internet, et de relier
entre eux les divers sites Internet. Ensuite, on retrouve les sociétés de matériel
informatique et de logiciels tels que Intel, IBM, Hewlett-Packard, Cisco Systems,
Sun Microsystems, Microsoft, Adobe. Ces entreprises développent et commercia-
lisent le matĂ©riel informatique et les logiciels qui constituent lâinfrastructure dâIn-
ternet. De plus, il existe des organismes de réglementation particuliers à Internet,
tels que Internet Corporation for Assigned Names and Numbers (ICANN), ainsi
que les Centres dâinformation sur les rĂ©seaux tels que lâAmerican Registry for
Internet Numbers (ARIN), RĂ©seaux IP EuropĂ©ens (RIPE) ainsi que lâAsia PaciïŹ c
Networking Information Centre (APNIC), qui prennent des décisions relative-
ment Ă la connectivitĂ© dâInternet. Les gouvernements nationaux jouent aussi un
rĂŽle, tant dans la gestion des ressources Internet au niveau du pays que dans lâap-
plication dâautres formes de politiques dâinformation. EnïŹ n, on retrouve dâautres
organisations et consortiums, tels que World-Wide Web Consortium (W3C), le
Consortium Unicode, ainsi que lâOrganisation internationale de normalisation
(ISO), qui dĂ©veloppent des normes pour lâapplication des technologies Internet.
DÚs le début, le réseau téléphonique a toujours été important pour Inter-
net. Lorsquâun hĂŽte Internet se branche Ă un autre hĂŽte, les modems, lignes
louĂ©es, lignes dâabonnĂ©s numĂ©riques, rĂ©seau dâinfrastructure de ïŹ bres optiques
et satellites gĂ©ostationnaires peuvent tous ĂȘtre impliquĂ©s Ă une certaine Ă©tape de
la communication numérique, acheminant les données sur le réseau téléphoni-
que. Plus rĂ©cemment, dâautres formes de rĂ©seaux de tĂ©lĂ©communications tels
que les rĂ©seaux de tĂ©lĂ©vision par cĂąble ont Ă©tĂ© adaptĂ©es au traïŹ c de donnĂ©es
Internet. Tant par le passĂ© quâĂ lâheure actuelle, de larges entreprises (souvent
privées ou des monopoles étatiques) ont assumé le contrÎle économique de ces
ressources. Ă lâĂ©chelle internationale, ces sociĂ©tĂ©s se retrouvent surtout aux Ătats-
Unis. Par exemple, MCI gÚre un réseau acheminant une écrasante majorité du
traïŹ c international dâInternet par le biais de sa ïŹ liale UUNET (voir Mapnet,
http://www.caida.org/tools/visualization/mapnet). Le rĂ©seau dâinfrastructure
tt
67
3. Diversité linguistique sur Internet : examen des biais linguistiques
de ïŹ bres optiques mis en place par MCI il y a plusieurs annĂ©es est essentiel Ă
ce rĂ©seau. MĂȘme si les sociĂ©tĂ©s telle que MCI sont relativement peu intĂ©ressĂ©es
par les langues des internautes sur leurs lignes de données, le rÎle central des
Ătats-Unis dans la distribution du traïŹ c de donnĂ©es fait en sorte que les tĂąches
administratives de haut niveau reliĂ©es au traïŹ c du rĂ©seau dâinfrastructure se feront
en anglais. En ce sens, les réseaux régionaux se raccordant à ces réseaux centraux
devront nĂ©cessairement embaucher du personnel maĂźtrisant trĂšs bien lâanglais.
MĂȘme si cette situation ne semble pas trĂšs inquiĂ©tante, Ă©tant donnĂ© que les infor-
maticiens Ă travers le monde tendent Ă ĂȘtre trĂšs familiers avec lâanglais, ces deux
tendances symbiotiques se complÚtent mutuellement. Si les autorités des réseaux
régionaux ne peuvent communiquer avec leurs fournisseurs dans la langue de leur
choix, lâanglais restera alors par dĂ©faut la langue dominante de lâadministration
du rĂ©seau. Les entreprises de tĂ©lĂ©communications, qui encaissent des proïŹ ts subs-
tantiels pour la demande de services de communication et de technologie, ont la
responsabilité particuliÚre de tenir compte de la diversité linguistique des pays sur
les marchés desservis.
Les entreprises de matĂ©riel informatique et de logiciels ont une inïŹ uence
semblable sur le caractĂšre linguistique dâInternet, en fabriquant des ordinateurs
munis de claviers, Ă©crans et systĂšmes dâexploitation favorisant certaines langues
en particulier. Ces produits sont fabriqués à faible coût en réalisant des économies
dâĂ©chelle, permettant le marketing dâun produit standardisĂ© sur le plus vaste mar-
chĂ© possible. La technologie informatique, avec ses usines de puces Ă lâĂ©tranger,
le dĂ©veloppement externalisĂ© de logiciels (et mĂȘme de la gestion), ainsi que les
marchĂ©s de marchandises, constituent lâun des secteurs globalisĂ©s originaux de
lâindustrie. Pour cette raison, et aussi Ă cause de lâimportance des sociĂ©tĂ©s amĂ©ri-
caines à développer de nouveaux systÚmes et de nouvelles normes, les systÚmes
informatiques qui parviennent dans des régions de diversité linguistique comme
lâAfrique sont en grande majoritĂ© conçus pour ĂȘtre utilisĂ©s en anglais ou dans
une langue européenne, et sont trÚs peu, sinon aucunement adaptés aux langues
locales. De telles circonstances constituent une autre forme de biais Ă©mergent Ă
lâendroit des langues europĂ©ennes sur Internet, et au dĂ©triment des langues des
pays moins industrialisés. Comme pour les entreprises de télécommunications,
celles de matériel informatique et de logiciels ont une responsabilité particuliÚre
envers la diversité linguistique des pays sur les marchés desservis.
Ainsi, les actions des sociétés informatiques en étroite concurrence pour la
domination de marchĂ© nuisent au climat de diversitĂ© linguistique en ligne et dâin-
68
Mesurer la diversité linguistique sur Internet
formatique multilingue. Pour favoriser lâinformatique multilingue, des ententes sont
requises aïŹ n que les intĂ©rĂȘts internationaux puissent avoir prĂ©sĂ©ance sur les objectifs
concurrentiels des sociétés privées. Certaines de ces tendances sont améliorées par
les activitĂ©s des organisations et consortiums internationaux, telle lâOrganisation
internationale de normalisation (ISO), le Consortium Unicode et le World-Wide
Web Consortium, qui supervisent les différents aspects du développement techno-
logique dâInternet. Plusieurs sociĂ©tĂ©s informatiques importantes (y compris Apple
et Microsoft) sont impliquĂ©es dans ces organisations. MĂȘme si certains technologues
dĂ©plorent que ces organisations entravent lâinnovation, leur caractĂšre international
aide Ă tenir compte des intĂ©rĂȘts des diffĂ©rents groupes nationaux et linguistiques.
En revanche, ces organisations normatives nâont pas vraiment de mĂ©canisme de
mise en application. Par conséquent, plusieurs technologies Internet possÚdent
des normes qui ne sont pas largement mises en pratique. Câest notamment le cas
du langage HTML utilisé sur les pages Web et du langage de programmation
ECMAScript pour lâinteractivitĂ© du navigateur Web. Les incompatibilitĂ©s entraĂź-
nĂ©es par lâabsence de conformitĂ© aux normes nuisent aux progrĂšs de lâinformatique
multilingue. Si ces organisations visent à promouvoir et à protéger la diversité
linguistique, leurs mĂ©canismes dâintervention doivent ĂȘtre renforcĂ©s.
ICANN est un autre acteur gouvernant Internet et ayant un impact impor-
tant sur la diversitĂ© linguistique dâInternet. ICANN administre le protocole connu
comme systĂšme de noms de domaine (DNS), sous contrat avec le DĂ©partement
amĂ©ricain du commerce. Le systĂšme DNS accomplit la fonction dâassocier des
noms mnémotechniques uniques à tous les hÎtes Internet, une fonction essen-
tiellement linguistique. Malheureusement, le systĂšme DNS est difïŹ cile Ă utiliser
avec dâautres langues que lâanglais amĂ©ricain et ne convient pas non plus avec la
maniĂšre dont les systĂšmes de noms fonctionnent dans le langage humain. Le
systĂšme DNS est profondĂ©ment intĂ©grĂ© au fonctionnement dâInternet, puisque la
plupart des autres protocoles dâapplication Internet dĂ©pendent de lui pour repĂ©rer
les hĂŽtes Internet. Il sâagit aussi du seul protocole en rĂ©alitĂ© administrĂ©, plutĂŽt
que simplement codiïŹ Ă©, par une autoritĂ© centrale. ICANN rĂ©glemente le systĂšme
DNS surtout par délégation, mais sa structure administrative, son réseau de con-
trats avec le gouvernement américain et autres parties, ainsi que ses différentes
politiques, ont tous concouru à limiter le multilinguisme dans la désignation des
hÎtes Internet. Par conséquent, le systÚme DNS ne peut remplir son rÎle initial
de fournir des mnĂ©motechniques utiles aux hĂŽtes Internet. Des changements Ă
ICANN, au systĂšme DNS lui-mĂȘme ainsi quâaux politiques dâadministration des
noms de domaine sont tous requis pour améliorer cette situation.
69
3. Diversité linguistique sur Internet : examen des biais linguistiques
Les internautes considĂšrent les noms des hĂŽtes Internet de la mĂȘme façon
que les autres noms. Mais dans les faits, ils sont trÚs différents. Le systÚme DNS
requiert que les noms dâhĂŽtes sur Internet soient globalement uniques, alors que
dans une langue habituelle, il est peu probable quâun nom particulier sera unique
en raison des mĂ©taphores, du symbolisme et des acronymes. Lorsquâun domaine
« acl.org » est enregistrĂ© auprĂšs de lâAssociation of Christian Librarians, il nâest
plus disponible pour lâAssociation for Computational Linguistics ou toute autre
organisation au monde dĂ©sireuse de sâidentiïŹ er sous le mĂȘme acronyme.
AïŹ n dâappliquer lâunicitĂ© tout en permettant une ïŹ exibilitĂ© limitĂ©e, le sys-
tĂšme DNS a recours Ă des noms structurĂ©s hiĂ©rarchiquement : les noms dâhĂŽtes
individuels comportent des sĂ©ries de noms, en ordre de spĂ©ciïŹ citĂ© plus ou moins
grande. Le premier niveau de la hiĂ©rarchie est le dernier champ du nom ; il sâagira
dâun domaine de premier niveau gĂ©nĂ©rique ou de code du pays (domaine gĂ©nĂ©-
rique de premier niveau gTLD ou domaine national ccTLD) (TLD â Top-Level
Domain), qui sert de classiïŹ cateur gĂ©nĂ©ral. Cependant, on ne sait pas toujours
trĂšs bien quel classiïŹ cateur est pertinent Ă une ïŹ n particuliĂšre. En vertu de leurs
ententes avec ICANN, les domaines génériques de premier niveau TLD sont
supposĂ©s ĂȘtre administrĂ©s pour diffĂ©rentes fonctions : .com est rĂ©servĂ© aux sites
commerciaux, .net aux réseaux, .org pour les organisations à but non lucratif, et
les codes de pays doivent ĂȘtre administrĂ©s par les pays associĂ©s Ă leurs propres
ïŹ ns. Les noms de domaines gTLD sont cependant plus recherchĂ©s parce quâils
ont tendance Ă ĂȘtre courts et plus faciles Ă retenir. Puisquâil nâexiste quâun petit
nombre de domaines génériques de premier niveau (gTLD) et des centaines de
millions dâhĂŽtes, il est inĂ©vitable que des conïŹ its surgissent dans lâassignation des
noms de domaines.
En prĂ©sence de tels conïŹ its et leur rĂšglement, lâapproche de ICANN favo-
rise des marques de commerce légalement reconnues. Autrement, la premiÚre
partie Ă enregistrer un nom de domaine le conserve, en autant que lâenregistre-
ment est maintenu. Ceci ne favorise pas les inscrivants qui ne sont pas des déten-
teurs de marques de commerce, ou qui proviennent dâun petit milieu ou dâune
langue minoritaire. Les inscrivants internationaux ne sont pas particuliĂšrement
favorisĂ©s non plus si leur identitĂ© naturelle ressemble Ă un homographe dâun nom
de domaine dĂ©jĂ enregistrĂ©. Lorsquâun domaine est enregistrĂ©, des nĂ©gociations
dispendieuses ou des mesures lĂ©gales sont requises pour le modiïŹ er. Lâenregistre-
ment prĂ©alable de centaines de millions dâhĂŽtes en anglais entraĂźne ainsi un biais
Ă©vident Ă lâendroit des enregistrements dâhĂŽtes non anglophones, Ă©tant donnĂ©
70
Mesurer la diversité linguistique sur Internet
que plusieurs milliers de noms dâhĂŽtes souhaitables dans dâautres langues seront
des homographes dâhĂŽtes dĂ©jĂ enregistrĂ©s dans le domaine gĂ©nĂ©rique de premier
niveau (gTLD). En ce sens, dans le systĂšme DNS, lâattribution de marques de
commerce â un enjeu juridique amĂ©ricain reliĂ© au commerce â a prĂ©sĂ©ance sur
lâattribution multilingue transparente de noms, un enjeu international liĂ© Ă la
langue et aux communications. Cette fausse conception des priorités ne changera
pas tant que le systĂšme DNS ne relĂšvera pas dâune autoritĂ© complĂštement inter-
nationale, plutĂŽt que dâun organisme privĂ© ayant des liens contractuels avec le
gouvernement américain (ou autre).
La conception originale du systÚme DNS était fortement biaisée en faveur
de lâanglais, en ce sens quâil ne pouvait employer quâun codage 7 bits US-ASCII.
En ce sens, mĂȘme les langues europĂ©ennes telles que le français, lâespagnol et
lâallemand, qui ont recours Ă des signes diacritiques non US-ASCII, sont dĂ©sa-
vantagées quand vient le temps de choisir des noms souhaitables pour les hÎtes
Internet. Plusieurs organisations, telles que Multilingual Internet Names Consor-
tium (MINC), New.net et RealNames, ont tenté pendant des années de convaincre
ICANN de dĂ©velopper des alternatives au systĂšme DNS actuel, en vue dâoffrir
une meilleure assistance multilingue. Malgré le fait que ces groupes aient présenté
plusieurs propositions constructives méritant une étude plus attentive, ICANN a
opposĂ© beaucoup de rĂ©sistance. ICANN nâa adoptĂ© que rĂ©cemment une varia-
tion de lâUnicode, connue sous punycode, pour permettre les noms de domaines
multilingues, mais son dĂ©ploiement a fait lâobjet de lenteurs insatisfaisantes et de
lourdeurs politiques.
Lâaspect du nom de domaine attribuĂ© est surtout symbolique. NĂ©anmoins,
ce symbolisme est puissant et lâintransigeance de lâICANN Ă lâendroit des noms
de domaine multilingues a menĂ© Ă la perception globale que lâorganisme se
prĂ©occupe peu de lâinternationalisme ou de la diversitĂ© linguistique. MĂȘme si
ICANN a rĂ©cemment subi une rĂ©forme en profondeur et que son conseil dâad-
ministration se veut désormais plus international, il a perdu une grande partie
de la conïŹ ance publique sur la question des noms de domaines multilingues, et
il nâest pas trĂšs clair si ces changements permettront un systĂšme DNS Ă©quitable,
fonctionnel et international, ou si la conïŹ ance perdue pourra ĂȘtre rĂ©tablie.
Le rĂŽle des organisations telles ARIN, RIPE et APNIC de mĂȘme
que dâautres Centres dâinformation de rĂ©seaux (ou
Network Information Centers :
NIC) dans le biais linguistique Ă©mergeant est plus subtil que celui de ICANN.
71
3. Diversité linguistique sur Internet : examen des biais linguistiques
Ces organisations, dont lâadhĂ©sion est relativement ouverte, rĂ©gissent les intercon-
nexions physiques des rĂ©seaux rĂ©gionaux et locaux. Lâune de leurs tĂąches prin-
cipales est de maintenir lâespace adresse du protocole Internet (IP). Les numĂ©ros
IP sont des numĂ©ros de 32 bits servant Ă identiïŹ er personnellement chaque hĂŽte.
Comme les noms de domaines, les numĂ©ros IP sont assignĂ©s par lâentremise dâun
processus de dĂ©lĂ©gation Ă des intermĂ©diaires, pouvant Ă leur tour dĂ©lĂ©guer lâauto-
rité. Mais contrairement aux noms de domaines, chaque plage assignée corres-
pond Ă une branche physique du rĂ©seau, dont lâĂ©quipement associĂ© est utilisĂ© par
une seule autoritĂ©. Les numĂ©ros IP sont attribuĂ©s en plages, et puisque lâespace
adresse est Ă©ventuellement limitĂ©, chaque attribution possĂšde ses limites â les
mĂȘmes chiffres ne peuvent ĂȘtre assignĂ©s ailleurs plus tard, Ă moins de manipuler
cette partie du réseau.
Les rapports entre le rÎle des NIC et les enjeux liés à la diversité linguisti-
que sont attribuables Ă leur fonction en tant quâautoritĂ©s rĂ©gionales. Les ressources
de réseaux disponibles dans un pays ou un groupe linguistique particulier dépen-
dent des plages de numĂ©ros IP disponibles Ă lâautoritĂ© rĂ©gionale pertinente, et leur
allocation Ă dâautres groupes et pays. Une mauvaise allocation dâadresses ou une
plage rĂ©duite de lâespace disponible dĂšs le dĂ©part sont deux conditions pouvant
mener Ă une pĂ©nurie dâadresses pour les nouveaux hĂŽtes. La controverse a fait
rage, Ă savoir si lâAPNIC, dont les responsabilitĂ©s rĂ©gionales incluent lâOcĂ©anie,
lâAsie de lâEst et du Sud-est, avait sufïŹ samment dâespace pour continuer dâattri-
buer des plages IP au taux nĂ©cessaire. LâAPNIC nie lâexistence du problĂšme, mais
le spectre dâune crise est prĂ©occupant. On prĂ©voit dâamĂ©liorer les problĂšmes dâes-
pace adresse par la mise Ă niveau de la version IP 4 (IPv4) Ă la version IP 6 (IPv6),
qui utilise une plage plus Ă©tendue de numĂ©ros dâadresses, mais cette conversion
nécessitera plusieurs années en raison des incompatibilités techniques avec IPv4.
NĂ©anmoins, lâattribution de lâespace adresse IPv4 est trĂšs inefïŹ cace. De lar-
ges plages dâespace adresse sont dĂ©signĂ©es Ă des ïŹ ns spĂ©ciales ou entiĂšrement inu-
tilisables ; on les appelle « bogons » et lâon conserve soigneusement ces plages aïŹ n
que les administrateurs de systĂšmes puissent les surveiller Ă des ïŹ ns sĂ©curitaires
(voir http://www.cymru.com/Bogons/). MĂȘme lorsque les plages de bogons sont
masquées, un échantillon au hasard de 1 107 numéros IP a retourné 203 numé-
ros IP (18 %), apparemment allouĂ©s pour lâessai dâun protocole « multidiffusion »
rarement employĂ©. En dâautres mots, 18 % de lâespace adresse IP globalement
disponible Ă©tait bloquĂ© et inutilisable en raison dâune attribution inefïŹ cace. Dans
la mesure oĂč de telles inefïŹ cacitĂ©s peuvent survenir, et quâelles nuisent Ă lâespace
72
Mesurer la diversité linguistique sur Internet
adresse disponible aux autorités régionales, les groupes linguistiques locaux pour-
raient se voir privés de ressources Internet. Pour que les différentes langues aient
une chance raisonnable dâĂȘtre utilisĂ©es en ligne, lâadministration et lâattribution de
lâespace adresse Internet doivent aussi ĂȘtre Ă©quitables.
Les gouvernements nationaux peuvent jouer un rĂŽle Ă la fois favorable et
dĂ©favorable pour inïŹ uencer les biais linguistiques sur Internet. Dans la mesure
oĂč les gouvernements nationaux appliquent les politiques Ă lâintĂ©rieur de leurs
frontiÚres en vue de protéger et de promouvoir les droits linguistiques de leurs
citoyens multilingues (Skutnabb-Kanngas et Phillipson, 1995), les biais linguisti-
ques prĂ©existant dans ces pays sont freinĂ©s. Dans la mesure oĂč leurs politiques lin-
guistiques sont appliquĂ©es dans des domaines pertinents de la politique dâinforma-
tion, elles favorisent la diversité linguistique sur Internet. Mais les gouvernements
sont gĂ©nĂ©ralement plus prĂ©occupĂ©s par lâefïŹ cacitĂ© administrative et les risques du
séparatisme, et beaucoup de gens à travers le monde vivent sans garantie pour
leurs droits linguistiques les plus élémentaires. Quand des pays ne connectent avec
Internet au niveau international et demandent la conformité à leurs langues natio-
nales, ils favorisent les biais Ă©mergents Ă lâendroit de leurs propres minoritĂ©s ethno-
linguistiques, faisant peu en bout de ligne pour favoriser la cause de la diversité
linguistique en ligne. Si les groupes linguistiques nationaux espĂšrent occuper leur
propre niche dans lâethnosphĂšre des tĂ©lĂ©communications globales, ils doivent
donc reconnaĂźtre et sâattaquer Ă la diversitĂ© linguistique Ă lâintĂ©rieur de leurs fron-
tiĂšres nationales. Plus spĂ©ciïŹ quement, ils doivent sâefforcer dâinformer les citoyens
de tous les groupes linguistiques sur lâalphabĂ©tisation numĂ©rique requise pour
participer pleinement sur Internet. La prise de conscience ethno-linguistique des
sociĂ©tĂ©s de tĂ©lĂ©communications, dâinformatique, ainsi que les autoritĂ©s rĂ©gissant
Internet ne se développera que si une masse critique de groupes ethno-linguisti-
ques sous-représentés réussit à attirer leur attention. Ceci risque peu de survenir,
si la portée véritable de la diversité linguistique reste sous-évaluée.
Le biais linguistique Ă©mergent est un domaine de prĂ©occupation signiïŹ catif
pour la diversité linguistique sur Internet. Les aspects discutés ici ne sont que des
exemples, et non une liste complĂšte des biais Ă©mergents Ă©ventuels. Avec lâĂ©volution
des marchés des télécommunications, du matériel informatique et des logiciels,
tout comme celui des autorités régissant Internet, de nouveaux biais linguistiques
peuvent survenir. Puisquâils dĂ©coulent des contextes particuliers de la technologie
et de lâutilisation de la langue, les biais linguistiques Ă©mergents peuvent aussi ĂȘtre
de portée trÚs locale, et se manifester de façon particuliÚre seulement dans un pays
73
3. Diversité linguistique sur Internet : examen des biais linguistiques
donnĂ©. Par consĂ©quent, lâenjeu gĂ©nĂ©ral du biais linguistique Ă©mergent exige une
surveillance étroite aux niveaux international, régional et local.
Sources de biais techniques
Trois domaines de biais techniques, ayant différents rapports à la diversité lin-
guistique, sont pertinents aux efforts actuels dâinternationalisation en vertu des
trois orientations concrĂštes de lâUNESCO mentionnĂ©es plus haut. Dâabord, on
retrouve lâaspect des normes de codage, directement reliĂ© Ă lâorientation con-
crÚte numéro 10, favorisant la diversité linguistique et culturelle sur Internet.
Les codages de textes sont les principaux moyens techniques dâobtenir la diver-
sité linguistique avec cet outil de communication surtout textuel. De plus, on
retrouve lâaspect des langages de balisage et de programmation servant Ă crĂ©er
et maintenir les applications et le contenu Internet. Ces systĂšmes techniques
portent directement sur lâorientation concrĂšte numĂ©ro 9, favorisant lâalphabĂ©-
tisation numĂ©rique. Si celle-ci requiert lâalphabĂ©tisation dans une autre langue
comme prĂ©-requis, tant lâouverture que lâaccĂšs universels ne sont pas assurĂ©s.
Et ïŹ nalement, on retrouve les aspects du biais linguistique technique dans les
protocoles dâapplication dâInternet, relatifs aux orientations concrĂštes 9 et 10.
Pour favoriser lâaccĂšs aux technologies de lâinformation dans les pays en voie de
développement, les principales applications Internet (courrier électronique, navi-
gation hypertexte, messagerie instantanĂ©e, etc.) devraient permettre dâutiliser les
langues des pays concernĂ©s. Le cas contraire, les embĂ»ches Ă lâacceptation de la
technologie peuvent sâavĂ©rer prohibitifs. Ces trois domaines de biais techniques
sont discutés ci-dessous.
Codage
Les codages prĂ©cisent lâattribution arbitraire de chiffres aux symboles des langues
Ă©crites. Deux codages diffĂ©rents peuvent sâavĂ©rer incompatibles en assignant
le mĂȘme chiffre Ă deux symboles distincts, ou vice versa. AïŹ n de proïŹ ter de
lâavantage de la capacitĂ© informatique Ă manipuler les textes (par ex. afïŹ chage,
modiïŹ cation, tri, recherche et transmission efïŹ cace), les communications dâune
langue donnĂ©e doivent sâexprimer sous une forme quelconque de codage. Ainsi,
ce quâInternet peut vraiment offrir en termes de diversitĂ© linguistique se rĂ©sume
aux codages textuels disponibles.
74
Mesurer la diversité linguistique sur Internet
Le codage le plus couramment utilisĂ© est lâAmerican Standard Code for
Information Interchange (ASCII), un code mis au point durant les années 50 et 60
sous la direction de lâAmerican National Standards Institute (ANSI) aïŹ n de stan-
dardiser la technologie des téléscripteurs. Ce codage comprend 128 attributions de
caractĂšres et convient surtout Ă lâanglais nord-amĂ©ricain. Puisquâil fut dĂ©veloppĂ©
tĂŽt et adoptĂ© Ă grande Ă©chelle, la plupart des codages subsĂ©quents ont Ă©tĂ© dĂ©ïŹ nis
en fonction dâASCII, notamment lâISO-8859-1 de lâOrganisation internationale
de normalisation (aussi appelĂ© Latin-1) qui spĂ©ciïŹ e 256 codes dont les premiers
128 codes sont identiques Ă ASCII. Unicode, qui vise Ă fournir des codages com-
patibles pour toutes les langues Ă travers le monde (Consortium Unicode 1991,
1996, 2000, 2003), retient une stratégie semblable en faisant en sorte que les 256
premiers caractĂšres des 65536 caractĂšres du Basic Multilingual Plane (BMP) sont
identiques Ă ISO-8859-1. La plupart des technologies de soutien Internet repo-
sent sur lâASCII et ses dĂ©rivĂ©s. Des systĂšmes tels DNS, Usenet news et Internet
Relay Chat ne permettent dâutiliser quâun sous-ensemble des caractĂšres ASCII.
Les systĂšmes dâexploitation tels que Linus reposent largement sur les « ïŹ chiers
textuels plats ASCII » pour certaines de leurs fonctions les plus élémentaires. Tous
ces systĂšmes comportent un biais technique favorisant lâanglais.
Lâacceptation Ă©ventuelle dâUnicode constitue lâespoir le plus sĂ©rieux dâin-
ternationaliser lâinfrastructure dâInternet. Les efforts de standardisation ont Ă©tĂ©
entrepris par le Consortium Unicode, en collaboration avec ISO. Les adhérents
au Consortium Unicode sont dâimportants vendeurs de logiciels, des groupes reli-
gieux internationaux, des organisations rĂ©gionales vouĂ©es Ă lâĂ©ducation, ainsi que
des gouvernements nationaux. La norme Unicode (maintenant Ă sa version 4.0)
comporte plus dâun million de codes de caractĂšres possibles, permettant dâutiliser
toutes les langues modernes et anciennes dans un seul texte. Le basic multilingual
plane (BMP) comprend soixante-cinq mille caractĂšres, ce qui devrait sufïŹ re Ă la
plupart des communications Ă©crites. Mais une telle souplesse dâutilisation com-
porte des limites. Dans sa forme la plus élémentaire, UTF-32, le texte Unicode
exige quatre fois plus dâespace quâen format ASCII. Beaucoup de dĂ©veloppeurs
de logiciels soutiennent que les usagers nâaccepteraient pas cet inconvĂ©nient pour
les textes multilingues, surtout si lâordinateur est principalement utilisĂ© en contexte
monolingue.
24
Unicode offre dâautres codages de longueur variable plus efïŹ caces,
24
Ă savoir sâil sâagit de la vĂ©ritĂ© est une question importante qui nâa pas Ă©tĂ© abordĂ©e de façon satis-
faisante dans la littérature de recherche.
75
3. Diversité linguistique sur Internet : examen des biais linguistiques
mais les inconvĂ©nients sâappliquent aux textes nâĂ©tant pas en caractĂšres romains,
qui doivent occuper plus dâespace. MĂȘme si les coĂ»ts de stockage de donnĂ©es ont
largement diminuĂ© au cours de la derniĂšre dĂ©cennie (sufïŹ samment pour quâUni-
code soit moins problĂ©matique), le traitement dâUnicode continue de compliquer
signiïŹ cativement la tĂąche des dĂ©veloppeurs de logiciels, puisque la plupart des
applications exigent une interaction avec ASCII. De plus, les formats plus gros
de documents Unicode comportent des coûts de transmission, de compression et
de dĂ©compression, qui constituent un inconvĂ©nient sufïŹ sant pour dĂ©courager les
usagers dâUnicode dans certains cas.
MĂȘme si Unicode a permis des progrĂšs importants pour lâinternationali-
sation de lâinformatique, les problĂšmes liĂ©s au texte multilingue sur Internet sont
loin dâĂȘtre rĂ©solus. Pour diffĂ©rentes raisons dâordre technique, Ă©conomique et
organisationnel, le dĂ©veloppement dâune norme technique acceptable sâest fait
plus lentement que celui dâInternet lui-mĂȘme. Par consĂ©quent, le recours inter-
national Ă Internet a privilĂ©giĂ© les langues basĂ©es sur lâalphabet romain et surtout
lâanglais, qui a proïŹ tĂ© dâun codage standard largement reconnu avant mĂȘme la
popularitĂ© dâInternet. Pour quâInternet permette lâusage Ă©quivalent de toutes les
langues Ă travers le monde, il faudra quâUnicode soit plus rĂ©pandu. Comme câest
le cas pour le systĂšme DNS, il faudra peut-ĂȘtre mettre Ă niveau certains protocoles
Internet, aïŹ n quâils fonctionnent conjointement avec Unicode.
Langages de balisage et de programmation
Les « codes » informatiques â les langages de balisage et de programmation
â servant Ă conïŹ gurer le contenu et les services Internet constituent un autre biais
technique favorable Ă lâanglais et perpĂ©tuĂ© sur Internet. Le soutien au contenu
multilingue constitue le premier biais technique le plus Ă©vident. Les langages de
balisage tels que le langage de balisage hypertexte (HTML) et le langage de bali-
sage extensible (XML) doivent ĂȘtre en mesure de dĂ©crire le texte dans une gamme
complÚte de langues. Le World-Wide Web Consortium a stipulé ceci en exigeant
le soutien Unicode dans le cadre de ses normes. Ce qui signiïŹ e que lorsque le
soutien Unicode est dĂ©ïŹ cient, comme câest le cas avec la plupart des langues de
lâAsie de lâOuest, du Centre-Sud et du Sud-est, le soutien HTML et XML est
aussi dĂ©ïŹ cient. De la sorte, le biais envers certaines langues sâavĂšre uniforme pour
cette raison. Les langages de programmation doivent aussi devenir compatibles
avec le texte multilingue. Malheureusement, plusieurs langages de programma-
76
Mesurer la diversité linguistique sur Internet
tion couramment employĂ©s, tels que le langage C, nâoffrent pas encore le soutien
Unicode.
25
Un nombre croissant de langages conçus pour des applications Web
le font (notamment Java, JavaScript, Perl, PHP, Python et Ruby, qui sont tous
largement adoptés), mais le soutien des autres systÚmes tels les logiciels de bases
de donnĂ©es sâoriente davantage envers Unicode. La promesse du commerce Ă©lec-
tronique dans dâautres langues que lâanglais sous-entend que les bases de donnĂ©es
conformes à Unicode deviendront trÚs répandues.
Le biais en faveur de lâanglais se constate aussi dans la conception mĂȘme
des langages de balisage et de programmation. Les langages de programmation
constituent lâinterface humaine la plus Ă©lĂ©mentaire pour le contrĂŽle informatique,
agissant comme intermédiaire entre les processus cognitifs des programmeurs et
les capacités logiques des ordinateurs. Une surabondance de langages de pro-
grammation existe ; les estimations vont de 2 500 Ă plus que le nombre de langues
dans le monde. Mais en dépit de cette diversité apparente, la grande majorité
des langues tracent ultimement leur origine au FORTRAN, le premier langage
de programmation de haut niveau développé en 1957 par IBM (Lévénez, 2003).
Ces langages ont largement recours aux mots anglais pour dĂ©ïŹ nir dâimportantes
constructions de programmation, tels les conditionnels (
if, then, else, case,
etc.) et le
bouclage interactif (
while, for, until,
etc.). MĂȘme si beaucoup de langues possĂšdent
des Ă©quivalents pour ces mots, ils ne semblent jamais se substituer aux mots
anglais en code exécutable. Par exemple, Ruby, conçu par le programmeur japo-
nais Yukihiro Matsumoto avec un souci de lâinternationalisation, a aussi recours
aux mots anglais.
26
HTML et XML sont semblables à cet égard. Les balises HTML sont géné-
ralement des abrĂ©viations mnĂ©motechniques de mots anglais (par ex. b âboldâ,
ul âunordered listâ, li âlist itemâ, etc.). MĂȘme si XML nâest pas un langage de
balisage en soi, il sâagit dâune syntaxe pour dĂ©ïŹ nir les langages de balisage et tous
les langages de balisage Ă base XML reconnus sont basĂ©s sur lâanglais (par ex.
MathML, pour les expressions mathématiques, et XML:FO pour le formatage de
documents textuels), malgré le fait que la norme XML soit basée sur Unicode.
Cette tendance sâest poursuivie avec le projet de dĂ©veloppement du Web sĂ©man-
25
Le site Web de International Components for Unicode (ICU) offre une bibliothĂšque C libre accĂšs
qui aide au soutien Unicode (http://oss.software.ibm.com/icu/).
26
Voir http://www.ruby-lang.org/ja/uguide/uguide03.html, contenant un Ă©chantillon de pro-
gramme de Rudy intĂ©grĂ© Ă une page de texte japonais utilisant trois autres systĂšmes dâĂ©criture.
77
3. Diversité linguistique sur Internet : examen des biais linguistiques
tique (Semantic Web), visant à fournir un raisonnement « connu de tous » sur le
Web. On prĂ©voit avoir recours Ă dâimportantes bases de donnĂ©es dâintelligence
artiïŹ cielle telles que Cyc (Reed et Lenat, 2002) et WordNet (Fellbaum et Miller,
1998) aïŹ n de dĂ©velopper de nouveaux balisages qui aideront les programmes
Internet Ă trouver et Ă traiter lâinformation pour les usagers. Ces bases de don-
nĂ©es ont dĂ©jĂ Ă©tĂ© critiquĂ©es dans une perspective culturelle de lâhĂ©misphĂšre Nord
comme comportant des biais sexistes et androcentriques (Adam, 1998). En outre,
elles comportent sûrement aussi des biais culturels. En ce sens, des projets tels
le Web sémantique, qui promettent de fournir la « prochaine génération » de
services dâinformation Internet, menacent de renforcer encore davantage les biais
linguistiques et culturels déjà existants.
Il faut tenir compte du potentiel de biais linguistique dans les langages
de programmation et de balisage, tout comme de la nature culturelle du calcul
informatisĂ©. Le calcul informatisĂ© moderne dĂ©rive de plusieurs siĂšcles dâappren-
tissage mathématique, et sa diffusion actuelle est comparable à celle du systÚme
des nombres dĂ©cimaux, tant par sa nature que son importance. Lâinvention dans
le nord de lâInde des nombres dĂ©cimaux date environ du 7
e
siĂšcle aprĂšs J.C. et
sâest rĂ©pandue partout, remplaçant la plupart des autres systĂšmes numĂ©riques.
Toutefois, la diffusion culturelle des nombres dĂ©cimaux nâexigea pas lâimportation
du vocabulaire ; plusieurs langues modiïŹ Ăšrent toutefois leurs vocabulaires numĂ©-
riques existants aïŹ n dâintĂ©grer cette nouvelle pratique. Lâinformatique dĂ©veloppe
davantage le principe de nombres décimaux en automatisant leur traitement.
Cependant, contrairement à la diffusion des nombres décimaux, la popularité des
ordinateurs sâest accompagnĂ©e de vocabulaires anglais lourds et complexes â les
langages de programmation.
Il ne fait aucun doute quâen tant quâartefact physique, lâordinateur joue un
rĂŽle dans ce rapport en associant les symboles aux actions. Le couplage exact des
symboles et des actions reste arbitraire, de sorte que tout langage pourrait ĂȘtre
utilisĂ©, mais sâavĂšre aussi sufïŹ samment complexe quây parvenir nâest pas Ă©vident.
En ce sens, une vaste question pour la diversitĂ© linguistique nâa pas Ă©tĂ© adĂ©qua-
tement posée dans la littérature de recherche : dans quelle mesure les différentes
caractéristiques des langages de programmation facilitent-elles leur acquisition et
leur utilisation par les personnes parlant diverses langues ?
27
Les effets du trans-
fert chez une personne parlant une langue et qui en apprend une autre sont bien
27
Voir Anis (1997) pour des suggestions en ce sens.
78
Mesurer la diversité linguistique sur Internet
connus. On pourrait supposer que les langages de programmation, Ă©tant en soi
des systĂšmes linguistiques formels, pourraient faire lâobjet dâun transfert semblable
menant Ă des difïŹ cultĂ©s ou des erreurs systĂ©miques chez les personnes de diverses
origines linguistiques. Les propriétés conceptuelles des langages de programma-
tion varient grandement. Est-il possible que les personnes parlant une certaine
langue soient mieux servies par des langages de programmation dont les carac-
téristiques correspondent à leur propre langue ? Les langages de programmation
pourraient possiblement ĂȘtre conçus pour reïŹ Ă©ter le raisonnement de diffĂ©rentes
traditions culturelles et linguistiques. De telles adaptations aideraient-elles ces gens
Ă contrĂŽler leurs propres ressources en technologie de lâinformation ?
LâUNESCO et les autres agences des Nations Unies ont un besoin pressant
dâobtenir des rĂ©ponses Ă ces questions, en vue dâatteindre les objectifs Ă©ducatifs
requis pour favoriser la diversité linguistique. Grùce à la programmation infor-
matique, la langue devient puissante et animĂ©e, ayant le potentiel de redĂ©ïŹ nir les
cultures. Malheureusement, câest surtout lâanglais qui est prĂ©sentement animĂ©
de cette façon. Si lâalphabĂ©tisation numĂ©rique des langages de programmation
informatique exige la connaissance linguistique ou culturelle de lâanglais, les
personnes parlant dâautres langues doivent ultimement porter le lourd fardeau
des coĂ»ts Ă©ducatifs et possiblement culturels aïŹ n de sâapproprier les ressources
dâinformation sur Internet.
Modes de communication
MĂȘme si la plupart des gens connaissent Internet par lâentremise du Web (certains
croient quâils sont synonymes), il sâagit en fait dâun environnement plus hĂ©tĂ©rogĂšne
offrant une variété de modes de communication. De plus, de par sa conception,
Internet permet la création et le déploiement à peu de frais de nouveaux modes
de communication. Alors que nous utilisons Ă lâheure actuelle le courrier Ă©lec-
tronique, le Web et les messages instantanés sur Internet, nous ignorons tout des
utilisations éventuelles dans un avenir rapproché. Certains modes de communica-
tion sont nĂ©anmoins devenus largement rĂ©pandus, et il arrive quâils intĂšgrent des
formes techniques de biais linguistique.
Lâun de ces modes de communication est Usenet News, dâabord crĂ©Ă© en
1978 pour mettre en réseau les systÚmes informatiques de trois universités (Spen-
cer et Lawrence, 1998). Usenet regroupe des centaines de « forums »
(newsgroups),
79
3. Diversité linguistique sur Internet : examen des biais linguistiques
des espaces de messages publics dont les noms suggĂšrent un contenu local. Le
serveur et le logiciel client de Usenet sont accessibles gratuitement, et sa gestion est
largement ouverte. Les administrateurs de Usenet peuvent régler individuellement
la quantitĂ©, le taux et la frĂ©quence du partage des messages avec dâautres serveurs,
de façon Ă optimiser facilement lâaccĂšs au rĂ©seau dans les rĂ©gions Ă faible connec-
tivité. De la sorte, les obstacles pour accéder à Usenet sont relativement faibles.
Usenet constitue une ressource extrĂȘmement importante Ă lâĂ©chelle internationale.
En 1999, 205 pays Ă travers le monde avaient accĂšs Ă Usenet (Smith, 1999).
Sur le plan technique, Usenet reprĂ©sente un microcosme dâInternet.
Sa sĂ©quence de dâattribution de noms des forums est hiĂ©rarchique et a recours Ă
un sous-ensemble dâASCII, tout comme pour le systĂšme DNS. Usenet possĂšde
des hiérarchies de premier niveau, ainsi que des hiérarchies locales, régionales
et nationales.
28
Les messages textuels doivent rester compatibles avec ASCII.
Les textes chinois et japonais ont recours à des codages spéciaux sur Usenet.
Comme ailleurs sur Internet, lâanglais a primautĂ© dans les hiĂ©rarchies gĂ©nĂ©riques
de premier niveau. Par exemple, dans la hiérarchie comp., la catégorie générique
servant Ă lâafïŹ chage de systĂšmes informatiques, on retrouve peu, sinon aucun
afïŹ chage en japonais, mĂȘme sur comp.lang.ruby. Câest seulement sur la hiĂ©rarchie
fj.comp que lâon retrouve des discussions techniques et scientiïŹ ques sur lâinforma-
tique en japonais. La sous hiĂ©rarchie soc.culture fournit aussi de lâespace pour le
traïŹ c multilingue, mais surtout dans les langues europĂ©ennes. Ainsi, en dĂ©pit de
son faible coĂ»t dâaccĂšs pour les pays ayant des ressources trĂšs limitĂ©es, Usenet est
faiblement internationalisé et comporte beaucoup de biais techniques favorisant
lâanglais, dont certains entraĂźnent dâautres biais Ă©mergents.
Un autre mode de communication devenu populaire au début des années
90 est le service de clavardage IRC
(Internet Relay Chat),
un mode de communi-
cation synchrone multipartite en temps réel. Les participants sur un canal de
clavardage communiquent entre eux en temps rĂ©el, un peu comme lors dâune
confĂ©rence tĂ©lĂ©phonique, Ă lâexception que la conversation est enregistrĂ©e.
Les serveurs IRC en réseau peuvent héberger ces milliers de canaux et il est
fréquent de retrouver sur les réseaux IRC tels EFNet ou UnderNet des canaux
de clavardage abordant des thĂšmes culturels, rĂ©gionaux ou nationaux, et dâatti-
rer des participants de partout Ă travers le monde (Paolillo, 2001). Le service de
clavardage IRC provient du nord de lâEurope, de sorte que certaines caractĂ©ris-
28
Lâespace nom Usenet, tout comme lâespace nom DNS, a aussi fait lâobjet dâabus sĂ©rieux.
80
Mesurer la diversité linguistique sur Internet
tiques â notamment les caractĂšres attribuĂ©s dans les messages textuels ainsi que
les noms des participants â diffĂšrent de ceux de Usenet. Toutefois, le soutien au
texte multilingue nâest pas meilleur avec IRC quâavec Usenet. Dans les faits, les
diffĂ©rences dâafïŹ chage entre les ordinateurs utilisant lâanglais amĂ©ricain et ceux
du nord de lâEurope causent des problĂšmes Ă©vidents (par exemple, la substitution
de caractĂšres de ponctuation en faveur des caractĂšres Ă voyelle diacritique dans
les noms et les mots scandinaves).
Ainsi, en dĂ©pit de lâattrait de ces deux systĂšmes sur le plan international,
ils comportent des défauts provenant des biais linguistiques découlant de leur con-
ception mĂȘme. Ăvidemment, les nouveaux modes de communication tels la mes-
sagerie instantanée, le blogage, le clavardage et autres apparaissent constamment.
MĂȘme si certains de ces modes de communication comportent des caractĂ©risti-
ques de conception particuliÚres tels XML et Unicode, le stade de développement
de ces normes est tel que seulement une faible partie de la population mondiale et
des langues Ă travers le monde bĂ©nĂ©ïŹ cient de ces technologies Ă lâheure actuelle.
Certains partisans de la technologie peuvent espĂ©rer encore dâautres protocoles
de communications, telles que la voix sur IP, ou les interfaces multimodes. MĂȘme
si ces technologies parviennent Ă rĂ©soudre certains enjeux linguistiques, dâautres
se poursuivront, comme lâassistance aux personnes aveugles ou malentendantes.
De plus, les biais techniques déjà existants renforcent les biais émergents associés
Ă la dĂ©mographie, Ă lâĂ©conomie et autres. AïŹ n de minimiser les biais linguistiques
sur Internet, on devrait examiner de prĂšs les nouveaux modes de communications
pour dĂ©couvrir tout biais technique potentiel avant de permettre leur adoption Ă
grande Ă©chelle.
Beaucoup de technophiles ont exprimĂ© lâespoir que la traduction automa-
tique soit la réponse aux problÚmes de communications multilingues sur Internet.
Les services de traduction offerts par des sociétés comme Systran, le fournisseur
du systĂšme de traduction BabelFish, sont trĂšs en demande et dans certains cas,
notamment du catalan Ă lâespagnol, la traduction automatique a Ă©tĂ© suggĂ©rĂ©e
comme la rĂ©ponse qui sâimpose aux problĂšmes de communication (Climent et
autres, 2004). Les gens pourront-ils un jour accéder à Internet dans leur propre
langue, en recourant tout simplement Ă lâun des systĂšmes de traduction en ligne ?
Cette question sâavĂšre trop optimiste pour plusieurs raisons.
En premier lieu, un systĂšme de traduction automatique assume que les
problÚmes plus courants de représentation et de formulation du texte dans la
81
3. Diversité linguistique sur Internet : examen des biais linguistiques
langue sont dĂ©jĂ rĂ©glĂ©s, alors que pour beaucoup de langues, ce nâest pas le cas.
Ensuite, la conception mĂȘme du systĂšme de traduction automatique nĂ©cessite
énormément de travail. Des problÚmes particuliers peuvent survenir en traduction
entre des combinaisons de deux langues, qui doivent ĂȘtre rĂ©solus pour ces langues
seulement. La traduction des diffĂ©rentes langues Ă travers le monde sâavĂšre donc
un dĂ©ïŹ qui nâest pas prĂšs dâĂȘtre rĂ©solu dans un avenir rapprochĂ©. De plus, la
conception des systÚmes de traduction automatique exige de grandes quantités
de contenus dans les langues Ă traduire
29
; Ă lâheure actuelle, ces contenus sont
recueillis sur les sites Web des langues Ă traduire (Grefenstette, 1999 ; Resnik,
1999), et doivent donc ĂȘtre crĂ©Ă©s par des locuteurs natifs. Ceci ne peut survenir Ă
moins dâun soutien technique adĂ©quat pour la langue. En dernier lieu, la traduc-
tion automatique nâest jamais de qualitĂ© Ă©quivalente Ă celle produite par un tra-
ducteur humain (Kay et autres, 1993). Les utilisateurs de systĂšmes de traduction
automatique doivent adapter les restes inappropriés de vocabulaire et de séquen-
ces de mots qui ne reprĂ©sentent quâune forme indirecte du biais linguistique qui a
nécessité la traduction en premier lieu. Par conséquent, nous ne pouvons espérer
que lâapproche technologique dâun systĂšme de traduction automatique rĂ©duira les
problÚmes de biais linguistique de façon substantielle sur Internet.
Conclusions
Lâexploration des sources potentielles de biais effectuĂ©e dans la discussion qui
précÚde constate plusieurs sources de biais linguistique sur Internet, tant préexis-
tant que technique ou émergent. Par conséquent, la réponse à la question posée,
Ă savoir sâil existe un biais linguistique sur Internet, ne peut ĂȘtre quâafïŹ rmative.
Les principales conséquences des biais sont de favoriser les langues trÚs répan-
dues, ayant des normes techniques bien dĂ©ïŹ nies. Il est Ă noter que lâanglais est
probablement la premiĂšre de ces langues en sâavĂ©rant â non par coĂŻncidence
â la langue des inventeurs dâInternet et des projets de recherche prĂ©cĂ©dents.
Toutefois, il est aussi Ă©vident que les causes et les effets des biais sont subtils,
diversiïŹ Ă©s et dans beaucoup de cas, imprĂ©visibles. Si lâUNESCO dĂ©sire sĂ©rieu-
sement sâattaquer au biais linguistique sur Internet, il faut faire davantage pour
sâinformer, tout comme les principaux agents de dĂ©veloppement sur Internet, des
29
On ne peut utiliser nâimporte quel texte. RĂšgle gĂ©nĂ©rale, des textes bilingues alignĂ©s phrase par
phrase sont requis. La préparation est coûteuse et non disponible pour toutes les combinaisons
de deux langues.
82
Mesurer la diversité linguistique sur Internet
manifestations des biais linguistiques ainsi que de lâimportance et de lâintĂ©rĂȘt de
la diversité linguistique.
Glossaire
ACM.
Association for Computing Machinery. Le plus important regroupement
international de professionnels de lâinformatique. LâACM comprend plusieurs
groupes dâintĂ©rĂȘts spĂ©ciaux actifs sur les aspects techniques, sociaux et de politi-
ques des rĂ©seaux informatiques et dâordinateurs.
APNIC.
Centre dâinformation du rĂ©seau Asie-PaciïŹ que
(Asia-PaciïŹ c Network Infor-
mation Center).
Le Centre dâinformation de rĂ©seau supervise le fonctionnement
dâInternet en Asie et dans le PaciïŹ que. Ses activitĂ©s sâĂ©tendent Ă lâAustralie,
Chine, Japon, Corée, Indonésie, Malaisie ainsi que toutes les ßles indépendantes
du PaciïŹ que.
ARIN.
American Registry for Internet Numbers. Centre dâinformation de
rĂ©seau supervisant le fonctionnement technique dâInternet en AmĂ©rique du
Nord.
ASCII.
Code standard amĂ©ricain pour lâĂ©change dâinformation
(American Stan-
dard Code for Information Interchange).
Une des premiĂšres normes Ă sept bits pour le
codage textuel informatisé et supportée de façon omniprésente par la plupart des
applications informatiques. La plupart des codages textuels modernes, y com-
pris Unicode, sont conçus pour ĂȘtre rĂ©trocompatibles avec ASCII, dont les sept
bits permettent le codage de 128 caractĂšres distincts. LâASCII Ă©tendu
(Extended
ASCII)
est un prolongement Ă huit bits de lâASCII qui ne possĂšde aucune norme.
DiffĂ©rents marchands supportent diffĂ©rentes versions de lâASCII Ă©tendu qui sont
mutuellement incompatibles.
Biais Ă©mergent.
Pour Friedman et Nissenbaum (1997), biais rĂ©sultant de lâinte-
raction des systĂšmes techniques dans des contextes sociaux particuliers.
Biais préexistant.
Pour Friedman et Nissenbaum (1997), tout biais entraßné par
des causes exclusivement sociales, antĂ©rieures Ă lâapplication particuliĂšre dâune
technologie oĂč le biais se manifeste.
83
3. Diversité linguistique sur Internet : examen des biais linguistiques
Biais technique
. Pour Friedman et Nissenbaum (1997), tout biais inhérent à un
systĂšme technique. Le biais de lâASCII en faveur de lâanglais amĂ©ricain constitue
un exemple de biais technique.
BMP.
Basic Multilingual Plane. Partie des valeurs du code Unicode comprenant
les codes de tous les caractĂšres dâĂ©criture les plus couramment utilisĂ©s Ă travers
le monde.
ccTLD.
Domaine de premier niveau de code de pays
(Country-Code Top-Level
Domain).
Domaines de premier niveau associés à des pays particuliers. Les ccTLD
sont semblables aux codes de pays ISO-3166. Par exemple, .uk (Royaume-Uni)
et .za (Afrique du Sud).
CMC.
Communication assistée par ordinateur
(Computer-Mediated Communication).
Communication assistée par ordinateur
Communication assistée par ordinateur
Communication entre humains sâeffectuant par le biais dâordinateurs en rĂ©seaux.
CNNIC.
Centre dâinformation du rĂ©seau chinois
(China Network Information Center).
Centre dâinformation de rĂ©seau supervisant le fonctionnement technique dâInter-
net en Chine.
DNS.
SystĂšme de noms de domaine
(Domain-Name System).
SystĂšme technique
administrĂ© par ICANN et permettant lâattribution de codes mnĂ©motechniques
aux ordinateurs en réseaux.
Domaine (nom)
. Nom enregistré dans le systÚme des noms de domaine (DNS)
et servant à référer à un ordinateur hÎte Internet. Les noms de domaine sont
attribués à des organisations pouvant à leur tour les assigner à des ordinateurs
ou ensembles dâordinateurs spĂ©ciïŹ ques, en collaboration avec les fournisseurs de
services de réseau sous contrat.
Registre de noms de domaine.
Organisation sous contrat avec ICANN et
administrant certaines parties de lâespace nom DNS. Un registre est gĂ©nĂ©ralement
en charge de lâentretien dâun ou plusieurs domaines de premier niveau (TLD).
Verisign et Educause sont des exemples de registres de noms de domaine.
Ethnologue.
Base de données maintenue par SIL International (Barbara Gri-
mes, ed.) et enregistrant les données descriptives générales de toutes les popula-
tions linguistiques connues Ă travers le monde.
84
Mesurer la diversité linguistique sur Internet
GPL.
Licence GPL
(Gnu Public License).
Licence régissant certains logiciels libres
aïŹ n de protĂ©ger les droits dâauteur tout en permettant lâaccĂšs libre du code source
du logiciel aux développeurs.
gTLD.
Domaine générique de premier niveau
(Generic Top-Level Domain).
Domaine
de premier niveau assignĂ© Ă des ïŹ ns « gĂ©nĂ©riques » sans nĂ©cessairement rĂ©fĂ©rer Ă
un pays en particulier. Parmi les gTLD connus, on retrouve .com, (commercial)
.edu (Ă©ducation supĂ©rieure accrĂ©ditĂ©e aux Ă.-U.), .mil (armĂ©e amĂ©ricaine), .net
(fournisseurs de réseaux), .org (organisations sans but lucratif), etc.
HĂŽte, hĂŽte Internet.
Tout ordinateur relié à Internet.
HTML.
Langage de balisage hypertexte
(Hypertext Markup Language).
Langage de
balisage permettant le formatage de pages Web. Langage simple bien compris par
les internautes et les logiciels, et dont la norme est maintenant maintenue par le
consortium W3C.
IANA.
(Internet Assigned Numbers Authority)
. Branche dâInternic, anciennement res-
ponsable de lâinscription des nouveaux sites au rĂ©seau Internet.
ICANN.
(Internet Corporation for Assigned Names and Numbers).
Organisation en par-
tenariat public privé qui supervise le systÚme DNS.
Internet.
Réseau informatique international résultant de la liaison de ARPA-
NET aux autres réseaux informatiques régionaux.
IPv4.
IP version 4. Version IP la plus couramment utilisĂ©e Ă lâheure actuelle,
et caractĂ©risĂ©e par les numĂ©ros dâadresse de 32 bits pour chaque hĂŽte Internet.
Lâespace adresse sous Ipv4 est limitĂ©, en ce sens quâInternet passe prĂ©sentement
de la version IPv4 Ă IPv6.
IPv6.
Version 6 du protocole IP. Cette version de « nouvelle génération » du pro-
tocole Internet a recours Ă des adresses de 128 bits. Le soutien Ă Ipv6 sâĂ©tend Ă
plusieurs applications en rĂ©seau, mais son dĂ©ploiement reste pour lâinstant limitĂ©,
puisque les applications IPv4 sont incompatibles avec les hĂŽtes IPv6.
IRC.
Service de clavardage sur Internet
(Internet Relay Chat),
un protocole dâappli-
cation permettant des communications simultanées, en temps réel, entre plusieurs
85
3. Diversité linguistique sur Internet : examen des biais linguistiques
internautes sur Internet. La plupart des programmes de « clavardage », y compris
plusieurs programmes propriĂ©taires, sont largement inspirĂ©s dâIRC. On compte
beaucoup de rĂ©seaux IRC utilisĂ©s surtout Ă des ïŹ ns personnelles par des millions
dâinternautes Ă travers le monde.
ISO-8859-1, Latin-1.
Codage textuel standard de huit bits supportant la plupart
des langues europĂ©ennes dĂ©rivĂ©es de lâalphabet romain.
Langage de balisage.
SystÚme destiné à introduire le formatage ou autres codes
(« balisage ») dans des documents textuels, de façon à formater ou interpréter le
texte avec un appareil comprenant le balisage. HTML est un exemple de langage de
balisage, mais dâautres langages comme SVG (Scalable Vector Graphics) fonction-
nent de façon semblable tout en effectuant des fonctions différentes. Voir XML.
Localisation linguistique
(localisation).
La localisation est l'adaptation culturelle
d'un produit ou d'un service pour assurer son respect des exigences légales et
socioculturelles spĂ©ciïŹ ques Ă un marchĂ© cible. La localisation implique l'adapta-
tion d'un produit Ă un marchĂ© spĂ©ciïŹ que lors d'un processus qui va bien au-delĂ
de la traduction classique et qui prend en considération les usages contemporains
et familiers d'une langue et les nuances culturelles, telles que les rĂšgles de nota-
tion et les diffĂ©rences de signiïŹ cation de symboles, d'associations de couleurs et
d'options de paiement.
NIC.
Centre dâinformation de rĂ©seau
(Network Information Center).
Organisation
technique chargĂ©e de superviser le fonctionnement technique dâInternet sur le
plan rĂ©gional ou local. On retrouve trois principaux Centres dâinformation de
rĂ©seau rĂ©gionaux : ARIN, RIPE et APNIC, respectivement pour lâAmĂ©rique du
Nord, lâEurope et lâAsie.
Protocole.
Ensemble de messages et de rĂšgles standardisĂ©es dâĂ©change de mes-
sages entre ordinateurs en réseau. Les protocoles sont complexes et sont généra-
lement mentionnĂ©s en terme de « couches » : la couche dâapplication, la couche
de liaison, etc.
Protocole dâapplication.
Protocole de réseau habituellement employé par un
usager de lâordinateur. Les protocoles dâapplication servent gĂ©nĂ©ralement Ă des
ïŹ ns particuliĂšres sur le rĂ©seau, notamment lâĂ©change de ïŹ chiers ou de courrier
entre les ordinateurs.
86
Mesurer la diversité linguistique sur Internet
Protocole IP.
Protocole Internet
(Internet Protocol).
Voir TCP/IP.
RIPE.
RĂ©seaux IP EuropĂ©ens. Centre dâinformation de rĂ©seau supervisant le
fonctionnement technique dâInternet en Europe.
SGML.
Langage général de balisage
(Standard Generalized Markup Language).
Langage de dĂ©ïŹ nition du langage de balisage et normalisĂ© dans le domaine de
lâimprimĂ©. Le HTML fut dĂ©veloppĂ© Ă lâorigine en tant quâapplication SGML.
TCP/IP.
Protocole de gestion de transmission/protocole Internet
(Transmission
Control Protocol/Internet Protocol).
Principal ensemble de protocoles servant au
fonctionnement dâInternet. TCP et IP sont des « couches » indĂ©pendantes de
protocoles de réseautage Internet qui concernent différents aspects du fonction-
nement du réseau, mais utilisées conjointement le plus souvent.
Vitalité ethnolinguistique.
Le potentiel de survie dâune communautĂ© ethno-
linguistique.
Vitalité technolinguistique.
Potentiel dâune communautĂ© ethnolinguistique Ă
proïŹ ter des technologies, surtout celles liĂ©es Ă lâinformation, et dâutiliser sa langue
avec ces technologies. En analogie à la vitalité ethnolinguistique.
TIC (ICT).
Technologie dâinformation et de communication. Toute technologie
servant Ă traiter ou Ă transmettre lâinformation.
TLD.
Domaine de premier niveau
(Top-Level Domain).
Nom de domaine directe-
ment attribué par ICANN à un registre de nom de domaine regroupant plusieurs
hĂŽtes reliĂ©s, gĂ©nĂ©ralement par pays ou Ă des ïŹ ns organisationnelles.
Consortium Unicode.
Consortium supervisant le développement de Unicode.
Unicode.
Codage de caractÚres de 64 bits actuellement en développement, et
visant à fournir un outil technique standard pour représenter les caractÚres de
toutes les langues écrites au monde. Unicode est développé en collaboration avec
lâOrganisation internationale de normalisation (ISO) et le consortium W3C, aïŹ n
dâassurer que les normes de ces trois organisations seront compatibles.
RĂ©seau
Usenet (nouvelles).
Application dâĂ©change de messages (« nouvelles ») Ă
afïŹ chage public et Ă grande diffusion parmi les internautes en rĂ©seaux. DĂ©ïŹ nit
87
3. Diversité linguistique sur Internet : examen des biais linguistiques
aussi toutes les nouvelles ou lâensemble des nouvelles Ă©changĂ©es de cette façon.
Usenet est important pour Internet, puisquâil sâagit dâun protocole Ă faible coĂ»t,
facilement implanté, pouvant servir au courrier électronique et ne requérant
aucune connexion de rĂ©seau Ă cette ïŹ n. En ce sens, câest souvent la premiĂšre
application Internet Ă atteindre un nouvel emplacement.
UTF-8, UTF-16, UTF-32.
Codages de caractĂšres Unicode recourant Ă des uni-
tés de 8, 16 et 32 caractÚres respectivement. UTF-8 et UTF-16 sont des codes de
largeur variable, en ce sens que certains caractĂšres exigent plus quâune unitĂ© de
8 ou 16 bits pour le codage. UTF-32 est un code de largeur ïŹ xe, en ce sens que
tous les caractĂšres permettent le codage Ă 32 bits.
W3C.
Consortium World-Wide Web. Consortium supervisant le développement de
protocoles, langages de balisage et autres normes techniques se rapportant au Web.
World-Wide Web.
(« le Web ») Application servant à échanger des documents,
programmes et contenus multimĂ©dias formatĂ©s sur Internet. DĂ©ïŹ nit aussi lâensem-
ble des documents et le contenu disponible par le truchement de la Toile. Le Web
est lâapplication la plus connue dâInternet, en raison de la facilitĂ© avec laquelle le
navigateur Web effectue des recherches de documents et autres contenus.
XML.
Langage de balisage extensible
(Extensible Markup Language).
Langage de
dĂ©ïŹ nition du langage de balisage, une version simpliïŹ Ă©e de SGML, visant Ă four-
nir de lâinformation sur la Toile plus adaptĂ©e que HTML, et permettant de dĂ©ïŹ nir
plusieurs types de balisages. Les langages de balisage actuels dĂ©ïŹ nis dans XML
incluent ceux pour le contenu Web (XHTML), les graphiques (Scalable Vector
Graphics [SVG]), les équations mathématiques (MathML), la musique (MML,
MusicML) et beaucoup dâautres applications.
REFERENCES
Adam, A. 1998.
ArtiïŹ cial Knowing: Gender & the Thinking Machine.
London: Routledge.
Anis, J. 1997. A Linguistic Approach to Programming.Arob@se, 1.2.
http://www.liane.net/arobase
Androutsopoulos, J. 1998. Orthographic variation in Greek e- mails: a ïŹ rst approach.
Glossa
46, S. pp. 49-67.
88
Mesurer la diversité linguistique sur Internet
Barrera-Bassols, N. and Zinck, J.A. 2002. Ethnopedological research : a worldwide review. In
17th World congress of soil science CD-ROM proceedings: Confronting new realities in the 21st cen-
tury.
590.1-590.12. Bangkok: Kasetsart University.
(http://www.itc.nl/library/Papers/arti_conf_pr/barrera.pdf).
Block, D. 2004. Globalization, transnational communication and the Internet.
International
Journal on Multicultural Societies,
Vol. 6,No.1, pp.13-28.
Climent, S., J. Moré, A. Oliver, M Salvatierra, I Sà nchez, M. Taulé and L. Vallmanya. 2004.
Bilingual Newsgroups in Catalonia: A Challenge for Machine Translation.
Journal of Com-
puter-Mediated Communication,
Vol. 9, No.1. http://www.ascusc.org/jcmc/
Crystal, D. 2000.
Language Death.
Cambridge: Cambridge University Press.
â. 2001.
Language and the Internet.
Cambridge: Cambridge University Press.
â. 2003.
English as a Global Language, Second Edition.
Cambridge: Cambridge University Press.
Dalby, A. 2003.
Language in Danger.
New York: Columbia University Press.
Dunker, E. 2002. Cross-cultural usability of the library metaphor.
Proceedings of the second ACM/
IEEE-CS joint conference on Digital libraries.
Portland, OR.
Durham, M. 2004. Language Choice on a Swiss Mailing List.
Journal of Computer-Mediated Com-
munication
9.1. http://www.ascusc.org/jcmc/
Fellbaum, C., and G. Miller. 1998.
WordNet: An Electronic Lexical Database.
Cambridge, MA: MIT
Press.
Ferguson, C. A. 1959. Diglossia.
Word,
15, pp.325-340.
Friedman, B. and H. Nissenbaum. 1995. Minimizing bias in computer systems.
Conference com-
panion on Human factors in computing systems,
444. ACM Press.
Friedman, B. and H. Nissenbaum. 1997. Bias in computer sys tems. In Friedman, B., ed.
Human
Values and the Design of Computer Technology,
pp.21-40. Stanford, California. Cambridge ; New
York, CSLI Publications; Cambridge University Press.
â. 1997. Self-presentation and interactional alliances in e-mail discourse: the style- and code-
switches of Greek messages,
International Journal of Applied Linguistics
7: pp.141-164.
Georgakopolou, A. (Forthcoming). On for drinkies? E-mail cues of participant alignments. In S.
Herring (ed.),
Computer-Mediated Conversation.
Global Reach. 1999-2005. Global internet statistics by language. Online marketing information.
http://global-reach.biz/globstats/index.php3
Greenberg, J. 1956. The measurement of linguistic diversity.
Language,
Vol. 32, No.2, pp.109-
115.
Grefenstette, Gregory. 1999. The WWW as a resource for example-based MT tasks. Paper
presented at ASLIB âTranslating and the Computerâ conference, London.
89
3. Diversité linguistique sur Internet : examen des biais linguistiques
Grimes, J. E. 1986. âArea norms of language size.â In B.F. Elson, ed.,
Language in global perspective:
Papers in honor of the 50th anniversary of the Summer Institute of Linguistics,
1935-1985, pp.5-19.
Dallas: Summer Institute of Linguistics.
Hafner, K., and Lyon, M. 1996.
Where Wizards Stay Up Late: The Origins of the Internet.
New York:
Simon and Schuster.
HĂ„rd af Segerstad, Y. 2002. Effects of Mobile Text Messaging on Swedish Written Language
â human adaptability made visible.
International Conference on Cultural Attitudes towards Tech-
nology and Communication, The Net(s) of Power: Language, Culture and Technology,
Montréal.
Holmes, H. K. 2004. An analysis of the language repertoires of students in higher education
and their language choices on the Internet (Ukraine, Poland, Macedonia, Italy, France,
Tanzania, Oman and Indonesia).
International Journal on Multicultural Societies,
Vol. 6, No.1,
pp. 29-52.
Ifrah, G. 1999.
The Universal History of Numbers: From Prehistory to the Invention of the Computer.
New
York: John Wiley and Sons.
Information Sciences Institute. 2003. USC Researchers Build Machine Translation System â and
More â For Hindi in Less Than a Month. http://www.usc.edu/isinews/stories/98.html
Kay, Martin, Jean-Mark Gawron, and Peter Norvig. 1993.
Verbmobil : A Translation System for Face-
to-Face Dialog.
Stanford , CA: CSLI Publications.
Krauss, Michael. 1992. The worldâs languages in crisis.
Language
Vol. 68, No.1, pp. 4-10.
Language
Language
Koutsogiannis, D., and B.. Mitsikopolou. 2004. Greeklish and Greekness: Trends and Discour-
ses of âGlocalnessâ.
Journal of Computer-Mediated Communication
9.1.
http://www.ascusc.org/jcmc/
Lavoie, B. F. and E. T. OâNeill. 1999. How âWorld Wideâ is the Web? Annual Review of OCLC
Research 1999. 2003.
Lévénez, Eric. 2003. Computer languages timeline. http://www.levenez.com/lang/
Lieberson, S. 1964. An extension of Greenbergâs linguistic di versity measures. Language, 40,
pp.526-531.
Mafu, S. 2004. From oral tradition to the information era: The case of Tanzania.
International
Journal on Multicultural Societies,
Vol.6, No.1, pp. 53-78.
MuhlhÀusler, P. 1996.
Linguistic Ecology: Language Change & Linguistic Imperialism in the PaciïŹ c Rim.
London: Routledge.
Nettle, D. 1999.
Linguistic Diversity.
Oxford: Oxford University Press.
Nettle, D., and S. Romaine. 2000.
Vanishing Voices: The Extinction of the Worldâs Languages.
Oxford:
Oxford University Press.
Nunberg, Geoffrey. 1998. Languages in the Wired World. Paper presented at
La politique de la langue
et la formation des nations modernes,
Centre dâEtudes et Recherches Internationales de Paris.
90
Mesurer la diversité linguistique sur Internet
OâNeill, Edward T, Brian F. Lavoie, and Rick Bennett. 2003. Trends in the Evolution of the
Public Web: 1998 - 2002.
D-Lib Magazine,
9.4.
http://www.dlib.org/dlib/april03/ lavoie/04lavoie.html
OâNeil, E.T. ; P.D. McClain; and B.F. Lavoie 1997. A methodology for sampling the World-
Wide Web. Technical report,
OCLC Annual Review of Research.
http://www.oclc.org/oclc/research/publications/review97/oneill/oâneilla%r980213.html
Paolillo, J. C. 1996. Language Choice on soc.culture.Punjab.
Electronic Journal of Communication/
Revue Electronique de Communication,
6(3). http://www.cios.org/
Paolillo, J. C. 2001. Language Variation in the Virtual Speech Community: A Social Network
Appoach.
Journal of Sociolinguistics,
5.2.
Paolillo, J. C. 2002. Finite-state transliteration of South Asian text encodings. In
Recent Advances
in Natural Language Processing: Proceedings of the ICON International Conference on Natural Language
Processing.
New Delhi: Vikas Publishing House, Ltd.
Paolillo, J. C. To appear, 2006. âConversationalâ code switching on Usenet and Internet Relay
Chat. To appear in S. Herring, ed.,
Computer-Mediated Conversation.
Cresskill, NJ: Hampton
Press.
Peel, R. 2004. The Internet and language use: A case study in the United Arab Emirates.
Inter-
national Journal on Multicultural Societies,
Vol. 6, No. 1, pp.79-91.
Phillipson, R. 1992.
Linguistic Imperialism.
Oxford: Oxford University Press.
Phillipson, R. 2003.
English-Only Europe?
London: Routledge.
English-Only Europe?
English-Only Europe?
Pimienta, D.; and B. Lamey. 2001. Lengua española y cultural hispanicas en la Internet:
ComparaciĂł con el ingles y el frances. II Congreso Internacional de la Lengua Espanola,
Valladolid, 16-19 October 2001.
Pimienta, D.; et al. 2001. L5: The ïŹ fth study of languages on the Internet.
http://funredes.org/LC/english/L5/L5tendencies.html
Reed, S. L., and D. B. Lenat. 2002. Mapping Ontologies onto Cyc. American Association for
ArtiïŹ cial Intelligence. http://www.aaai.org/
Resnik, P. 1999. Mining the Web for Bilingual Text.
37th Annual Meeting of the Association for Com-
putational Linguistics
(ACLâ99), College Park, Maryland.
putational Linguistics
putational Linguistics
Rheingold, H. 2000.
The Virtual Community: Homesteading on the Electronic Frontier,
revised edition.
Cambridge, MA: MIT Press.
Skutnabb-Kangas, T., and R.. Phillipson. 1995.
Linguistic Human Rights: Overcoming Linguistic Dis-
crimination.
Berlin: Mouton de Gruyter.
Smith, E. A. 2001. On the co-evolution of linguistic, cultural and biological diversity. In L.
MafïŹ , ed.
On Biocultural Diversity,
95-117. Washington DC: Smithsonian Institution Press.
91
3. Diversité linguistique sur Internet : examen des biais linguistiques
Smith, M. 1999. Invisible Crowds in Cyberspace: Measuring and Mapping the Social Struc-
ture of USENET. In M. Smith and P. Kollock, eds.,
Communities in Cyberspace.
London:
Routledge Press.
Spencer, H. and Lawrence, D. 1998.
Managing Usenet.
Sebastopol, CA: OâReilly.
Su, H.-Y. 2004. The Multilingual and Multi-Orthographic Taiwan-Based Internet: Creative
Uses of Writing Systems on College-AfïŹ liated BBSs.
Journal of Computer-mediated Communi-
cation
9.1. http://www.ascusc.org/jcmc/
Torres i Vilatarsana, Marta. 2001. Funciones pragmĂĄticas de los emoticonos en los chats. Inter-
lingĂŒĂstica 11.
Torres i Vilatarsana, Marta. 1999. Els xats: entre lâoralitat i lâescriptura. Article publicat a la
revista Els Marges, 65 (desembre, 1999). Publicat a Internet (gener, 2001) amb el consen-
timent dâaquesta revista.
UNESCO. 2003.
Cultural and Linguistic Diversity in the Information Society.
UNESCO publications
for the World Summit on the Information Society. CI.2003/WS/07
http://unesdoc.UNESCO.org/images/0013/ 001329/132965e.pdf
Unicode Consortium. 1991.
The Unicode Standard: Worldwide Character Encoding.
Reading, Mass.,
Addison-Wesley Pub.
Unicode Consortium. 1996.
The Unicode Standard, Version 2.0.
Reading, Mass., Addison-Wesley
Developers Press.
Unicode Consortium. 2000.
The Unicode Standard, Version 3.0.
Reading, Mass., Addison-Wesley.
Unicode Consortium. 2003.
The Unicode Standard, Version 4.0.
Reading, Mass., Addison-Wesley.
Warschauer, M., G. R. El Said and A. Zohry. 2002. Language Choice Online: Globalization
and Identity in Egypt.
Journal of Computer-Mediated Communication
(JCMC), 7.4.
http://www.ascusc.org/jcmc/
Wasserman, Herman. 2002. Between the local and the global: Souoth African languages and the
Internet.
Litnet Seminar Room.
http://www.litnet.co.za/seminarroom/11wasserman.asp
Wright, S. 2004. Introduction.
International Journal on Multicultural Societies,
Vol.6,No.1, pp. 3-11.
Wurm, S. A.. 1991. Language death and disappearance: causes and circumstances. In R. H.
Robbins and E. M. Uhlenbeck, eds.,
Endangered Languages,
1-18. Oxford: Berg.
Wurm, S. A., ed. 1996.
Atlas of the Worldâs Languages in Danger of Disappearing.
Paris: UNESCO
Publishing/PaciïŹ c Linguistics.
93
Perspectives alternatives
a. Diversité linguistique sur Internet :
une perspective asiatique
Yoshiki Mikami
*
, Ahamed Zaki abu Bakar
â
,
Virach Sonlertlamvanich , Om Vikas
â
,
Zavarsky Pavol
*
, Mohd Zaidi abdul Rozan
*
,
Göndri Nagy Jånos , Tomoe Takahashi
*
(Membres du Projet dâobservatoire des langues (LOP),
Agence de la science et de la technologie du Japon)
« Avant de terminer cette lettre, jâaimerais souligner respectueusement Ă Son Ămi-
nence le fait que durant plusieurs annĂ©es, jâai voulu consulter dans cette Province
des livres imprimĂ©s dans la langue et lâalphabet du pays, comme câest le cas Ă
Malabar et Ă©tant dâun grand intĂ©rĂȘt pour la communautĂ© chrĂ©tienne. Malheu-
reusement, ce fut impossible pour deux raisons : tout dâabord parce quâil semblait
impossible de couler autant de moules, plus de six cents en tout, comparativement
4.
* Université de la technologie de Nagaoka, JAPON :
â
Université de la technologie de la Malaisie, MA-
LAISIE : Laboratoire de linguistique informatique thaĂŻ, THAĂLANDE :
â
Service de la technologie des
langues indiennes (TDIL), MinistĂšre des technologies de lâinformation, INDE : UniversitĂ© de Miskolc,
HONGRIE. On peut contacter les auteurs Ă lâadresse de courriel : mikami@kjs.nagaokaut.ac.jp.
94
Mesurer la diversité linguistique sur Internet
Ă seulement vingt-quatre comme câest le cas en Europe »⊠Lettre dâun jĂ©suite Ă
Rome (Priolkar, 1958).
« Lorsque Gutenberg imprima sa fameuse Bible à Mainz il y a plus de
500 cents ans, il nâeut besoin que dâun caractĂšre de base pour chaque lettre de
lâalphabet. En comparaison, quand la mission amĂ©ricaine imprima la bible arabe
Ă Beyrouth en 1849, au moins 900 caractĂšres furent requis â et mĂȘme ce nombre
sâavĂ©ra insufïŹ sant »⊠John M. Munro, 1981 (Lunde, 1981).
Diversité linguistique et écrite en Asie
Les experts linguistiques estiment quâenviron 7 000 langues sont parlĂ©es Ă travers
le monde Ă lâheure actuelle (Gordon, 2005). Le nombre de langues ofïŹ cielles reste
élevé et pourrait se chiffrer à plus de 300. Le Haut Commissariat des Nations
Unies aux droits de lâhomme (UNHCHR) a traduit un texte dâune valeur univer-
selle, la DĂ©claration universelle des droits de lâhomme (UDHR), dans plus de 328
langues différentes (UNHCHR, 2005).
De toutes les langues apparaissant sur ce site, le chinois est la plus parlée
(presque un milliard de personnes), suivi de lâanglais, du russe, de lâarabe, de
lâespagnol, du bengali, de lâhindi, du portugais, de lâindonĂ©sien et du japonais.
La liste des langues inclut celles parlées par moins de cent mille personnes. Les
langues asiatiques sont parmi les plus parlées au monde (six des dix langues
les plus parlées) et constituent presque la moitié (48) des cent langues les plus
parlées.
Le site de lâUNHCHR fournit aussi le nombre approximatif de groupes
linguistiques pour chaque langue. Si lâon rĂ©partit les langues selon la population
et que lâon fait le relevĂ© de chaque langue sur un tableau Ă Ă©chelle logarithmi-
que, le rapport entre la population et son rang ressemble Ă une courbe de la Loi
de Zip comme lâindique la Figure 1, avec un Ă©cart dâau moins un dixiĂšme Ă un
centiĂšme.
95
4. Perspectives alternatives
Figure 1: Quasi courbe de la Loi de Zip pour les groupes linguisti-
ques
La diversitĂ© en Asie est plus Ă©vidente si lâon observe les multiples caractĂšres
dâĂ©criture servant Ă reprĂ©senter la langue. Cette diversitĂ© des caractĂšres dâĂ©criture
sâavĂšre problĂ©matique dĂšs que lâon sâinterroge sur la complexitĂ© de la localisation
linguistique. La rĂ©ponse Ă la question « Combien de caractĂšres dâĂ©criture sont
utilisĂ©s Ă travers le monde ? » est difïŹ cile, puisquâelle dĂ©pend dâun comptage trĂšs
fragmentĂ©. Aux ïŹ ns de simpliïŹ er le prĂ©sent article, on traitera en une seule catĂ©-
gorie tous les caractĂšres dâĂ©criture et alphabets dĂ©rivĂ©s du latin de mĂȘme que leurs
développements dans différentes langues européennes, le vietnamien, le philippin,
etc. De mĂȘme, les caractĂšres dâĂ©criture cyrilliques et arabes constituent une seule
catĂ©gorie. Câest aussi le cas pour les idĂ©ogrammes chinois, les syllabiques japonais
et le caractĂšre hangul corĂ©en. Les autres caractĂšres dâĂ©criture sont trĂšs diversiïŹ Ă©s.
Prenons le cas des « caractĂšres dâĂ©criture indic » qui forment la cinquiĂšme catĂ©-
gorie. Celle-ci comprend non seulement les caractĂšres de langues indiennes telles
le devanagari, bengali, tamoul, gujarĂątĂź, etc., mais aussi quatre autres caractĂšres
dâĂ©criture majeurs de lâAsie du Sud-est, câest-Ă -dire le thaĂŻ, le lao, le cambodgien
(khmer) et le myanmar. En dĂ©pit de leurs formes diffĂ©rentes, ces caractĂšres dâĂ©cri-
ture ont tous la mĂȘme origine (lâancien caractĂšre brahmi) et le mĂȘme type de
formulation. Le regroupement de la population parlant chacune de ces langues
96
Mesurer la diversité linguistique sur Internet
est prĂ©sentĂ© au Tableau 1. Les caractĂšres dâĂ©criture utilisĂ©s en Asie sâĂ©tendent Ă
ces cinq catégories, tandis que ceux utilisés ailleurs dans le monde sont surtout
dâorigine latine, cyrillique, arabe et plusieurs autres.
Tableau 1. Distribution de la population selon les principales catégo-
ries de caractĂšres dâĂ©criture
CaractĂšre
dâĂ©criture
Latin
Cyrilli-
que
Arabe
Hanzi
Indic
Autres*
Nombre dâusagers
(millions)
2 238
451
462
1 085
807
129
[ % du total ]
[43,28%]
[8,71%]
[8,93%]
[20,98%]
[15,61%]
[2,49%]
* Autres inclut grec, géorgien, arménien, amharique, dhivehi, hébreu, etc.
Statut actuel de la couverture linguistique â
le cas de Windows
Depuis une dĂ©cennie, les produits des technologies de lâinformation et de la
communication (TIC) actuels peuvent accomplir des tĂąches multilingues dans
une certaine mesure. GrĂące Ă lâĂ©mergence dâune norme de code de caractĂšres
multilingues sous forme dâISO/IEC 10646, aussi utilisĂ©e pour la norme Unicode,
de mĂȘme que pour le dĂ©ploiement international de logiciels, le nombre de langues
supportées par des plateformes majeures de bureau TIC a augmenté au cours de
la derniÚre décennie. La couverture linguistique de ces plateformes majeures reste
cependant limitée. La plus récente version de Windows XP (Professional SP2) est
en mesure de traiter une liste longue de 123 langues. Toutefois, lâexamen attentif
de cette liste indique quâil sâagit pour la plupart de langues europĂ©ennes et trĂšs peu
sont asiatiques ou africaines. La couverture linguistique est résumée au Tableau 2.
Ce tableau fait voir les langues catégorisées selon le regroupement des caractÚres
dâimprimerie prĂ©sentĂ©s dans la premiĂšre partie de cet article. En ce sens, la cou-
verture par Windows XP est dâenviron 83,72 % de la population globale. MĂȘme si
ce chiffre semble acceptable, il apparaĂźt ĂȘtre une estimation exagĂ©rĂ©e ne reïŹ Ă©tant
pas la réalité, comme on le constatera dans le présent article.
97
4. Perspectives alternatives
Tableau 2. Couverture linguistique de Windows XP SP2 pour les prin-
cipales catĂ©gories de caractĂšres dâĂ©criture
RĂ©gion
linguis.
Latin
Cyrillique
Arabe
Hanzi
Indic
Autres
Europe
langues
europ.*
et slaves**
langues russe,
macédo-
nienne
et slaves***
â
â
â
grec
géorgien
arménien
Asie
azéri
vietnamien
malaisien
indonésien
uzbek
turc
mongolien
azéri
kazakh
kirghiz
uzbek
arabe
urdu
perse
chinois
japonais
coréen
gujarĂątĂź
tamoul
telugu
kannara
bengali
malayalam
punjabi
hindi
marathe
sanskrit
konkani
oriya
thaĂŻ
assyrien
dhivehi
hébreu
* Inclut : albanais, allemand, anglais, basque, catalan, danois, espagnol, estonien, féringien,
ïŹ nlandais, français, galicien, gallois, hollandais, hongrois, islandais, italien, letton, lithuanien,
maltais, norvégien, portugais, roumain, sami et suédois.
** Inclut : bosniaque, croate, polonais, serbe, slovaque, slovĂšne, tchĂšque.
*** Inclut : bélarusse, bosniaque, bulgare, serbe et ukrainien.
Le cas de Google
Les moteurs de recherche sont des composantes indispensables de la société
dâinformation globale. Ils permettent dâaccĂ©der Ă une vaste rĂ©serve de connais-
sances. Si lâon examine la couverture linguistique des moteurs de recherche les
plus populaires, on constate que la situation est encore plus déplorable que pour
la couverture linguistique de Windows. En date dâavril 2005, Google, qui est lâun
des moteurs de recherche multilingue utilisĂ© Ă lâĂ©chelle internationale, avait indexĂ©
plus de huit milliards de pages rédigées dans différentes langues. Toutefois, les
langues recensĂ©es jusquâici se limitent Ă environ 35. Parmi celles-ci, on ne retrouve
que sept langues asiatiques, notamment lâindonĂ©sien, lâarabe, le chinois classique,
le chinois simpliïŹ Ă©, le japonais, le corĂ©en et lâhĂ©breu (Tableau 3). En termes de
98
Mesurer la diversité linguistique sur Internet
couverture linguistique, cette proportion diminue Ă 61,37 % surtout parce que les
pages en langues asiatiques et africaines ne peuvent faire lâobjet de recherches.
Tableau 3. Couverture linguistique de Google pour les principales caté-
gories de caractĂšres dâĂ©criture
RĂ©gion
linguist.
Latin
Cyrillique
Arabe
Hanzi
Indic
Autre
Europe
langues
europ.* et
slaves**
russe
bulgare
serbe
â
â
â
grec
Asie
indonésien
arabe
chinois
tradition-
nel et
simpl.,
japonais
coréen
hébreu
turc
* Inclut : allemand, anglais, catalan, danois, espagnol, estonien, ïŹ nlandais, français, hollandais,
hongrois, islandais, italien, letton, lithuanien, norvégien, portugais, roumain, suédois.
** Inclut : croate, polonais, slovaque, slovĂšne et tchĂšque.
Le cas du corpus multilingue UDHR
Voici un autre exemple. Tel que mentionné dans la premiÚre partie de cet article,
la DĂ©claration universelle des droits de lâhomme (UDHR) sur le site Web du
Haut Commissariat des Nations Unies aux droits de lâhomme (UNHCHR) est
afïŹ chĂ©e dans plus de 300 langues diffĂ©rentes, commençant par lâabkhaze et se
terminant par le zoulou. Malheureusement, on constate aussi que beaucoup de
ces traductions, surtout celles dans les langues Ă caractĂšres dâĂ©criture ne dĂ©rivant
pas du latin, sont afïŹ chĂ©es en formats « GIF » ou « PDF », plutĂŽt que sous la
forme de texte codé. à nouveau, nous résumons la situation dans le Tableau 4
en regroupant les principaux caractĂšres dâimprimerie comme dans les tableaux
précédents. Ce tableau indique clairement que les langues dérivées des caractÚres
dâimprimerie latins sont surtout prĂ©sentĂ©es sous la forme de textes codĂ©s. Les
langues ayant recours aux caractĂšres dâimprimerie non dĂ©rivĂ©es du latin, surtout
lâindic et autres, peuvent difïŹ cilement ĂȘtre prĂ©sentĂ©es sous forme codĂ©e. Quand le
caractĂšre dâimprimerie nâest pas prĂ©sentĂ© sous lâune des trois formes indiquĂ©es, il
99
4. Perspectives alternatives
est regroupé dans la colonne « Non disponible ». De plus, il faut absolument télé-
charger des fontes spĂ©ciales pour lire correctement ces caractĂšres dâimprimerie.
Cette situation difïŹ cile peut ĂȘtre dĂ©crite comme une fracture numĂ©rique parmi les
langues, ou qualiïŹ Ă©e de « fracture numĂ©rique linguistique ».
Tableau 4. Formes de représentation du corpus multilingue UDHR par
regroupement des principaux caractĂšres dâimprimerie
Forme de
présentation
Latin
Cyril.
Arabe
Hanzi
Indic
Autres
Codé
253
10
1
3
0
1
2
4
2
0
7
10
Image (GIF)
1
3
7
0
12
7
Non disponible
0
0
0
0
1*
1*
* Les langues non disponibles sont le magadi et le bhojpuri.
Localisation linguistique des technologies de lâinformation
â un regard historique
Retournons cinq siĂšcles en arriĂšre, Ă lâĂ©poque de lâinvention de la presse Ă
imprimer. Cette technologie fut inventĂ©e sĂ©parĂ©ment dans les pays de lâEst et de
lâOuest. Ă lâEst, des artisans corĂ©ens dĂ©couvrirent cette technologie au 13
e
siĂšcle
et furent suivis des Chinois. Mais la technologie ne devint pas populaire et fut
remplacĂ©e par la xylographie. Lâorigine directe des technologies dâimpression
maintenant répandues en Asie remonte donc à celle inventée par Gutenberg au
milieu du 15
e
siĂšcle.
La premiÚre presse à imprimer fut amenée à Goa en 1556. On croit aussi
quâil sâagit de la premiĂšre presse en Asie. Cet appareil se retrouva par la suite dans
dâautres rĂ©gions asiatiques, notamment Manille, Malacca, Macau, etc. Ă lâorigine,
ces machines servaient surtout Ă imprimer des textes religieux traduits ou translit-
tĂ©rĂ©s Ă lâaide du latin, mais servirent plus tard Ă imprimer diffĂ©rents textes Ă lâaide
de types de caractĂšres locaux. Selon un historien indien, Doctrina Christiana
fut le premier texte imprimé en Asie comportant des caractÚres locaux tamouls.
100
Mesurer la diversité linguistique sur Internet
La deuxiĂšme page du texte nous indique lâapproche retenue pour la localisation
linguistique de la technologie en caractĂšres dâimpression tamoule. Bien que cette
langue comporte environ 246 syllabes en tout, des Ă©chantillons de types de carac-
tÚres relevés seulement à la deuxiÚme page du livre en contiennent plus de cent
cinquante. Un jésuite en mission sur la cÎte du Malabar au 17
e
siĂšcle Ă©crivit une
lettre Ă Rome, dans laquelle il dĂ©plorait « jâessaie depuis longtemps dâimprimer
des textes dans la langue et les caractĂšres dâimprimerie locaux, mais sans succĂšs.
Ceci est attribuable au fait que nous devons forger plus de 600 types de caractĂšres
diffĂ©rents ici sur les cĂŽtes du Malabar, plutĂŽt que seulement 24 comme câest le cas
à Rome » (Priolkar, 1958).
Doctrina fut traduite en langue tagalog en 1593 Ă Manille, alors le cen-
tre des activitĂ©s coloniales espagnoles de lâĂ©poque. Il semble toutefois que cette
traduction sâaccompagna aussi de translittĂ©ration. La version actuelle de la Doc-
trina en tagalog sâappuya sur trois approches : la langue tagalog avec caractĂšres
dâimprimerie tagalog ; la langue tagalog avec caractĂšres dâimprimerie latins ; et
la langue espagnole avec caractĂšres dâimprimerie latins. Dans le siĂšcle qui suivit
lâintroduction de la technologie dâimpression Ă Manille, la premiĂšre approche a
complĂštement disparu au proïŹ t des deux derniĂšres approches. Et ïŹ nalement, les
caractĂšres dâimprimerie tagalog furent complĂštement oubliĂ©s, mĂȘme parmi la
population locale (Hernandez, 1996). Un timbre-poste Ă©mis par le service postal
des Philippines en 1995 reprĂ©sente le caractĂšre dâimprimerie tagalog comme un
motif de leur héritage culturel maintenant disparu.
Ces deux faits historiques nous enseignent que lorsque la localisation lin-
guistique nâest pas effectuĂ©e de maniĂšre convenable, lâĂ©mergence de la nouvelle
technologie risque de dĂ©truire le systĂšme dâĂ©criture de la culture elle-mĂȘme.
Normes de codage comme pierre angulaire de la localisation
linguistique
Cette division est certainement attribuable Ă plusieurs facteurs, de nature Ă©cono-
mique, politique, sociale, etc. Mais dâun point de vue technique, la localisation
linguistique devrait ĂȘtre le principal facteur. Tel que clairement Ă©noncĂ© dans
la lettre du jésuite à Rome, écrite il y a quatre siÚcles (et citée en exergue à la
premiĂšre page de cet article), les pionniers des technologies de lâinformation Ă
lâĂšre de la typographie devaient surmonter des difïŹ cultĂ©s semblables par nature
101
4. Perspectives alternatives
à celles rencontrées de nos jours par les ingénieurs en informatique qui doivent
effectuer la localisation linguistique des technologies pour différents caractÚres
dâĂ©criture. Le principal obstacle des langues utilisant des caractĂšres dâĂ©criture non
latins est certes le manque (ou lâabsence) de disponibilitĂ© des normes de codage
appropriĂ©es. Câest la raison pour laquelle les crĂ©ateurs du site Web UDHR doi-
vent convertir le texte non encodable en format PDF ou en images. Si lâon se
réfÚre aux répertoires internationaux reconnus de séquences de codages, comme
le IANA Registry of character codes (IANA, 2005) ou le ISO International
Registry of Escape Sequences (IPSJ/ITSCJ, 2004), on ne peut trouver aucune
séquence de codage pour ces langues pouvant avoir « passé à travers les mailles
du ïŹ let ». Il est Ă noter que beaucoup de normes de codage de caractĂšres Ă©tablies
au niveau national se retrouvent aussi dans plusieurs langues. Ces normes sont
identiïŹ Ă©es comme Ă©tant nationales. Concernant la famille de systĂšmes dâĂ©criture
indiens, la premiÚre norme nationale indienne fut annoncée en 1983 et appelée
Indian Standard Script Code pour lâ Information Interchange (ISSCII). Par la
suite en 1991, elle fut amendée et devint la deuxiÚme version (norme nationale IS
13194) utilisĂ©e Ă lâheure actuelle en Inde. Cependant, bien quâil existe des normes
nationales, des vendeurs de matériel informatique, des développeurs de polices
de caractĂšres et mĂȘme des usagers ont crĂ©Ă© leurs propres tableaux de codes de
caractÚres, ce qui entraßne inévitablement une situation chaotique. La création de
ces supposées séquences de codage exotique ou de codage interne local fut par-
ticuliÚrement favorisée par la popularité des outils de développement conviviaux
de polices de caractĂšres. Bien que les systĂšmes dâapplication dans ces domaines
ne soient pas autonomes et soient largement diffusĂ©s sur le Web, la nĂ©cessitĂ© dâune
standardisation nâa pas fait lâobjet dâune attention sĂ©rieuse de la part des usagers,
vendeurs et développeurs de polices de caractÚres. Cette situation chaotique
sâexplique aussi par lâabsence dâassociations professionnelles et dâorganismes de
réglementation gouvernementale. Aruna Rohra et Ananda of Saora Inc., ont
préparé une étude intéressante (voir : http://www.gse.uci.edu/markw/languages.
html), qui a recueilli des documents linguistiques de langues indiennes. LâĂ©tude a
découvert 15 séquences de codage différentes sur les 49 sites Web tamoul visités
(Aruna et Ananda, 2005).
UCS/Unicode
La premiĂšre version du Universal Multiple-Octet Coded Character Set (UCS,
ISO/IEC 10646) fut publiĂ©e en 1993. LâUnicode, initialement mis au point Ă
102
Mesurer la diversité linguistique sur Internet
titre de consortium industriel, est maintenant synchronisé à la révision de UCS. Il
sâagit rĂ©ellement dâun effort valable pour Ă©liminer les situations chaotiques. Mais
il nâa pas encore acquis un statut dominant, du moins en Asie. Notre plus rĂ©cente
étude révÚle que la pénétration du codage UTF-8 est limitée à seulement 8,35 %
de toutes les pages Web sous ccTLD asiatique (Mikami et autres, 2005). Les dix
premiers et les dix derniers ccTLDs sont indiquĂ©s au Tableau 5. MĂȘme si lâon
prĂ©voit que la vitesse de migration sera Ă©levĂ©e, le processus doit ĂȘtre Ă©troitement
surveillé.
Tableau 5. Ratio dâusage UTF-8 des pages Web par ccTLD
CcTLD
nom
ratio
ccTLD
nom
ratio
Tj
Tadjikistan
92,75 %
uz
Ouzbékistan
0,00 %
Vn
Vietnam
72,58 %
tm
Turkménistan
0,00 %
Np
NĂ©pal
70,33 %
sy
Syrie
0,00 %
Ir
Iran
51,30 %
mv
Maldives
0,00 %
Tp
Timor oriental
49,40 %
la
Lao
0,01 %
Bd
Bangladesh
46,54 %
ye
YĂ©men
0,05 %
Kw
KoweĂŻt
36,82 %
mm
Myanmar
0,07 %
Ae
Ătats Arabes Unis
35,66 %
ps
Palestine
0,12 %
Lk
Sri Lanka
34,79 %
bn
Brunei
0,36 %
Ph
Philippines
20,72 %
kg
Kirghizstan
0,37 %
Source : Projet dâobservatoire des langues.
Projet dâobservatoire des langues - Objectifs
Le Projet dâobservatoire des langues (LOP) fut crĂ©Ă© en 2003 (UNESCO, 2004)
aïŹ n de reconnaĂźtre lâimportance de surveiller le niveau dâactivitĂ© linguistique
dans lâespace cybernĂ©tique. On prĂ©voit que le Projet dâobservatoire des langues
sera un outil pour Ă©valuer le niveau dâusage de chaque langue sur le Web. De
103
4. Perspectives alternatives
façon plus spĂ©ciïŹ que, le projet devrait fournir pĂ©riodiquement un proïŹ l statis-
tique des langues, caractĂšres dâĂ©criture et sĂ©quences de codage dans lâespace
cybernétique. Lorsque cet observatoire sera pleinement fonctionnel, on sera en
mesure de répondre aux questions suivantes : combien de langues différentes
retrouve-t-on dans lâunivers virtuel ? Quelles langues sont absentes de cet uni-
vers virtuel ? Combien de pages Web sont rédigées dans une langue donnée,
par exemple le pashto ? Combien de pages Web sont rédigées en caractÚres
dâĂ©criture tamoule ? Quels types de sĂ©quences de codage sont utilisĂ©s pour le
codage dâune langue donnĂ©e, par exemple le berbĂšre ? Ă quelle vitesse Unicode
remplace-t-il les séquences de codage conventionnelles et développées localement
sur Internet ? En plus de recueillir ces informations, on prévoit que le projet fera
une proposition pour corriger la situation actuelle, tant au niveau technique que
des politiques.
Projet Alliance
Ă lâheure actuelle, plusieurs groupes dâexperts collaborent Ă lâObservatoire
des langues Ă lâĂ©chelle internationale. Les organisations fondatrices incluent :
lâUniversitĂ© de la technologie de Nagaoka au Japon ; lâUniversitĂ© des Ă©tudes
Ă©trangĂšres de Tokyo au Japon ; lâUniversitĂ© Keio au Japon ; lâUniversitĂ© de la
technologie de la Malaisie, en Malaisie ; lâUniversitĂ© Miskolc en Hongrie ; le pro-
jet de développement technologique des langues indiennes relevant du ministÚre
indien des technologies de lâinformation ; ainsi que le Laboratoire de recherche
en communications de la ThaĂŻlande. Le projet est ïŹ nancĂ© par lâAgence japo-
naise de science et de technologie, en vertu du programme RISTEX (RISTEX,
2005). LâUNESCO appuie ofïŹ ciellement le projet depuis sa crĂ©ation. Parmi les
principales composantes techniques de lâObservatoire des langues, on retrouve
une puissante technologie de robot Web
(Web crawler)
ainsi quâune technologie
dâidentiïŹ cation des propriĂ©tĂ©s linguistiques (Suzuki et autres, 2002). La techno-
logie de robot Web, appelée UbiCrawler (Boldi et autres, 2004), est extensible
et entiÚrement distribuée grùce aux efforts conjoints de développement du
dĂ©partement des sciences informatiques de lâUniversitĂ© de Milan ainsi que de
lâInstitut dâinformatique et de tĂ©lĂ©matique du Conseil de recherche national ita-
lien. Cette technologie constitue un puissant moteur de collecte de données pour
lâobservatoire des langues. Pour de brĂšves descriptions des efforts conjoints du
LOP et de lâĂ©quipe UbiCrawler, voir UNESCO WebWorld News, 23 fĂ©v. 2004
(UNESCO, 2004).
104
Mesurer la diversité linguistique sur Internet
Conclusion
Dans cet article, nous avons soulignĂ© lâimportance de surveiller dans lâespace
cybernĂ©tique le comportement et les activitĂ©s des diffĂ©rentes langues parlĂ©es Ă
travers le monde. Le Projet dâobservatoire des langues (LOP) permet une mĂ©thode
perfectionnée pour comprendre et surveiller les langues. Le consortium LOP
veut contribuer Ă sensibiliser davantage le monde entier aux langues existantes et
celles en voie de disparition, et appliquer aussi des mesures préventives dans ce
dernier cas. Pour que ces efforts rĂ©ussissent, lâObservatoire se veut aussi le point
central de développement du capital humain, tout autant que le dépositaire des
diffĂ©rentes ressources linguistiques. Lâaccumulation de ces ressources numĂ©riques
par la recherche et le développement aidera les pays en voie de développement
ainsi que les communautĂ©s rĂ©gionales Ă acquĂ©rir la capacitĂ© et lâhabiletĂ© requises
pour faire migrer leurs langues autochtones dans lâespace cybernĂ©tique, en vue
dâĂ©viter la disparition de leur hĂ©ritage national.
Références
Aruna, R. & Ananda, P. 2005. Collecting Language Corpora: Indian Languages.
The Second
Language Observatory Work Shop Proceedings.
Tokyo University of Foreign Studies, Tokyo.
Boldi, P., Codenotti, B., Santini, M., & Vigna, S. 2004. UbiCrawler: A scalable fully distributed
web crawler.
Software: Practice & Experience,
Vol. 34, No. 8, pp.711-726.
Gordon, R. 2005.
Ethnologue: Languages of the World 15th Edition.
(http://www.ethnologue.com/)
Hernandez, Vincente S. 1996.
History of Books and Libraries in the Philippines:
Manila, The National
Commission for Culture and the Arts, pp. 24-31.
IANA. 2005.
Character Sets.
(http://www.iana.org/assignments/character-sets)
IPSJ/ITSCJ. 2004.
International Register of Coded Character ets to be used with Escape Sequences.
(
http://www.itscj.ipsj.or.jp/ISO-IR/)
((
Mikami, Y., Zavarsky, P., Zaidi, M., Rozan, A., Suzuki, I., ?akahashi, M., Maki, T., Ayob,
I.N., Boldi, P., Santini, M. & Vigna, S. 2005. The Language Observatory Project (LOP).
P
roceedings of the Fourteenth International World Wide eb Conference,
May 2005. Chiba, Japan.
pp.990-991.
Lunde. P. 1981.
Arabic and the Art of Printing.
Saudi, Aramco World.
Priolkar, A. K. 1958.
The Printing Press in India - Its Beginning and Early Development.
Bombay,
Marathi Samshodhana Mandala. pp.13-14.
105
4. Perspectives alternatives
RISTEX. 2005. (http://www.ristex.jp/english/top_e.html)
Suzuki, I., Mikami, Y., Ohsato, A. & Chubachi, Y. 2002. A language and character set determi-
nation method based on N-gram statistics, ACM
Transactions on Asian Language Information
Processing,
Vol. 1, No. 3, pp.270-279.
UNESCO. 2004. Parcourir le cyberespace à la recherche de la diversité linguistique.
UNESCO WebWorld News, 23rd Feb. 2004.
(http://portal.UNESCO.org/ci/en/ev.php-URL_ID=14480&URL_DO=DO_TOPIC&URL_SECTION=201.html)
UNHCHR. 2005.
Universal Declaration of Human Rights.
(http://www.unhchr.ch/udhr/navigate/alpha.htm)
107
4. Perspectives alternatives
b. Une note sur les langues africaines
sur la Toile mondiale
Xavier Fantognan
Aperçu
Les Cahiers du RFAL n° 23 « Traitement informatique des langues africai-
nes » soulignent que le nombre de langues africaines est estimé à environ 2000,
qui reprĂ©sente un tiers des langues du monde. Câest donc un patrimoine et une
richesse qui mĂ©ritent quâon y prĂȘte attention. Aujourdâhui, le cyberespace peut
permettre Ă toutes les langues de participer dâĂȘtre de vĂ©ritables instruments de
communication Ă grande Ă©chelle. Cependant, toutes les langues du monde ne
font pas usage et ne proïŹ tent pas de lâopportunitĂ© que reprĂ©sente cet espace.
Bien Ă©videmment pour y accĂ©der, il faut avoir fait lâobjet dâun traitement
informatique, traitement qui relĂšve de lâamĂ©nagement linguistique. DĂšs lors,
la premiĂšre question que lâon se pose ici se rapporte Ă lâutilisation des langues
africaines dans le cyberespace. Marcel Diki-Kidiri et Edema Atibakwa, dans
« Les langues africaines sur la Toile », explorent plus de 3 000 sites pour ne
retenir que ceux qui traitent des langues africaines. De leur analyse, on retient
quâil existe bien une abondante documentation sur les langues africaines sur
la Toile, mais trĂšs peu de sites utilisent une langue africaine comme langue de
communication. Bien que de nombreux facteurs puissent ĂȘtre pris en compte
pour expliquer cet Ă©tat des faits, deux facteurs dominants seraient lâinexistence
de cybercommunautĂ©s linguistiques capables dâintensiïŹ er leurs Ă©changes dans
leurs langues via la Toile et lâabsence dâun traitement informatique concluant
des langues africaines.
Cette conclusion sera modérée, nuancée, voire corrigée par une étude
différente faite par Gilles Maurice de Schryver et Anneleen Van der Veken, « Les
langues africaines sur la Toile : étude des cas haoussa, somali, lingala et isixhosa ».
Ces auteurs ont exploré plutÎt les forums de discussion pour y découvrir un taux
dâutilisation tout Ă fait satisfaisant de trois langues africaines largement diffusĂ©es :
le kiswahili, le hausa et le lingala.
108
Mesurer la diversité linguistique sur Internet
Les principaux enseignements quâon peut retenir de lâĂ©tude du RIFAL sont les
suivants :
â Les langues africaines apparaissent sur la Toile beaucoup plus comme
des objets dâĂ©tude (mention, documentation, description, Ă©chantillons,
textes, cours) que comme des véhicules de communication ;
â La langue de communication utilisĂ©e pour parler des langues afri-
caines est trĂšs largement lâanglais, mĂȘme pour les langues en zone
francophone ;
â Les cours de langues africaines sont beaucoup trop rares sur la Toile.
Ce qui entrave la possibilité de développer des cybercommunautés de
locuteurs utilisant les langues africaines comme véhicules de commu-
nication via lâInternet ;
â Les produits logiciels ou les solutions informatiques intĂ©grant en stan-
dard des polices de caractĂšres pour toutes les langues africaines sont
rarement proposés sur les sites.
Pour corriger cette situation, il y a donc lieu de promouvoir :
â la multiplication des sites bilingues (ou multilingues) comportant le
français ou lâanglais et au moins une langue africaine comme langues
de communication ;
â une plus grande diffusion de la documentation sur les langues africai-
nes, car cette documentation existe mais nâest pas systĂ©matiquement
diffusée sur la Toile ;
â les cours de langues africaines de qualitĂ© Ă diffuser sur la Toile ;
â le dĂ©veloppement et la diffusion de produits logiciels ou de solutions
informatiques facilitant lâĂ©criture des langues africaines et leur utilisa-
tion normale et courante dans le cyberespace.
Nous ne pouvons plus dire aujourdâhui que les langues africaines ne sont pas
présentes sur la Toile mondiale. Il existe beaucoup de documentations sur les
109
4. Perspectives alternatives
langues africaines sur la Toile mais trĂšs peu de textes sont Ă©crits en langues afri-
caines et pourquoi ? Le manque de motivations parmi les Africains Ă Ă©crire dans
leur propre langue est une des raisons que lâon peut citer pour expliquer le relatif
insuccĂšs des langues africaines sur la Toile. Le cybernaute qui sâexprime sur la
Toile veut ĂȘtre lu et compris, il va donc Ă©crire dans une langue connue par le plus
grand nombre de gens.
En effet, une grande partie des textes en langues africaines trouvés sur la
Toile nâa pas Ă©tĂ© Ă©crit par des Africains, comme nombre de documents religieux
ou de textes destinĂ©s Ă lâenseignement. Des forums oĂč des Africains communi-
quent avec dâautres Africains, en langues africaines, sont lâexception et non la
rĂšgle.
Microsoft a annoncĂ© que Windows et OfïŹ ce seront prochainement traduits
en langage Swahili. Le Kiswahili est sans doute la langue la plus parlée d'Afrique.
PrĂšs de 100 millions de personnes parlent cette langue, en Afrique et dans les Ăźles
de l'Océan Indien. Avant de passer à la traduction proprement dite, les linguistes
de Microsoft devront établir un glossaire commun aux différents dialectes issus du
Kiswahili. Microsoft prévoit aussi de traduire ses logiciels dans d'autres langues
africaines, notamment les langues Hausa et Yoruba.
Si les intentions de Microsoft semblent bonnes, il est tout de mĂȘme inquiĂ©-
tant de constater que les logiciels de Microsoft seront la seule alternative des
Swahili qui ne parlent pas d'autres langues. En effet, les logiciels libres traduits en
Kiswahili ne sont pas légions. Espérons que les efforts de Microsoft pour la stan-
dardisation des langues africaines proïŹ teront aussi Ă Linux et aux logiciels libres.
Dans ce dernier cas, celui des logiciels libres, un travail considérable est
en cours en Afrique. Au Burkina-Faso, les langues comme le mooré, le dioula
connaissent une localisation avec Open OfïŹ ce. Le mĂȘme travail est en cours au
Mali avec le bambara, au Bénin avec le fongbé, le yoruba, le mina et le dendi.
Le formidable travail Ă©laborĂ© avec lâamharique et son alphabet illustre de la
possibilitĂ© de rendre plus efïŹ cace la recherche sur lâinformatisation des langues
africaines. La dĂ©marche de UNICODE pour la standardisation de lâalphabet
Nâko rĂ©conforte plus dâun.
Cependant, de véritables questions restent posées à savoir que les questions
orthographiques et la normalisation des langues africaines ne sont pas encore
110
Mesurer la diversité linguistique sur Internet
résolues. Beaucoup de langues sont toujours transcrites phonétiquement et le
risque de voir chaque langue disposer de son alphabet nâest plus Ă Ă©carter.
Si lâAfrique dispose de 2000 langues environ, seulement 400 environ dâen-
tre elles ont Ă©tĂ© dĂ©crites. Il en reste 1600 qui nâont pas bĂ©nĂ©ïŹ ciĂ© dâĂ©tudes sĂ©rieuses.
Aucune de ces langues aujourdâhui nâa dâaudience sur le Web pas plus les 400 qui
ont connu une description mais qui souffrent dâenrichissement en vue de devenir
de véritables langues vivantes sur la Toile mondiale.
Références
Diki-Kidiri M., Don D., Dimo-Lexis, Dictionnaires monolingues et Lexiques spécialisés, Outils
logiciels pour linguiste, CNRS-LACITO, Paris.
Meloni H. ; 1996. Fondements et Perspectives en traitement automatique de la parole.
AUPELF/UREF.
Morvan P. ; 2000. Dictionnaire de lâInformatique : Acteurs concepts, rĂ©seaux, Larousse, Paris.
Peek J., Lui C., et al ; 1997. SystĂšme dâinformation sur Internet : Installation et mise en Ćuvre,
Editions OâReilly International Thomson.
Rint-RioïŹ l, C., Chanard, et Diki-Kidiri, M. (hors date) Stage de formation niveau1 et 3,
Document de travail : Introduction aux inforoutes par le développement de la terminologie
et des contenus textuels pour le français et les langues partenaires, Lumigny, Marseilles.
Gilles Maurice de Schryver et Anneleen Van der Veken ; 2003. Le traitement informatique des
langues africaines, Cahiers du RIFAL, Revue coĂ©ditĂ©e par lâAgence de la francophonie et
la Communauté française de Belgique.
111
Présentation des Auteurs
Xavier Fantognon
est un étudiant en linguistique togolais de l'Université du
Bénin (xavier@bj.refer.org) qui a décidé de se consacrer à la mise en valeur des
langues africaines sur l'Internet. Il a traduit l'interface de la plate forme libre SPIP
en langue FongbĂ© (http://www.spip.net/fon) et sâengage Ă©galement sur le front
des activités culturelles traditionnelles ou en forme de multimédia.
Yoshiki Mikami
est Professeur des Sciences du Management et de lâInforma-
tion Ă lâUniversitĂ© Technologique de Nagaoka. Il a occupĂ© des postes de direction
au MITI (standards et politiques dâinformation). Il est responsable du projet d'Ob-
servatoire des Langues dans l'Internet (http://www.language-observatory.org/
- http://gii.nagaokaut.ac.jp/gii/- http://kjs.nagaokaut.ac.jp/mikami/).
John Paolillo
est professeur associĂ© en science de lâinformation et en techniques
informatiques; Professeur associé adjoint en linguistique, School of Library and
Information Science. Ph.D., Linguistics, Stanford University, 1992, B.A., Linguis-
tics, Cornell University, 1986. Domaines de recherche : linguistique informati-
que, recherche dâinformation, communication assistĂ©e par ordinateur, modĂšles
statistiques et méthodes quantitatives de recherche, sociolinguistique et acquis de
langues, acquis en langues Ă©trangĂšres, langues de lâAsie du Sud.
Daniel Pimienta,
français dâorigine marocaine qui vit Ă Saint Domingue, est le
PrĂ©sident de l'Association RĂ©seaux & DĂ©veloppement (FUNREDES â http://fun-
redes.org), une ONG qui travaille sur le terrain des TIC et développement depuis
1988. Funredes a conduit un certain nombre d'expérimentations sur le terrain en
ce qui concerne les langues et les cultures, dans certains cas en collaboration avec
l'Union Latine et/ou avec le soutien de l'Agence de la Francophonie. (http://fun-
redes.org/tradauto/index.htm/bamaktxt - http://funredes.org/lc).
Daniel Prado,
un argentin qui vit Ă Paris, est le Directeur du Programme de
Terminologie et Industries de la Langue de l'Union Latine (http://unilat.org/
dtil/), un organisme inter-gouvernemental de promotion des langues néolatines.
Il gÚre des statistiques sur la réalité dynamique des langues dans notre société et
des informations sur les politiques linguistiques et terminologiques.