background image

Organisation des Nations Unies

pour l’éducation, la science et la culture

Organisation des Nations Unies

pour l’éducation, la science et la culture

Le texte complet des ouvrages 
est disponible Ă  :

http://www.unesco.org/wsis

UNESCO

Publications de l’UNESCO pour le Sommet mondial sur la sociĂ©tĂ© de l’information

Sommet mondial sur la sociĂ©tĂ© de l’information

M

es

ur

er

 l

di

ve

rs

it

Ă© 

li

ng

ui

st

iq

ue

 s

ur

 I

nt

er

ne

t

Sommet mondial sur la sociĂ©tĂ© de l’information

Mesurer la diversitĂ© linguistique 

sur Internet

background image

Mesurer la diversitĂ© linguistique

sur Internet

Un ensemble d’articles signĂ©s par :

John Paolillo, Daniel Pimienta,

Daniel Prado et autres

RĂ©visĂ© et accompagnĂ©

d’une introduction de l’Institut

de statistique de l’UNESCO

MontrĂ©al (Canada)

Organisation 

des Nations Unies 

pour l’éducation,

la science et la culture 

2005

background image

PubliĂ© en 2005
Par l’Organisation des Nations Unies
pour l’éducation, la science et la culture
7, place de Fontenoy, 75352 PARIS 07 SP
ComposĂ© et imprimĂ© dans les ateliers de l’UNESCO

© UNESCO 2005

Printed in France

(CI-2005/WS/06 CLD 24822)

background image

Table des matiĂšres

1.  Introduction â€“ Institut de statistique de l’UNESCO   

5

2.  ModĂšles et approches   

13

a.  DiversitĂ© linguistique dans le cyberespace :

modĂšles de dĂ©veloppement et de mesure â€“ Daniel Pimienta

   

13

b. 

Le contexte politique et juridique â€“ Daniel Prado

   

35

3.  DiversitĂ© linguistique sur Internet :

examen des biais linguistiques â€“ John Paolillo   

43

4.  Perspectives alternatives   

93

a.  DiversitĂ© linguistique sur Internet :

une perspective asiatique â€“ Yoshiki Mikami et autres   

93

b. 

Une note sur les langues africaines
sur la Toile mondiale â€“ Xavier Fantognan

   

107

background image
background image

5

Introduction

L’UNESCO a mis en lumiĂšre le concept de Â« sociĂ©tĂ© du savoir », qui met l’accent 

sur la pluralitĂ© et la diversitĂ©, plutĂŽt que sur l’uniformitĂ© gĂ©nĂ©ralisĂ©e, comme Ă©tant 

susceptible  de  rĂ©duire  le  fossĂ©  numĂ©rique  et  de  donner  naissance  Ă   une  sociĂ©tĂ© 

de l’information inclusive. Le multilinguisme est l’un des thĂšmes importants que 

sous-tend ce concept, pour assurer une diversitĂ© culturelle et une participation de 

toutes les langues dans le cyberespace. Il existe une inquiĂ©tude croissante Ă  l’effet 

que, dans la foulĂ©e des efforts de rĂ©duire le fossĂ© numĂ©rique, des centaines de lan-

gues locales puissent ĂȘtre laissĂ©es de cĂŽtĂ©, bien que de façon non intentionnelle. Il 

en dĂ©coule l’importance qui est accordĂ©e Ă  la diversitĂ© linguistique et au contenu 

local dans le cadre d’une ligne d’action du Plan d’action du Sommet mondial sur 

la sociĂ©tĂ© de l’information (SMSI) dont la responsabilitĂ© de la coordination a Ă©tĂ© 

conïŹ Ă©e Ă  l’UNESCO.

1

De  plusieurs  façons  inattendues,  l’enjeu  de  la  diversitĂ©  linguistique  sur 

Internet se rĂ©vĂšle au cƓur du dĂ©bat qui entoure la sociĂ©tĂ© de l’information. De 

prime abord, la question semble tourner autour des communautĂ©s qui utilisent 

Internet,  leur  permettant  ainsi  de  se  parler  les  unes  avec  les  autres  dans  leurs 

langues maternelles, mais d’autres questions ne tardent pas Ă  surgir.

Par  l’entremise  de  quels  canaux  la  communication  s’exprime-t-elle  sur 

Internet ?  La  Toile  mondiale  s’apparente  Ă   une  sĂ©rie  de  sources  d’information 

gĂ©nĂ©rant peu d’interactivitĂ©. Les forums de discussions et le courriel permettent 

des Ă©changes plus directs. Cependant, il existe trop peu de renseignements au sujet 

des langues utilisĂ©es dans les courriels ou les forums de discussion (consultez cer-

tains Ă©changes sur ce sujet dans l’article de John Paolillo au chapitre 3, y compris 

les efforts de Sue Wright).

1.

Voir le discours de l’UNESCO Ă  la DĂ©lĂ©gation permanente au SMSI prononcĂ©, le 8 juillet 2005, 
par KoĂŻchiro Matsuura, Directeur GĂ©nĂ©ral.

background image

6

Mesurer la diversitĂ© linguistique sur Internet

Pour la plupart des chercheurs en analyse du langage, il faut par consĂ©quent 

se tourner vers les pages Web. Dans ce domaine, comme dans toutes les formes 
de  communications,  nous  devons  prendre  en  considĂ©ration  les  caractĂ©ristiques 
de l’auditoire. Une page Web ne pourra ĂȘtre lue que par des gens qui disposent 
d’un accĂšs Ă  Internet. ConsĂ©quemment, alors que la diversitĂ© linguistique pourrait 
bĂ©nĂ©ïŹ cier de l’existence de pages Web dans la langue Â« en voie de disparition » 
d’une tribu fort lointaine, trĂšs peu de gens les liraient car il est peu vraisemblable 
que les membres d’une tribu puissent disposer d’un accĂšs Ă  Internet. Par contre, 
des pages au sujet de la langue de la tribu rĂ©digĂ©es dans une langue plus inter-
nationale pourraient jouer un rĂŽle important en attirant l’attention sur la valeur 
culturelle de la langue visĂ©e et, possiblement, susciter un soutien pour le groupe 
linguistique dont il est question. De plus, il s’agirait d’une contribution Ă  la prĂ©-
servation de langues en voie de disparition.

Les articles de ce volume illustrent l’existence de nombreux problĂšmes tech-

niques au niveau de l’évaluation de la diversitĂ© linguistique sur Internet. Nous pou-
vons facilement obtenir un compte alĂ©atoire de pages sur Internet en utilisant un 
nombre quelconque de moteurs de recherche commerciaux, mais nous ne pouvons 
pas Ă©valuer Ă  quelle frĂ©quence ces pages Web sont lues ou encore si la lecture d’une 
page a aidĂ© le lecteur d’une façon ou d’une autre. Aussi il est nĂ©cessaire de s’assurer 
que les Ă©lĂ©ments qui font l’objet d’une recherche dans diffĂ©rentes langues possĂšdent 
une valeur, une signiïŹ cation et une utilisation Ă©quivalentes (voir Pimienta).

Les langues et la sociĂ©tĂ© de l’information

L’Institut  de  statistique  de  l’UNESCO  s’est  engagĂ©  Ă   adopter  une  approche 
d’évaluation  de  la  sociĂ©tĂ©  de  l’information  qui  se  situe  au-delĂ   d’un  aperçu 
technocentriste pour considĂ©rer l’impact social d’Internet et d’autres canaux de 
diffusion de l’information. D’énormes problĂšmes se doivent d’ĂȘtre surmontĂ©s en 
ce qui a trait Ă  

—  la  standardisation  des  dĂ©ïŹ nitions  pour  obtenir  une  comparabilitĂ© 

internationale ;

—  l’identiïŹ cation  d’indicateurs  pertinents  pour  les  politiques  des  pays 

dĂ©veloppĂ©s et en voie de dĂ©veloppement ;

background image

7

1. Introduction

—  le  renforcement  des  capacitĂ©s  aux  niveaux  national  et  international 

pour permettre la collecte rĂ©guliĂšre de donnĂ©es de qualitĂ©.

La langue est le mĂ©dium qui permet tous les Ă©changes suscitĂ©s par la sociĂ©tĂ© de 

l’information. La langue est un mĂ©dium fondamental de toute communication, 

le fondement grĂące auquel les individus et les collectivitĂ©s s’expriment que ce soit 

sous  la  forme  d’une  tradition  orale  ou  d’un  texte  Ă©crit.  Pour  l’UNESCO,  l’en-

seignement de la langue maternelle s’apparente Ă  un droit pour tous les enfants. 

L’UNESCO soutient aussi la diversitĂ© linguistique en s’assurant que la richesse 

culturelle reprĂ©sentĂ©e par la diversitĂ© sera prĂ©servĂ©e dans tous les pays et dans le 

monde entier.

L’enjeu  culturel  des  langues  sur  Internet  s’oppose  une  perception  des 

problĂšmes entourant la sociĂ©tĂ© de l’information centrĂ©e sur les technologies de 

l’information et de la communication (TIC) et leurs rĂ©percussions. L’Institut de 

statistique  de  l’UNESCO  souhaite  prĂ©senter  un  point  du  vue  qui  soulĂšve  des 

questions  au  sujet  de  l’importance  des  problĂšmes  associĂ©s  au  Â« contenu Â»  et  Ă  

l’environnement  favorable  qui,  par  la  mĂȘme  occasion,  lĂšverait  le  voile  sur  les 

problĂšmes  techniques  relatifs  Ă   la  mesure  de  la  culture  et  du  contenu  dans  la 

sociĂ©tĂ© de l’information.

Les articles apparaissant dans ce volume prĂ©sentent une variĂ©tĂ© de perspec-

tives diverses sur la nature de ce problĂšme. L’étude que signe le professeur John 

Paolillo prĂ©sente le point de vue d’un linguiste professionnel oeuvrant dans l’uni-

vers anglophone. L’étude comporte quatre grands chapitres. Le premier chapitre 

traite du cadre Ă©thique relatif  Ă  l’évaluation des biais des systĂšmes informatiques 

et il Ă©tablit un lien entre ce cadre et le statut, sur Internet, des langues parlĂ©es 

dans le monde. Le deuxiĂšme chapitre porte sur les enjeux des biais prĂ©existants 

au  niveau  du  dĂ©veloppement  rĂ©cent  d’Internet,  et  fait  appel  Ă   des  statistiques 

relatives Ă  la croissance d’Internet et leurs rapports avec la diversitĂ© linguistique Ă  

l’échelle mondiale. Le troisiĂšme chapitre examine les enjeux des biais linguistiques 

qui apparaissent dans le sillage d’Internet. Le quatriĂšme chapitre se penche sur 

de tels biais dans les systĂšmes techniques d’Internet.

Comme complĂ©ments Ă  ce texte, sont prĂ©sentĂ©s un ensemble d’articles plus 

brefs  issus  de  contextes  non  anglophones.  Ils  ont  Ă©tĂ©  recueillis  et  organisĂ©s  par 

Daniel Pimienta de FUNREDES, un projet non gouvernemental dans le cadre 

duquel a Ă©tĂ© Ă©laborĂ© un systĂšme d’énumĂ©ration des langues dans une perspective 

background image

8

Mesurer la diversitĂ© linguistique sur Internet

qui privilĂ©gie les langues latines. Pimienta adoptant le point de vue d’une ONG de 
la sociĂ©tĂ© civile, dĂ©crit les obstacles auxquels sont confrontĂ©s les groupes locaux au 
niveau de l’accĂšs Ă  Internet et un aperçu des indicateurs actuellement disponibles. 
Son  article  est  suivi  d’une  note,  en  provenance  de  Daniel  Prado,  prĂ©sentant  la 
rĂ©action de la communautĂ© linguistique Â« nĂ©o-latine » Ă  la domination apparente 
de  l’anglais.  Ces  articles  plus  brefs  comportent  aussi  un  point  de  vue  asiatique 
fort  intĂ©ressant  de  Yoshiki  Mikami  et  autres,  ainsi  qu’une  note  sur  la  situation 
en Afrique signĂ©e par Xavier Fantognan qui rĂ©sume la situation qui prĂ©vaut en 
Afrique dans une perspective africaine.

Le volume n’offre aucune rĂ©ponse dĂ©ïŹ nitive quant Ă  la façon de mesurer 

les langues sur Internet, mais il tente de rĂ©futer nombre des mythes entourant les 
chiffres qui ont couramment Ă©tĂ© publiĂ©s. Il prĂ©cise que le simple fait de compter 
des pages Web ne sufïŹ t pas et qu’il faudra que les fournisseurs de service Internet 
et les gouvernements consentent plus d’efforts de dĂ©veloppement. Chaque auteur 
prĂ©sente, dans une perspective qui lui est propre, un certain nombre de sugges-
tions sur les façons d’aborder ces nĂ©cessaires efforts de dĂ©veloppement.

DiversitĂ© linguistique sur Internet : un aperçu

La diversitĂ© linguistique peut en soi faire l’objet de diffĂ©rentes interprĂ©-

tations.  L’anglais  est  une  langue  parlĂ©e  assez  uniformĂ©ment  Ă   la  grandeur  des 
pays oĂč elle joue un rĂŽle prĂ©dominant. La Papouasie-Nouvelle-GuinĂ©e compte 
plus  de  830  langues.  Les  rĂ©sidents  des  pays  anglophones  peuvent  possĂ©der  de 
nombreuses  autres  aptitudes  langagiĂšres,  mais  rares  sont  les  pays  qui  peuvent 
rivaliser  avec  la  Papouasie  en  ce  qui  concerne  la  diversitĂ©  au  sein  d’un  mĂȘme 
pays.  MĂȘme  si  le  nombre  de  locuteurs  de  langues  nĂ©o-latines,  y  compris  ceux 
aux  Ă‰tats-Unis,  peut  Ă©quivaloir  au  double  du  nombre  de  personnes  de  langue 
maternelle anglaise (voir Daniel Prado), nĂ©anmoins les Ă‰tats-Unis contrĂŽlent en 
grande partie les rouages qui sous-tendent la Toile mondiale (voir John Paolillo, 
Yoshiki Mikami). Le rapport entre les langues sur Internet et la diversitĂ© linguis-
tique au sein d’un pays indique que, mĂȘme en prĂ©sence d’un rĂ©seau mondial, les 
Etats nations continuent d’avoir un rĂŽle Ă  jouer au niveau de l’encouragement Ă  
apporter Ă  la diversitĂ© linguistique dans le cyberespace. La diversitĂ© linguistique 
peut  ĂȘtre  perçue  autant  Ă   l’intĂ©rieur  mĂȘme  d’un  pays  qu’à  l’échelle  d’Internet 
dans son ensemble.

background image

9

1. Introduction

Il est communĂ©ment admis que l’anglais joue un rĂŽle dominant sur Inter-

net.  Les  articles  dans  ce  volume  diffĂšrent  en  ce  qui  concerne  l’interprĂ©tation  Ă  

donner Ă  cette question. John Paolillo se rallie Ă  la proposition et il prend pour 

acquis,  comme  la  plupart  des  gens  qui  perçoivent  l’anglais  comme  la  langue 

dominante,  que  cela  pose  problĂšme.  Daniel  Pimienta  considĂšre  que  l’anglais 

englobe  environ  la  moitiĂ©  de  toutes  les  pages  Web,  et  que  cette  proportion  est 

en baisse Ă  mesure que d’autres nations et groupes linguistiques accroissent leur 

prĂ©sence sur la Toile. John Paolillo s’attarde sur la domination des Ă‰tats-Unis sur 

les forces qui sous-tendent la Toile, tant de nature commerciale que rĂ©glementaire, 

dans la mesure oĂč cette derniĂšre existe. Mikami appuie Paolillo sur ce point et 

met l’accent sur les difïŹ cultĂ©s qu’il y a Ă  rĂ©concilier les technologies, Ă©tats-unien-

nes  ou  occidentales,  de  l’information  et  des  communications  et  les  conventions 

linguistiques  avec  les  scriptes  asiatiques.  Cependant,  Mikami  laisse  entrevoir, 

tout comme Pimienta, qu’un changement est sur le point d’intervenir Ă  mesure 

qu’augmentent les clientĂšles indienne et chinoise. Cette divergence d’opinion sur 

la domination de la langue anglaise et l’avenir des langues sur la Toile ne peut 

ĂȘtre  facilement  rĂ©solue.  Au  bout  du  compte,  cette  division  pourrait  amener  Ă  

faire l’illustration de la difïŹ cultĂ© de mesurer l’utilisation des langues sur Internet 

Ă  l’égard de laquelle, malgrĂ© la myriade de plates-formes des TIC, mais en partie 

Ă  cause d’une pĂ©nurie de rĂ©glementation et d’une croissance phĂ©nomĂ©nale, nous 

ne possĂ©dons aucun indicateur statistique valable. Pimienta laisse Ă  penser que le 

domaine des indicateurs d’Internet a Ă©tĂ© en grande partie pris en charge par les 

entreprises commerciales et qu’il existe un besoin pour des analyses universitaires 

de grande qualitĂ©.

Paolillo allĂšgue que les compagnies de tĂ©lĂ©communications qui proïŹ tent 

de la demande pour des services de technologie et de communication se doivent 

de garder Ă  l’esprit qu’ils possĂšdent une responsabilitĂ© spĂ©ciale en ce qui concerne 

la  diversitĂ©  linguistique  des  pays  dont  ils  desservent  les  marchĂ©s.  Les  sociĂ©tĂ©s 

actives dans les domaines du matĂ©riel et des logiciels informatiques exercent une 

inïŹ‚ uence de mĂȘme type sur la mise en place linguistique d’Internet, en produi-

sant  des  ordinateurs  qui  disposent  de  claviers,  de  prĂ©sentations  et  de  systĂšmes 

d’exploitation  qui  favorisent  certaines  langues  en  particulier.  Les  gestes  posĂ©s 

par les sociĂ©tĂ©s informatiques tournĂ©es essentiellement vers la concurrence pour 

la domination du marchĂ© ont des effets nuisibles sur le climat de l’informatique 

multilingue et de la diversitĂ© linguistique en ligne. Dans de telles circonstances, 

la prise de conscience ethnolinguistique des compagnies de tĂ©lĂ©communications, 

des sociĂ©tĂ©s informatiques et des autoritĂ©s qui rĂ©gissent Internet ne commencera 

background image

10

Mesurer la diversitĂ© linguistique sur Internet

Ă  s’étendre que si une masse critique de groupes ethnolinguistiques sous-reprĂ©-

sentĂ©s puisse retenir leur attention. Par consĂ©quent, l’enjeu gĂ©nĂ©ral des biais lin-

guistiques Ă©mergents exige une surveillance Ă©troite Ă  l’échelle mondiale, rĂ©gionale 

et locale.

La mesure des langues sur Internet peut ĂȘtre utilisĂ©e Ă  titre de paradigme 

pour de nombreux enjeux relatifs Ă  la mesure du contenu. Mais, Ă  proprement 

parler, si nous ne pouvons pas mesurer cette dimension apparemment simple du 

contenu d’un site Web, que pouvons-nous mesurer au juste ? Toutefois, nous ne 

devrions pas faire preuve d’autant de pessimisme. Le projet de Mikami offre de 

grandes possibilitĂ©s de composer avec plusieurs des problĂšmes techniques soule-

vĂ©s par les articles prĂ©cĂ©dents et qui, de son propre aveu, adoptaient un point de 

dĂ©part non anglophone.

Il nous faut opter pour la mise au point d’indicateurs plus intelligents. Le 

fait de mesurer la prĂ©sence des langues sur un nombre global de pages Web suscite 

de plus en plus de dĂ©ïŹ s Ă  cause de l’ampleur mĂȘme de leur contenu, et la prĂ©sence 

d’une page sur le Web ne signiïŹ e pas pour autant qu’elle soit utilisĂ©e ou mĂȘme 

qu’elle  soit  Â« visitĂ©e ».  Si  nous  voulons  vraiment  mesurer  l’impact  de  la  sociĂ©tĂ© 

de l’information, nous avons besoin de statistiques sur les modalitĂ©s d’utilisation 

d’Internet et sur ses utilisateurs. Ă€ cet Ă©gard, les pages Web se prĂ©sentent tout sim-

plement comme des mesures visant l’offre, dans toute sa diversitĂ© ou homogĂ©nĂ©itĂ© 

linguistique, et pas nĂ©cessairement comme un outil de rĂ©ïŹ‚ exion de l’utilisation et 

de la demande. Dans un marchĂ© d’offre excĂ©dentaire de pages Web, par exemple 

en  anglais,  qui  offrent  une  variĂ©tĂ©  de  services,  il  est  possible  que  de  nombreux 

sites mĂ©diocres ne reçoivent que peu ou pas de visiteurs. Il est aussi de notoriĂ©tĂ© 

publique que, pendant des annĂ©es, de nombreux sites Internet ne sont pas mis Ă  

jour ou demeurent tels quels.

D’un  point  de  vue  Ă©conomique,  la  Toile  prĂ©sente  certains  aspects  d’un 

marchĂ© libre et un certain nombre d’échecs du marchĂ© (voir Paolillo). Les sites 

Web sont Ă©laborĂ©s pour rĂ©pondre aux besoins d’un auditoire particulier. Si l’accĂšs 

Ă  Internet est peu dĂ©veloppĂ© sur le marchĂ© intĂ©rieur, les sites Web commerciaux 

seront  conçus  en  fonction  d’un  marchĂ©  Ă©tranger  extĂ©rieur  et,  par  consĂ©quent, 

seront Ă©crits dans une langue internationale comme l’anglais. D’autre part, une 

faible  utilisation  d’un  site  Internet  ainsi  que  les  coĂ»ts  peu  Ă©levĂ©s  d’entretien  de 

sites Web signiïŹ ent qu’ils peuvent continuer d’exister et d’ĂȘtre enregistrĂ©s auprĂšs 

de  moteurs  de  recherche  bien  aprĂšs  la  derniĂšre  visite  d’un  utilisateur  Ă©ventuel. 

background image

11

1. Introduction

D’un point de vue idĂ©al, il nous faut une analyse de sites Â« utiles Â» et des visiteurs 

qui les frĂ©quentent.

MĂȘme  en  tenant  compte  des  limites  des  prĂ©sentes  Ă©tudes,  ces  derniĂšres 

rĂ©vĂšlent Ă  quel point les statistiques sur le pourcentage des personnes qui possĂš-

dent un ordinateur ou sur le nombre d’abonnements Ă  Internet (deux indicateurs 

des Objectifs de dĂ©veloppement du millĂ©naire) sont peu rĂ©vĂ©lateurs sur les change-

ments fondamentaux en matiĂšre d’échange d’information auxquels a donnĂ© lieu 

la sociĂ©tĂ© de l’information. Si nous mettons de cĂŽtĂ© les arguments Ă  l’appui ou Ă  

l’encontre de la domination de la langue anglaise, nous pouvons constater dans ce 

volume la rapide expansion de l’utilisation d’Internet en Asie et, consĂ©quemment, 

la croissance des sites Web en langues asiatiques (voir Mikami) et, dans la foulĂ©e 

de l’expansion du Web, les modalitĂ©s de rapprochement des communautĂ©s Â« nĂ©o-

latines »  aïŹ n  d’examiner  la  place  qu’elles  occupent  dans  une  sociĂ©tĂ©  du  savoir 

mondiale  (voir  Prado).  Il  est  important  de  souligner  que  l’univers  numĂ©rique 

fournit un environnement porteur Ă  autant de langues que possible. Cela pourrait 

assurer une vĂ©ritable inclusion linguistique numĂ©rique. 

Les prochaines Ă©tapes

Il est Ă  souhaiter que ce rapport relĂšve le besoin, tel que suggĂ©rĂ© ci-dessus, pour 

tous les organismes d’Ɠuvrer aux niveaux national et international. Le Sommet 

mondial sur la sociĂ©tĂ© de l’information offre un contexte favorable Ă  des discus-

sions portant Ă  la fois sur la politique linguistique et les normes technologiques, 

ainsi que sur les objectifs d’une politique Ă  venir par la promotion d’une libĂ©rali-

sation des Ă©changes d’information.

Les Ă©tudes montrent Ă  quel point il est important de comprendre le con-

texte  culturel  propre  Ă   l’échange  d’information.  Ă‰tant  donnĂ©  cette  situation,  il 

semble improbable qu’une quelconque perspective mondiale soit susceptible de 

fournir  des  donnĂ©es  comparables  ou  pertinentes  par  rapport  Ă   la  politique  qui 

s’avĂšrent sufïŹ samment sensibles aux enjeux soulevĂ©s sur le plan technique et sur 

celui de la politique. Il y aurait plutĂŽt lieu de conïŹ er Ă  des initiatives rĂ©gionales la 

direction de la surveillance, et les rĂ©sultats de leurs Ă©tudes pourraient ensuite ĂȘtre 

fusionnĂ©s dans une perspective globale Ă  l’échelle mondiale. Le projet FUNRE-

DES et l’Observatoire de Mikami constituent deux projets Ă©ventuels susceptibles 

de nous montrer les modalitĂ©s de fonctionnement d’un tel rĂ©seau rĂ©gional.

background image

12

Mesurer la diversitĂ© linguistique sur Internet

En conclusion, ainsi que l’énonce si adroitement Paolillo dans son rapport, 

il se peut que des gestes soient nĂ©cessaires pour s’assurer que les valeurs de l’accĂšs 

numĂ©rique et de l’alphabĂ©tisme numĂ©rique soient conïŹ rmĂ©es, tout spĂ©cialement 

pour le compte des nombreux pays en voie de dĂ©veloppement et touchĂ©s par une 

diversitĂ© linguistique. 

L’UNESCO  recommande  aux  instances  nationales,  rĂ©gionales  et  inter-

nationales  de  travailler  ensemble  aïŹ n  de  fournir  les  ressources  nĂ©cessaires  et  Ă  

prendre les mesures qui s’imposent pour allĂ©ger les barriĂšres linguistiques et pro-

mouvoir l’interaction humaine sur Internet en favorisant la crĂ©ation, le traitement 

et  l’accĂšs  Ă   un  contenu  Ă©ducatif,  culturel  et  scientiïŹ que  sous  forme  numĂ©rique, 

de façon Ă  s’assurer que toutes les cultures puissent s’exprimer et avoir accĂšs au 

cyberespace dans toutes les langues, y compris les langues indigĂšnes.

2

Pour  plus  de  plus  amples  renseignements,  veuillez  consulter  :  La    Recommandation  de 
l’UNESCO  relative  Ă   la  promotion  et  Ă   l’utilisation  du  multilinguisme  et  l’accĂšs  universel  au 
cyberespace et le document 32 C/27, 2003, DĂ©claration sur la diversitĂ© culturelle de l’UNESCO, 
Paris, 02.11.2001.

background image

13

ModĂšles et approches

a. DiversitĂ© linguistique dans le cyberespace : 

modĂšles de dĂ©veloppement et de mesure

Daniel Pimienta, FUNREDES

Introduction

Il  est  un  mot  que  les  acteurs  et  actrices  de  la  sociĂ©tĂ©  civile  sur  le  thĂšme  de  la 

sociĂ©tĂ© de l'information, spĂ©cialement, ceux et celles qui pensent que l'essence des 

nouveaux paradigmes qu'appelle la sociĂ©tĂ© des savoirs partagĂ©s et la dĂ©mocratie 

participative  rĂ©side  dans  une 

Ă©thique  des  processus,

  utilisons  pour  traduire  notre 

vision : 

la cohĂ©rence. 

La cohĂ©rence entre le dire et le faire est pour nous ce qui permet de croire 

aux dĂ©clarations et de pardonner les erreurs qui, dans une approche de processus, 

deviennent des occasions d'apprendre, de tirer les leçons et de continuer Ă  croĂźtre. 

Cette  dĂ©marche,  propre  de  la  recherche-action,  particuliĂšrement  adaptĂ©e  pour 

traiter  des  questions  de  dĂ©veloppement  est  celle  qui  nous  habite  dans  ce  docu-

ment dont la prĂ©tention, plus qu'apporter des solutions pour une question aussi 

complexe que la diversitĂ© linguistique dans Internet, est de questionner les fausses 

Ă©vidences,  d'apporter  des  points  de  vue  provocateurs,  pour  ouvrir  des  pistes  de 

rĂ©ïŹ‚ exion  et  d'action  qui  sortent  des  sentiers  battus  et  des  jugements  prĂ©conçus 

et puissent rendre compte de la complexitĂ© du sujet traitĂ© ; cela avec Ă  la fois la 

modestie du chercheur qui tĂątonne et la fermetĂ© de la personne d'action qui s'est 

engagĂ©e sur le terrain.

2.

background image

14

Mesurer la diversitĂ© linguistique sur Internet

La cohĂ©rence s'exprimera dans ce document de plusieurs maniĂšres :

—  le choix de la langue maternelle, un droit Ă©lĂ©mentaire aprĂšs tout, pour 

l'expression ;

—  une volontĂ© de laisser la diversitĂ© s'exprimer dans la sĂ©lection des person-

nes, compĂ©tentes sur le thĂšme, invitĂ©es Ă  s'exprimer. Nous avons essayĂ© 

de couvrir aussi bien que possible les lieux gĂ©ographiques, les cultures, 

les langues, les proïŹ ls, les secteurs, les Ăąges et les genres. A l'Ă©vidence, 

nous  n'avons  pas  rĂ©ussi  complĂštement  (nous  regrettons,  par  exemple, 

que la place faite aux textes au fĂ©minin n'ait pas Ă©tĂ© plus grande) mais 

la cohĂ©rence s'exprime surtout dans l'authenticitĂ© de l'intention ;

—  la dĂ©cision de ne pas faire un texte Â« langue de bois » et de prendre le 

risque de la provocation, jamais gratuite, parfois gratiïŹ ante, toujours 

assise sur l'expĂ©rience de terrain et avec l'intention de dĂ©ranger pour 

ouvrir les esprits, pas pour le plaisir de dĂ©ranger.

Un approche structurĂ©e pour l’intĂ©gration des TIC et du dĂ©ve-

loppement humain

La Â« fracture numĂ©rique » est un concept qui est devenu trĂšs Ă  la mode et 

a engendrĂ© beaucoup de rĂ©ïŹ‚ exions et de rĂ©unions internationales. La vision plutĂŽt 

consensuelle de la sociĂ©tĂ© civile (Pimienta, 2002, CommunautĂ© MISTICA, 2002) 

est qu’il ne faut pas se tromper de fracture et Ă©viter la simpliïŹ cation qui consiste 

Ă  tout mettre sur le dos de la technologie. Nous proposons ci-aprĂšs une grille ori-

ginale de lecture et analyse de l’utilisation des TIC pour le dĂ©veloppement pour 

illustrer le fait que la rĂ©solution de la fracture numĂ©rique n’est pas, loin de lĂ , une 

simple question d’accĂšs Ă  la technologie et que la question de la langue y joue 

Ă©galement un rĂŽle essentiel.

Le principe de la grille est d’identiïŹ er les obstacles successifs Ă  surmonter 

pour  permettre  l’utilisation  des  TIC  pour  le  dĂ©veloppement  humain.  La  grille 

sous-entend une progression dans l’énumĂ©ration des obstacles, Ă  partir des infras-

tructures vers l’infoculture en passant par l’infostructure. Il est probable que cette 

progression  ne  corresponde  pas  exactement  Ă   la  rĂ©alitĂ©  vĂ©cue  par  chaque  per-

sonne ou groupe social et que l’ordre des facteurs dĂ©pende des contextes. NĂ©an-

background image

15

2. ModĂšles et approches

moins, pour des raisons pratiques et pĂ©dagogiques nous acceptons de simpliïŹ er 

cette rĂ©alitĂ© complexe de cette maniĂšre, en forme d’une sĂ©rie d’obstacles successifs 

Ă  surmonter ou de niveau progressifs Ă  atteindre.

Tableau 1. TIC pour dĂ©veloppement : le long chemin semĂ© d’obstacles 

de l’accĂšs au dĂ©veloppement humain

Niveau d’usage

Description des usages 

et des obstacles

Questions concernant 

les langues

ACCES

La possibilitĂ© pour

une personne ou un groupe

de personnes de dĂ©tenir

un moyen physique d’utiliser

les TIC.

Les obstacles Ă  surmonter 

pour obtenir un accĂšs 

sont multiples et peuvent 

Ă©galement se prĂ©senter 

sous forme de couches 

progressives :

– existence d’une 

infrastructure.

Les interfaces doivent 

permettre l’accĂšs dans 

la langue maternelle 

de l’utilisateur et d’une 

maniĂšre adaptĂ©e Ă  sa 

culture.

– existence d’une 

infrastructure. 

cĂŽtĂ© service : 

fournisseurs 

d’accĂšs TIC et fournisseurs 

d’accĂšs aux rĂ©seaux de 

tĂ©lĂ©communications 

dimensionnĂ©s de maniĂšre 

Ă  servir la quantitĂ© 

d’utilisateurs avec des 

temps de rĂ©ponse et 

des taux de congestion 

acceptables.

La question linguistique se 

retrouve, pour le matĂ©riel, 

dans les claviers des 

ordinateurs mais aussi, 

en ce qui concerne les 

logiciels, dans la gestion 

des caractĂšres associĂ©s Ă  

une langue et qui doivent 

ĂȘtre codiïŹ Ă©s pour le 

traitement informatique.
Cependant la partie 

logiciel opĂ©rationnelle 

qui concerne les langues 

ne s’arrĂȘte pas Ă  la 

codiïŹ cation : 

background image

16

Mesurer la diversitĂ© linguistique sur Internet

Niveau d’usage Description des usages 

et des obstacles

Questions concernant 

les langues

cĂŽtĂ© utilisateurs :

 le 

matĂ©riel informatique 

requis pour cet accĂšs 

avec les caractĂ©ristiques 

adĂ©quates pour offrir des 

performances acceptables. 

Cela peut ĂȘtre fait de 

maniĂšre individuelle 

(station de travail 

personnelle) ou collective 

(tĂ©lĂ©centres ou kiosques 

Internet).

les programmes d’édition 

nĂ©cessitent, pour leur 

fonctionnement optimum 

dans une langue donnĂ©e, des 

corpus et dictionnaires pour 

la correction orthographique 

et de syntaxe. Une vision Ă  

long terme plus ambitieuse 

pourrait d’ailleurs considĂ©rer 

que les programmes de 

traduction automatique 

font partie de la couche 

opĂ©rationnelle (et non de 

la couche applicative). Un 

Ă©norme travail reste Ă  faire 

au niveau des programmes 

de traduction pour les 

Ă©tendre au-delĂ  des langues 

dites dominantes. C’est un 

espace tout Ă  fait indiquĂ© 

pour le dĂ©veloppement 

en logiciel libre mais 

malheureusement cet 

espace est pratiquement 

vide et un trĂšs grand 

effort de sensibilisation 

et d’encouragement doit 

encore ĂȘtre rĂ©alisĂ©.
Un aspect linguistique, qui 

est maintenant considĂ©rĂ© 

par l’ICANN (Webopedia, 

2005b), est celui des noms 

de domaine Internet 

dans toutes les langues 

(Wikipedia, 2005a)

background image

17

2. ModĂšles et approches

Niveau d’usage

Description des usages

et des obstacles

Questions concernant 

les langues

– accĂšs Ă©conomique Ă  

l’infrastructure

Que les prix pour l’utilisation 

de l’infrastructure soient 

accessibles aux utilisateurs. 

Il y a Ă©videmment plusieurs 

Ă©lĂ©ments directs ou indirects 

dans l’équation de prix

3

 et 

l’accĂšs collectif  et l’accĂšs 

individuel prĂ©sentent des 

paramĂštres diffĂ©rents.
Il sufïŹ t de comparer, par 

exemple, l’ordre de grandeur 

des prix pour un accĂšs 

ADSL (Webopedia, 2005a) 

(entre 10 et 50 $EU par 

mois) et les salaires dans 

la pyramide sociale pour 

dĂ©couvrir que ceci reprĂ©sente 

plus d’un an de salaire pour 

une proportion importante 

de l’humanitĂ© (celle qui 

vit en dessous du seuil de 

pauvretĂ©), une valeur de 

l’ordre d’un mois de salaire 

pour une autre proportion 

importante (une proportion 

notable des peuples des 

pays du Sud), une valeur de 

l’ordre de 10% du salaire 

– accĂšs Ă©conomique Ă  

l’infrastructure

Le principe de Â« l’accĂšs 

universel » doit inclure la 

considĂ©ration sur un prix 

d’accĂšs cohĂ©rent avec le 

niveau Ă©conomique des 

populations concernĂ©es.

Directs, comme le prix du poste d’accĂšs, celui du fournisseur d’accĂšs, dans certains cas, celui de 
la liaison tĂ©lĂ©phonique ou celui du fournisseur d’information, celui du logement d’un serveur ou 
d’un domaine Internet (car l’accĂšs c’est aussi la production de contenus) ; ou indirects, comme 
les Ă©conomies que permettent un accĂšs (par exemple, tĂ©lĂ©phone IP ou facture de dĂ©placement 
Ă©vitĂ©e) ou les coĂ»ts de maintenance des Ă©quipements et de formation du personnel.

background image

18

Mesurer la diversitĂ© linguistique sur Internet

Niveau d’usage

Description des usages

et des obstacles

Questions concernant 

les langues

mensuel pour les classes 

moyennes des pays en 

dĂ©veloppement et une valeur 

de l’ordre de 1% pour les 

classes moyennes des pays 

développés.
La premiĂšre fracture n’est 

ïŹ nalement pas numĂ©rique 

elle est Ă©conomique et 

sociale ...
La rĂ©solution des deux 

premiĂšres couches mention-

nĂ©es devrait

4

 reprĂ©senter 

ce qu’il est convenu 

d’appeler, par l’UIT et les 

organismes rĂ©gulateurs 

des tĂ©lĂ©communications 

(UIT, 2003), 

« l’accĂšs 

universel Â».

 Mais, s’il s’agit 

d’une condition nĂ©cessaire 

pour rĂ©soudre la fracture 

numĂ©rique, elle est trĂšs 

loin d’ĂȘtre une condition 

sufïŹ sante ...

– accĂšs Ă©conomique Ă  

l’infrastructure

Le principe de Â« l’accĂšs 

universel » doit inclure la 

considĂ©ration sur un prix 

d’accĂšs cohĂ©rent avec le 

niveau Ă©conomique des 

populations concernĂ©es.

–  alphabĂ©tisation 

fonctionnelle

Que la personne qui utilise 

l’infrastructure ait la capacitĂ© 

fonctionnelle de lire et Ă©crire 

– alphabĂ©tisation 

fonctionnelle

Il n’est certes pas exclu 

de tirer parti de la 

composante multimĂ©dia

Nous Ă©crivons Â«devrait» car trop souvent l’aspect Ă©conomique est nĂ©gligĂ© dans les plans d’accĂšs 
universel et le concept est compris comme une couverture physique totale des accĂšs aux infras-
tructures, ce qui fait certainement l’affaire des vendeurs de matĂ©riel mais pas forcĂ©ment celui des 
utilisateurs.

background image

19

2. ModĂšles et approches

Niveau d’usage

Description des usages

et des obstacles

Questions concernant 

les langues

dans sa langue. Il s’agit 

probablement de la seconde 

fracture qu’il faut rĂ©soudre 

quand on prĂ©tend offrir, par 

exemple, Â« Internet pour 

tous Â».

des TIC pour adapter 

des interfaces permettant 

un certain nombre de 

possibilitĂ©s aux personnes 

analphabĂštes. Cependant, 

il faut se rendre Ă  

l’évidence s’il s’agit 

d’accĂšs Ă  la connaissance 

et non simplement 

d’accĂšs aux technologies, 

l’alphabĂ©tisation 

fonctionnelle est une 

prioritĂ© au dessus de 

l’accĂšs technologique 

pour les populations non 

alphabétisées.
Ici se pose aussi la 

question des langues 

seulement orales pour 

lesquelles l’espace 

numĂ©rique reprĂ©sente 

un handicap fatal sauf  Ă  

rĂ©aliser l’effort d’inventer 

une forme Ă©crite et 

codiïŹ able.

– numĂ©risation de 

l’alphabet

Que la langue maternelle 

de la personne qui utilisera 

l’infrastructure puisse se 

prĂȘter Ă  un traitement 

informatique. Pour cela il 

faut qu’elle existe sous forme 

Ă©crite et que les caractĂšres  

de son alphabet soient 

convenablement codiïŹ Ă©s.

– numĂ©risation de 

l’alphabet

C’est aujourd’hui encore 

un obstacle majeur pour 

une trĂšs grande proportion 

des langues et cela doit 

reprĂ©senter une prioritĂ© 

initiale majeure. Des 

efforts sont en cours dans 

le cadre de UNICODE 

(Wikepedia, 2005b) et 

background image

20

Mesurer la diversitĂ© linguistique sur Internet

Niveau d’usage

Description des usages

et des obstacles

Questions concernant 

les langues

Ce n’est malheureusement 

pas le cas pour la majoritĂ© 

des langues encore en usage. 

doivent ĂȘtre maintenus et 

ampliïŹ Ă©s.

UTILISATION

La possibilitĂ© de faire une 

utilisation efïŹ ciente (qui conduise 

Ă  l’objectif  ïŹ xĂ©) et efïŹ cace (que 

le processus soit optimum dans 

l’utilisation du temps) des TIC. 

Pour cela il faut que la 

personne dispose d’un grand 

nombre de capacitĂ©s de 

gestion des outils numĂ©riques 

et de comprĂ©hension des 

Ă©lĂ©ments conceptuels, 

mĂ©thodologiques et culturels 

associĂ©s Ă  l’espace numĂ©rique. 

Il ne faut pas sous-estimer 

l’ampleur des capacitĂ©s 

requises qui nous conduit au 

concept d’

alphabĂ©tisation 

numérique

 (en anglais, 

« digital literacy Â»).  

L’apprentissage de l’espace 

numĂ©rique, qui ne doit pas 

ĂȘtre un simple entraĂźnement 

Ă  l’utilisation de certains pro-

grammes d’ordinateurs mais 

devrait inclure une vision 

holistique des considĂ©rations 

et impacts sociĂ©taux

5

 de 

l’utilisation des TIC pour le 

dĂ©veloppement, est sans 

– alphabĂ©tisation 

numérique

L’effort formidable 

nĂ©cessaire pour une 

Ă©ducation numĂ©rique 

(apprentissage) doit 

impĂ©rativement ĂȘtre 

conçu et rĂ©alisĂ© dans les 

langues maternelles des 

populations concernĂ©es 

et en tenant compte 

de leurs cultures. Il est 

important de noter que 

ce critĂšre impĂ©ratif  

s’applique Ă©galement aux 

interfaces des applications 

de gouvernement 

Ă©lectronique.

Impact politique, Ă©conomique, social, culturel, linguistique, organisationnel, Ă©thique, biologique, 
psychologique.

background image

21

2. ModĂšles et approches

Niveau d’usage

Description des usages

et des obstacles

Questions concernant 

les langues

aucun doute le nƓud le plus 

difïŹ cile Ă  rĂ©soudre, l’élĂ©ment 

Ă  la fois le plus important et 

le plus nĂ©gligĂ©, de l’effort Ă  

consentir pour surmonter la 

fracture numĂ©rique.
Les trois piliers de la sociĂ©tĂ© 

de l’information Ă  construire 

ne sont pas, contrairement Ă  

la croyance la plus rĂ©pandue, 

les tĂ©lĂ©communications, 

les Ă©quipements et les 

logiciels mais l’éthique de 

l’information, l’éducation et 

la participation ...

APROPRIA-

TION

TECHNOLO-

GIQUE

Quand la personne qui utilise est 

sufïŹ samment habile pour que la 

technologie soit 

transparente 

de son utilisation 

personnelle. 

Par exemple, une paire de 

lunettes, une technologie 

optique que l’on met sur 

son nez le matin et que 

l’on oublie totalement 

toute la journĂ©e ou encore, 

dans le champ des TIC, 

la personne qui fait usage 

de son tĂ©lĂ©phone sans que 

l’existence de ce mĂ©dia 

participe d’aucune maniĂšre 

du dialogue Ă  distance.
De maniĂšre Ă©vidente, pour les 

TIC, cette appropriation 

Comment rendre 

transparente la technologie 

si son accĂšs demande de 

passer par une langue 

autre que la langue 

maternelle ? Ce niveau 

renforce clairement les 

arguments avancĂ©s pour 

les niveaux prĂ©cĂ©dents.

background image

22

Mesurer la diversitĂ© linguistique sur Internet

Niveau d’usage

Description des usages

et des obstacles

Questions concernant 

les langues

demande des capacitĂ©s plus 

sophistiquĂ©es qui concernent 

l’usage d’un PC et des 

applications informatiques qui 

interviennent dans les proces-

sus, ainsi, bien entendu, 

qu’une certaine expertise dans 

la recherche d’information ou 

la maniĂšre de communiquer 

par courrier Ă©lectronique 

et de se comporter en 

communautĂ© virtuelle.
En plus d’une bonne 

Ă©ducation numĂ©rique, une 

pratique

 minimum est 

nĂ©cessaire pour atteindre ce 

stade.

USAGE

PORTEUR

DE SENS

La capacitĂ© de faire un usage des 

TIC qui possĂšde une signiïŹ cation 

sociale pour la personne dans son 

contexte personnel, professionnel et 

communautaire.

Il s’agit de dĂ©passer 

l’utilisation ludique 

et de simple outil 

de communication 

interpersonnelle et d’orienter 

l’usage vers des ïŹ ns de 

dĂ©veloppement humain. 

C’est ici que doivent 

apparaĂźtre des capacitĂ©s 

fondamentales pour ne pas 

ĂȘtre un simple consommateur 

et passer du cĂŽtĂ© de la 

Le thĂšme linguistique est 

essentiel dans ce niveau et 

renvoie Ă  la possibilitĂ© et 

la motivation Ă  produire 

des contenus et des 

communautĂ©s virtuelles 

localisĂ©es. Il pose aussi 

clairement la question 

du multilinguisme et de 

la nĂ©cessitĂ© de dispositif  

de passerelles entre les 

langues.

background image

23

2. ModĂšles et approches

Niveau d’usage

Description des usages

et des obstacles

Questions concernant 

les langues

production

 (de 

contenus

par exemple) et de 

création

(de c

ommunautĂ©s 

virtuelles

 par exemple).

APPRO-

PRIATION 

SOCIALE

Quand la personne qui utilise est 

sufïŹ samment habile pour que la 

technologie soit 

transparente 

de son utilisation sociale.

Ce niveau Ă©voque une 

comprĂ©hension lucide des 

impacts sociĂ©taux de l’usage 

des TIC pour le dĂ©velop-

pement et des 

implications 

culturelles et Ă©thiques

propres Ă  cet usage (culture/

Ă©thique de rĂ©seau, culture/

Ă©thique de l’information 

et une connaissance des 

aspects mĂ©thodologiques 

liĂ©es aux usages productifs de 

développement).
En plus d’une bonne 

Ă©ducation numĂ©rique une 

pratique orientĂ©e vers le 

dĂ©veloppement est nĂ©cessaire 

pour atteindre ce stade.

Les aspects Ă©thiques et 

culturels des rĂ©seaux ne 

sont pas entiĂšrement 

neutres et doivent 

passer par le ïŹ ltre du 

mĂ©tissage (voire mĂȘme 

d’une certaine forme 

de syncrĂ©tisme) avec les 

cultures et les Ă©thiques 

locales. La langue Ă©tant un 

des vecteurs de transport 

des cultures n’est pas 

indiffĂ©rente aux questions 

complexes et dĂ©licates qui 

se posent. 

background image

24

Mesurer la diversitĂ© linguistique sur Internet

Niveau d’usage

Description des usages

et des obstacles

Questions concernant 

les langues

«EMPOWER-

MENT»

6

Quand la personne et/ou la 

communautĂ© est en mesure de 

transformer sa rĂ©alitĂ© 

sociale

 grĂące Ă  l’appropriation 

sociale des TIC Ă  des ïŹ ns de 

dĂ©veloppement. 

Ici, il ne s’agit plus 

seulement des capacitĂ©s 

elles-mĂȘmes mais de leur 

mise en pratique 

aussi 

bien au niveau individuel 

que collectif. Cette mise 

en pratique demande 

Ă©videmment l’application des 

valeurs associĂ©es Ă  la culture 

de rĂ©seau et la culture de 

l’information : l’organisation 

en rĂ©seau, la propension 

au travail collaboratif, la 

transparence active, la 

participation proactive.

Clairement, plus on 

s’approche de la ïŹ n de 

la chaĂźne qui conduit 

de l’accĂšs vers le 

dĂ©veloppement plus il est 

clair que c’est l’aspect 

culturel qui prend de 

l’importance, sans perdre 

de vue qu’il est souvent 

impossible de le dissocier 

complĂštement de l’aspect 

linguistique.
Que signiïŹ e 

« l’empowerment » et 

comment se manifeste-t-il 

dans chaque culture ?

INNOVATION 

SOCIALE

Quand l’action de transformation 

de la rĂ©alitĂ© sociale est porteuse de 

solutions originales

 crĂ©Ă©es 

par la personne ou la communautĂ©.

Le nouveau paradigme de 

travail en rĂ©seau porte les 

germes de l’innovation, en 

particulier sociale (nouvelles 

formes d’organisation, rĂ©pon-

ses nouvelles Ă  problĂšmes 

connus ...).

Que signiïŹ e 

« l’innovation » et 

comment se manifeste-t-

elle dans chaque culture ?

Ce mot anglais rassemble Ă  la fois les sens de recevoir et de prendre la capacitĂ© ainsi que la notion 
de prise de pouvoir Ă  travers cette capacitĂ©.

background image

25

2. ModĂšles et approches

Niveau d’usage

Description des usages

et des obstacles

Questions concernant 

les langues

DEVELOP-

PEMENT 

HUMAIN

Quand les options de libertĂ©s 

individuelles et collectives s’ouvrent 

Ă  la personne ou la communautĂ© et 

peuvent s’exercer sous la forme de 

« capacités ».

7

Il s’agit lĂ  de la ïŹ nalitĂ© 

du processus, mais il doit 

rester clair que dans tout 

processus social on ne 

peut retrouver Ă  la ïŹ n que 

ce que l’on a entretenu 

tout au long du processus 

depuis sa conception. Ainsi 

les options de libertĂ©s ne 

pourront s’épanouir que si la 

participation

 des personnes 

et des communautĂ©s a Ă©tĂ© 

une rĂ©alitĂ© dans tout le 

processus dĂ©crit.

options de libertĂ©s

 en 

forme de 

« capacitĂ©s Â».

Que signiïŹ e Â« la 

participation Â» et comment 

se manifeste-t-elle dans 

chaque culture ? Une 

rĂ©elle Â« participation » 

dans des processus sociaux 

est-elle possible si une 

langue diffĂ©rente de la 

langue maternelle est 

imposĂ©e ?

SociĂ©tĂ© de l’information : enjeux croisĂ©s pour les langues

et cultures

Il  est  une  discipline  essentielle  qui  a  vu  le  jour  ces  derniĂšres  annĂ©es  et  pour 

laquelle  l’UNESCO  a  apportĂ©  de  nombreuses  contributions :  celle  de  l’éthique 

de l’information. Le croisement de cette discipline avec la question de la diver-

sitĂ©  culturelle  et  linguistique  ouvre  des  perspectives  et  des  rĂ©ïŹ‚ exions  tout  Ă   fait 

« Le dĂ©veloppement peut ĂȘtre vu comme un processus d’expansion des libertĂ©s rĂ©elles dont les 
personnes bĂ©nĂ©ïŹ cient. ConsidĂ©rer les libertĂ©s humaines (ou les capacitĂ©s) diffĂšre des visions plus 
Ă©troites du dĂ©veloppement, comme celles qui l’identiïŹ e avec la croissance du PNB, l’augmenta-
tion des revenus personnels, l’industrialisation, l’avance technologique ou la modernisation so-
ciale. » (Sen, 2005).

background image

26

Mesurer la diversitĂ© linguistique sur Internet

pertinentes de notre dĂ©bat. Un congrĂšs a Ă©tĂ© consacrĂ© Ă  ce thĂšme en 2004

8

 par 

l’ICIE (International Center for Information Ethics) et un livre sera publiĂ© Ă  la 

ïŹ n de l’annĂ©e 2005 avec les textes du CongrĂšs qui sont autant de contributions 

pertinentes par rapport au sujet qui nous prĂ©occupe (Capuro, 2005). 

Parmi celles-ci, Charles Ess (2004) nous fait remarquer que contrairement 

aux hypothĂšses frĂ©quentes selon lesquelles les TIC sont culturellement neutres, 

un grand nombre d’études ont pu montrer que les TIC, ayant leur origine dans 

les  cultures  occidentales,  et  plus  spĂ©cialement  nord-amĂ©ricaine,  transportent  et 

d’une certaine maniĂšre font la promotion de leurs valeurs culturelles et leurs prĂ©-

fĂ©rences en termes de communication. Ceci est manifeste, selon Charles Ess, dans 

les multiples façons avec lesquelles ces valeurs et prĂ©fĂ©rences rentrent en conïŹ‚ it 

avec celles des cultures qui reçoivent les technologies (plus particuliĂšrement les 

cultures  indigĂšnes,  asiatiques,  latines  et  arabes).  Ces  conïŹ‚ its  se  traduisent  dans 

les  Ă©checs  parfois  spectaculaires  d’efforts  de  bonne  volontĂ©  pour  surmonter  la 

pauvretĂ© et la marginalisation (Postma, 2001). Ess va encore plus loin en souli-

gnant le danger d’une Â« colonisation assistĂ©e par ordinateur Â» qui pourrait ĂȘtre 

le produit d’un plan naĂŻf  pour Â« brancher le monde Â» qui ne prĂȘte pas attention 

aux risques avĂ©rĂ©s d’affecter les valeurs et cultures locales par une implantation 

imprudente des TIC. 

Charles Ess nous rassure cependant en indiquant que de tels conïŹ‚ its sont 

Ă©vitables, tout d’abord en adoptant une attitude consciente des enjeux culturels 

et il nous indique des pistes pour structurer un design des interactions homme-

machine qui rĂ©ponde Ă  ce critĂšre (Hall, 1976). 

Si  l’on  convient  que  l’éducation  numĂ©rique  est  l’un  des  enjeux  essentiel 

du passage Ă  une sociĂ©tĂ© de l’information inclusive, il devient Ă©galement clair que 

cette Ă©ducation doit rĂ©pondre Ă  ce critĂšre Ă©thique fondamental de respect de la 

diversitĂ© culturelle et linguistique et donc Ă©viter l’ethnocentrisme et la colonisation 

implicite par les technologies.

Il est une autre question essentielle et transversale parmi les enjeux de la 

sociĂ©tĂ©  de  l’information :  celle  d’un  domaine  publique  de  la  connaissance  qui 

« Localizing the Internet: Ethical Issues in Intercultural Perspective », 4-6 October, 2004 â€“ Kar-
sluhe - http://icie.zkm.de/congress2004

background image

27

2. ModĂšles et approches

devrait Ă©chapper Ă  la logique du marchĂ©, et en dĂ©rivation celle des contenus et 
des logiciels ouverts. Cette question se croise Ă©galement avec celle de la diversitĂ© 
linguistique dans la sociĂ©tĂ© de l’information.

JosĂ© Antonio MillĂĄn (2001), le spĂ©cialiste espagnol du thĂšme des langues 

et Internet, nous rappelle que nos langues restent l’interface le plus complet qui 
existe et que, sous la forme orale ou Ă©crite, elles sont de plus en plus utilisĂ©es pour 
rentrer en relation avec une variĂ©tĂ© de programmes, comme par exemple dans 
le cas de la recherche de l’information. Le savoir linguistique qui est incorporĂ© 
dans les programmes (correction automatique, fabrication de synthĂšse, transfor-
mation  texte/voix,  etc.)  n’est  pas  forcĂ©ment  visible  Ă   l’utilisateur;  pourtant  son 
importance Ă©conomique est Ă©norme. Les ressources Ă©lĂ©mentaires qui ont servi de 
substrat aux programmes proviennent le plus souvent de recherches ïŹ nancĂ©es par 
des fonds publics. Pourtant, elles bĂ©nĂ©ïŹ cient souvent Ă  des logiciels commerciaux 
dont la source n’est pas ouverte qui ne peuvent donc pas ĂȘtre amĂ©liorĂ©s et Ă©tendus 
(par exemple pour se prĂ©occuper des variantes minoritaires des langues les plus 
rĂ©pandues)  ni  servir  de  base  pour  que  des  langues  minoritaires  puissent  crĂ©er 
leur  propres  logiciels.  La  dĂ©mocratisation  des  logiciels  linguistiques  passe,  selon 
MillĂĄn, par la libĂ©ration (sous licences GPL ou similaires - Wikipedia, 2005c) des 
ressources linguistiques produites avec des fonds publics ou qui font simplement 
partie du domaine public. 

En  tout  Ă©tat  de  cause,  les  logiciels  libres  qui,  par  leur  nature,  devraient 

jouer  un  rĂŽle  particuliĂšrement  important  dans  le  secteur  linguistique  n’y  ont 
qu’une prĂ©sence modeste et un effort de sensibilisation vers les communautĂ©s de 
dĂ©veloppeurs est nĂ©cessaire.

Le  thĂšme  des  contenus  ouverts  nous  conduit  naturellement  Ă   considĂ©rer 

les  changements  requis  par  un  systĂšme  d’édition  scientiïŹ que  qui  est  considĂ©rĂ©, 
par  les  acteurs  de  la  sociĂ©tĂ©  civile  qui  travaillent  sur  le  thĂšme  de  la  sociĂ©tĂ©  de 
l’information  (GuĂ©don,  1998)  comme  obsolĂšte  parce  que  reprĂ©sentant  un  frein 
au partage de la connaissance scientiïŹ que en particulier vers les pays du Sud. Ce 
systĂšme commence Ă  ĂȘtre remis en question par des initiatives comme Â« Public 
Library Of  Science » et la dĂ©claration de Berlin sur l’accĂšs ouvert au savoir dans 
les Sciences (ZIM, 2003). La diversitĂ© linguistique a tout Ă  gagner d’une Ă©volution 
du systĂšme d’édition scientiïŹ que vers des modĂšles tirant meilleur parti des TIC et 
basĂ©s sur les notions de contenus ouverts.

background image

28

Mesurer la diversitĂ© linguistique sur Internet

DerriĂšre cette situation et un certain immobilisme des Ă‰tats concernĂ©s se 

cachent l’absence de politiques linguistiques et, en fait, la lacune critique Ă  com-

bler, comme  le souligne JosĂ© Antonio  MillĂĄn, est celle d’une vĂ©ritable politique 

des contenus numĂ©riques (qui inclut bien entendu une politique linguistique dans 

le monde numĂ©rique). A ce sujet, le rĂŽle des organisations internationales comme 

l’UNESCO  pourrait  ĂȘtre  de  sensibiliser  les  Ă‰tats  membres  sur  l’importance  de 

politiques volontaristes de promotion du multilinguisme.

Les mesures et les indicateurs

Est-il raisonnable de dĂ©ïŹ nir et conduire des politiques linguistiques dans l’espace 

numĂ©rique sans dĂ©tenir des indications amples, ïŹ ables et prĂ©cises sur la situation 

de la langue et son Ă©volution ?

TrĂšs paradoxalement, le monde des rĂ©seaux qui est nĂ© et s’est dĂ©veloppĂ© 

au sein de l’universitĂ© a pendant longtemps abandonnĂ© la mesure de la place des 

langues  Ă   des  entreprises  de  marketing  rĂ©pondant  Ă   des  logiques  distinctes  de 

celle de la publication scientiïŹ que (et donc peu soucieuses de documenter leurs 

mĂ©thodes). Il en a rĂ©sultĂ© un dĂ©sordre et une confusion sur l’état des langues dans 

l’Internet qui a pu faire le lit de la dĂ©sinformation. Ainsi, alors que le nombre de 

locuteurs de langue anglaise qui utilise le rĂ©seau a pu passĂ© de plus de 80%, l’an-

nĂ©e de la naissance du Web, a environ 35% aujourd’hui, les chiffres qui circulent 

dans les mĂ©dias sur le pourcentage de pages Web en anglais continuent, contre 

toute Ă©vidence, Ă  se situer de maniĂšre stable entre 70 et 80% !

Il est urgent que l’acadĂ©mie reprenne son rĂŽle dans cette affaire (ainsi que 

les institutions gouvernementales nationales et internationales) et les signes sont 

clairs  que  cette Ă©volution  est  en  cours,  enïŹ n !  Pour  s’en  rendre  compte,  il  faut 

consulter les prĂ©sentations en ligne de la rĂ©union organisĂ©e par l’UNESCO (avec 

l’ACALAN et l’AIF) Ă  Bamako sur le multilinguisme dans le cyberespace

9

.

En  attendant  que  cette  Ă©volution  porte  ses  fruits  (des  indicateurs  ïŹ ables, 

documentĂ©s et mis Ă  jour Ă  la vitesse de l’évolution du mĂ©dia), obtenir une pers-

pective sur la situation et les tendances est extrĂȘmement difïŹ cile. 

http://portal.UNESCO.org/ci/en/ev.php-URL_ID=19088&URL_DO=DO_TOPIC&URL_
SECTION=-465.html ou http://www.UNESCO.org/webworld/multilingualism.

background image

29

2. ModĂšles et approches

I - En ce qui concerne les donnĂ©es sur la proportion des internautes 

dans chaque langue,

 une source a rĂ©ussi Ă  s’imposer depuis plusieurs annĂ©es. 

Global Reach fournit avec une grande rĂ©gularitĂ© des chiffres qui reposent, certes, 

sur des sources multiples et non cohĂ©rentes sur le plan mĂ©thodologique, mais au 

moins elles sont connues (Figure 1). Les chiffres ne sont pas d’une totale ïŹ abilitĂ© 

mais ils ont le mĂ©rite d’exister et d’ĂȘtre maintenu Ă  jour avec frĂ©quence; si on leur 

accorde une conïŹ ance relative (plus ou moins 20% d’erreur), ils permettent d’ob-

tenir une perspective raisonnable de l’évolution de la population d’internautes en 

termes de langue.

Figure 1 : Nombre d’internautes par langue d’utilisation

Source : Global Reach 2005.
(http://global-reach.biz/globalstats/index.php3)

II - Pour la place des langues sur le Web

 il y a un certain nombre d’appro-

ches qui cohabitent :

1) 

L’une consiste Ă  extrapoler les chiffres des moteurs de recherche par lan-

gue. C’est la plus facile et elle donne des ordres de grandeur acceptable mais pas 

de chiffre assez ïŹ able pour maintenir une veille sĂ©rieuse, Ă©tant donnĂ© les faiblesses 

des  algorithmes  de  reconnaissance  des  langues  et  les  comportements  erratiques 

des moteurs sur les totalisations.

background image

30

Mesurer la diversitĂ© linguistique sur Internet

2) 

Une autre a Ă©tĂ© lancĂ©e par une des premiĂšres Ă©tudes sur le sujet, qu’Alis 

Technologies a rĂ©alisĂ©e en juin 1997, avec le soutien de l’Internet Society et dont 
la mĂ©thode a Ă©tĂ© reprise par d’autres, en particulier l’étude de l’OCLC (« Online 
Computer  Library  Center »)  qui  semble  ĂȘtre  la  rĂ©fĂ©rence  sur  laquelle  s’appuie 
de  nombreux  auteurs  et  mĂ©dias  pour  continuer  Ă   proposer  une  valeur  de  plus 
de  70%  pour  les  pages  Web  en  anglais  (O’Neill,  2003).  La  mĂ©thode  consiste  Ă  
crĂ©er un Ă©chantillon de quelques milliers de sites Web par le jeu du hasard sur 
les adresses IP (Wikipedia, 2005d), Ă  appliquer les moteurs de reconnaissance des 
langues sur cet ensemble de site et Ă  en gĂ©nĂ©raliser les rĂ©sultats.

Elle  partage  avec  la  premiĂšre  approche  la  limitation  des  algorithmes  de 

reconnaissance des langues, quoique l’on puisse espĂ©rer que des progrĂšs impor-
tants aient Ă©tĂ© rĂ©alisĂ©s depuis 1997 et que dans le futur les techniques augmente-
ront de maniĂšre dĂ©cisive la ïŹ abilitĂ© des rĂ©sultats.

La  seconde  limitation  nous  prĂ©occupe  beaucoup  plus  car  elle  est  d’or-

dre  statistique.  Le  traitement  mathĂ©matique  prĂ©vu  pour  une  variable  alĂ©atoire 
(comme  c’est  le  cas  de  l’échantillon  de  sites  Web  pris  au  hasard  sur  lequel  est 
appliquĂ© la reconnaissance des langues) est d’en Ă©tudier la distribution statistique 
pour en extraire la moyenne, la variance et en dĂ©duire l’intervalle de conïŹ ance. 
Une seule prise faite au hasard ne peut fournir aucun rĂ©sultat crĂ©dible (que reprĂ©-
sentent 8000 sites Web en face des 8000 millions de pages indexĂ©es par Google ?). 
A travers le peu de documentation publiĂ© il semble pourtant que les chiffres soient 
produits de cette maniĂšre par OCLC.

3) 

Il  existe  une  ample  catĂ©gorie  oĂč  des  chiffres  sont  avancĂ©s  et  aucune 

mĂ©thode n’est rĂ©vĂ©lĂ©e. Il est impossible de valider les rĂ©sultats. C’était le cas de 
l’étude de Inktomi en 2001 qui Ă©tait lancĂ©e avec un grand fracas de marketing 
et qui en plus comportait des erreurs grossiĂšres (elle annonçait des pourcentages 
globaux de pages Web dans un nombre limitĂ© de langues et le total de ces pour-
centages Ă©tait de 100% ...) !

4) 

EnïŹ n  la  derniĂšre  catĂ©gorie  regroupe  quelques  rares  mĂ©thodes  qui  sont 

documentĂ©es comme l’approche trĂšs originale des chercheurs de Xerox en 2001 
(Grefenstette  &  Nioche,  2001),  parmi  celles-ci,  l’approche  que  FUNREDES  et 
l’Union Latine ont utilisĂ©e depuis 1996 (voir Figure 2).

background image

31

2. ModĂšles et approches

Figure 2 : Proportion de pages Web composĂ©es dans une langue donnĂ©e

Source: FUNREDES 2003, http://funredes.org/lc

Le  principe  de  la  mĂ©thode  est  le  suivant :  les  moteurs  de  recherche  permet-

tent  d'obtenir  la  valeur  du  nombre  d'occurrence  d'un  mot  donnĂ©  dans  l'espace 

recherchĂ© (pages Web ou groupes de discussion, par exemple). Un Ă©chantillon de 

mots-concepts  dans  chacune  des  langues  Ă©tudiĂ©es  a  Ă©tĂ©  construit  avec  un  souci 

de  fournir  la  meilleure  Ă©quivalence  sĂ©mantique  et  syntaxique  entre  les  mots-

concepts.  Les  valeurs  d'apparition  de  chaque  mot  mesurĂ©es  par  les  moteurs  de 

recherche sont compilĂ©es pour chaque concept dans chaque langue. Ces valeurs 

sont traitĂ©es comme une variable alĂ©atoire dont la distribution mathĂ©matique est 

Ă©tudiĂ©e avec les outils traditionnels de la statistique (moyenne, variance, intervalles 

de conïŹ ance, loi de Fisher) et le rĂ©sultat consiste, pour chaque langue Ă©tudiĂ©e, en 

une estimation du poids de sa prĂ©sence relativement Ă  l'anglais qui est pris comme 

langue de rĂ©fĂ©rence. Cette estimation est de plus validĂ©e quantitativement par les 

instruments  statistiques  (intervalle  de  conïŹ ance).  La  rĂ©pĂ©tition  de  la  mĂ©thode  Ă  

intervalles successifs permet d'obtenir une vision de l'Ă©volution de la prĂ©sence des 

langues dans les espaces considĂ©rĂ©s et en mĂȘme temps d'apprĂ©cier la valeur de la 

mĂ©thode qui a donnĂ© des rĂ©sultats cohĂ©rents tout au long des mesures.

Si la mĂ©thode publiĂ©e intĂ©gralement depuis son origine n’a pas reçu Ă  ce 

jour d’arguments l’invalidant, elle prĂ©sente un certain nombre de limitations :

background image

32

Mesurer la diversitĂ© linguistique sur Internet

—  Elle fournit une valeur du pourcentage de pages Web dans une des 

langues travaillĂ©es (allemand, espagnol, français, italien, portugais et 

roumain)  par  rapport  Ă   l’anglais  mais  pas  de  valeur  absolue.  Pour 

l’obtenir, il faut Ă©tablir une estimation du poids absolu de l’anglais Ă  

partir de recoupements de plus en plus difïŹ ciles et incertains avec la 

multiplication des langues ;

—  Il  est  difïŹ cile  (sur  le  plan  linguistique)  et  coĂ»teux  de  rajouter  une 

nouvelle langue ;

—  Elle donne une valeur qui correspond Ă  l’espace des pages indexĂ©es 

par  les  moteurs  et  ne  prend  pas  en  compte  le  Web  invisible  (Berg-

man,  2001).  Mais  quelle  Â« existence »  ont  rĂ©ellement  les  pages  non 

indexées ? ;

—  Mais  surtout  elle  est  trĂšs  dĂ©pendante  des  possibilitĂ©s  de  comptage 

ïŹ able qu’offrent les moteurs de recherche

10

, ce qui Ă  terme risque de 

la disqualiïŹ er puisque les moteurs prennent de plus en plus de libertĂ© 

avec le traitement de la recherche par mot

11

.

Du cĂŽtĂ© des avantages, la mĂ©thode a permis de maintenir un suivi d’observation 

cohĂ©rent  sur  une  longue  pĂ©riode,  d’examiner  d’autres  espaces  que  le  Web

12

  et 

surtout, en bĂ©nĂ©ïŹ ciant des techniques de recherche par pays et par domaine, de 

produire une sĂ©rie d’indicateurs originaux et trĂšs signiïŹ ants (Pimienta, 2001). 

Perspectives pour de nouvelles approches

Le  projet  maintenant  avancĂ©  de  l’Observatoire  des  Langues  (voir  l’article  de 

Yoshiki  Mikami,  plus  loin)  porte  de  nombreux  espoirs  pour  occuper  ce  vide  et 

10 

La majeure partie du travail pour les mesures consiste aujourd’hui Ă  vĂ©riïŹ er le comportement des 
moteurs, sĂ©lectionner les plus ïŹ ables et compenser leurs comportements erratiques, en particulier 
dans le traitement des signes diacritiques.

11 

Il  est  probable  que  d’ici  peu  les  moteurs  offriront  des  rĂ©sultats  comportant  des  textes  avec  la 
traduction des mots de recherche dans d’autres langues.

12 

Elle  a  Ă©galement  permis  une  premiĂšre  approximation  certes  grossiĂšre  mais  intĂ©ressante  sur  le 
plan des Ă©volutions de la prĂ©sence des cultures dans l’Internet.

background image

33

2. ModĂšles et approches

apporter les rĂ©ponses dont les politiciens ont besoin pour Ă©tablir leur choix et en 
mesurer l’impact.

Notre expĂ©rience de terrain nous fait penser qu’une approche trĂšs promet-

teuse et qui ne semble pas encore exploitĂ©e consisterait en une mĂ©thode similaire 
Ă  celle qu’utilise Alexa pour dresser le hit parade des sites visitĂ©s et pour apporter 
de prĂ©cieux renseignements. Alexa compile les donnĂ©es de comportement d’un 
grand  nombre  d’utilisateurs  qui  ont  acceptĂ©  le  chargement  d’un  programme 
espion  dans  leur  ordinateur  et  en  tire  des  statistiques  extrĂȘmement  riches.  Sur 
le mĂȘme principe, il est possible d’imaginer un programme qui soit capable de 
mesurer les langues utilisĂ©es dans divers contextes pertinents pour les indicateurs 
comme : langues de lecture et Ă©criture des courriels, langues des sites visitĂ©s, etc.

Bibliographie

Bergman,  M.K.  2001.  The  Deep  Web:  Surfacing  Hidden  Value. 

Bright  Planet  â€“  Deep  Web.

http://www.brightplanet.com/technology/deepweb.asp

Capurro, R. & al. (Eds.) 2005. Localizing the Internet. Ethical Issues in Intercultural Perspective. 

Schriftenreihe des ICIE

 Bd. 4, MĂŒnchen: Fink Verlag.

Schriftenreihe des ICIE

Schriftenreihe des ICIE

CommunautĂ©  MISTICA.  2002.  Â« Travailler  l’Internet  avec  une  vision  sociale Â».

http://funredes.org/mistica/francais/cyberotheque/thematique/fra_doc_olist2.html

Ess,  C.  2004.  Moral  Imperatives  for  Life  in  an  Intercultural  Global  Village  in  The  Internet 

and Our Moral Lives, ed. R. Cavalier, State University of  New York Press, Albany. pp. 
161-193.

Ess, C. 2005. Can the Local Reshape the Global? Ethical Imperatives for Human Intercultural 

Communication Online, in (Capurro, 2005).

Ess,  C.  2006.  From  Computer-Mediated  Colonization  to  Culturally-Aware  ICT  Usage  and 

Design, In P. Zaphiris and S. Kurniawan (eds.), 

Human Computer Interaction Research in Web 

Design and Evaluation.

 Hershey, PA: Idea Publishing.

Ess,  C.  &  Fay  S.  2005.  Introduction:  Culture  and  Computer-Mediated  Communication 

– Toward New Understandings, 

Journal of  Computer-Mediated Communication Vol. 11, No. 1. 

< http://jcmc.indiana.edu/>

Grefenstette, G. & Nioche, J. 2001. Estimation of  English and non-English Language. Use on 

the WWW. Xerox Research Centre Europe, Meylan.

GuĂ©don, J.C. 1998. Â« La bibliothĂšque virtuelle : une antinomie ? » confĂ©rence prononcĂ©e Ă  la 

National  Library  of   Medicine.  Washington.  http://sophia.univ-lyon2.fr/francophonie/
doc/nlm-fr.html

background image

34

Mesurer la diversitĂ© linguistique sur Internet

Hall, E.T. 1976. Beyond Culture. Anchor Books, New York. 
MillĂĄn, J.A. â€œHow much is a language worth: A QuantiïŹ cation of  the Digital Industry for the 

Spanish Language”. 

Language Diversity in the Information Society International Colloquium.

 Paris, 

France. http://jamillan.com/worth.htm

O'Neill & al. 2003. Trends in the Evolution of  the Public Web: 1998 â€“ 2002  http://www.dlib.

org/dlib/april03/lavoie/04lavoie.html

Pimienta, D. 2002. Â« La fracture numĂ©rique, un concept boiteux. Â» 

CommunautĂ© Virtuelle MIS-

TICA.

http://funredes.org/mistica/francais/cyberotheque/thematique/fra_doc_wsis1.

html

Pimienta,  D.  &  Lamey  B.  2001.  â€œLengua  Española  y  Culturas  Hispanicas  en  la  Internet: 

ComparaciĂłn con el inglĂ©s y el francĂ©s.” 

II Congreso Internacional de la Lengua. 

Valladolid. 

http://www.funredes.org/LC/L5/valladolid.html

Postma, L. 2001. â€œA Theoretical Argumentation and Evaluation of  South African Learners”. 

Orientation towards and Perceptions of  the Empowering Use of  Information. 

New Media 

and Society.

 Vol. 3 No. 3. pp. 315-28.

Sen,  A.  2005. 

Human  Development  and  Capability  Association. 

http://www.fas.harvard.edu/

~freedoms/

UIT.  Union  Internationale  des  tĂ©lĂ©communications.  2003. 

Competitive  Markets  Required  to  Bridge 

Digital Divide : Regulators map â€˜Universal Access’ route to Information and Communication Technology.

http://www.itu.int/newsarchive/press_releases/2003/33.html

UNESCO. 2000. â€œInfoethics”. 

UNESCO WebWorld News.

http://www.UNESCO.org/webworld/

news/infoethics.shtm

UNESCO. 2005. Multilinguisme pour la diversitĂ© culturelle et la participation de tous dans le 

cyberespace.  http://portal.unesco.org/ci/fr/ev.php-URL_ID=17688&URL_DO=DO_
TOPIC&URL_SECTION=201.html

ZIM. 2003. â€œBerlin Declaration on Open Access to Knowledge in the Sciences and Humani-

ties”. 

Conference on Open Access to Knowledge in the Sciences and Humanities. 

Berlin. http://www.

zim.mpg.de/openaccess-berlin/berlindeclaration.html

Glossaire

Webopedia.2005a. 

ADSL.

http://www.webopedia.com/TERM/A/ADSL.html

Webopedia. 2005b. 

ICANN.

http://www.webopedia.com/TERM/I/icann.html

Wikipedia. 2005a. 

Internationalized Domain Name.

http://en.wikipedia.org/wiki/IDNA

http://en.wikipedia.org/wiki/IDN

http://en.wikipedia.org/wiki/IDN

Wikipedia. 2005b. 

Unicode. 

http://en.wikipedia.org/wiki/Unicode

Wikipedia.  2005c. 

GNU  General  Public  License.

http://en.wikipedia.org/wiki/GNU_General_

Public_License

Wikipedia. 2005d. 

IP Address.

http://en.wikipedia.org/wiki/IP_address

background image

35

2. ModĂšles et approches

b. Le contexte politique et juridique

Daniel Prado, Union Latine

En rĂšgle gĂ©nĂ©rale, les grandes langues occidentales connaissent un recul impor-

tant  dans  la  communication  scientiïŹ que  et  technique  au  proïŹ t  de  l’anglais.  A 

l’exception de certaines langues de moindre diffusion qui ont su reprendre une 

place  ces  derniĂšres  annĂ©es,  les  grandes  langues  d’origine  europĂ©enne  comme 

l’allemand,  l’espagnol,  le  français,  l’italien,  le  portugais,  le  russe  et  les  langues 

scandinaves sont touchĂ©es (Hamel, 2002). 

Parmi ces langues europĂ©ennes, les langues nĂ©olatines sont particuliĂšrement 

touchĂ©es, que ce soit dans l’édition spĂ©cialisĂ©e, dans les congrĂšs scientiïŹ ques, dans 

les organisations internationales, dans les mĂ©dias ou dans l’enseignement, etc. 

En  novembre  2002,  le  premier  CongrĂšs  international  sur  la  place  des 

langues nĂ©olatines dans la communication spĂ©cialisĂ©e (UNILAT, 2002a) rĂ©unissait 

des spĂ©cialistes des politiques linguistiques de trois espaces linguistiques : la fran-

cophonie, la lusophonie et l’hispanophonie. 

Lors de ce congrĂšs, des statistiques et des constatations ont montrĂ© la perte 

vertigineuse  de  vitalitĂ©  des  langues  d’origine  nĂ©olatines  dans  plusieurs  secteurs 

touchant aux sciences et techniques. MalgrĂ© le fait d’ĂȘtre langues ofïŹ cielles dans 

plus d’un quart des pays de la planĂšte (27,53 %) selon Calvet (2002) et d’ĂȘtre par-

lĂ©es par prĂšs d’un milliard de locuteurs, des langues comme le français, l’espagnol, 

le portugais, l’italien, le roumain, le catalan et une vingtaine d’autre langues de 

moindre diffusion, ne produisent qu’un dixiĂšme des publications scientiïŹ ques par 

rapport Ă  l’anglais, en suivant les bases de donnĂ©es internationales les plus impor-

tantes

13

. En effet, selon ce que nous rappelle Hamel, l’anglais reprĂ©senterait entre 

80 et 90 % des publications scientiïŹ ques en sciences naturelles et entre 74 et 82 % 

en sciences humaines et sociales tandis que les trois langues nĂ©olatines les mieux 

13 

Il est souvent considĂ©rĂ© que les journaux scientiïŹ ques en langue anglaise sont surreprĂ©sentĂ©s dans 
ces  bases  de  donnĂ©s  internationales,  et  qu’en  contrepartie  les  journaux  des  pays  au  dehors  de 
ceux de l’OCDE sont sous-reprĂ©sentĂ©s [UIS].

background image

36

Mesurer la diversitĂ© linguistique sur Internet

reprĂ©sentĂ©es proposeraient 12 % des publications en sciences sociales et 18 % en 

sciences humaines. Mais Hamel nuance ses propos, rappelant que ces statistiques 

proviennent des bases de donnĂ©es des publications scientiïŹ ques et que l’édition 

de livres est tout aussi vigoureuse que les revues scientiïŹ ques. Il est intĂ©ressant de 

noter que le monde de l’édition des pays latins se porte bien, avec 18,9 % de la 

production mondiale (Rousseau, 2002), mais c’est la littĂ©rature qui est concernĂ©e 

majoritairement par ce chiffre (Leåñez Aristimuño, 2002). 

Bien entendu, par comparaison avec la plupart des langues de la planĂšte, 

la situation des langues nĂ©olatines dans la diffusion de connaissances n’est pas la 

pire. En effet, pour 100 pages Web mesurables en anglais, on trouve prĂšs de 38 

pages  (UNILAT,  2005)  en  langues  latines

14

 ;  le  français  est  la  deuxiĂšme  langue 

d’usage international; l’espagnol prend une confortable troisiĂšme place dans cet 

univers et son enseignement croĂźt dans le monde entier ; le portugais a une belle 

implantation dĂ©mographique et intercontinentale et l’italien reste une langue de 

prestige culturel malgrĂ© sa faible dĂ©mographie et son cantonnement gĂ©ographique 

(Italie, Suisse et Saint-Marin).

Mais, il ne faut pas oublier que l’anglais, avec deux fois et demie moins de 

locuteurs que l’ensemble des locuteurs latins a deux fois et demie plus de pages 

Web que toutes les langues latines rĂ©unies. Il ne faut pas non plus oublier que les 

publications  scientiïŹ ques  Ă©ditĂ©es  en  anglais  reprĂ©sentent  plus  des  deux  tiers  de 

l’ensemble mondial, tandis que toutes les langues latines rĂ©unies ne reprĂ©sente-

raient qu’environ une publication scientiïŹ que sur dix.

Loin de notre Ă©tude l’intention d’ignorer la situation de dĂ©clin scientiïŹ que 

ou technique que vivent d’autres langues comme celles du Nord de l’Europe (lan-

gues scandinaves, notamment) pour lesquelles des pans de vocabulaire scientiïŹ que 

disparaissent  du  fait  du  monolinguisme  anglais  que  pratiquent  les  spĂ©cialistes 

de  certaines  disciplines  (Nilsson,  2005).  Ă‰galement  loin  de  nous  l’intention  de 

vouloir dramatiser la situation des langues europĂ©ennes lorsque, comme nous le 

rappelle Leåñez, 98 % des langues de cette planĂšte ne disposent mĂȘme pas de 

certains vocabulaires spĂ©cialisĂ©s de base, qu’ils soient administratifs, scientiïŹ ques, 

techniques, juridiques ou commerciaux. Il s’agit de tirer la sonnette d’alarme sur 

14 

L’étude a Ă©tĂ© rĂ©alisĂ©e sur les cinq premiĂšres langues nĂ©olatines en nombre de locuteurs, soit espa-
gnol, français, italien, portugais et roumain.

background image

37

2. ModĂšles et approches

une situation inquiĂ©tante qui n’épargne pratiquement aucune langue en dehors 

de l’anglais.

Pour revenir sur la prĂ©sence des langues sur l’Internet, mĂȘme si les statisti-

ques Funredes/Union Latine nous montrent qu’en 2003 prĂšs de 14 % des pages 

Web Ă©taient Ă©ditĂ©es en au moins une langue latine, prĂšs de 45 % le sont en anglais. 

MĂȘme l’allemand, avec dix fois moins de locuteurs, avait Ă  peine deux fois moins 

de pages que l’ensemble des langues romanes. Mais ce qui est le plus inquiĂ©tant 

sur  la  place  des  langues  latines  sur  l’Internet  ce  sont  les  donnĂ©es  non  publiĂ©es, 

l’Internet  invisible,  les  Intranet,  les  bases  de  donnĂ©es,  les  listes  de  diffusion,  les 

forums, etc. Nous ne disposons pas de statistiques sur ce sujet, mais une simple 

pratique quotidienne montre la prĂ©dominance majeure de la langue anglaise dĂšs 

qu’une discussion technique internationale s’engage dans un forum Ă©lectronique 

ou dĂšs qu’une base de donnĂ©es scientiïŹ ques a une portĂ©e internationale ou mĂȘme 

dans  une  conversation  de  jeunes  sur  leur  star  prĂ©fĂ©rĂ©e.  Ce  phĂ©nomĂšne  s’expli-

quait bien aux dĂ©buts des rĂ©seaux tĂ©lĂ©matiques, car ils s’adressaient Ă  un public 

de chercheurs internationaux, et il est inutile de rappeler que l’anglais est perçu 

dans le milieu scientiïŹ que comme la langue principale de communication. Mais 

ce qui est regrettable, c’est que ce modĂšle n’a pas su Ă©voluer, excluant de ce fait 

des populations ou des collectifs moins habituĂ©s Ă  manier la langue anglaise.

Leåñez nous rappelait qu’« une langue qui a peu de valeur est peu utilisĂ©e 

et une langue peu utilisĂ©e a peu de valeur » [traduction libre] et afïŹ rmait que si 

nos langues ne couvrent pas nos besoins, nous apprenons et en enseignons une 

autre.

Face  Ă   cette  afïŹ rmation,  le  plan  d’action  de  l’UNESCO  (2005)  pour  le 

SMSI tombe Ă  point nommĂ©. En effet, dans le premier chapitre, l’une de ses lignes 

d’action  concerne  la  diversitĂ©  culturelle  et  linguistique  et  il  y  est  recommandĂ© 

« d’élaborer des politiques qui encouragent le respect, la prĂ©servation, la promo-

tion et le renforcement de la diversitĂ© culturelle et linguistique et du patrimoine 

culturel  dans  le  contexte  de  la  sociĂ©tĂ©  de  l'information 
 ».  A  l’heure  actuelle, 

aucun Etat latin ne s’est dotĂ© d’une politique qui permette un usage des langues 

latines dans leur plĂ©nitude et notamment dans la SociĂ©tĂ© de la Connaissance et 

du Partage du Savoir. 

En effet, en matiĂšre de politiques linguistiques, les pays latins (sauf  Ă  de 

rares exceptions) sont trop concentrĂ©s sur les aspects exclusivement administratifs 

background image

38

Mesurer la diversitĂ© linguistique sur Internet

d’une part, sur la protection des langues endogĂšnes, d’autre part, et plus rarement, 

sur la protection du consommateur. Ne crĂ©ant pas les dispositifs de contrĂŽle nĂ©ces-

saires et ne se donnant pas les moyens pour mettre en pratique ce que les textes 

lĂ©gislatifs prĂŽnent, ils ne disposent pas des ressources sufïŹ santes pour dĂ©velopper 

leur  langue  et  laissent  vacante  une  place  vite  reprise  par  l’anglais,  notamment 

dans le discours scientiïŹ que, dans la documentation technique, dans l’enseigne-

ment supĂ©rieur, dans l’Internet, etc.

À l’exception du QuĂ©bec, de la Catalogne et de la France, aucun organisme 

d’État ne prend en charge, dans les pays latins, toutes les composantes permettant 

une politique globale de dĂ©veloppement, d’enrichissement, de modernisation et 

de diffusion d’une langue. En Belgique, en Suisse, en Espagne, au Portugal des ins-

titutions existent mais ne s’occupent que partiellement de cette tĂąche. Et encore, 

dans les rĂ©gions ou pays les plus dĂ©veloppĂ©s en matiĂšre de politiques linguistiques, 

une politique de soutien au multilinguisme numĂ©rique fait dĂ©faut. Trop souvent, 

ce sont des associations de droit privĂ© (ayant peu de moyens) ou des organismes 

intergouvernementaux  (n’ayant  pas  un  mandat  clair  pour  ce  faire)  qui  doivent 

venir complĂ©ter ces actions. 

Heureusement, beaucoup de langues minoritaires ou Â« minorisĂ©es », con-

trairement Ă  ce qui se passe avec les grandes langues, prennent une place dans la 

communication spĂ©cialisĂ©e qu’elles ne connaissaient pas auparavant. C’est notam-

ment le cas du catalan, mais aussi du galicien, du basque, voire du sarde et autres. 

Cependant  il  reste  encore  beaucoup  Ă   faire  et  il  n’est  pas  dit  qu’elles  pourront 

couvrir toutes les sphĂšres nĂ©cessaires Ă  l’épanouissement de leurs populations. 

Reste l’épine principale de l’accĂšs Ă  l’information lorsqu’elle a Ă©tĂ© produite 

dans une langue que nous ne maĂźtrisons pas. Les traductions, nous le savons, sont 

chĂšres. Pour certains processus (la traduction d’un appel d’offre d’une OIG, par 

exemple) la traduction est lente. 

La  traduction  automatique,  qui,  rappelons-le,  ne  remplacera  jamais  la 

traduction humaine, (simplement l’aidera Ă  ĂȘtre plus performante, rapide et abor-

dable) est l’instrument indispensable Ă  une transformation nĂ©cessaire du monde 

de l’édition numĂ©rique et papier. 

Aucun  systĂšme  actuel  ne  permet  des  traductions  satisfaisantes  pour  les 

couples  de  langues  les  plus  usitĂ©es.  Toute  traduction  pour  ces  couples  a  besoin 

background image

39

2. ModĂšles et approches

d’une rĂ©vision. Mais le plus grave, c’est que la plupart des systĂšmes de traduction 

automatiques  ou  de  TAO  ne  prennent  en  charge  qu’un  nombre  dĂ©risoire  de 

couples de langues.

15

La qualitĂ© des systĂšmes existants doit s’amĂ©liorer et voyant leur Ă©volution, 

ceci se fera sans doute, mais rien ne laisse prĂ©sager que ce pourcentage fatidique 

de moins de 1 % de couples de langue puisse ĂȘtre dĂ©passĂ© prochainement. Des 

initiatives volontaristes doivent montrer le chemin de la traduction entre des lan-

gues qui ne prĂ©sentent aucun dĂ©bouchĂ© pouvant intĂ©resser les compagnies com-

merciales. L’Union latine a initiĂ© certaines dĂ©marches dans ce sens

16

, l’UniversitĂ© 

des Nations Unies Ă©galement. Il est Ă  attendre que d’autres puissent Ă©galement se 

produire pour les langues les moins favorisĂ©es.

Que  faire  alors  pour  parvenir  Ă   un  monde  numĂ©rique  multilingue  ?  La 

rĂ©cente  discussion  franco-française  reprise  par  la  presse  internationale  sur  un 

« Google » europĂ©en a suscitĂ© certaines idĂ©es (MillĂĄn, 2005) et l’UNESCO insiste 

sur  le  rĂŽle  des  bibliothĂšques  et  des  collections.  Une  idĂ©e  pourrait  ĂȘtre  celle  de 

mettre  en  place  de  vastes  programmes  d’informatisation  des  collections,  faisant 

appel  autant  aux  Etats  qu’aux  OIG  ou  ONG  ou  bien  aux  fournisseurs  de  ser-

vices Internet privĂ©s, mais seulement ceux qui pourraient s’engager Ă  respecter 

une  charte  Ă©thique  dans  l’utilisation  de  cette  information.  Il  faut  Ă©videmment 

empĂȘcher l’appropriation Ă  des ïŹ ns commerciales de l’information numĂ©risĂ©e ou 

exigeant des droits de diffusion ou d’exploitation de cette information. L’objectif  

est de diffuser librement et gratuitement les contenus numĂ©risĂ©s, seul moyen de 

garantir une vĂ©ritable diversitĂ© linguistique.

L’Internet nous montre dans son quotidien, de façon spontanĂ©e, de nou-

velles voies : des organes de presse indĂ©pendants et autonomes, des blogues, des 

initiatives citoyennes voient le jour de façon quotidienne et elles dĂ©montrent que 

d’autres  voies  aux  monopoles  monolingues  existent.  Il  faudrait  peut-ĂȘtre  mieux 

observer ces initiatives alternatives, les soutenir et s’en inspirer.

15 

En effet, l’on recense bien moins de 100 langues traitĂ©es par des systĂšmes de traduction automa-
tique ou de TAO sur prĂšs de 6000 langues existantes.

16 

Notamment en introduisant la langue roumaine dans le projet Atamiri (http://lux0.atamiri.cc/
forum/init.do).

background image

40

Mesurer la diversitĂ© linguistique sur Internet

En rĂšgle gĂ©nĂ©rale, les Etats latins sont en retard par rapport aux enjeux 

que  reprĂ©sente  la  prĂ©sence  de  leurs  langues  dans  la  sociĂ©tĂ©  numĂ©rique.  En  ce 

sens,  plusieurs  actions  s’imposent :  la  crĂ©ation  d’une  politique  volontariste  de 

numĂ©risation des fonds et des catalogues existant, Ă  l’heure actuelle seulement sur 

papier et d’une politique constante de production scientiïŹ que en langue nationale 

ou, Ă  dĂ©faut, de traduction de cette production si elle est rĂ©alisĂ©e en anglais, et de 

son immĂ©diate diffusion sur l’Internet; la mise en place d’une charte de respect du 

droit des citoyens de s’informer dans leur langue et donc une obligation respectĂ©e 

de multilinguisme sur les sites des organisations internationales, des compagnies 

internationales  et  bien  entendu,  une  obligation  de  diffusion  en  langue  locale 

pour les corporations nationales; et ïŹ nalement, une proposition de dynamisation 

des projets de traduction automatique, notamment pour les couples de langues 

inexistants.

L’Union latine prĂ©pare une deuxiĂšme rencontre sur la place des langues 

latines  dans  la  communication  spĂ©cialisĂ©e  pour  pouvoir  mettre  en  pratique  les 

recommandations que la premiĂšre rencontre avait proposĂ©es (UNILAT, 2002b). 

Elles prĂ©voient des mĂ©canismes de consultation, de suivi, de statistiques, d’action 

visant Ă  encourager l’édition en langues latines, Ă  favoriser la recherche en lan-

gues latines et Ă  dĂ©velopper des outils linguistiques performants. Cette rencontre 

devrait avoir lieu en 2006 en Espagne, en Ă©troite relation avec les institutions des 

Trois  Espaces  Linguistiques  et  il  est  Ă   espĂ©rer  que  des  solutions  aux  problĂšmes 

soulevĂ©s seront trouvĂ©es.

Bibliographie

Calvet, L.J. 2002. Le marchĂ© aux langues. Plon, Paris.
Hamel, R.E. 2002. â€œEl español como lengua de las ciencias frente a la globalizaciĂłn del inglĂ©s. 

DiagnĂłstico y propuestas de acciĂłn para una polĂ­tica iberoamericana del lenguaje en las 
ciencias” au 

CongrĂšs international sur les langues nĂ©olatines dans la communication spĂ©cialisĂ©e. 

Mexi-

que. http://unilat.org/dtil/cong_com_esp/comunicaciones_es/hamel.htm#a

Leåñez Aristimuño, C. 2002. â€œEspañol, francĂ©s, portuguĂ©s: Âżequipamiento o merma?” au 

CongrĂšs 

international  sur  les  langues  nĂ©olatines  dans  la  communication  spĂ©cialisĂ©e. 

Mexique.  http://unilat.

org/dtil/cong_com_esp/comunicaciones_es/leanez.htm#a

MillĂĄn, J.A. 2005. Â« A quoi bon un projet europĂ©en concurrent ? ». 

Courrier International. 

http://

www.courrierint.com/article.asp?obj_id=51004&provenance=hebdo

Nilsson, H. 2005. Â« Perte de domaine, perte de fonctionnalitĂ© : indicateurs et enjeux ». 

Au Lexi-

praxi. 

http://www.ailf.asso.fr/presentation.htm

background image

41

2. ModĂšles et approches

Rousseau, L.-J-. 2002. Â« Le français dans la communication scientiïŹ que et technique Â» au Con-

grĂšs international sur les langues nĂ©olatines dans la communication spĂ©cialisĂ©e Mexique.
http://unilat.org/dtil/cong_com_esp/comunicaciones_es/rousseau.htm#a

UNESCO.  2005. 

Plan  d’action  du  SMSI.

http://portal.UNESCO.org/ci/fr/ev.php-URL_

ID=15897&URL_DO=DO_TOPIC&URL_SECTION=201.html

UNILAT. 2002a. 

CongrĂšs international sur les langues nĂ©olatines dans la communication spĂ©cialisĂ©e. 

http://

www.unilat.org/dtil/cong_com_esp/es/index.htm

UNILAT. 2002b. 

Recommandations. CongrĂšs international sur les langues nĂ©olatines dans la communication 

spécialisée.

http://www.unilat.org/dtil/cong_com_esp/es/index.htm

UNILAT.  2005. 

Etude  sur  La  place  des  langues  latines  sur  l’Internet

  (

Etude  sur  La  place  des  langues  latines  sur  l’Internet

Etude  sur  La  place  des  langues  latines  sur  l’Internet

http://www.unilat.org/dtil/

LI/2003_2005.htm)

background image
background image

43

DiversitĂ© linguistique sur Internet :

examen des biais linguistiques

John Paolillo, School of Informatics,

Indiana University

Plus  de  deux  dĂ©cennies  aprĂšs  l’arrivĂ©e  d’Internet  dans  le  monde  anglophone, 

la reprĂ©sentation des diffĂ©rentes langues sur Internet reste largement biaisĂ©e en 

faveur  de  l’anglais.  Cette  langue  reste  en  effet  la  plus  rĂ©pandue  sur  Internet, 

alors que certaines langues trĂšs parlĂ©es sont peu ou pas reprĂ©sentĂ©es. Dans quelle 

mesure  une  telle  situation  constitue-t-elle  un  biais  en  faveur  de  l’anglais  et  au 

dĂ©triment des autres langues ? Cet article

17

 aborde cette question en prĂ©sentant 

le cadre Ă©thique de Friedman et Nissenbaum (1997) aïŹ n d’évaluer le biais dans 

les systĂšmes informatiques, liĂ© au statut sur Internet des langues parlĂ©es Ă  travers 

le monde. Ce cadre conceptuel nous aide Ă  interprĂ©ter les causes probables ainsi 

que les solutions de ce biais Ă©ventuel. Les revendications actuelles relativement au 

statut linguistique international sur Internet sont aussi prĂ©sentĂ©es et reformulĂ©es 

dans l’optique de leur signiïŹ cation dans ce cadre, nous amenant Ă  examiner non 

seulement la distribution et l’usage des langues sur Internet, mais aussi des insti-

tutions sociales guidant la gouvernance et le dĂ©veloppement d’Internet pouvant 

mener Ă  ce que Friedman et Nissenbaum appellent le Â« biais Ă©mergent Â». EnïŹ n, 

nous examinons les enjeux liĂ©s au biais linguistique dans les systĂšmes techniques 

d’Internet. 

3.

17 

Ont collaborĂ© Ă  ce rapport : ELIJAH WRIGHT et HONG ZHANG, Indiana University, Baska-
ran, S., G. V., Ramanan, S. V., Rameshkumar, S., SHOBA NAIR, L., VINOSHBABU JAMES, 
VISWANATHAN, S. Anna University, Chennai, Inde. On peut accĂ©der Ă  la version complĂšte du 
rapport sur le site: http://ella.slis.indiana.edu/~paolillo/paolillo.diversity.pdf.

background image

44

Mesurer la diversitĂ© linguistique sur Internet

Biais, multiculturalisme et systĂšmes

informatiques 

La Â« fracture numĂ©rique », c'est-Ă -dire la distribution inĂ©gale de l’accĂšs aux sour-

ces et aux services d’information numĂ©rique, s’avĂšre l’un des principaux enjeux 

politiques Ă  notre Ă©poque d’information numĂ©rique. Les gouvernements, agences 

internationales,  groupes  de citoyens,  sociĂ©tĂ©s  et autres  cherchent  tous  Ă   proïŹ ter 

des promesses de moindres coĂ»ts et d’accĂšs instantanĂ© Ă  l’information en migrant 

plusieurs  de  leurs  systĂšmes  de  communications  sur  des  ordinateurs  en  rĂ©seaux. 

Mais si les barriĂšres sociales traditionnelles, tels que le statut socio-Ă©conomique, 

l’éducation,  l’origine  ethnique,  le  genre,  etc.  entravent  l’accĂšs  Ă   l’information 

numĂ©rique,  les  politiques  doivent  alors  ĂȘtre  formulĂ©es  en  vue  d’égaliser  l’accĂšs 

pour que ces avantages se concrĂ©tisent.

Les questions relatives au statut linguistique international en ligne peuvent 

s’exprimer sous forme de fracture numĂ©rique. Dans certaines langues, le contenu 

informatique est dĂ©jĂ  facilement accessible en grand nombre. Les internautes qui 

parlent, lisent et Ă©crivent ces langues ont beaucoup moins de difïŹ cultĂ©s Ă  accĂ©der 

et Ă  partager de l’information utile que ceux qui parlent des langues moins bien 

reprĂ©sentĂ©es.  Une  telle  situation  soulĂšve  Ă©videmment  la  question  Ă   savoir  si  les 

systĂšmes d’information numĂ©rique, leur conïŹ guration, ou leur usage constituent 

une  forme  de  biais  envers  les  langues  moins  bien  reprĂ©sentĂ©es.  La  diffĂ©rence 

linguistique est-elle devenue un obstacle Ă  l’accĂšs Ă  l’information, constituant un 

avantage injuste pour certains et un dĂ©savantage pour d’autres ? Par dĂ©ïŹ nition, 

les questions de cette nature sont fondamentalement d’ordre Ă©thique et moral, et 

le cadre conceptuel doit en tenir compte. 

UNESCO et diversitĂ© culturelle

En 2001, les Etats membres de l’UNESCO ont adoptĂ© une DĂ©claration univer-

selle sur la diversitĂ© culturelle.

18

 L’article 6 Â« Vers une diversitĂ© culturelle accessible 

Ă  tous », Ă©nonce : 

18 

http://unesdoc.UNESCO.org/images/0012/001271/127160m.pdf.

background image

45

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

Tout en assurant la libre circulation des idĂ©es par le mot et par l'image, il 

faut veiller Ă  ce que toutes les cultures puissent s'exprimer et se faire con-

naĂźtre. La libertĂ© d'expression, le pluralisme des mĂ©dias, le multilinguisme, 

l'Ă©galitĂ© d'accĂšs aux expressions artistiques, au savoir scientiïŹ que et techno-

logique - y compris sous la forme numĂ©rique - et la possibilitĂ©, pour toutes 

les cultures, d'ĂȘtre prĂ©sentes dans les moyens d'expression et de diffusion, 

sont les garants de la diversitĂ© culturelle.

En  ce  sens,  l’UNESCO  favorise  clairement  l’accĂšs  Ă©gal  Ă   l’information 

numĂ©rique,  autant  Ă   la  production  qu’à  l’utilisation,  pour  tous  les  groupes  lin-

guistiques  et  culturels.  La  dĂ©claration  dĂ©veloppe  cette  position  en  Ă©numĂ©rant 

plusieurs orientations concrĂštes pour sa mise en Ć“uvre. Trois aspects concernent 

directement  les  questions  liĂ©es  aux  moyens  numĂ©riques  et  Ă   la  technologie  de 

l’information.

9.  encourager  Â« l’alphabĂ©tisation  numĂ©rique »  et  accroĂźtre  la  maĂźtrise 

des nouvelles technologies de l'information et de la communication, 

qui doivent ĂȘtre considĂ©rĂ©es aussi bien comme des disciplines d'ensei-

gnement que comme des outils pĂ©dagogiques susceptibles de renfor-

cer l'efïŹ cacitĂ© des services Ă©ducatifs ;

10.  promouvoir  la  diversitĂ©  linguistique  dans  l'espace  numĂ©rique  et 

encourager l'accĂšs universel, Ă  travers les rĂ©seaux mondiaux, Ă  toutes 

les informations qui relĂšvent du domaine public ;

11.  lutter contre la fracture numĂ©rique â€“ en Ă©troite coopĂ©ration avec les 

institutions compĂ©tentes du systĂšme des Nations Unies - en favorisant 

l'accĂšs des pays en dĂ©veloppement aux nouvelles technologies, en les 

aidant Ă  maĂźtriser les technologies de l'information et en facilitant Ă  la 

fois la circulation numĂ©rique des produits culturels endogĂšnes et l'ac-

cĂšs de ces pays aux ressources numĂ©riques d'ordre Ă©ducatif, culturel et 

scientiïŹ que, disponibles Ă  l'Ă©chelle mondiale (UNESCO, 2001, p.8).

Ces principes et orientations concrĂštes dĂ©terminent les valeurs permettant 

d’évaluer les attributs de la sociĂ©tĂ© de l’information en termes Ă©thiques, ainsi que 

ses objectifs de dĂ©veloppement. Ils ne fournissent cependant pas un aperçu suf-

ïŹ sant des causes possibles de tout biais pouvant survenir. Et en ce sens, il s’avĂšre 

difïŹ cile de faire des recommandations d’action appropriĂ©es dans des cas prĂ©cis. 

background image

46

Mesurer la diversitĂ© linguistique sur Internet

À titre d’exemple, les Maori de la Nouvelle-ZĂ©lande n’ont pas bien acceptĂ© 

les  bibliothĂšques  numĂ©riques.  PlutĂŽt  qu’un  simple  problĂšme  d’alphabĂ©tisation 

numĂ©rique,  une  Ă©tude  attentive  a  rĂ©vĂ©lĂ©  que  plusieurs  enjeux  d’ordre  culturel 

nuisent  au  succĂšs  de  cette  ressource,  notamment  le  fait  que  la  bibliothĂšque  est 

une forme d’institution Â« Pakeha » (EuropĂ©en de l’Ouest de race blanche) suppo-

sant un accĂšs Ă  l’information mĂ©connu dans la culture Maori (Dunker, 2002). La 

grande disponibilitĂ© de l’information, traditionnellement protĂ©gĂ©e dans la culture 

Maori (notamment l’information gĂ©nĂ©alogique) constitue un aspect essentiel du 

problĂšme  pour  ce  peuple.  Par  dĂ©ïŹ nition,  les  bibliothĂšques  permettent  un  libre 

accĂšs  Ă   l’information,  peu  importe  le  contenu,  et  ignorent  donc  cette  valeur. 

C’est pourquoi il faut revoir le modĂšle d’accĂšs Ă  l’information aux bibliothĂšques 

numĂ©riques avant qu’une telle institution ne soit mise en place et acceptĂ©e chez 

les Maori.

19

Un cadre Ă©thique

Friedman et Nissenbaum (1995, 1997) fournissent un cadre conceptuel utile pour 

analyser le biais dans les systĂšmes informatiques, en aidant Ă  concentrer l’atten-

tion sur les causes du biais. Ces auteurs identiïŹ ent trois principales catĂ©gories de 

biais : prĂ©existant, technique et Ă©mergent. Le biais prĂ©existant est ancrĂ© dans les 

institutions, les pratiques et les attitudes sociales, et existe indĂ©pendamment des 

systĂšmes informatiques. Le biais technique est issu des propriĂ©tĂ©s techniques des 

systĂšmes  utilisĂ©s,  quand  les  hypothĂšses  ne  correspondent  pas  Ă   tous  les  aspects 

auxquels  ils  sont  appliquĂ©s.  Quant  au  biais  Ă©mergent,  il  survient  lors  de  l’utili-

sation concrĂšte avec les usagers ; ce biais n’est pas inhĂ©rent Ă  la conception du 

systĂšme ni au contexte social, mais survient plutĂŽt Ă  la suite de l’interaction des 

deux dans un cas particulier. 

Des  exemples  de  ces  trois  formes  de  biais  peuvent  ĂȘtre  trouvĂ©s  lors  de 

l’étude des langues. Le biais prĂ©existant s’avĂšre Ă©vident lorsqu’un gouvernement, 

une industrie ou une puissante sociĂ©tĂ© refuse de rendre l’information, les techno-

logies ou les produits disponibles aux personnes parlant une ou plusieurs langues. 

Ainsi,  au  milieu  des  annĂ©es  90,  Microsoft  Inc.  refusa  de  fabriquer  des  versions 

de  ses  produits  pouvant  s’avĂ©rer  compatibles  avec  des  systĂšmes  d’écriture  non 

19 

Cette  situation  est  similaire  aux  problĂšmes  soulevĂ©s  lorsque  des  dossiers  mĂ©dicaux  personnels 
deviennent accidentellement publics par Internet.

background image

47

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

romaine, tel que WorldScript, de Apple Computer Inc. Microsoft justiïŹ a sa dĂ©ci-

sion en invoquant que le marchĂ© des applications non romaines Ă©tait trop limitĂ© 

pour justiïŹ er une nouvelle version de leur produit ; par consĂ©quent, cet exemple 

de biais prĂ©-Ă©mergent Ă©tait dictĂ© par des raisons d’ordre Ă©conomique.

20

 Le biais 

technique survient avec les sĂ©quences de code de texte tel Unicode UTF-8, faisant 

en sorte qu’un texte en format non romain exige de deux Ă  trois fois plus d’es-

pace qu’un texte comparable en format romain. Ici, la raison provient d’aspects 

de compatibilitĂ© entre les anciens systĂšmes romains et les systĂšmes Unicode plus 

rĂ©cents. Et ïŹ nalement, le biais Ă©mergent survient lorsque des systĂšmes informati-

ques crĂ©Ă©s Ă  une ïŹ n sont utilisĂ©s Ă  d’autres. C’est le cas du systĂšme de bibliothĂšque 

numĂ©rique dĂ©veloppĂ© pour un contexte urbain et blanc en Nouvelle-ZĂ©lande, et 

qui fut mal accueilli par la population rurale des Maori. 

Ces trois types de biais doivent ĂȘtre abordĂ©s de diffĂ©rentes façons. Le biais 

prĂ©existant doit l’ĂȘtre par les ressources Ă©ducatives, juridiques et institutionnelles 

des pays, industries ou sociĂ©tĂ©s. Le biais technique peut ĂȘtre abordĂ© dans la con-

ception des principes sous-jacents aux systĂšmes informatiques eux-mĂȘmes. Et les 

biais Ă©mergents doivent ĂȘtre abordĂ©s Ă  la fois par l’éducation et le design, Ă  partir 

des informations obtenues sur l’utilisation concrĂšte des systĂšmes informatiques.

Étant  donnĂ©  que  le  dĂ©veloppement  d’Internet  implique  l’interaction  de 

technologies, de conditions prĂ©alables, d’objectifs, d’industries et d’intervenants, 

ces trois formes de biais sont impliquĂ©es dans le dĂ©veloppement linguistique sur 

Internet, Ă  plusieurs pĂ©riodes et endroits diffĂ©rents. 

Internationalisation et Internet : conceptions populaires

Le contenu des mĂ©dias populaires relativement au potentiel de biais linguistique 

sur Internet a tendance Ă  reïŹ‚ Ă©ter deux perspectives opposĂ©es. Wasserman a dĂ©crit 

cette opposition dans les termes suivants : 

Puisque Internet contribue Ă  
 l’augmentation de la prise de conscience 

au  fait  que  la  planĂšte  est  interconnectĂ©e  et  interdĂ©pendante,  il  pourrait 

20 

Depuis cette Ă©poque, Microsoft a modiïŹ Ă© sa position et crĂ©Ă© des versions de ses produits pour les 
autres marchĂ©s linguistiques.

background image

48

Mesurer la diversitĂ© linguistique sur Internet

s’agir de l’un des plus rĂ©cents dĂ©veloppements accĂ©lĂ©rant la globalisation
 

Parce que la globalisation est perçue comme une force Ă©manant du monde 

dit Â« dĂ©veloppĂ© », certaines critiques entrevoient la destruction des lieux et 

de  spĂ©ciïŹ citĂ©s  culturelles  au  sein  des  pays  et  communautĂ©s  minoritaires. 

D’autre part, certaines critiques font valoir que les forces internationales 

et  locales  interagissent  dans  le  processus  de  globalisation,  en  faisant  un 

processus  multidirectionnel  pouvant  s’avĂ©rer  bĂ©nĂ©ïŹ que  aux  cultures  et 

aux langues locales, et mĂȘme favoriser leur autonomisation (Wasserman, 

2002:2).

Ceux  appuyant  cette  deuxiĂšme  perspective  tentent  Ă   dĂ©fendre  les  droits  des 

minoritĂ©s, alors que ceux en faveur de la premiĂšre soutiennent les nouvelles tech-

nologies de rĂ©seaux d’information. La deuxiĂšme perspective constitue en quelque 

sorte une rĂ©action aux changements rapides et profonds rĂ©sultant de la popularitĂ© 

d’Internet, tandis que la premiĂšre est largement favorisĂ©e depuis ses dĂ©buts par les 

partisans de la technologie. 

Il est assez facile de trouver des comptes-rendus connus des Ă©quipes d’in-

gĂ©nierie ayant travaillĂ© sur les premiĂšres versions d’ARPANET (le premier rĂ©seau 

informatique) et qui prĂ©sentent l’organisation de façon idĂ©alisĂ©e, dĂ©mocratique et 

dĂ©centralisĂ©e (par ex. Hafner et Lyon, 1996) ou le Whole Earth Lectronic Link 

(aussi  connu  sous  l’acronyme  WELL)  dissĂ©minant  des  communautĂ©s  virtuelles 

Ă   travers  le  monde  par  le  biais  d’Internet  (Rheingold,  2000).  Ă€  partir  de  cette 

perspective,  il  est  facile  d’extrapoler  que  la  domination  linguistique  serait  une 

forme  d’inĂ©galitĂ©  que  la  technologie  Internet  permettra  d’éliminer  rapidement. 

Tout  d’abord  (selon  cet  argument),  Internet  est  international  et  dĂ©centralisĂ© ; 

aucun  usager  ou  groupe  d’usagers  ne  peut  possĂ©der  un  contrĂŽle  hiĂ©rarchique 

sur un autre usager ou groupe d’usagers, parce que Internet permet une libertĂ© 

complĂšte d’association. En ce sens, n’importe qui peut utiliser n’importe quelle 

langue, Ă  condition qu’une autre personne soit disposĂ©e Ă  faire de mĂȘme. Ensuite, 

la croissance des internautes non anglophones, et notamment les personnes par-

lant chinois, devrait dĂ©passer le taux de croissance actuel des internautes parlant 

anglais.  En  d’autres  mots,  l’anglais  ne  dominera  Ă©ventuellement  plus  Internet, 

parce que beaucoup plus de gens parlent les autres langues. La question sur la 

dĂ©termination de quelle langue domine en ligne est simplement une affaire de dis-

tribution dĂ©mographique. Et ïŹ nalement, les partisans font valoir que les capacitĂ©s 

suggestives d’action d’Internet tel Unicode pour le texte multilingue et les systĂš-

mes comme BabelFish pour la traduction d’instance de documents Web, peuvent 

background image

49

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

rĂ©soudre tous les problĂšmes que les internautes parlant d’autres langues peuvent 

avoir en utilisant l’information sur Internet. Il est Ă  noter que cette perspective 

caractĂ©rise largement la position retenue dans le document 

La diversitĂ© culturelle et 

linguistique  dans  la  sociĂ©tĂ©  de  l’information,

  une  publication  de  l’UNESCO  prĂ©parĂ©e 

pour le Sommet mondial sur la sociĂ©tĂ© de l’information (UNESCO, 2003).

Chacun de ces arguments possĂšde une perspective opposĂ©e qui, de façon 

plus  spĂ©ciïŹ que,  soutient  que  la  langue  anglaise  â€“  et  dans  une  certaine  mesure 

d’autres  langues  europĂ©ennes  â€“  domine  les  communications  sur  Internet.  Les 

raisons invoquĂ©es sont en partie sociales et techniques. D’abord, on fait valoir que 

Internet est basĂ© sur une infrastructure de tĂ©lĂ©communications Ă©conomiquement 

dominĂ©e par des sociĂ©tĂ©s amĂ©ricaines. Le centre gĂ©ographique de connectivitĂ© du 

rĂ©seau global de tĂ©lĂ©communications est situĂ© aux Ă‰tats-Unis, de sorte que tout ce 

qui le favorise proïŹ tera de façon dĂ©mesurĂ©e aux Ă‰tats-Unis, par le biais de coĂ»ts 

de communications moindres et d’un nombre accru de destinations atteignables. 

Ensuite, en dĂ©pit des tendances rĂ©centes, les internautes utilisant l’anglais restent 

le plus important groupe d’usagers sur Internet. Ă€ tout le moins, la proportion 

d’usagers parlant anglais sur Internet est disproportionnĂ©e par rapport aux popu-

lations parlant d’autres langues. Et en dernier lieu, la plupart des technologies sur 

Internet  sont  mieux  adaptĂ©es  Ă   l’anglais.  Les  interfaces  pour  les  alphabets  non 

romains sont complexes ou n’existent pas encore pour certaines langues. MĂȘme 

des systĂšmes tel que Unicode comportent des biais techniques au proïŹ t de l’an-

glais, tandis que les systĂšmes de traduction ne sont pas sufïŹ samment ïŹ ables pour 

fonctionner Ă  l’échelle requise.

21

Ces  perspectives  diffĂšrent  dans  la  maniĂšre  dont  les  trois  types  de  biais 

identiïŹ Ă©s  par  Friedman  et  Nissenbaum  (1997)  sont  perçus.  La  dĂ©mographie 

linguistique  des  usagers  d’Internet  soulĂšve  des  questions  de  biais  prĂ©existant  

L’aspect de la disponibilitĂ© des capacitĂ©s suggestives d’action (affordances) pour 

diffĂ©rentes langues soulĂšve des questions de biais techniques. De plus, les enjeux 

liĂ©s Ă  la dĂ©centralisation en opposition au contrĂŽle central de facto soulĂšvent la 

question de biais Ă©mergeant dans un systĂšme ayant dĂ©passĂ© ses frontiĂšres natio-

nales d’origine. 

21 

Des variantes de ces deux positions, ainsi que leurs rapports avec des perspectives semblables sur 
la globalisation sont discutĂ©es dans Block (2004).   

background image

50

Mesurer la diversitĂ© linguistique sur Internet

MalgrĂ© les divergences d’opinions et de vifs dĂ©bats parfois suscitĂ©s, il existe 

une  pĂ©nurie  de  recherche  empirique  portant  directement  sur  ces  questions  de 

biais  linguistique  prĂ©existant,  technique  et  Ă©mergent  sur  Internet.  Ceci  s’expli-

que en partie par l’étendue et l’évolution rapide d’Internet. Ces deux conditions 

compliquent l’obtention de donnĂ©es ïŹ ables. Et mĂȘme si des sondages linguistiques 

sont parfois effectuĂ©s par des entreprises de marketing comme Jupiter Research 

(http://www.jupiterresearch.com/), et Global Reach (http://www.glreach.com/), 

ces donnĂ©es ont une valeur discutable sur le plan du biais linguistique, en raison 

des  intĂ©rĂȘts  Ă©conomiques  sous-jacents  des  spĂ©cialistes  du  marketing  et  de  leurs 

clients.  De  plus,  un  sondage  ïŹ able  et  effectuĂ©  Ă   grande  Ă©chelle  sur  le  multilin-

guisme en ligne serait dispendieux, au-delĂ  des budgets limitĂ©s ou des recherches 

non ïŹ nancĂ©es. 

Sources de biais prĂ©existant

Les  biais  prĂ©existant  concernent  les  institutions,  pratiques  et  attitudes  sociales 

indĂ©pendantes des technologies. Les sources de biais prĂ©existant incluent la rĂ©par-

tition historique des populations linguistiques, les ententes Ă©conomiques favorisant 

des  langues  plus  rĂ©pandues,  ainsi  que  les  politiques  institutionnelles  des  Ă©tats 

nations. Au chapitre de la diversitĂ© linguistique sur Internet, les biais prĂ©existant 

se retrouvent Ă  la disposition des gouvernements, institutions et entreprises envers 

les  personnes  de  diffĂ©rentes  origines  linguistiques,  face  Ă   la  mise  en  application 

d’une politique sur les technologies de l’information. La comprĂ©hension de tels 

biais  s’avĂšre  complexe,  mais  puisque  Internet  est  un  phĂ©nomĂšne  international, 

cette comprĂ©hension doit s’effectuer dans le contexte de la diversitĂ© linguistique 

globale. 

DiversitĂ© linguistique globale

Toute discussion sĂ©rieuse sur la diversitĂ© linguistique Ă  l’échelle internationale ou 

rĂ©gionale requiert un indice quantitatif  de diversitĂ©. Malheureusement, de telles 

mesures  quantitatives  de  diversitĂ©  linguistique  sont  rarement  utilisĂ©es  Ă   l’heure 

actuelle  en  recherche  linguistique,  et  aucune  mesure  reconnue  n’est  utilisĂ©e  Ă  

grande Ă©chelle. Les mesures dĂ©jĂ  existantes ont tendance Ă  ĂȘtre plutĂŽt simplistes, 

tel le nombre de langues ou le nombre de groupes linguistiques, utilisĂ©s par Bar-

rera-Brassols  et  Zenck  (2002)  ainsi  que  Smith  (2001).  Des  mesures  de  diversitĂ© 

background image

51

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

plus Ă©laborĂ©es furent proposĂ©es par le passĂ© (par ex. Greenberg, 1956 ; Lieberson, 

1964),  mais  leur  valeur  statistique  n’était  pas  toujours  bien  fondĂ©e  et  elles  sont 

devenues dĂ©suĂštes. L’approche retenue dans le prĂ©sent rapport suit celle de Nettle 

(1999) et utilise une mesure de la variance comme indice de diversitĂ©. 

Un  indice  de  diversitĂ©  linguistique  satisfaisant  doit  tenir  compte  de  plu-

sieurs  facteurs.  D’abord,  il  doit  comporter  une  certaine  unitĂ©  d’analyse,  tel  un 

pays, un continent ou Internet. Ensuite, cette diversitĂ© linguistique devrait tenir 

compte  des  probabilitĂ©s  de  trouver  des  usagers  d’une  langue  particuliĂšre.  Le 

minimum  naturel  devrait  ĂȘtre  zĂ©ro,  dans  le  cas  d’une  population  entiĂšrement 

homogĂšne,  et  ne  comporter  aucune  valeur  maximale  ïŹ xe.  Une  variĂ©tĂ©  accrue 

de langues devrait augmenter la valeur de l’indice, mais Ă  mesure que la propor-

tion du groupe linguistique diminue, sa contribution Ă  la diversitĂ© devrait aussi 

diminuer. De cette façon, les pays oĂč l’on retrouve plusieurs groupes linguistiques 

d’importance  semblable  (par  ex.  la  Tanzanie  ;  Mafu,  2004)  dĂ©montreront  une 

diversitĂ©  linguistique  plutĂŽt  Ă©levĂ©e,  tandis  que  les  pays  ayant  un  nombre  com-

parable de langues, mais avec seulement une ou deux langues dominantes (par 

ex. les Ă‰tats-Unis), afïŹ cheront une diversitĂ© linguistique relativement peu Ă©levĂ©e. 

Une mesure qui possĂšde ces propriĂ©tĂ©s est la construction information-thĂ©orique 

appelĂ©e Â« entropie », sur laquelle nous pouvons baser notre mesure de diversitĂ© 

linguistique. En termes statistiques, l’entropie est une mesure de variance (Ă©cart). 

L’entropie est calculĂ©e Ă  partir de la proportion estimĂ©e de la population du pays 

pour chaque langue, multipliĂ©e par son logarithme naturel et en faisant la somme 

de  toutes  les  donnĂ©es  pour  une  unitĂ©  particuliĂšre  (pays,  rĂ©gion).  La  valeur  de 

l’indice ïŹ nal reprĂ©sente - 2 fois cette somme. 

Le Tableau 1 et la Figure 1 prĂ©sentent les chiffres pour cette mesure de 

diversitĂ©  basĂ©e  sur  l’entropie,  dans  diffĂ©rentes  rĂ©gions  du  monde,  en  fonction

des  7  639  chiffres  sur  les  populations  linguistiques  prĂ©sentĂ©s  dans  Ethnologue 

(www.ethnologue.co

((

m) et allant de la diversitĂ© linguistique la plus faible Ă  la plus 

Ă©levĂ©e. Les Ă‰tats-Unis, d’oĂč provient Internet, ont Ă©tĂ© sĂ©parĂ©s dans la premiĂšre 

rangĂ©e  Ă   des  ïŹ ns  comparatives.  Les  rĂ©gions  bien  connues  pour  leur  diversitĂ© 

linguistique  (par  ex.  l’Afrique,  l’OcĂ©anie)  font  voir  la  plus  grande  diversitĂ©  lin-

guistique, tandis que les rĂ©gions ayant des langues nationales trĂšs rĂ©pandues (Asie 

de l’Est, AmĂ©rique du Nord) afïŹ chent la plus faible diversitĂ©. Ces deux derniĂšres 

rĂ©gions sont particuliĂšrement importantes pour comprendre la diversitĂ© linguisti-

que sur Internet. Les Ă‰tats-Unis et la Chine sont sans doute les deux joueurs les 

plus importants sur Internet (certaines prĂ©visions estiment que le nombre d’usa-

background image

52

Mesurer la diversitĂ© linguistique sur Internet

gers en Chine pourrait supplanter celui aux Ă‰tats-Unis au cours des prochaines 

annĂ©es),  et  aucun  de  ces  deux  pays  n’est  trĂšs  diversiïŹ Ă©  sur  le  plan  linguistique, 

en  comparaison  Ă   l’OcĂ©anie  ou  Ă   l’Afrique.  Dans  la  mesure  oĂč  ces  deux  pays 

dominent Internet (ou par extension, la discussion de la diversitĂ© linguistique sur 

Internet), ce dernier ne peut prĂ©tendre reïŹ‚ Ă©ter la diversitĂ© linguistique Ă  l’échelle 

internationale. 

Tableau 1. RĂ©sultats aux indices de diversitĂ© linguistique par rĂ©gion 

RĂ©gion

Langues

Indice

de diversitĂ©

Proportion

de population 

mondiale 

États-Unis 

170

0,7809

0,0020

AmĂ©rique du Nord

(incl. Etats-Unis)

248

3,3843

0,0086

Asie de l’Est

200

4,4514

0,0112

Asie de l’Ouest

159

26,1539

0,0659

Centre Sud de l’Asie

661

29,8093

0,0752

AmĂ©rique du Sud

930

30,5007

0,0769

Europe

364

32,4369

0,0818

Asie du Sud-est

1 317

37,6615

0,0949

Océanie

1 322

46,5653

0,1174

Afrique

2390

185,6836

0,4681

 Source : Ethnologue.

background image

53

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

Figure 1. Indice de diversitĂ© linguistique par rĂ©gion 

Source : Ethnologue.

Évolution de la diversitĂ© linguistique

Pour  obtenir  une  perspective  sur  la  signiïŹ cation  de  la  diversitĂ©  linguistique,  on 

peut examiner l’importance des populations linguistiques. La Figure 2 illustre dif-

fĂ©rents groupes linguistiques de diffĂ©rentes tailles, aussi issus des donnĂ©es d’Ethno-

logue. L’axe horizontal est Ă  l’échelle logarithmique, ce qui signiïŹ e que la courbe 

en forme de cloche reïŹ‚ Ăšte une distribution normale (Grimes, 1986). L’importance 

habituelle d’un groupe linguistique se chiffre dans les dizaines de milliers de per-

sonnes â€“ soit la taille d’une petite communautĂ© urbaine. Les langues parlĂ©es par 

centaines de millions de personnes telles l’anglais, le chinois, l’espagnol, le français, 

etc. sont plutĂŽt atypiques, tout comme le sont les plus petits groupes linguistiques 

regroupant quelques centaines de personnes. En termes d’expĂ©rience humaine, la 

situation est diffĂ©rente : prĂšs de la moitiĂ© de la population de la planĂšte parle une 

langue parlĂ©e par des centaines de millions d’autres personnes. 

background image

54

Mesurer la diversitĂ© linguistique sur Internet

Figure 2. Taille des groupes linguistiques

Source : Ethnologue, UNPD.

La diversitĂ© linguistique internationale et rĂ©gionale n’est pas statique mais Ă©volue 

avec le temps. Elle subit l’inïŹ‚ uence d’évĂ©nements socio-historiques telles l’immi-

gration  massive,  la  colonisation,  les  guerres,  les  Ă©pidĂ©mies,  et  autres.  Ă€  l’heure 

actuelle, la diversitĂ© linguistique globale est en dĂ©clin et ce depuis longtemps. Pour 

les linguistes qui Ă©tudient la diversitĂ© de la parole humaine, la situation actuelle 

est une catastrophe. La disparition de centaines de langages Ă  une Ă©poque rĂ©cente 

signiïŹ e que des pans entiers de connaissances sur cette capacitĂ© propre Ă  l’humain 

sont perdus Ă  jamais, tout comme le sont les littĂ©ratures, l’histoire et les cultures 

des populations qui parlaient ces langues. La situation est catastrophique pour les 

populations concernĂ©es. Selon certaines estimations, prĂšs de la moitiĂ© des langues 

parlĂ©es dans le monde auront disparu d’ici l’an 2050 (Dalby, 2003 ; Krauss, 1992 ; 

Nettle et Romaine, 2000). Alors que la diversitĂ© linguistique disparaĂźt avec l’ex-

tinction des plus petits groupes linguistiques, la proportion de personnes parlant 

une langue trĂšs rĂ©pandue augmente Ă  travers le monde. 

La perte de la diversitĂ© linguistique n’est pas tributaire d’une rĂ©gion par-

ticuliĂšre dans le monde : beaucoup de langues ont disparu en Europe depuis la 

montĂ©e des Ă©tats nations. En AmĂ©rique du Nord, en AmĂ©rique du Sud ainsi qu’en 

Australie, la colonisation europĂ©enne fut suivie de pertes tragiques qui continuent 

Ă  notre Ă©poque. Dans les Ăźles du PaciïŹ que et en IndonĂ©sie, l’anglais et l’indonĂ©sien 

background image

55

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

remplacent les langues autochtones. Et en Asie, les principales langues parlĂ©es en 

Chine, au Japon, en Inde et en Russie se sont dĂ©veloppĂ©es depuis des siĂšcles au 

dĂ©triment d’autres langues (Crystal, 2000 ; Muhlhausler, 1996). 

Certaines  causes  de  disparition  linguistique  sont  Ă©videntes.  Par  exemple, 

l’extermination  accidentelle  ou  voulue  d’un  groupe  de  gens  peut  entraĂźner  la 

disparition de sa langue (Wurm, 1991). La majeure partie de la diversitĂ© linguis-

tique  nord-amĂ©ricaine  disparut  de  cette  façon :  les  guerres  avec  les  immigrants 

europĂ©ens  et  l’apparition  de  maladies  Ă©trangĂšres  qui  se  rĂ©pandirent  au  contact 

des  EuropĂ©ens  dĂ©cimĂšrent  les  populations  autochtones  Ă   un  point  tel  que  leur 

langue disparut. D’autres causes de disparition linguistique sont moins Ă©videntes, 

notamment quand ces changements sont attribuables Ă  l’écologie culturelle. 

DiversitĂ© linguistique globale et Internet

La faible diversitĂ© linguistique, notamment en AmĂ©rique du Nord, en AmĂ©rique 

latine et dans les CaraĂŻbes, en Europe ainsi qu’en Asie de l’Est, facilite l’accĂšs Ă  

Internet par le truchement d’un nombre rĂ©duit de solutions technologiques stan-

dardisĂ©es visant chaque population linguistique majeure. Dans les rĂ©gions et pays 

ayant  une  plus  grande  diversitĂ©  linguistique,  des  ententes  plus  complexes  pour 

l’accĂšs  Ă   Internet  sont  gĂ©nĂ©ralement  requises,  pouvant  exiger  l’adaptation  des 

ressources Ă  chacune des nombreuses langues minoritaires. En ce sens et dĂšs le 

dĂ©part, Internet s’avĂšre biaisĂ© en faveur des langues plus rĂ©pandues. Mais mĂȘme 

les groupes linguistiques importants ont rarement des normes techniques soute-

nues. Par exemple, des centaines de millions de personnes parlent hindi, mais un 

chercheur de l’UniversitĂ© Southern California estime que la plupart des sites Web 

en hindi possĂšdent leurs propres polices de caractĂšres en hindi, non compatibles 

avec les autres polices en hindi. Les usagers dĂ©sireux de lire le matĂ©riel en hindi 

sur  ces  sites  Web  doivent  installer  les  polices  de  caractĂšres  requises  sur  chaque 

site individuel, et la recherche sur ces diffĂ©rents sites s’avĂšre extrĂȘmement ardue 

puisque les mots ne correspondent pas aux diffĂ©rentes reprĂ©sentations (Informa-

tion  Sciences  Institute,  2003).  En  d’autres  mots,  Internet  ne  favorise  pas  d’une 

maniĂšre  Ă©gale  les  grands  groupes  linguistiques.  Les  rĂ©gions  comme  l’Afrique, 

l’OcĂ©anie et l’Asie du Sud-est font face Ă  des dĂ©ïŹ s encore plus sĂ©rieux, en raison 

du grand nombre de langues non encore en usage sur Internet. Par consĂ©quent, 

des  dĂ©veloppements  techniques  importants  restent  Ă   faire  avant  de  parvenir  Ă  

atteindre ces groupes linguistiques.

background image

56

Mesurer la diversitĂ© linguistique sur Internet

Il  importe  de  conserver  une  perspective  Ă©volutionniste  lorsque  l’on  exa-

mine les effets d’Internet. MĂȘme si Internet peut trĂšs bien avoir un impact Ă  long 

terme sur la diversitĂ© linguistique, tant la nature que l’envergure de cet impact en 

termes historiques ne sont pas claires. Puisque Internet amĂ©liore l’accĂšs aux lan-

gues individuelles, il contribue Ă©ventuellement Ă  les renforcer, mais puisqu’il fait 

de mĂȘme pour les langues plus rĂ©pandues en favorisant les Ă©changes linguistiques, 

il  contribue  Ă©galement  Ă   les  affaiblir.  Ces  deux  effets  pourraient  ĂȘtre  beaucoup 

moins importants que l’inïŹ‚ uence d’autres causes sociales tout aussi omniprĂ©sentes 

dans la diversitĂ© linguistique. Elles reprĂ©sentent notamment le dĂ©veloppement de 

l’agriculture,  de  l’urbanisation  des  populations,  des  Ă©vĂ©nements  gĂ©opolitiques, 

etc., dont tout gouvernement ou agence de coopĂ©ration telle les Nations Unies 

pourraient trĂšs bien ne pas pouvoir empĂȘcher. Par la mĂȘme occasion, le monde 

constate le dĂ©clin rĂ©el de la diversitĂ© linguistique, alors que la survie de centaines 

de  communautĂ©s  historiques  et  culturelles  Ă   travers  le  monde  est  directement 

menacĂ©e. Il importe donc que toute politique axĂ©e sur la diversitĂ© linguistique sur 

Internet tienne compte de ces prĂ©occupations. 

Sources de biais Ă©mergent

Le biais Ă©mergent porte sur les effets du biais survenant avec l’usage actuel des 

technologies  Internet.  Eu  Ă©gard  Ă   la  diversitĂ©  linguistique  sur  Internet,  le  biais 

Ă©mergent est fondĂ© sur l’expĂ©rience des usagers des technologies de l’information 

quand  leurs  antĂ©cĂ©dents  linguistiques  deviennent  tributaires  de  leur  capacitĂ©  Ă  

employer la technologie ou l’information fournie. Ce biais se manifeste surtout de 

deux façons : d’abord dans la distribution linguistique sur Internet, et ensuite par 

le  contrĂŽle  Ă©conomique  du  marchĂ©  des  tĂ©lĂ©communications  et  des  technologies 

de  l’information.  Dans  cette  section,  nous  examinerons  les  sources  de  tels  biais 

Ă©mergents. Les rĂ©sultats prĂ©sentĂ©s ici suggĂšrent Ă  l’heure actuelle un biais impor-

tant en faveur de l’anglais.

DiversitĂ© linguistique des sources d’information sur Internet

Quelques  Ă©tudes  ont  effectuĂ©  une  analyse  quantitative  Ă   grande  Ă©chelle  sur  les 

langues  utilisĂ©es  sur  Internet.  Ces  Ă©tudes  portent  gĂ©nĂ©ralement  sur  le  Web,  Ă  

l’exclusion  des autres modes  de communication tels le courriel et le clavardage 

(chat), puisque le Web s’observe plus directement et s’étudie plus facilement que 

background image

57

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

les  autres  formes  de  communication  Internet.  Deux  recherches  dignes  d’ĂȘtre 

mentionnĂ©es  ont  produit  des  rĂ©sultats  intĂ©ressants  dans  ce  domaine :  une  sĂ©rie 

d’études par Lavoie, O’Neill et des collĂšgues du Online Computer Library Center 

(OCLC), ainsi qu’une Ă©tude de Nunberg (1998) Ă  PARC sur des sites Web non 

anglais.

Les Ă©tudes du OCLC (Lavoie et O’Neill, 1999 ; O’Neill, Lavoie et Bennett, 

2003) ont eu recours Ă  un Ă©chantillon au hasard de sites Web disponibles sur Inter-

net. Pour y parvenir, ils ont gĂ©nĂ©rĂ© des numĂ©ros de protocole Internet (IP) et tentĂ© 

de se relier Ă  un site Web pour chaque adresse. Si un serveur Web rĂ©pondait, les 

chercheurs tĂ©lĂ©chargeaient alors sa page d’accueil et activaient un systĂšme automa-

tisĂ© de classiïŹ cation linguistique sur cette page (O’Neill, McClain et Lavoie, 1997). 

Cette mĂ©thode d’échantillonnage a l’avantage d’ĂȘtre non biaisĂ©e. Toutes les autres 

mĂ©thodes  d’échantillonnage  reposent  directement  ou  non  sur  des  moteurs  de 

recherche ou des Â« robots Web Â» (web spiders), soient des programmes qui dĂ©cou-

vrent de nouvelles pages Web en suivant tous les liens dans une sĂ©rie connue de 

pages Web. Les robots Web produisent ce qu’on appelle un Â« sondage cumulatif  Â», 

c’est-Ă -dire un Ă©chantillon biaisĂ© en raison de sa proximitĂ© Ă  un point de dĂ©part 

arbitraire. Les moteurs de recherche dĂ©pendent des robots Web pour dĂ©velopper 

leurs indices, de sorte que les Ă©chantillons qui en sont tirĂ©s sont Ă©galement biaisĂ©s. 

De tels Ă©chantillons biaisĂ©s sont Ă  Ă©viter, si l’on veut obtenir une estimation ïŹ able 

de la frĂ©quence des diffĂ©rentes langues sur le Web. 

La  premiĂšre  Ă©tude  fut  effectuĂ©e  Ă   deux  pĂ©riodes  diffĂ©rentes,  Ă   intervalle 

d’une annĂ©e, aïŹ n d’évaluer les tendances dans l’usage de ces diffĂ©rentes langues. 

En 2002, une Ă©tude subsĂ©quente chercha Ă  conïŹ rmer ces observations. L’étude 

menĂ©e en 1998-1999 suggĂ©rait qu’une certaine expansion internationale Ă©tait en 

cours sur le Web, et que l’usage de diffĂ©rentes langues correspondait Ă©troitement 

au domaine de provenance de chaque site Web. Ainsi, l’échantillon de 1999 com-

portant 2 229 sites Web au hasard permit d’identiïŹ er 29 langues diffĂ©rentes dont 

la rĂ©partition est prĂ©sentĂ©e Ă  la Figure 3. Comme on pouvait le prĂ©voir, l’anglais 

domine clairement dans 72% de l’ensemble des sites Web Ă©chantillonnĂ©s. L’indice 

de diversitĂ© de cet Ă©chantillon de pages Web Ă©quivaut Ă  2,47, soit moins que celui 

d’un pays caractĂ©ristique de l’Asie du Sud-est et plus qu’un pays caractĂ©ristique 

du Centre-Sud de l’Asie. Cet indice est aussi des centaines de fois plus petit que 

l’indice linguistique global. En ce sens, la diversitĂ© linguistique sur le Web, mĂȘme 

si elle s’apparente Ă  celle de plusieurs pays multilingues, constitue une faible reprĂ©-

sentation de la diversitĂ© linguistique Ă  travers le monde. 

background image

58

Mesurer la diversitĂ© linguistique sur Internet

Figure 3. Proportion de langues sur le Web Ă  partir d’un Ă©chantillon au 

hasard de pages Web

Source : O’Neill, Lavoie et Bennett (2003). 

En relation Ă  l’étude prĂ©cĂ©dente, l’étude de suivi effectuĂ©e en 2002 indique que la 

proportion de l’anglais sur le Web semble constante, mĂȘme si de petites diffĂ©rences 

surviennent parmi les autres langues (O’Neill, Lavoie et Bennett, 2003). L’indice 

de diversitĂ© Ă©tait de 2,44 en 2002, dĂ©montrant peu d’écart sur l’étude prĂ©cĂ©dente, 

ce qui pourrait ĂȘtre en partie attribuable Ă  la mĂ©thodologie utilisĂ©e. Les 29 langues 

identiïŹ Ă©es dans l’échantillon des pages Web reprĂ©sentent en fait la limite du pro-

gramme d’identiïŹ cation linguistique utilisĂ© par ces chercheurs (http://www-rali.

iro.umontreal.ca/SILC/SILC.en.cgi), et les nouvelles langues utilisĂ©es sur le Web 

ne peuvent ĂȘtre dĂ©couvertes de cette façon. MĂȘme si le programme d’identiïŹ ca-

tion linguistique pouvait englober davantage de langues, celles-ci ne reprĂ©sentent 

que de faibles proportions et par consĂ©quent, changeraient peu la diversitĂ© cal-

culĂ©e sur le Web.

En 1999, l’étude de l’OCLC identiïŹ a aussi les proportions de pages Web 

multilingues  Ă   partir  de  chaque  domaine  d’origine,  et  quelles  combinaisons  de 

deux  langues  Ă©taient  employĂ©es.  Si  un  site  Web  comptait  plus  d’une  langue, 

l’anglais Ă©tait toujours l’une d’elles : l’ensemble (100%) des 156 sites multilingues 

identiïŹ Ă©s  utilisait  l’anglais.  Le  français,  l’allemand,  l’italien  et  l’espagnol  Ă©taient 

background image

59

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

chacun prĂ©sents sur environ 30 % des sites Web multilingues, tandis que les autres 

langues Ă©taient beaucoup moins bien reprĂ©sentĂ©es. De plus, 87 % des sites Web 

multilingues  provenaient  de  domaines  situĂ©s  Ă   l’extĂ©rieur  des  principaux  pays 

anglophones  (Australie,  Canada,  Royaume-Uni  et  Ă‰tats-Unis).  Pour  l’ensemble 

des  domaines,  le  taux  de  multilinguisme  allait  de  6  sur  13  (42  %)  sur  les  sites 

russes, Ă  16 sur 1 103 (1,5 %) pour les sites amĂ©ricains. On constate donc que le 

Web penche fortement vers le monolinguisme, et la plupart des sites multilingues 

ne  viennent  que reïŹ‚ Ă©ter la domination  de l’anglais.  Ce rĂ©sultat  est  directement 

Ă   l’opposĂ©  de  la  croyance  rĂ©pandue  selon  laquelle  le  Web  favorise  la  diversitĂ© 

linguistique. 

Les  tendances  observĂ©es  dans  les  Ă©tudes  de  l’OCLC  ont  Ă©tĂ©  conïŹ rmĂ©es 

dans l’étude de Nunberg (1998), qui a retenu une mĂ©thodologie diffĂ©rente. Dans 

cette Ă©tude, un robot Web 

(web crawl)

 de 2,5 millions de pages collectĂ©es en 1997 

par Alexa, une ïŹ rme de services Internet, fut analysĂ© Ă  l’aide d’un identiïŹ cateur 

automatique de langue prĂ©parĂ© par Heinrich SchĂŒtze, un collĂšgue de Nunberg. 

MĂȘme s’il s’agit d’un sondage cumulatif  biaisĂ©, il est nĂ©anmoins plus de mille fois 

plus grand que celui de l’OCLC. Nunberg a surtout constatĂ© que les pays ayant un 

faible taux de pĂ©nĂ©tration d’Internet utilisent surtout l’anglais sur leurs sites Web, 

tandis que ceux ayant un taux plus Ă©levĂ© de pĂ©nĂ©tration ont davantage recours 

Ă  des langues autres que l’anglais. Il est Ă  noter que l’AmĂ©rique latine s’inscrit Ă  

contre-courant de cette tendance, avec un taux de pĂ©nĂ©tration Internet trĂšs faible 

en 1997 et une prĂ©dominance Ă©crasante de sites Web dans une autre langue que 

l’anglais. En ce sens, l’étendue du bilinguisme anglais dans un pays non anglo-

phone peut inïŹ‚ uencer l’expression de la diversitĂ© linguistique sur ses sites Web. 

Outre les Ă©tudes dĂ©jĂ  citĂ©es, quelques autres tentatives ont voulu mesurer la 

distribution linguistique Ă  partir des statistiques obtenues des moteurs de recher-

che.  Pour  diverses  raisons,  l’information  recueillie  n’est  pas  aussi  utilisable.  Par 

exemple, FUNREDES, une ONG favorisant les technologies de l’information et 

de communication en AmĂ©rique latine, a menĂ© une sĂ©rie d’études depuis 1995 en 

vue d’évaluer la distribution linguistique et les inïŹ‚ uences nationales sur Internet 

(Pimienta et Lamey, 2001 ; Pimienta et autres, 1995-2003). Ces Ă©tudes ont recensĂ© 

le nombre de pages Web indexĂ©es par des moteurs de recherche bien connus, Ă  

partir de certains mots sĂ©lectionnĂ©s dans diffĂ©rentes langues et groupes nationaux. 

Ces chercheurs ont notamment recueilli une proportion beaucoup plus faible de 

pages anglaises (52 % en 2001, 45 % en 2003) que dans les Ă©tudes menĂ©es par 

Lavoie et O’Neill ainsi que Nunberg.

background image

60

Mesurer la diversitĂ© linguistique sur Internet

Le calcul du nombre de pages dĂ©rivĂ©es des moteurs de recherche s’avĂšre 

toutefois  une  mĂ©thodologie  non  ïŹ able  en  vue  de  dĂ©terminer  la  reprĂ©sentation 

linguistique sur le Web. Outre les Ă©chantillons biaisĂ©s fournissant des pages aux 

moteurs de recherche, on retrouve plusieurs autres inïŹ‚ uences confondantes. Les 

moteurs de recherche ont gĂ©nĂ©ralement recours Ă  diffĂ©rentes mĂ©thodes d’indexa-

tion propriĂ©taire ne pouvant ĂȘtre inspectĂ©es, ce qui peut biaiser le total de pages 

retournĂ©es de façon impossible Ă  corriger ni mĂȘme d’évaluer. Un mot qui n’est 

pas sur une page peut ĂȘtre calculĂ© dans le total, tandis que des pages contenant 

le mĂȘme mot peuvent ne pas ĂȘtre calculĂ©es. De plus, la mĂ©thode assume que la 

frĂ©quence  des  mots  reliĂ©s  aux  concepts  Â« culturellement  neutres »  est  uniforme 

d’une langue Ă  l’autre. Cependant, la neutralitĂ© culturelle est inaccessible. Beau-

coup de mots observĂ©s frĂ©quemment reprĂ©sentent des concepts culturels, tel que 

le mot Â« cheese ». La culture anglo-amĂ©ricaine et la culture française continentale 

attribuent  une  signiïŹ cation  alimentaire  trĂšs  diffĂ©rente  aux  mots 

cheese

  et 

cheese

cheese

fromage

respectivement. Ces faits seront reprĂ©sentĂ©s par la frĂ©quence des termes corres-

pondants. De plus, puisque le total des pages est retournĂ© (plutĂŽt que le total de 

mots), les totaux retournĂ©s pour diffĂ©rentes formes linguistiques peuvent inclure 

des pages bilingues Ă  multilingues, calculĂ©es plusieurs fois. 

DiversitĂ© linguistique parmi les usagers d’Internet

La  ïŹ rme  de  services  de  traduction  Global  Reach  a  dĂ©ployĂ©  les  efforts  les  plus 

directs en vue d’évaluer la diversitĂ© linguistique des internautes. Ces Ă©valuations, 

prĂ©parĂ©es annuellement de 1996 Ă  2002, sont largement citĂ©es comme montrant 

un Internet oĂč la diversitĂ© linguistique s’accroĂźt sans cesse.

22

 Ces estimations sont 

basĂ©es sur celles de l’Union internationale des tĂ©lĂ©communications (UIT) pour les 

populations d’usagers dans chaque pays, qui dĂ©ïŹ nissent un Â« usager » comme une 

personne ayant utilisĂ© Internet au cours des trois derniers mois. Ces populations 

d’usagers sont rĂ©parties en populations linguistiques calculĂ©es Ă  partir des estima-

tions  d’Ethnologue  et  rĂ©ajustĂ©es  avec  des  donnĂ©es  dĂ©mographiques  de  l’ONU, 

comme nous l’avons fait plus haut dans le calcul de la diversitĂ© linguistique. Dans 

certains cas, les auteurs ont complĂ©tĂ© ces sources avec des statistiques de marke-

ting obtenues de ïŹ rmes telles que Nielsen Net Ratings. Ces donnĂ©es n’incluent 

aucune forme d’étude rĂ©elle auprĂšs des internautes, de sorte que les donnĂ©es de 

22 

Ces donnĂ©es sont disponibles sur le site http://global-reach.biz/globstats/evol.html.

background image

61

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

Global  Reach  ne  reprĂ©sentent  pas  les  langues  vraiment  parlĂ©es  par  les  usagers 

d’Internet. Puisque ces ïŹ gures sont souvent citĂ©es Ă  l’appui de la diversitĂ© linguis-

tique des internautes, il est appropriĂ© de les examiner de plus prĂšs.

Figure 4. Estimation des populations linguistiques d’utilisateurs Inter-

net (Ă©chelle logarithmique pour l’axe y). 

Source : Global Reach.

La Figure 4 prĂ©sente l’estimation de Global Reach pour les populations des diffĂ©-

rentes langues. La pĂ©riode de 2003 Ă  2005 est indiquĂ©e par une ligne pointillĂ©e, 

puisqu’il s’agit de prĂ©visions. Les langues identiïŹ Ă©es s’apparentent Ă  celles des Ă©tu-

des de l’OCLC. Comme il fallait s’y attendre, l’anglais avec quelque 230 millions 

d’usagers avait prĂšs de trois fois plus d’usagers en 2001 que la langue suivante, 

le chinois, avec environ 60 millions d’usagers.

23

 La Figure 4 fait voir que tous ces 

groupes d’usagers semblent en croissance exponentielle, sauf  pour l’anglais et le 

japonais qui semblent ralentir. On estime qu’environ 50 % de la population de 

ces deux groupes linguistiques utilise dĂ©jĂ  Internet. 

23 

Ces estimations semblent traiter de façon semblable toutes les formes de chinois, mĂȘme si les lin-
guistes estiment que le chinois reprĂ©sente un groupe de neuf  langues diffĂ©rentes (souvent appelĂ©s 
« dialectes Â» dans le grand public).

background image

62

Mesurer la diversitĂ© linguistique sur Internet

À partir des estimations de Global Reach, on peut calculer les indices de 

diversitĂ©  linguistique  pour  l’ensemble  des  usagers  d’Internet  ;  ces  valeurs  sont 

prĂ©sentĂ©es Ă  la Figure 5. Puisque la composition du groupe linguistique Â« Autres Â» 

n’est pas dĂ©ïŹ nie dans les donnĂ©es de Global Reach, nous avons calculĂ© des valeurs 

minimum et maximum pour l’indice, en assumant que Â« Autres » reprĂ©sente une 

seule langue (diversitĂ© minimale) ou une distribution uniforme parmi 6 000 lan-

gues (distribution maximale). Il est Ă©tonnant de constater qu’en dĂ©pit d’importants 

gains initiaux de l’indice de diversitĂ© entre 1996 et 1999, la diversitĂ© linguistique 

semble  se  stabiliser  aprĂšs  l’an  2000,  en  dĂ©pit  de  la  croissance  exponentielle  de 

beaucoup  de  langues.  De  plus,  les  prĂ©visions  pour  2003-2005  continuent  de 

dĂ©montrer cette tendance Ă  la stabilisation ; l’augmentation prĂ©vue du nombre 

de personnes parlant chinois, en raison de son importance, limite dans les faits 

l’augmentation  de  diversitĂ©.  Il  en  rĂ©sulte  un  indice  de  diversitĂ©  linguistique  se 

situant entre celui d’un pays africain typique et les indices rĂ©gionaux combinĂ©s de 

l’AmĂ©rique du Nord et de l’Europe. Ce rĂ©sultat n’est probablement pas Ă©tonnant, 

Ă©tant donnĂ© que les hĂŽtes Internet restent concentrĂ©s en AmĂ©rique du Nord et 

en Europe. MalgrĂ© tout, la diversitĂ© linguistique d’Internet n’est nulle part aussi 

grande que l’indice de toute autre rĂ©gion ou du monde dans son ensemble. Par 

consĂ©quent, et contrairement Ă  l’opinion rĂ©pandue, on ne peut afïŹ rmer que Inter-

net englobe la diversitĂ© linguistique en ce sens. 

Figure 5. Estimation de la diversitĂ© des usagers d’Internet 

Source : Global Reach.

background image

63

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

En ce sens, Internet n’a pas acquis sa diversitĂ© linguistique simplement en 

Ă©tant international et en reliant entre eux beaucoup d’internautes. Pour s’assurer 

que les langues des internautes sont reprĂ©sentĂ©es en ligne, il faudra s’attaquer Ă  

d’autres  enjeux,  et  comme  on  peut  le  constater  ci-dessous,  ces  enjeux  peuvent 

s’avĂ©rer trĂšs spĂ©ciïŹ ques aux contextes des communautĂ©s en ligne. 

Internet et la pratique du multiculturalisme

L’accĂšs Ă  Internet est un prĂ© requis Ă  l’utilisation de l’information qu’il fournit. 

Jusqu’ici,  nous  avons  examinĂ©  ce  qu’un  tel  accĂšs  signiïŹ e  en  termes  globaux. 

Cependant, un tel effort ne saurait rĂ©ussir si les personnes parlant les diffĂ©rentes 

langues Ă  travers le monde choisissent tout simplement quelques langues dominan-

tes. Quels sont alors les facteurs qui dictent le choix linguistique sur Internet ?

Les langues ne servent pas seulement Ă  transmettre des informations â€“ il 

s’agit aussi de systĂšmes complexes de symboles comportant des Ă©valuations riches 

et  subtiles  de  leur  contexte  d’application.  Les  Ă©tudes  sociolinguistiques  sur  le 

multiculturalisme ont largement dĂ©taillĂ© les Ă©cologies sensibles et turbulentes des 

langues  en  contact ;  des  recherches  rĂ©centes  sur  le  multiculturalisme  d’Internet 

soulignent  la  pertinence  de  ces  leçons  en  rapport  Ă   Internet.  De  plus,  l’intĂ©rĂȘt 

international Ă©vident envers Internet repose sur les avantages Ă©conomiques offerts. 

Internet favorise-t-il aussi de la mĂȘme façon les langues plus rĂ©pandues ?

Il  n’est  pas  simple  d’identiïŹ er  en  termes  gĂ©nĂ©raux  quelles  langues  sont 

employĂ©es en ligne et la façon dont elles le sont. Plusieurs enjeux sont impliquĂ©s, 

allant des communautĂ©s linguistiques individuelles Ă  l’accĂšs diffĂ©rentiel Ă  Internet, 

aux  diffĂ©rents  systĂšmes  d’écriture  et  de  codage  informatique,  jusqu’aux  divers 

modes de communication. La majeure partie de la recherche disponible concer-

nant les effets Ă©ventuels d’Internet sur la langue et la culture porte sur des Ă©tudes 

de cas de groupes linguistiques particuliers utilisant Internet dans des contextes 

prĂ©cis, plutĂŽt que dans une perspective macro sociale. Ces Ă©tudes de cas suggĂš-

rent que le contact linguistique sur Internet favorise les langues rĂ©pandues, tout 

comme les contacts hors ligne. Ainsi, Wright (2004) et Holmes (2004) ont examinĂ© 

le  comportement  linguistique  en  ligne  d’étudiants  de  niveau  universitaire  dans 

huit pays. Leurs rĂ©sultats indiquent que l’ampleur avec laquelle les gens utilisent 

leur  langue  maternelle  en  ligne  varie  Ă©normĂ©ment  selon  le  contexte  examinĂ©. 

Par la mĂȘme occasion, aucune population Ă©tudiĂ©e ne dĂ©montre qu’elle utilise son 

background image

64

Mesurer la diversitĂ© linguistique sur Internet

rĂ©pertoire linguistique complet en ligne. Les langues moins utilisĂ©es ne semblent 

pas ĂȘtre du tout employĂ©es sur Internet. En ce sens, les questions concernant cet 

enjeu sont Ă  la fois subtiles et complexes. 

Lors de recherches prĂ©liminaires, Paolillo (1996) constata que l’anglais est 

largement prĂ©fĂ©rĂ© au pendjabi lors de discussions de groupes Usenet regroupant 

principalement des internautes de langue pendjabi. Un tel comportement est en 

partie prĂ©visible de la part des participants majoritairement expatriĂ©s et Ă©duquĂ©s 

en anglais, mais les tendances observĂ©es marginalisent l’usage en ligne du pend-

jabi au point oĂč il devient rĂ©servĂ© Ă  des fonctions de communications de nature 

trĂšs rituelle ou nationaliste, et sert davantage d’outil d’identiïŹ cation que de trans-

mission de l’information. Dans un article subsĂ©quent, Paolillo (2006) compara l’in-

teractivitĂ© et l’homogĂ©nĂ©itĂ© linguistiques des Asiatiques du Sud en contact entre 

eux dans les clavardoirs (chat rooms) et des groupes de discussion sur Internet, et 

constata que ces deux moyens favorisent le recours Ă  une langue minoritaire (hindi 

ou pendjabi, selon le forum). Ces tendances sont aussi signalĂ©es dans Peel (2004), 

qui indique que des clavardoirs interactifs dans les Ă‰mirats arabes unis favorisent 

l’arabe, alors que les courriels privilĂ©gient l’anglais. Dans un autre article, Paolillo 

(2001) constata que les participants centraux sur un canal de clavardage Ă©taient 

plus enclins Ă  utiliser des langues minoritaires que les participants pĂ©riphĂ©riques. 

Puisque  les  clavardoirs  facilitent  le  va-et-vient  des  participants,  les  participants 

pĂ©riphĂ©riques  et  leurs  prĂ©fĂ©rences  linguistiques  prĂ©dominent.  En  ce  sens,  les 

aspects technologiques et sociaux de la communication Internet interagissent de 

façons  complexes  qui  favorisent  nĂ©anmoins  les  langues  majoritaires,  plutĂŽt  que 

minoritaires.  Il  est  possible  de  manipuler  les  variables  technologiques  aïŹ n  de 

limiter  dans  une  certaine  mesure  les  effets  de  la  domination  linguistique,  mais 

leur efïŹ cacitĂ© est inconnue.

L’étude du grec dans les communications sur Internet par Koutsogiannis 

et  Mitsakopolou  (2004),  Georgakopoulou  (2004,  Ă   paraĂźtre)  et  Androtsopolous 

(1998) explore une gamme d’enjeux recoupant les Ă©tudes citĂ©es plus haut. Tout 

comme le caractĂšre d’écriture gurmukhi du pendjabi, l’alphabet grec est difïŹ cile 

Ă  utiliser sur Internet, de sorte que l’on prĂ©fĂšre une forme Â« romanisĂ©e Â» du grec 

adaptĂ©e d’un alphabet hors ligne appelĂ© Â« greeklish », surtout chez les expatriĂ©s 

vivant en milieu multilingue prĂ©fĂ©rant l’anglais (Georgakopoulou, 2004) ou l’al-

lemand  (Androtsopolous,  1998).  Cet  Ă©tat  de  fait  corrompt  en  retour  la  norme 

grecque de la diglossie (Ferguson, 1959), alors que ceux qui l’utilisent ont recours 

Ă  une forme vernaculaire distincte pour la langue parlĂ©e informelle et Ă  la langue 

background image

65

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

classique Ă  l’écrit. Ă€ diffĂ©rentes Ă©poques par le passĂ©, le gouvernement de la GrĂšce 

a  dĂ©ployĂ©  beaucoup  d’efforts  pour  conserver  l’alphabĂ©tisme  envers  le  Kathare-

vousa, la langue classique pour l’écriture formelle, mais l’érosion de la diglossie 

grecque sur Internet risque de miner ces efforts. Dans un autre contexte de diglos-

sie, arabe cette fois, Warschauer et autres (2002) observent que l’égyptien, l’arabe 

et  l’anglais  vernaculaires  empiĂštent  sur  les  fonctions  traditionnelles  de  l’arabe 

classique. De tels empiĂ©tements tendent Ă  dĂ©stabiliser les situations diglossiques, 

menant Ă©ventuellement Ă  un changement linguistique vers une langue extĂ©rieure 

dominante. En ce sens, lorsque les normes linguistiques sont Ă©rodĂ©es sur Internet, 

la disposition universelle de l’accĂšs Ă  Internet pourrait avoir un effet potentielle-

ment nuisible sur une telle diversitĂ© linguistique. 

L’inïŹ‚ uence de l’anglais est Ă  la fois rĂ©pandue et subtile. Des situations trĂšs 

diffĂ©rentes impliquent l’usage du courriel en Suisse (Durham, 2004) et d’Internet 

en  Tanzanie  (Mafu,  2004),  oĂč  les  rĂ©sidents  bilingues  de  chaque  pays  prĂ©fĂšrent 

utiliser l’anglais plutĂŽt que les langues locales plus Ă©videntes. Alors qu’il existe un 

prĂ©cĂ©dent colonial favorisant l’anglais chez les Ă©lites de la Tanzanie, ce n’est pas 

du tout le cas en Suisse. L’explication d’un tel phĂ©nomĂšne se constate en raison du 

statut international de l’anglais (Crystal, 2003 ; Phillipson, 1992, 2003). Un autre 

exemple de l’inïŹ‚ uence de l’anglais sur Internet implique la diffusion de certaines 

caractĂ©ristiques de la langue parlĂ©e dans l’écrit, par le biais de courts messages 

(SMS), de  messages  instantanĂ©s  (IM),  et  de  clavardage  sur  le  Web  en  suĂ©dois 

(HĂ„rd af  Segerstad, 2002). De mĂȘme, Torres (1999, 2001) observe plusieurs fonc-

tions pragmatiques des Ă©moticons (« binettes » ou smileys) en clavardage catalan. 

Ces formes proviennent de contextes parlĂ©s anglais, et tĂ©moignent de l’inïŹ‚ uence 

du contact de l’anglais au catalan par le biais d’Internet. 

Ces Ă©tudes et d’autres font ressortir tant la richesse que la complexitĂ© des 

facteurs  reliĂ©s  Ă   l’usage  des  langues  minoritaires  par  des  usagers  multilingues 

d’Internet. Plusieurs de ces Ă©tudes soulignent la prĂ©caritĂ© de l’usage des langues 

non dominantes dans les communications Internet. 

Institutions et intĂ©rĂȘts gouvernant Internet

Contrairement Ă  la croyance populaire, Internet n’est pas une institution ouverte 

et dĂ©mocratique (ou anarchique). Il s’agit plutĂŽt d’une institution ayant un rĂ©seau 

complexe  d’intĂ©rĂȘts  puissants,  dont  beaucoup  sont  trĂšs  centralisĂ©s.  Ces  intĂ©rĂȘts 

background image

66

Mesurer la diversitĂ© linguistique sur Internet

puissants se prĂ©occupent peu des actions des usagers individuels, laissant croire 

que Internet ne subit aucunement la contrainte des intĂ©rĂȘts civils, gouvernemen-

taux ou corporatifs. NĂ©anmoins, chaque niveau d’intĂ©rĂȘt constitue l’occasion de 

biais linguistiques en vue de dĂ©terminer quelles langues sont utilisĂ©es sur Internet. 

Plusieurs acteurs importants et diffĂ©rents sont impliquĂ©s dans la rĂ©glemen-

tation  d’Internet.  En  premier  lieu,  on  retrouve  des  monopoles  et  oligopoles  en 

tĂ©lĂ©communications dans diffĂ©rentes rĂ©gions du monde. Ces sociĂ©tĂ©s maintiennent 

les infrastructures permettant aux individus de se brancher Ă  Internet, et de relier 

entre  eux  les  divers  sites  Internet.  Ensuite,  on  retrouve  les  sociĂ©tĂ©s  de  matĂ©riel 

informatique et de logiciels tels que Intel, IBM, Hewlett-Packard, Cisco Systems, 

Sun Microsystems, Microsoft, Adobe. Ces entreprises dĂ©veloppent et commercia-

lisent le matĂ©riel informatique et les logiciels qui constituent l’infrastructure d’In-

ternet. De plus, il existe des organismes de rĂ©glementation particuliers Ă  Internet, 

tels que Internet Corporation for Assigned Names and Numbers (ICANN), ainsi 

que  les  Centres  d’information  sur  les  rĂ©seaux  tels  que  l’American  Registry  for 

Internet Numbers (ARIN), RĂ©seaux IP EuropĂ©ens (RIPE) ainsi que l’Asia PaciïŹ c 

Networking  Information  Centre  (APNIC),  qui  prennent  des  dĂ©cisions  relative-

ment Ă  la connectivitĂ© d’Internet. Les gouvernements nationaux jouent aussi un 

rĂŽle, tant dans la gestion des ressources Internet au niveau du pays que dans l’ap-

plication d’autres formes de politiques d’information. EnïŹ n, on retrouve d’autres 

organisations  et  consortiums,  tels  que  World-Wide  Web  Consortium  (W3C),  le 

Consortium  Unicode,  ainsi  que  l’Organisation  internationale  de  normalisation 

(ISO), qui dĂ©veloppent des normes pour l’application des technologies Internet. 

DĂšs le dĂ©but, le rĂ©seau tĂ©lĂ©phonique a toujours Ă©tĂ© important pour Inter-

net.  Lorsqu’un  hĂŽte  Internet  se  branche  Ă   un  autre  hĂŽte,  les  modems,  lignes 

louĂ©es,  lignes  d’abonnĂ©s  numĂ©riques,  rĂ©seau  d’infrastructure  de  ïŹ bres  optiques 

et satellites gĂ©ostationnaires peuvent tous ĂȘtre impliquĂ©s Ă  une certaine Ă©tape de 

la  communication  numĂ©rique,  acheminant  les  donnĂ©es  sur  le  rĂ©seau  tĂ©lĂ©phoni-

que.  Plus  rĂ©cemment,  d’autres  formes  de  rĂ©seaux  de  tĂ©lĂ©communications  tels 

que  les  rĂ©seaux  de  tĂ©lĂ©vision  par  cĂąble  ont  Ă©tĂ©  adaptĂ©es  au  traïŹ c  de  donnĂ©es 

Internet.  Tant  par  le  passĂ©  qu’à  l’heure  actuelle,  de  larges  entreprises  (souvent 

privĂ©es ou des monopoles Ă©tatiques) ont assumĂ© le contrĂŽle Ă©conomique de ces 

ressources. Ă€ l’échelle internationale, ces sociĂ©tĂ©s se retrouvent surtout aux Ă‰tats-

Unis. Par exemple, MCI gĂšre un rĂ©seau acheminant une Ă©crasante majoritĂ© du 

traïŹ c  international  d’Internet  par  le  biais  de  sa  ïŹ liale  UUNET  (voir  Mapnet,

http://www.caida.org/tools/visualization/mapnet).  Le  rĂ©seau  d’infrastructure 

tt

background image

67

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

de  ïŹ bres  optiques  mis  en  place  par  MCI  il  y  a  plusieurs  annĂ©es  est  essentiel  Ă  

ce rĂ©seau. MĂȘme si les sociĂ©tĂ©s telle que MCI sont relativement peu intĂ©ressĂ©es 

par  les  langues  des  internautes  sur  leurs  lignes  de  donnĂ©es,  le  rĂŽle  central  des 

États-Unis dans la distribution du traïŹ c de donnĂ©es fait en sorte que les tĂąches 

administratives de haut niveau reliĂ©es au traïŹ c du rĂ©seau d’infrastructure se feront 

en anglais. En ce sens, les rĂ©seaux rĂ©gionaux se raccordant Ă  ces rĂ©seaux centraux 

devront  nĂ©cessairement  embaucher  du  personnel  maĂźtrisant  trĂšs  bien  l’anglais. 

MĂȘme si cette situation ne semble pas trĂšs inquiĂ©tante, Ă©tant donnĂ© que les infor-

maticiens Ă  travers le monde tendent Ă  ĂȘtre trĂšs familiers avec l’anglais, ces deux 

tendances symbiotiques se complĂštent mutuellement. Si les autoritĂ©s des rĂ©seaux 

rĂ©gionaux ne peuvent communiquer avec leurs fournisseurs dans la langue de leur 

choix, l’anglais restera alors par dĂ©faut la langue dominante de l’administration 

du rĂ©seau. Les entreprises de tĂ©lĂ©communications, qui encaissent des proïŹ ts subs-

tantiels pour la demande de services de communication et de technologie, ont la 

responsabilitĂ© particuliĂšre de tenir compte de la diversitĂ© linguistique des pays sur 

les marchĂ©s desservis. 

Les entreprises de matĂ©riel informatique et de logiciels ont une inïŹ‚ uence 

semblable sur le caractĂšre linguistique d’Internet, en fabriquant des ordinateurs 

munis  de  claviers,  Ă©crans  et  systĂšmes  d’exploitation  favorisant  certaines  langues 

en particulier. Ces produits sont fabriquĂ©s Ă  faible coĂ»t en rĂ©alisant des Ă©conomies 

d’échelle, permettant le marketing d’un produit standardisĂ© sur le plus vaste mar-

chĂ© possible. La technologie informatique, avec ses usines de puces Ă  l’étranger, 

le  dĂ©veloppement  externalisĂ©  de  logiciels  (et  mĂȘme  de  la  gestion),  ainsi  que  les 

marchĂ©s  de  marchandises,  constituent  l’un  des  secteurs  globalisĂ©s  originaux  de 

l’industrie. Pour cette raison, et aussi Ă  cause de l’importance des sociĂ©tĂ©s amĂ©ri-

caines Ă  dĂ©velopper de nouveaux systĂšmes et de nouvelles normes, les systĂšmes 

informatiques qui parviennent dans des rĂ©gions de diversitĂ© linguistique comme 

l’Afrique  sont  en  grande  majoritĂ©  conçus  pour  ĂȘtre  utilisĂ©s  en  anglais  ou  dans 

une langue europĂ©enne, et sont trĂšs peu, sinon aucunement adaptĂ©s aux langues 

locales. De telles circonstances constituent une autre forme de biais Ă©mergent Ă  

l’endroit des langues europĂ©ennes sur Internet, et au dĂ©triment des langues des 

pays  moins  industrialisĂ©s.  Comme  pour  les  entreprises  de  tĂ©lĂ©communications, 

celles de matĂ©riel informatique et de logiciels ont une responsabilitĂ© particuliĂšre 

envers la diversitĂ© linguistique des pays sur les marchĂ©s desservis. 

Ainsi, les actions des sociĂ©tĂ©s informatiques en Ă©troite concurrence pour la 

domination de marchĂ© nuisent au climat de diversitĂ© linguistique en ligne et d’in-

background image

68

Mesurer la diversitĂ© linguistique sur Internet

formatique multilingue. Pour favoriser l’informatique multilingue, des ententes sont 

requises aïŹ n que les intĂ©rĂȘts internationaux puissent avoir prĂ©sĂ©ance sur les objectifs 

concurrentiels des sociĂ©tĂ©s privĂ©es. Certaines de ces tendances sont amĂ©liorĂ©es par 

les  activitĂ©s  des  organisations  et  consortiums  internationaux,  telle  l’Organisation 

internationale de normalisation (ISO), le Consortium Unicode et le World-Wide 

Web Consortium, qui supervisent les diffĂ©rents aspects du dĂ©veloppement techno-

logique d’Internet. Plusieurs sociĂ©tĂ©s informatiques importantes (y compris Apple 

et Microsoft) sont impliquĂ©es dans ces organisations. MĂȘme si certains technologues 

dĂ©plorent que ces organisations entravent l’innovation, leur caractĂšre international 

aide Ă  tenir compte des intĂ©rĂȘts des diffĂ©rents groupes nationaux et linguistiques. 

En  revanche,  ces  organisations  normatives  n’ont  pas  vraiment  de  mĂ©canisme  de 

mise  en  application.  Par  consĂ©quent,  plusieurs  technologies  Internet  possĂšdent 

des normes qui ne sont pas largement mises en pratique. C’est notamment le cas 

du  langage  HTML  utilisĂ©  sur  les  pages  Web  et  du  langage  de  programmation 

ECMAScript pour l’interactivitĂ© du navigateur Web. Les incompatibilitĂ©s entraĂź-

nĂ©es par l’absence de conformitĂ© aux normes nuisent aux progrĂšs de l’informatique 

multilingue.  Si  ces  organisations  visent  Ă   promouvoir  et  Ă   protĂ©ger  la  diversitĂ© 

linguistique, leurs mĂ©canismes d’intervention doivent ĂȘtre renforcĂ©s.

ICANN est un autre acteur gouvernant Internet et ayant un impact impor-

tant sur la diversitĂ© linguistique d’Internet. ICANN administre le protocole connu 

comme systĂšme de noms de domaine (DNS), sous contrat avec le DĂ©partement 

amĂ©ricain  du  commerce.  Le  systĂšme  DNS  accomplit  la  fonction  d’associer  des 

noms  mnĂ©motechniques  uniques  Ă   tous  les  hĂŽtes  Internet,  une  fonction  essen-

tiellement linguistique. Malheureusement, le systĂšme DNS est difïŹ cile Ă  utiliser 

avec d’autres langues que l’anglais amĂ©ricain et ne convient pas non plus avec la 

maniĂšre  dont  les  systĂšmes  de  noms  fonctionnent  dans  le  langage  humain.  Le 

systĂšme DNS est profondĂ©ment intĂ©grĂ© au fonctionnement d’Internet, puisque la 

plupart des autres protocoles d’application Internet dĂ©pendent de lui pour repĂ©rer 

les  hĂŽtes  Internet.  Il  s’agit  aussi  du  seul  protocole  en  rĂ©alitĂ©  administrĂ©,  plutĂŽt 

que simplement codiïŹ Ă©, par une autoritĂ© centrale. ICANN rĂ©glemente le systĂšme 

DNS surtout par dĂ©lĂ©gation, mais sa structure administrative, son rĂ©seau de con-

trats avec le gouvernement amĂ©ricain et autres parties, ainsi que ses diffĂ©rentes 

politiques, ont tous concouru Ă  limiter le multilinguisme dans la dĂ©signation des 

hĂŽtes Internet. Par consĂ©quent, le systĂšme DNS ne peut remplir son rĂŽle initial 

de  fournir  des  mnĂ©motechniques  utiles  aux  hĂŽtes  Internet.  Des  changements  Ă  

ICANN, au systĂšme DNS lui-mĂȘme ainsi qu’aux politiques d’administration des 

noms de domaine sont tous requis pour amĂ©liorer cette situation.

background image

69

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

Les internautes considĂšrent les noms des hĂŽtes Internet de la mĂȘme façon 

que les autres noms. Mais dans les faits, ils sont trĂšs diffĂ©rents. Le systĂšme DNS 

requiert que les noms d’hĂŽtes sur Internet soient globalement uniques, alors que 

dans une langue habituelle, il est peu probable qu’un nom particulier sera unique 

en raison des mĂ©taphores, du symbolisme et des acronymes. Lorsqu’un domaine 

« acl.org » est enregistrĂ© auprĂšs de l’Association of  Christian Librarians, il n’est 

plus disponible pour l’Association for Computational Linguistics ou toute autre 

organisation au monde dĂ©sireuse de s’identiïŹ er sous le mĂȘme acronyme. 

AïŹ n d’appliquer l’unicitĂ© tout en permettant une ïŹ‚ exibilitĂ© limitĂ©e, le sys-

tĂšme DNS a recours Ă  des noms structurĂ©s hiĂ©rarchiquement : les noms d’hĂŽtes 

individuels comportent des sĂ©ries de noms, en ordre de spĂ©ciïŹ citĂ© plus ou moins 

grande. Le premier niveau de la hiĂ©rarchie est le dernier champ du nom ; il s’agira 

d’un domaine de premier niveau gĂ©nĂ©rique ou de code du pays (domaine gĂ©nĂ©-

rique de premier niveau gTLD ou domaine national ccTLD) (TLD â€“ Top-Level 

Domain),  qui  sert  de  classiïŹ cateur  gĂ©nĂ©ral.  Cependant,  on  ne  sait  pas  toujours 

trĂšs bien quel classiïŹ cateur est pertinent Ă  une ïŹ n particuliĂšre. En vertu de leurs 

ententes  avec  ICANN,  les  domaines  gĂ©nĂ©riques  de  premier  niveau  TLD  sont 

supposĂ©s  ĂȘtre  administrĂ©s  pour  diffĂ©rentes  fonctions :  .com  est  rĂ©servĂ©  aux  sites 

commerciaux, .net aux rĂ©seaux, .org pour les organisations Ă  but non lucratif, et 

les  codes  de  pays  doivent  ĂȘtre  administrĂ©s  par  les  pays  associĂ©s  Ă   leurs  propres 

ïŹ ns.  Les  noms  de domaines  gTLD sont  cependant plus  recherchĂ©s  parce  qu’ils 

ont tendance Ă  ĂȘtre courts et plus faciles Ă  retenir. Puisqu’il n’existe qu’un petit 

nombre de domaines gĂ©nĂ©riques de premier niveau (gTLD) et des centaines de 

millions d’hĂŽtes, il est inĂ©vitable que des conïŹ‚ its surgissent dans l’assignation des 

noms de domaines. 

En prĂ©sence de tels conïŹ‚ its et leur rĂšglement, l’approche de ICANN favo-

rise  des  marques  de  commerce  lĂ©galement  reconnues.  Autrement,  la  premiĂšre 

partie Ă  enregistrer un nom de domaine le conserve, en autant que l’enregistre-

ment est maintenu. Ceci ne favorise pas les inscrivants qui ne sont pas des dĂ©ten-

teurs de marques de commerce, ou qui proviennent d’un petit milieu ou d’une 

langue  minoritaire.  Les  inscrivants  internationaux  ne  sont  pas  particuliĂšrement 

favorisĂ©s non plus si leur identitĂ© naturelle ressemble Ă  un homographe d’un nom 

de domaine dĂ©jĂ  enregistrĂ©. Lorsqu’un domaine est enregistrĂ©, des nĂ©gociations 

dispendieuses ou des mesures lĂ©gales sont requises pour le modiïŹ er. L’enregistre-

ment prĂ©alable de centaines de millions d’hĂŽtes en anglais entraĂźne ainsi un biais 

Ă©vident  Ă   l’endroit  des  enregistrements  d’hĂŽtes  non  anglophones,  Ă©tant  donnĂ© 

background image

70

Mesurer la diversitĂ© linguistique sur Internet

que plusieurs milliers de noms d’hĂŽtes souhaitables dans d’autres langues seront 

des homographes d’hĂŽtes dĂ©jĂ  enregistrĂ©s dans le domaine gĂ©nĂ©rique de premier 

niveau  (gTLD).  En  ce  sens,  dans  le  systĂšme  DNS,  l’attribution  de  marques  de 

commerce â€“ un enjeu juridique amĂ©ricain reliĂ© au commerce â€“ a prĂ©sĂ©ance sur 

l’attribution  multilingue  transparente  de  noms,  un  enjeu  international  liĂ©  Ă   la 

langue et aux communications. Cette fausse conception des prioritĂ©s ne changera 

pas tant que le systĂšme DNS ne relĂšvera pas d’une autoritĂ© complĂštement inter-

nationale,  plutĂŽt  que  d’un  organisme  privĂ©  ayant  des  liens  contractuels  avec  le 

gouvernement amĂ©ricain (ou autre).

La conception originale du systĂšme DNS Ă©tait fortement biaisĂ©e en faveur 

de l’anglais, en ce sens qu’il ne pouvait employer qu’un codage 7 bits US-ASCII. 

En  ce  sens,  mĂȘme  les  langues  europĂ©ennes  telles  que  le  français,  l’espagnol  et 

l’allemand, qui ont recours Ă  des signes diacritiques non US-ASCII, sont dĂ©sa-

vantagĂ©es quand vient le temps de choisir des noms souhaitables pour les hĂŽtes 

Internet. Plusieurs organisations, telles que Multilingual Internet Names Consor-

tium (MINC), New.net et RealNames, ont tentĂ© pendant des annĂ©es de convaincre 

ICANN  de  dĂ©velopper  des  alternatives  au  systĂšme  DNS  actuel,  en  vue  d’offrir 

une meilleure assistance multilingue. MalgrĂ© le fait que ces groupes aient prĂ©sentĂ© 

plusieurs propositions constructives mĂ©ritant une Ă©tude plus attentive, ICANN a 

opposĂ©  beaucoup  de  rĂ©sistance.  ICANN  n’a  adoptĂ©  que  rĂ©cemment  une  varia-

tion de l’Unicode, connue sous punycode, pour permettre les noms de domaines 

multilingues, mais son dĂ©ploiement a fait l’objet de lenteurs insatisfaisantes et de 

lourdeurs politiques.

L’aspect du nom de domaine attribuĂ© est surtout symbolique. NĂ©anmoins, 

ce symbolisme est puissant et l’intransigeance de l’ICANN Ă  l’endroit des noms 

de  domaine  multilingues  a  menĂ©  Ă   la  perception  globale  que  l’organisme  se

prĂ©occupe  peu  de  l’internationalisme  ou  de  la  diversitĂ©  linguistique.  MĂȘme  si 

ICANN a rĂ©cemment subi une rĂ©forme en profondeur et que son conseil d’ad-

ministration  se  veut  dĂ©sormais  plus  international,  il  a  perdu  une  grande  partie 

de la conïŹ ance publique sur la question des noms de domaines multilingues, et 

il n’est pas trĂšs clair si ces changements permettront un systĂšme DNS Ă©quitable, 

fonctionnel et international, ou si la conïŹ ance perdue pourra ĂȘtre rĂ©tablie.

Le  rĂŽle  des  organisations  telles  ARIN,  RIPE  et  APNIC  de  mĂȘme 

que  d’autres  Centres  d’information  de  rĂ©seaux  (ou 

Network  Information  Centers : 

NIC)  dans  le  biais  linguistique  Ă©mergeant  est  plus  subtil  que  celui  de  ICANN.

background image

71

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

Ces organisations, dont l’adhĂ©sion est relativement ouverte, rĂ©gissent les intercon-

nexions physiques des rĂ©seaux rĂ©gionaux et locaux. L’une de leurs tĂąches prin-

cipales est de maintenir l’espace adresse du protocole Internet (IP). Les numĂ©ros 

IP sont des numĂ©ros de 32 bits servant Ă  identiïŹ er personnellement chaque hĂŽte. 

Comme les noms de domaines, les numĂ©ros IP sont assignĂ©s par l’entremise d’un 

processus de dĂ©lĂ©gation Ă  des intermĂ©diaires, pouvant Ă  leur tour dĂ©lĂ©guer l’auto-

ritĂ©. Mais contrairement aux noms de domaines, chaque plage assignĂ©e corres-

pond Ă  une branche physique du rĂ©seau, dont l’équipement associĂ© est utilisĂ© par 

une seule autoritĂ©. Les numĂ©ros IP sont attribuĂ©s en plages, et puisque l’espace 

adresse  est  Ă©ventuellement  limitĂ©,  chaque  attribution  possĂšde  ses  limites  â€“  les 

mĂȘmes chiffres ne peuvent ĂȘtre assignĂ©s ailleurs plus tard, Ă  moins de manipuler 

cette partie du rĂ©seau. 

Les rapports entre le rĂŽle des NIC et les enjeux liĂ©s Ă  la diversitĂ© linguisti-

que sont attribuables Ă  leur fonction en tant qu’autoritĂ©s rĂ©gionales. Les ressources 

de rĂ©seaux disponibles dans un pays ou un groupe linguistique particulier dĂ©pen-

dent des plages de numĂ©ros IP disponibles Ă  l’autoritĂ© rĂ©gionale pertinente, et leur 

allocation Ă  d’autres groupes et pays. Une mauvaise allocation d’adresses ou une 

plage rĂ©duite de l’espace disponible dĂšs le dĂ©part sont deux conditions pouvant 

mener Ă  une pĂ©nurie d’adresses pour les nouveaux hĂŽtes. La controverse a fait 

rage, Ă  savoir si l’APNIC, dont les responsabilitĂ©s rĂ©gionales incluent l’OcĂ©anie, 

l’Asie de l’Est et du Sud-est, avait sufïŹ samment d’espace pour continuer d’attri-

buer des plages IP au taux nĂ©cessaire. L’APNIC nie l’existence du problĂšme, mais 

le spectre d’une crise est prĂ©occupant. On prĂ©voit d’amĂ©liorer les problĂšmes d’es-

pace adresse par la mise Ă  niveau de la version IP 4 (IPv4) Ă  la version IP 6 (IPv6), 

qui utilise une plage plus Ă©tendue de numĂ©ros d’adresses, mais cette conversion 

nĂ©cessitera plusieurs annĂ©es en raison des incompatibilitĂ©s techniques avec IPv4. 

NĂ©anmoins, l’attribution de l’espace adresse IPv4 est trĂšs inefïŹ cace. De lar-

ges plages d’espace adresse sont dĂ©signĂ©es Ă  des ïŹ ns spĂ©ciales ou entiĂšrement inu-

tilisables ; on les appelle Â« bogons » et l’on conserve soigneusement ces plages aïŹ n 

que les administrateurs de systĂšmes puissent les surveiller Ă  des ïŹ ns sĂ©curitaires 

(voir http://www.cymru.com/Bogons/). MĂȘme lorsque les plages de bogons sont 

masquĂ©es, un Ă©chantillon au hasard de 1 107 numĂ©ros IP a retournĂ© 203 numĂ©-

ros IP (18 %), apparemment allouĂ©s pour l’essai d’un protocole Â« multidiffusion » 

rarement employĂ©. En d’autres mots, 18 % de l’espace adresse IP globalement 

disponible Ă©tait bloquĂ© et inutilisable en raison d’une attribution inefïŹ cace. Dans 

la mesure oĂč de telles inefïŹ cacitĂ©s peuvent survenir, et qu’elles nuisent Ă  l’espace 

background image

72

Mesurer la diversitĂ© linguistique sur Internet

adresse disponible aux autoritĂ©s rĂ©gionales, les groupes linguistiques locaux pour-

raient se voir privĂ©s de ressources Internet. Pour que les diffĂ©rentes langues aient 

une chance raisonnable d’ĂȘtre utilisĂ©es en ligne, l’administration et l’attribution de 

l’espace adresse Internet doivent aussi ĂȘtre Ă©quitables. 

Les gouvernements nationaux peuvent jouer un rĂŽle Ă  la fois favorable et 

dĂ©favorable  pour  inïŹ‚ uencer  les  biais  linguistiques  sur  Internet.  Dans  la  mesure 

oĂč  les  gouvernements  nationaux  appliquent  les  politiques  Ă   l’intĂ©rieur  de  leurs 

frontiĂšres  en  vue  de  protĂ©ger  et  de  promouvoir  les  droits  linguistiques  de  leurs 

citoyens multilingues (Skutnabb-Kanngas et Phillipson, 1995), les biais linguisti-

ques prĂ©existant dans ces pays sont freinĂ©s. Dans la mesure oĂč leurs politiques lin-

guistiques sont appliquĂ©es dans des domaines pertinents de la politique d’informa-

tion, elles favorisent la diversitĂ© linguistique sur Internet. Mais les gouvernements 

sont gĂ©nĂ©ralement plus prĂ©occupĂ©s par l’efïŹ cacitĂ© administrative et les risques du 

sĂ©paratisme, et beaucoup de gens Ă  travers le monde vivent sans garantie pour 

leurs droits linguistiques les plus Ă©lĂ©mentaires. Quand des pays ne connectent avec 

Internet au niveau international et demandent la conformitĂ© Ă  leurs langues natio-

nales, ils favorisent les biais Ă©mergents Ă  l’endroit de leurs propres minoritĂ©s ethno-

linguistiques, faisant peu en bout de ligne pour favoriser la cause de la diversitĂ© 

linguistique en ligne. Si les groupes linguistiques nationaux espĂšrent occuper leur 

propre  niche  dans  l’ethnosphĂšre  des  tĂ©lĂ©communications  globales,  ils  doivent 

donc reconnaĂźtre et s’attaquer Ă  la diversitĂ© linguistique Ă  l’intĂ©rieur de leurs fron-

tiĂšres nationales. Plus spĂ©ciïŹ quement, ils doivent s’efforcer d’informer les citoyens 

de  tous  les  groupes  linguistiques  sur  l’alphabĂ©tisation  numĂ©rique  requise  pour 

participer pleinement sur Internet. La prise de conscience ethno-linguistique des 

sociĂ©tĂ©s de tĂ©lĂ©communications, d’informatique, ainsi que les autoritĂ©s rĂ©gissant 

Internet ne se dĂ©veloppera que si une masse critique de groupes ethno-linguisti-

ques sous-reprĂ©sentĂ©s rĂ©ussit Ă  attirer leur attention. Ceci risque peu de survenir, 

si la portĂ©e vĂ©ritable de la diversitĂ© linguistique reste sous-Ă©valuĂ©e. 

Le biais linguistique Ă©mergent est un domaine de prĂ©occupation signiïŹ catif  

pour la diversitĂ© linguistique sur Internet. Les aspects discutĂ©s ici ne sont que des 

exemples, et non une liste complĂšte des biais Ă©mergents Ă©ventuels. Avec l’évolution 

des  marchĂ©s  des  tĂ©lĂ©communications,  du  matĂ©riel  informatique  et  des  logiciels, 

tout comme celui des autoritĂ©s rĂ©gissant Internet, de nouveaux biais linguistiques 

peuvent survenir. Puisqu’ils dĂ©coulent des contextes particuliers de la technologie 

et de l’utilisation de la langue, les biais linguistiques Ă©mergents peuvent aussi ĂȘtre 

de portĂ©e trĂšs locale, et se manifester de façon particuliĂšre seulement dans un pays 

background image

73

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

donnĂ©. Par consĂ©quent, l’enjeu gĂ©nĂ©ral du biais linguistique Ă©mergent exige une 

surveillance Ă©troite aux niveaux international, rĂ©gional et local. 

Sources de biais techniques

Trois domaines de biais techniques, ayant diffĂ©rents rapports Ă  la diversitĂ© lin-

guistique, sont pertinents aux efforts actuels d’internationalisation en vertu des 

trois orientations concrĂštes de l’UNESCO mentionnĂ©es plus haut. D’abord, on 

retrouve  l’aspect  des  normes  de  codage,  directement  reliĂ©  Ă   l’orientation  con-

crĂšte  numĂ©ro  10,  favorisant  la  diversitĂ©  linguistique  et  culturelle  sur  Internet. 

Les codages de textes sont les principaux moyens techniques d’obtenir la diver-

sitĂ©  linguistique  avec  cet  outil  de  communication  surtout  textuel.  De  plus,  on 

retrouve l’aspect des langages de balisage et de programmation servant Ă  crĂ©er 

et  maintenir  les  applications  et  le  contenu  Internet.  Ces  systĂšmes  techniques 

portent  directement  sur  l’orientation  concrĂšte  numĂ©ro  9,  favorisant  l’alphabĂ©-

tisation  numĂ©rique.  Si  celle-ci  requiert  l’alphabĂ©tisation  dans  une  autre  langue 

comme  prĂ©-requis,  tant  l’ouverture  que  l’accĂšs  universels  ne  sont  pas  assurĂ©s. 

Et  ïŹ nalement,  on  retrouve  les  aspects  du  biais  linguistique  technique  dans  les 

protocoles  d’application  d’Internet,  relatifs  aux  orientations  concrĂštes  9  et  10. 

Pour favoriser l’accĂšs aux technologies de l’information dans les pays en voie de 

dĂ©veloppement, les principales applications Internet (courrier Ă©lectronique, navi-

gation hypertexte, messagerie instantanĂ©e, etc.) devraient permettre d’utiliser les 

langues des pays concernĂ©s. Le cas contraire, les embĂ»ches Ă  l’acceptation de la 

technologie peuvent s’avĂ©rer prohibitifs. Ces trois domaines de biais techniques 

sont discutĂ©s ci-dessous. 

Codage

Les codages prĂ©cisent l’attribution arbitraire de chiffres aux symboles des langues 

Ă©crites.  Deux  codages  diffĂ©rents  peuvent  s’avĂ©rer  incompatibles  en  assignant 

le  mĂȘme  chiffre  Ă   deux  symboles  distincts,  ou  vice  versa.  AïŹ n  de  proïŹ ter  de 

l’avantage de la capacitĂ© informatique Ă  manipuler les textes (par ex. afïŹ chage, 

modiïŹ cation,  tri,  recherche  et  transmission  efïŹ cace),  les  communications  d’une 

langue donnĂ©e doivent s’exprimer sous une forme quelconque de codage. Ainsi, 

ce qu’Internet peut vraiment offrir en termes de diversitĂ© linguistique se rĂ©sume 

aux codages textuels disponibles.

background image

74

Mesurer la diversitĂ© linguistique sur Internet

Le codage le plus couramment utilisĂ© est l’American Standard Code for 

Information Interchange (ASCII), un code mis au point durant les annĂ©es 50 et 60 

sous la direction de l’American National Standards Institute (ANSI) aïŹ n de stan-

dardiser la technologie des tĂ©lĂ©scripteurs. Ce codage comprend 128 attributions de 

caractĂšres et convient surtout Ă  l’anglais nord-amĂ©ricain. Puisqu’il fut dĂ©veloppĂ© 

tĂŽt et adoptĂ© Ă  grande Ă©chelle, la plupart des codages subsĂ©quents ont Ă©tĂ© dĂ©ïŹ nis 

en fonction d’ASCII, notamment l’ISO-8859-1 de l’Organisation internationale 

de normalisation (aussi appelĂ© Latin-1) qui spĂ©ciïŹ e 256 codes dont les premiers 

128 codes sont identiques Ă  ASCII. Unicode, qui vise Ă  fournir des codages com-

patibles pour toutes les langues Ă  travers le monde (Consortium Unicode 1991, 

1996, 2000, 2003), retient une stratĂ©gie semblable en faisant en sorte que les 256 

premiers caractĂšres des 65536 caractĂšres du Basic Multilingual Plane (BMP) sont 

identiques Ă  ISO-8859-1. La plupart des technologies de soutien Internet repo-

sent sur l’ASCII et ses dĂ©rivĂ©s. Des systĂšmes tels DNS, Usenet news et Internet 

Relay Chat ne permettent d’utiliser qu’un sous-ensemble des caractĂšres ASCII. 

Les  systĂšmes  d’exploitation  tels  que  Linus  reposent  largement  sur  les  Â« ïŹ chiers 

textuels plats ASCII » pour certaines de leurs fonctions les plus Ă©lĂ©mentaires. Tous 

ces systĂšmes comportent un biais technique favorisant l’anglais. 

L’acceptation Ă©ventuelle d’Unicode constitue l’espoir le plus sĂ©rieux d’in-

ternationaliser  l’infrastructure  d’Internet.  Les  efforts  de  standardisation  ont  Ă©tĂ© 

entrepris par le Consortium Unicode, en collaboration avec ISO. Les adhĂ©rents 

au Consortium Unicode sont d’importants vendeurs de logiciels, des groupes reli-

gieux internationaux, des organisations rĂ©gionales vouĂ©es Ă  l’éducation, ainsi que 

des gouvernements nationaux. La norme Unicode (maintenant Ă  sa version 4.0) 

comporte plus d’un million de codes de caractĂšres possibles, permettant d’utiliser 

toutes les langues modernes et anciennes dans un seul texte. Le basic multilingual 

plane (BMP) comprend soixante-cinq mille caractĂšres, ce qui devrait sufïŹ re Ă  la 

plupart  des  communications  Ă©crites.  Mais  une  telle  souplesse  d’utilisation  com-

porte des limites. Dans sa forme la plus Ă©lĂ©mentaire, UTF-32, le texte Unicode 

exige quatre fois plus d’espace qu’en format ASCII. Beaucoup de dĂ©veloppeurs 

de logiciels soutiennent que les usagers n’accepteraient pas cet inconvĂ©nient pour 

les textes multilingues, surtout si l’ordinateur est principalement utilisĂ© en contexte 

monolingue.

24

 Unicode offre d’autres codages de longueur variable plus efïŹ caces, 

24 

À savoir s’il s’agit de la vĂ©ritĂ© est une question importante qui n’a pas Ă©tĂ© abordĂ©e de façon satis-
faisante dans la littĂ©rature de recherche.  

background image

75

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

mais les inconvĂ©nients s’appliquent aux textes n’étant pas en caractĂšres romains, 

qui doivent occuper plus d’espace. MĂȘme si les coĂ»ts de stockage de donnĂ©es ont 

largement diminuĂ© au cours de la derniĂšre dĂ©cennie (sufïŹ samment pour qu’Uni-

code soit moins problĂ©matique), le traitement d’Unicode continue de compliquer 

signiïŹ cativement  la  tĂąche  des  dĂ©veloppeurs  de  logiciels,  puisque  la  plupart  des 

applications exigent une interaction avec ASCII. De plus, les formats plus gros 

de documents Unicode comportent des coĂ»ts de transmission, de compression et 

de dĂ©compression, qui constituent un inconvĂ©nient sufïŹ sant pour dĂ©courager les 

usagers d’Unicode dans certains cas. 

MĂȘme si Unicode a permis des progrĂšs importants pour l’internationali-

sation de l’informatique, les problĂšmes liĂ©s au texte multilingue sur Internet sont 

loin  d’ĂȘtre  rĂ©solus.  Pour  diffĂ©rentes  raisons  d’ordre  technique,  Ă©conomique  et 

organisationnel,  le  dĂ©veloppement  d’une  norme  technique  acceptable  s’est  fait 

plus lentement que celui d’Internet lui-mĂȘme. Par consĂ©quent, le recours inter-

national Ă  Internet a privilĂ©giĂ© les langues basĂ©es sur l’alphabet romain et surtout 

l’anglais, qui a proïŹ tĂ© d’un codage standard largement reconnu avant mĂȘme la 

popularitĂ© d’Internet. Pour qu’Internet permette l’usage Ă©quivalent de toutes les 

langues Ă  travers le monde, il faudra qu’Unicode soit plus rĂ©pandu. Comme c’est 

le cas pour le systĂšme DNS, il faudra peut-ĂȘtre mettre Ă  niveau certains protocoles 

Internet, aïŹ n qu’ils fonctionnent conjointement avec Unicode. 

Langages de balisage et de programmation

Les  Â« codes »  informatiques  â€“  les  langages  de  balisage  et  de  programmation 

– servant Ă  conïŹ gurer le contenu et les services Internet constituent un autre biais 

technique  favorable Ă  l’anglais  et perpĂ©tuĂ© sur  Internet. Le soutien  au contenu 

multilingue constitue le premier biais technique le plus Ă©vident. Les langages de 

balisage tels que le langage de balisage hypertexte (HTML) et le langage de bali-

sage extensible (XML) doivent ĂȘtre en mesure de dĂ©crire le texte dans une gamme 

complĂšte de langues. Le World-Wide Web Consortium a stipulĂ© ceci en exigeant 

le  soutien  Unicode  dans  le  cadre  de  ses  normes.  Ce  qui  signiïŹ e  que  lorsque  le 

soutien Unicode est dĂ©ïŹ cient, comme c’est le cas avec la plupart des langues de 

l’Asie  de  l’Ouest,  du  Centre-Sud  et  du  Sud-est,  le  soutien  HTML  et  XML  est 

aussi dĂ©ïŹ cient. De la sorte, le biais envers certaines langues s’avĂšre uniforme pour 

cette raison. Les langages de programmation doivent aussi devenir compatibles 

avec  le  texte  multilingue.  Malheureusement,  plusieurs  langages  de  programma-

background image

76

Mesurer la diversitĂ© linguistique sur Internet

tion couramment employĂ©s, tels que le langage C, n’offrent pas encore le soutien 

Unicode.

25

 Un nombre croissant de langages conçus pour des applications Web 

le  font  (notamment  Java,  JavaScript,  Perl,  PHP,  Python  et  Ruby,  qui  sont  tous 

largement adoptĂ©s), mais le soutien des autres systĂšmes tels les logiciels de bases 

de donnĂ©es s’oriente davantage envers Unicode. La promesse du commerce Ă©lec-

tronique dans d’autres langues que l’anglais sous-entend que les bases de donnĂ©es 

conformes Ă  Unicode deviendront trĂšs rĂ©pandues. 

Le biais en faveur de l’anglais se constate aussi dans la conception mĂȘme 

des langages de balisage et de programmation. Les langages de programmation 

constituent l’interface humaine la plus Ă©lĂ©mentaire pour le contrĂŽle informatique, 

agissant comme intermĂ©diaire entre les processus cognitifs des programmeurs et 

les  capacitĂ©s  logiques  des  ordinateurs.  Une  surabondance  de  langages  de  pro-

grammation existe ; les estimations vont de 2 500 Ă  plus que le nombre de langues 

dans  le  monde.  Mais  en  dĂ©pit  de  cette  diversitĂ©  apparente,  la  grande  majoritĂ© 

des langues tracent ultimement leur origine au FORTRAN, le premier langage 

de programmation de haut niveau dĂ©veloppĂ© en 1957 par IBM (LĂ©vĂ©nez, 2003). 

Ces langages ont largement recours aux mots anglais pour dĂ©ïŹ nir d’importantes 

constructions de programmation, tels les conditionnels (

if, then, else, case,

 etc.) et le 

bouclage interactif  (

while, for, until,

 etc.). MĂȘme si beaucoup de langues possĂšdent 

des  Ă©quivalents  pour  ces  mots,  ils  ne  semblent  jamais  se  substituer  aux  mots 

anglais en code exĂ©cutable. Par exemple, Ruby, conçu par le programmeur japo-

nais Yukihiro Matsumoto avec un souci de l’internationalisation, a aussi recours 

aux mots anglais.

26

HTML et XML sont semblables Ă  cet Ă©gard. Les balises HTML sont gĂ©nĂ©-

ralement des abrĂ©viations mnĂ©motechniques de mots anglais (par ex. b â€œbold”, 

ul â€œunordered list”, li â€œlist item”, etc.). MĂȘme si XML n’est pas un langage de 

balisage en soi, il s’agit d’une syntaxe pour dĂ©ïŹ nir les langages de balisage et tous 

les  langages  de  balisage Ă   base  XML  reconnus  sont  basĂ©s  sur  l’anglais  (par  ex. 

MathML, pour les expressions mathĂ©matiques, et XML:FO pour le formatage de 

documents textuels), malgrĂ© le fait que la norme XML soit basĂ©e sur Unicode. 

Cette tendance s’est poursuivie avec le projet de dĂ©veloppement du Web sĂ©man-

25 

Le site Web de International Components for Unicode (ICU) offre une bibliothĂšque C libre accĂšs 
qui aide au soutien Unicode (http://oss.software.ibm.com/icu/).

26 

Voir  http://www.ruby-lang.org/ja/uguide/uguide03.html,  contenant  un  Ă©chantillon  de  pro-
gramme de Rudy intĂ©grĂ© Ă  une page de texte japonais utilisant trois autres systĂšmes d’écriture.

background image

77

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

tique (Semantic Web), visant Ă  fournir un raisonnement Â« connu de tous » sur le 

Web.  On  prĂ©voit  avoir  recours  Ă   d’importantes  bases  de  donnĂ©es  d’intelligence 

artiïŹ cielle telles que Cyc (Reed et Lenat, 2002) et WordNet (Fellbaum et Miller, 

1998)  aïŹ n  de  dĂ©velopper  de  nouveaux  balisages  qui  aideront  les  programmes 

Internet Ă  trouver et Ă  traiter l’information pour les usagers. Ces bases de don-

nĂ©es ont dĂ©jĂ  Ă©tĂ© critiquĂ©es dans une perspective culturelle de l’hĂ©misphĂšre Nord 

comme comportant des biais sexistes et androcentriques (Adam, 1998). En outre, 

elles  comportent  sĂ»rement  aussi  des  biais  culturels.  En  ce  sens,  des  projets  tels 

le  Web  sĂ©mantique,  qui  promettent  de  fournir  la  Â« prochaine  gĂ©nĂ©ration »  de 

services d’information Internet, menacent de renforcer encore davantage les biais 

linguistiques et culturels dĂ©jĂ  existants. 

Il  faut  tenir  compte  du  potentiel  de  biais  linguistique  dans  les  langages 

de programmation et de balisage, tout comme de la nature culturelle du calcul 

informatisĂ©. Le calcul informatisĂ© moderne dĂ©rive de plusieurs siĂšcles d’appren-

tissage mathĂ©matique, et sa diffusion actuelle est comparable Ă  celle du systĂšme 

des nombres dĂ©cimaux, tant par sa nature que son importance. L’invention dans 

le nord de l’Inde des nombres dĂ©cimaux date environ du 7

e

 siĂšcle aprĂšs J.C. et 

s’est  rĂ©pandue  partout,  remplaçant  la  plupart  des  autres  systĂšmes  numĂ©riques. 

Toutefois, la diffusion culturelle des nombres dĂ©cimaux n’exigea pas l’importation 

du vocabulaire ; plusieurs langues modiïŹ Ăšrent toutefois leurs vocabulaires numĂ©-

riques existants aïŹ n d’intĂ©grer cette nouvelle pratique. L’informatique dĂ©veloppe 

davantage  le  principe  de  nombres  dĂ©cimaux  en  automatisant  leur  traitement. 

Cependant, contrairement Ă  la diffusion des nombres dĂ©cimaux, la popularitĂ© des 

ordinateurs s’est accompagnĂ©e de vocabulaires anglais lourds et complexes â€“ les 

langages de programmation. 

Il ne fait aucun doute qu’en tant qu’artefact physique, l’ordinateur joue un 

rĂŽle dans ce rapport en associant les symboles aux actions. Le couplage exact des 

symboles et des actions reste arbitraire, de sorte que tout langage pourrait ĂȘtre 

utilisĂ©, mais s’avĂšre aussi sufïŹ samment complexe qu’y parvenir n’est pas Ă©vident. 

En ce sens, une vaste question pour la diversitĂ© linguistique n’a pas Ă©tĂ© adĂ©qua-

tement posĂ©e dans la littĂ©rature de recherche : dans quelle mesure les diffĂ©rentes 

caractĂ©ristiques des langages de programmation facilitent-elles leur acquisition et 

leur utilisation par les personnes parlant diverses langues ?

27

 Les effets du trans-

fert chez une personne parlant une langue et qui en apprend une autre sont bien 

27 

Voir Anis (1997) pour des suggestions en ce sens.

background image

78

Mesurer la diversitĂ© linguistique sur Internet

connus. On pourrait supposer que les langages de programmation, Ă©tant en soi 

des systĂšmes linguistiques formels, pourraient faire l’objet d’un transfert semblable 

menant Ă  des difïŹ cultĂ©s ou des erreurs systĂ©miques chez les personnes de diverses 

origines linguistiques. Les propriĂ©tĂ©s conceptuelles des langages de programma-

tion  varient  grandement.  Est-il  possible  que  les  personnes  parlant  une  certaine 

langue soient mieux servies par des langages de programmation dont les carac-

tĂ©ristiques correspondent Ă  leur propre langue ? Les langages de programmation 

pourraient possiblement ĂȘtre conçus pour reïŹ‚ Ă©ter le raisonnement de diffĂ©rentes 

traditions culturelles et linguistiques. De telles adaptations aideraient-elles ces gens 

Ă  contrĂŽler leurs propres ressources en technologie de l’information ? 

L’UNESCO et les autres agences des Nations Unies ont un besoin pressant 

d’obtenir des rĂ©ponses Ă  ces questions, en vue d’atteindre les objectifs Ă©ducatifs 

requis  pour  favoriser  la  diversitĂ©  linguistique.  GrĂące  Ă   la  programmation  infor-

matique, la langue devient puissante et animĂ©e, ayant le potentiel de redĂ©ïŹ nir les 

cultures.  Malheureusement,  c’est  surtout  l’anglais  qui  est  prĂ©sentement  animĂ© 

de  cette  façon.  Si  l’alphabĂ©tisation  numĂ©rique  des  langages  de  programmation 

informatique  exige  la  connaissance  linguistique  ou  culturelle  de  l’anglais,  les 

personnes  parlant  d’autres  langues  doivent  ultimement  porter  le  lourd  fardeau 

des  coĂ»ts  Ă©ducatifs  et  possiblement  culturels  aïŹ n  de  s’approprier  les  ressources 

d’information sur Internet.

Modes de communication

MĂȘme si la plupart des gens connaissent Internet par l’entremise du Web (certains 

croient qu’ils sont synonymes), il s’agit en fait d’un environnement plus hĂ©tĂ©rogĂšne 

offrant une variĂ©tĂ© de modes de communication. De plus, de par sa conception, 

Internet permet la crĂ©ation et le dĂ©ploiement Ă  peu de frais de nouveaux modes 

de  communication.  Alors  que  nous  utilisons  Ă   l’heure  actuelle  le  courrier  Ă©lec-

tronique, le Web et les messages instantanĂ©s sur Internet, nous ignorons tout des 

utilisations Ă©ventuelles dans un avenir rapprochĂ©. Certains modes de communica-

tion sont nĂ©anmoins devenus largement rĂ©pandus, et il arrive qu’ils intĂšgrent des 

formes techniques de biais linguistique.

L’un de ces modes de communication est Usenet News, d’abord crĂ©Ă© en 

1978 pour mettre en rĂ©seau les systĂšmes informatiques de trois universitĂ©s (Spen-

cer et Lawrence, 1998). Usenet regroupe des centaines de Â« forums Â» 

(newsgroups),

background image

79

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

des  espaces  de  messages  publics  dont  les  noms  suggĂšrent  un  contenu  local.  Le 

serveur et le logiciel client de Usenet sont accessibles gratuitement, et sa gestion est 

largement ouverte. Les administrateurs de Usenet peuvent rĂ©gler individuellement 

la quantitĂ©, le taux et la frĂ©quence du partage des messages avec d’autres serveurs, 

de façon Ă  optimiser facilement l’accĂšs au rĂ©seau dans les rĂ©gions Ă  faible connec-

tivitĂ©. De la sorte, les obstacles pour accĂ©der Ă  Usenet sont relativement faibles. 

Usenet constitue une ressource extrĂȘmement importante Ă  l’échelle internationale. 

En 1999, 205 pays Ă  travers le monde avaient accĂšs Ă  Usenet (Smith, 1999). 

Sur  le  plan  technique,  Usenet  reprĂ©sente  un  microcosme  d’Internet.

Sa sĂ©quence de d’attribution de noms des forums est hiĂ©rarchique et a recours Ă  

un  sous-ensemble d’ASCII,  tout comme  pour  le systĂšme  DNS.  Usenet  possĂšde 

des  hiĂ©rarchies  de  premier  niveau,  ainsi  que  des  hiĂ©rarchies  locales,  rĂ©gionales 

et  nationales.

28

  Les  messages  textuels  doivent  rester  compatibles  avec  ASCII. 

Les  textes  chinois  et  japonais  ont  recours  Ă   des  codages  spĂ©ciaux  sur  Usenet. 

Comme ailleurs sur Internet, l’anglais a primautĂ© dans les hiĂ©rarchies gĂ©nĂ©riques 

de premier niveau. Par exemple, dans la hiĂ©rarchie comp., la catĂ©gorie gĂ©nĂ©rique 

servant  Ă   l’afïŹ chage  de  systĂšmes  informatiques,  on  retrouve  peu,  sinon  aucun 

afïŹ chage en japonais, mĂȘme sur comp.lang.ruby. C’est seulement sur la hiĂ©rarchie 

fj.comp que l’on retrouve des discussions techniques et scientiïŹ ques sur l’informa-

tique en japonais. La sous hiĂ©rarchie soc.culture fournit aussi de l’espace pour le 

traïŹ c multilingue, mais surtout dans les langues europĂ©ennes. Ainsi, en dĂ©pit de 

son faible coĂ»t d’accĂšs pour les pays ayant des ressources trĂšs limitĂ©es, Usenet est 

faiblement internationalisĂ© et comporte beaucoup de biais techniques favorisant 

l’anglais, dont certains entraĂźnent d’autres biais Ă©mergents.

Un autre mode de communication devenu populaire au dĂ©but des annĂ©es 

90 est le service de clavardage IRC 

(Internet Relay Chat),

 un mode de communi-

cation  synchrone  multipartite  en  temps  rĂ©el.  Les  participants  sur  un  canal  de 

clavardage  communiquent  entre  eux  en  temps  rĂ©el,  un  peu  comme  lors  d’une 

confĂ©rence  tĂ©lĂ©phonique,  Ă   l’exception  que  la  conversation  est  enregistrĂ©e.

Les  serveurs  IRC  en  rĂ©seau  peuvent  hĂ©berger  ces  milliers  de  canaux  et  il  est 

frĂ©quent de retrouver sur les rĂ©seaux IRC tels EFNet ou UnderNet des canaux 

de clavardage abordant des thĂšmes culturels, rĂ©gionaux ou nationaux, et d’atti-

rer des participants de partout Ă  travers le monde (Paolillo, 2001). Le service de 

clavardage IRC provient du nord de l’Europe, de sorte que certaines caractĂ©ris-

28 

L’espace nom Usenet, tout comme l’espace nom DNS, a aussi fait l’objet d’abus sĂ©rieux.

background image

80

Mesurer la diversitĂ© linguistique sur Internet

tiques â€“ notamment les caractĂšres attribuĂ©s dans les messages textuels ainsi que 

les noms des participants â€“ diffĂšrent de ceux de Usenet. Toutefois, le soutien au 

texte multilingue n’est pas meilleur avec IRC qu’avec Usenet. Dans les faits, les 

diffĂ©rences d’afïŹ chage entre les ordinateurs utilisant l’anglais amĂ©ricain et ceux 

du nord de l’Europe causent des problĂšmes Ă©vidents (par exemple, la substitution 

de caractĂšres de ponctuation en faveur des caractĂšres Ă  voyelle diacritique dans 

les noms et les mots scandinaves).

Ainsi, en dĂ©pit de l’attrait de ces deux systĂšmes sur le plan international, 

ils comportent des dĂ©fauts provenant des biais linguistiques dĂ©coulant de leur con-

ception mĂȘme. Ă‰videmment, les nouveaux modes de communication tels la mes-

sagerie instantanĂ©e, le blogage, le clavardage et autres apparaissent constamment. 

MĂȘme si certains de ces modes de communication comportent des caractĂ©risti-

ques de conception particuliĂšres tels XML et Unicode, le stade de dĂ©veloppement 

de ces normes est tel que seulement une faible partie de la population mondiale et 

des langues Ă  travers le monde bĂ©nĂ©ïŹ cient de ces technologies Ă  l’heure actuelle. 

Certains partisans de la technologie peuvent espĂ©rer encore d’autres protocoles 

de communications, telles que la voix sur IP, ou les interfaces multimodes. MĂȘme 

si ces technologies parviennent Ă  rĂ©soudre certains enjeux linguistiques, d’autres 

se poursuivront, comme l’assistance aux personnes aveugles ou malentendantes. 

De plus, les biais techniques dĂ©jĂ  existants renforcent les biais Ă©mergents associĂ©s 

Ă  la dĂ©mographie, Ă  l’économie et autres. AïŹ n de minimiser les biais linguistiques 

sur Internet, on devrait examiner de prĂšs les nouveaux modes de communications 

pour dĂ©couvrir tout biais technique potentiel avant de permettre leur adoption Ă  

grande Ă©chelle. 

Beaucoup de technophiles ont exprimĂ© l’espoir que la traduction automa-

tique soit la rĂ©ponse aux problĂšmes de communications multilingues sur Internet. 

Les services de traduction offerts par des sociĂ©tĂ©s comme Systran, le fournisseur 

du systĂšme de traduction BabelFish, sont trĂšs en demande et dans certains cas, 

notamment  du  catalan  Ă   l’espagnol,  la  traduction  automatique  a  Ă©tĂ©  suggĂ©rĂ©e 

comme  la  rĂ©ponse  qui  s’impose  aux  problĂšmes  de  communication  (Climent  et 

autres, 2004). Les gens pourront-ils un jour accĂ©der Ă  Internet dans leur propre 

langue, en recourant tout simplement Ă  l’un des systĂšmes de traduction en ligne ? 

Cette question s’avĂšre trop optimiste pour plusieurs raisons.

En  premier  lieu,  un  systĂšme  de  traduction  automatique  assume  que  les 

problĂšmes  plus  courants  de  reprĂ©sentation  et  de  formulation  du  texte  dans  la 

background image

81

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

langue sont dĂ©jĂ  rĂ©glĂ©s, alors que pour beaucoup de langues, ce n’est pas le cas. 

Ensuite,  la  conception  mĂȘme  du  systĂšme  de  traduction  automatique  nĂ©cessite 

Ă©normĂ©ment de travail. Des problĂšmes particuliers peuvent survenir en traduction 

entre des combinaisons de deux langues, qui doivent ĂȘtre rĂ©solus pour ces langues 

seulement. La traduction des diffĂ©rentes langues Ă  travers le monde s’avĂšre donc 

un  dĂ©ïŹ   qui  n’est  pas  prĂšs  d’ĂȘtre  rĂ©solu  dans  un  avenir  rapprochĂ©.  De  plus,  la 

conception  des  systĂšmes  de  traduction  automatique  exige  de  grandes  quantitĂ©s 

de contenus dans les langues Ă  traduire

29

 ; Ă  l’heure actuelle, ces contenus sont 

recueillis  sur  les  sites  Web  des  langues  Ă   traduire  (Grefenstette,  1999  ;  Resnik, 

1999), et doivent donc ĂȘtre crĂ©Ă©s par des locuteurs natifs. Ceci ne peut survenir Ă  

moins d’un soutien technique adĂ©quat pour la langue. En dernier lieu, la traduc-

tion automatique n’est jamais de qualitĂ© Ă©quivalente Ă  celle produite par un tra-

ducteur humain (Kay et autres, 1993). Les utilisateurs de systĂšmes de traduction 

automatique doivent adapter les restes inappropriĂ©s de vocabulaire et de sĂ©quen-

ces de mots qui ne reprĂ©sentent qu’une forme indirecte du biais linguistique qui a 

nĂ©cessitĂ© la traduction en premier lieu. Par consĂ©quent, nous ne pouvons espĂ©rer 

que l’approche technologique d’un systĂšme de traduction automatique rĂ©duira les 

problĂšmes de biais linguistique de façon substantielle sur Internet.

Conclusions

L’exploration  des  sources  potentielles  de  biais  effectuĂ©e  dans  la  discussion  qui 

prĂ©cĂšde constate plusieurs sources de biais linguistique sur Internet, tant prĂ©exis-

tant que technique ou Ă©mergent. Par consĂ©quent, la rĂ©ponse Ă  la question posĂ©e, 

Ă  savoir s’il existe un biais linguistique sur Internet, ne peut ĂȘtre qu’afïŹ rmative. 

Les principales consĂ©quences des biais sont de favoriser les langues trĂšs rĂ©pan-

dues, ayant des normes techniques bien dĂ©ïŹ nies. Il est Ă  noter que l’anglais est 

probablement  la  premiĂšre  de  ces  langues  en  s’avĂ©rant  â€“  non  par  coĂŻncidence 

–  la  langue  des  inventeurs  d’Internet  et  des  projets  de  recherche  prĂ©cĂ©dents. 

Toutefois,  il  est  aussi  Ă©vident  que  les  causes  et  les  effets  des  biais  sont  subtils, 

diversiïŹ Ă©s et dans beaucoup de cas, imprĂ©visibles. Si l’UNESCO dĂ©sire sĂ©rieu-

sement s’attaquer au biais linguistique sur Internet, il faut faire davantage pour 

s’informer, tout comme les principaux agents de dĂ©veloppement sur Internet, des 

29 

On ne peut utiliser n’importe quel texte. RĂšgle gĂ©nĂ©rale, des textes bilingues alignĂ©s phrase par 
phrase sont requis. La prĂ©paration est coĂ»teuse et non disponible pour toutes les combinaisons 
de deux langues.

background image

82

Mesurer la diversitĂ© linguistique sur Internet

manifestations des biais linguistiques ainsi que de l’importance et de l’intĂ©rĂȘt de 
la diversitĂ© linguistique. 

Glossaire

ACM. 

Association for Computing Machinery. Le plus important regroupement 

international  de  professionnels  de  l’informatique.  L’ACM  comprend  plusieurs 
groupes d’intĂ©rĂȘts spĂ©ciaux actifs sur les aspects techniques, sociaux et de politi-
ques des rĂ©seaux informatiques et d’ordinateurs. 

APNIC. 

Centre d’information du rĂ©seau Asie-PaciïŹ que 

(Asia-PaciïŹ c Network Infor-

mation  Center).

  Le  Centre  d’information  de  rĂ©seau  supervise  le  fonctionnement 

d’Internet  en  Asie  et  dans  le  PaciïŹ que.  Ses  activitĂ©s  s’étendent  Ă   l’Australie, 
Chine, Japon, CorĂ©e, IndonĂ©sie, Malaisie ainsi que toutes les Ăźles indĂ©pendantes 
du PaciïŹ que. 

ARIN. 

American  Registry  for  Internet  Numbers.  Centre  d’information  de 

rĂ©seau  supervisant  le  fonctionnement  technique  d’Internet  en  AmĂ©rique  du 
Nord. 

ASCII.

  Code  standard  amĂ©ricain  pour  l’échange  d’information 

(American  Stan-

dard Code for Information Interchange).

 Une des premiĂšres normes Ă  sept bits pour le 

codage textuel informatisĂ© et supportĂ©e de façon omniprĂ©sente par la plupart des 
applications  informatiques.  La  plupart  des  codages  textuels  modernes,  y  com-
pris Unicode, sont conçus pour ĂȘtre rĂ©trocompatibles avec ASCII, dont les sept 
bits permettent le codage de 128 caractĂšres distincts. L’ASCII Ă©tendu 

(Extended 

ASCII)

 est un prolongement Ă  huit bits de l’ASCII qui ne possĂšde aucune norme. 

DiffĂ©rents marchands supportent diffĂ©rentes versions de l’ASCII Ă©tendu qui sont 
mutuellement incompatibles.

Biais Ă©mergent. 

Pour Friedman et Nissenbaum (1997), biais rĂ©sultant de l’inte-

raction des systĂšmes techniques dans des contextes sociaux particuliers. 

Biais prĂ©existant. 

Pour Friedman et Nissenbaum (1997), tout biais entraĂźnĂ© par 

des  causes  exclusivement  sociales,  antĂ©rieures  Ă   l’application  particuliĂšre  d’une 
technologie oĂč le biais se manifeste. 

background image

83

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

Biais technique

. Pour Friedman et Nissenbaum (1997), tout biais inhĂ©rent Ă  un 

systĂšme technique. Le biais de l’ASCII en faveur de l’anglais amĂ©ricain constitue 

un exemple de biais technique.

BMP.

 Basic Multilingual Plane. Partie des valeurs du code Unicode comprenant 

les codes de tous les caractĂšres d’écriture les plus couramment utilisĂ©s Ă  travers 

le monde.

ccTLD.

  Domaine  de  premier  niveau  de  code  de  pays 

(Country-Code  Top-Level 

Domain). 

Domaines de premier niveau associĂ©s Ă  des pays particuliers. Les ccTLD 

sont semblables aux codes de pays ISO-3166. Par exemple, .uk (Royaume-Uni) 

et .za (Afrique du Sud). 

CMC.

 Communication assistĂ©e par ordinateur

 (Computer-Mediated Communication).

 Communication assistĂ©e par ordinateur

 Communication assistĂ©e par ordinateur

Communication entre humains s’effectuant par le biais d’ordinateurs en rĂ©seaux. 

CNNIC.

 Centre d’information du rĂ©seau chinois 

(China Network Information Center).

Centre d’information de rĂ©seau supervisant le fonctionnement technique d’Inter-

net en Chine. 

DNS.

  SystĂšme  de  noms  de  domaine 

(Domain-Name  System).

  SystĂšme  technique 

administrĂ©  par  ICANN  et  permettant  l’attribution  de  codes  mnĂ©motechniques 

aux ordinateurs en rĂ©seaux. 

Domaine (nom)

. Nom enregistrĂ© dans le systĂšme des noms de domaine (DNS) 

et  servant  Ă   rĂ©fĂ©rer  Ă   un  ordinateur  hĂŽte  Internet.  Les  noms  de  domaine  sont 

attribuĂ©s  Ă   des  organisations  pouvant  Ă   leur  tour  les  assigner  Ă   des  ordinateurs 

ou ensembles d’ordinateurs spĂ©ciïŹ ques, en collaboration avec les fournisseurs de 

services de rĂ©seau sous contrat. 

Registre  de  noms  de  domaine.

  Organisation  sous  contrat  avec  ICANN  et 

administrant certaines parties de l’espace nom DNS. Un registre est gĂ©nĂ©ralement 

en  charge  de  l’entretien  d’un  ou  plusieurs  domaines  de  premier  niveau  (TLD). 

Verisign et Educause sont des exemples de registres de noms de domaine.

Ethnologue.

  Base  de  donnĂ©es  maintenue  par  SIL  International  (Barbara  Gri-

mes, ed.) et enregistrant les donnĂ©es descriptives gĂ©nĂ©rales de toutes les popula-

tions linguistiques connues Ă  travers le monde. 

background image

84

Mesurer la diversitĂ© linguistique sur Internet

GPL.

 Licence GPL 

(Gnu Public License). 

Licence rĂ©gissant certains logiciels libres 

aïŹ n de protĂ©ger les droits d’auteur tout en permettant l’accĂšs libre du code source 

du logiciel aux dĂ©veloppeurs.

gTLD. 

Domaine gĂ©nĂ©rique de premier niveau 

(Generic Top-Level Domain). 

Domaine 

de premier niveau assignĂ© Ă  des ïŹ ns Â« gĂ©nĂ©riques » sans nĂ©cessairement rĂ©fĂ©rer Ă  

un pays en particulier. Parmi les gTLD connus, on retrouve .com, (commercial) 

.edu  (Ă©ducation  supĂ©rieure  accrĂ©ditĂ©e  aux  Ă‰.-U.),  .mil  (armĂ©e  amĂ©ricaine),  .net 

(fournisseurs de rĂ©seaux), .org (organisations sans but lucratif), etc. 

HĂŽte, hĂŽte Internet.

 Tout ordinateur reliĂ© Ă  Internet. 

HTML.

 Langage de balisage hypertexte 

(Hypertext Markup Language). 

Langage de 

balisage permettant le formatage de pages Web. Langage simple bien compris par 

les internautes et les logiciels, et dont la norme est maintenant maintenue par le 

consortium W3C. 

IANA.

(Internet Assigned Numbers Authority)

. Branche d’Internic, anciennement res-

ponsable de l’inscription des nouveaux sites au rĂ©seau Internet.

ICANN. 

(Internet Corporation for Assigned Names and Numbers).

 Organisation en par-

tenariat public privĂ© qui supervise le systĂšme DNS. 

Internet.

  RĂ©seau  informatique  international  rĂ©sultant  de  la  liaison  de  ARPA-

NET aux autres rĂ©seaux informatiques rĂ©gionaux.

IPv4.

  IP  version  4.  Version  IP  la  plus  couramment  utilisĂ©e  Ă   l’heure  actuelle, 

et caractĂ©risĂ©e par les numĂ©ros d’adresse de 32 bits pour chaque hĂŽte Internet. 

L’espace adresse sous Ipv4 est limitĂ©, en ce sens qu’Internet passe prĂ©sentement 

de la version IPv4 Ă  IPv6.

IPv6.

 Version 6 du protocole IP. Cette version de Â« nouvelle gĂ©nĂ©ration » du pro-

tocole Internet a recours Ă  des adresses de 128 bits. Le soutien Ă  Ipv6 s’étend Ă  

plusieurs applications en rĂ©seau, mais son dĂ©ploiement reste pour l’instant limitĂ©, 

puisque les applications IPv4 sont incompatibles avec les hĂŽtes IPv6.

IRC.

 Service de clavardage sur Internet 

(Internet Relay Chat),

 un protocole d’appli-

cation permettant des communications simultanĂ©es, en temps rĂ©el, entre plusieurs 

background image

85

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

internautes sur Internet. La plupart des programmes de Â« clavardage Â», y compris 

plusieurs programmes propriĂ©taires, sont largement inspirĂ©s d’IRC. On compte 

beaucoup de rĂ©seaux IRC utilisĂ©s surtout Ă  des ïŹ ns personnelles par des millions 

d’internautes Ă  travers le monde. 

ISO-8859-1, Latin-1. 

Codage textuel standard de huit bits supportant la plupart 

des langues europĂ©ennes dĂ©rivĂ©es de l’alphabet romain. 

Langage de balisage. 

SystĂšme destinĂ© Ă  introduire le formatage ou autres codes 

(« balisage Â»)  dans  des  documents  textuels,  de  façon  Ă   formater  ou  interprĂ©ter  le 

texte avec un appareil comprenant le balisage. HTML est un exemple de langage de 

balisage, mais d’autres langages comme SVG (Scalable Vector Graphics) fonction-

nent de façon semblable tout en effectuant des fonctions diffĂ©rentes. Voir XML.

Localisation linguistique

(localisation).

 La localisation est l'adaptation culturelle 

d'un  produit  ou  d'un  service  pour  assurer  son  respect  des  exigences  lĂ©gales  et 

socioculturelles spĂ©ciïŹ ques Ă  un marchĂ© cible. La localisation implique l'adapta-

tion d'un produit Ă  un marchĂ© spĂ©ciïŹ que lors d'un processus qui va bien au-delĂ  

de la traduction classique et qui prend en considĂ©ration les usages contemporains 

et familiers d'une langue et les nuances culturelles, telles que les rĂšgles de nota-

tion et les diffĂ©rences de signiïŹ cation de symboles, d'associations de couleurs et 

d'options de paiement.

NIC.

  Centre  d’information  de  rĂ©seau 

(Network  Information  Center). 

Organisation 

technique  chargĂ©e  de  superviser  le  fonctionnement  technique  d’Internet  sur  le 

plan  rĂ©gional  ou  local.  On  retrouve  trois  principaux  Centres  d’information  de 

rĂ©seau rĂ©gionaux : ARIN, RIPE et APNIC, respectivement pour l’AmĂ©rique du 

Nord, l’Europe et l’Asie. 

Protocole. 

Ensemble de messages et de rĂšgles standardisĂ©es d’échange de mes-

sages entre ordinateurs en rĂ©seau. Les protocoles sont complexes et sont gĂ©nĂ©ra-

lement mentionnĂ©s en terme de Â« couches » : la couche d’application, la couche 

de liaison, etc. 

Protocole d’application.

 Protocole de rĂ©seau habituellement employĂ© par un 

usager  de  l’ordinateur.  Les  protocoles  d’application  servent  gĂ©nĂ©ralement  Ă   des 

ïŹ ns  particuliĂšres  sur  le  rĂ©seau,  notamment  l’échange  de  ïŹ chiers  ou  de  courrier 

entre les ordinateurs. 

background image

86

Mesurer la diversitĂ© linguistique sur Internet

Protocole IP.

 Protocole Internet 

(Internet Protocol).

 Voir TCP/IP. 

RIPE.

  RĂ©seaux  IP  EuropĂ©ens.  Centre  d’information  de  rĂ©seau  supervisant  le 

fonctionnement technique d’Internet en Europe. 

SGML. 

Langage  gĂ©nĂ©ral  de  balisage 

(Standard  Generalized  Markup  Language).

Langage de dĂ©ïŹ nition du langage de balisage et normalisĂ© dans le domaine de 

l’imprimĂ©. Le HTML fut dĂ©veloppĂ© Ă  l’origine en tant qu’application SGML.

TCP/IP.

  Protocole  de  gestion  de  transmission/protocole  Internet

  (Transmission 

Control  Protocol/Internet  Protocol).

  Principal  ensemble  de  protocoles  servant  au

fonctionnement  d’Internet.  TCP  et  IP  sont  des  Â« couches »  indĂ©pendantes  de 

protocoles de rĂ©seautage Internet qui concernent diffĂ©rents aspects du fonction-

nement du rĂ©seau, mais utilisĂ©es conjointement le plus souvent.

VitalitĂ© ethnolinguistique. 

Le potentiel de survie d’une communautĂ© ethno-

linguistique.

VitalitĂ© technolinguistique.

 Potentiel d’une communautĂ© ethnolinguistique Ă  

proïŹ ter des technologies, surtout celles liĂ©es Ă  l’information, et d’utiliser sa langue 

avec ces technologies. En analogie Ă  la vitalitĂ© ethnolinguistique.

TIC (ICT).

 Technologie d’information et de communication. Toute technologie 

servant Ă  traiter ou Ă  transmettre l’information.

TLD. 

Domaine de premier niveau 

(Top-Level Domain).

 Nom de domaine directe-

ment attribuĂ© par ICANN Ă  un registre de nom de domaine regroupant plusieurs 

hĂŽtes reliĂ©s, gĂ©nĂ©ralement par pays ou Ă  des ïŹ ns organisationnelles.

Consortium Unicode.

 Consortium supervisant le dĂ©veloppement de Unicode. 

Unicode.

  Codage  de  caractĂšres  de  64  bits  actuellement  en  dĂ©veloppement,  et 

visant  Ă   fournir  un  outil  technique  standard  pour  reprĂ©senter  les  caractĂšres  de 

toutes les langues Ă©crites au monde. Unicode est dĂ©veloppĂ© en collaboration avec 

l’Organisation internationale de normalisation (ISO) et le consortium W3C, aïŹ n 

d’assurer que les normes de ces trois organisations seront compatibles.

RĂ©seau 

Usenet (nouvelles).

 Application d’échange de messages (« nouvelles ») Ă  

afïŹ chage public  et Ă  grande diffusion  parmi  les internautes en rĂ©seaux. DĂ©ïŹ nit 

background image

87

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

aussi toutes les nouvelles ou l’ensemble des nouvelles Ă©changĂ©es de cette façon. 
Usenet est important pour Internet, puisqu’il s’agit d’un protocole Ă  faible coĂ»t, 
facilement  implantĂ©,  pouvant  servir  au  courrier  Ă©lectronique  et  ne  requĂ©rant 
aucune  connexion  de  rĂ©seau  Ă   cette  ïŹ n.  En  ce  sens,  c’est  souvent  la  premiĂšre 
application Internet Ă  atteindre un nouvel emplacement.

UTF-8, UTF-16, UTF-32.

 Codages de caractĂšres Unicode recourant Ă  des uni-

tĂ©s de 8, 16 et 32 caractĂšres respectivement. UTF-8 et UTF-16 sont des codes de 
largeur variable, en ce sens que certains caractĂšres exigent plus qu’une unitĂ© de 
8 ou 16 bits pour le codage. UTF-32 est un code de largeur ïŹ xe, en ce sens que 
tous les caractĂšres permettent le codage Ă  32 bits.

W3C.

 Consortium World-Wide Web. Consortium supervisant le dĂ©veloppement de 

protocoles, langages de balisage et autres normes techniques se rapportant au Web.

World-Wide Web.

 (« le Web ») Application servant Ă  Ă©changer des documents, 

programmes et contenus multimĂ©dias formatĂ©s sur Internet. DĂ©ïŹ nit aussi l’ensem-
ble des documents et le contenu disponible par le truchement de la Toile. Le Web 
est l’application la plus connue d’Internet, en raison de la facilitĂ© avec laquelle le 
navigateur Web effectue des recherches de documents et autres contenus. 

XML. 

Langage  de  balisage  extensible 

(Extensible  Markup  Language).

  Langage  de 

dĂ©ïŹ nition du langage de balisage, une version simpliïŹ Ă©e de SGML, visant Ă  four-
nir de l’information sur la Toile plus adaptĂ©e que HTML, et permettant de dĂ©ïŹ nir 
plusieurs types de balisages. Les langages de balisage actuels dĂ©ïŹ nis dans XML 
incluent ceux pour le contenu Web (XHTML), les graphiques (Scalable Vector 
Graphics  [SVG]),  les  Ă©quations  mathĂ©matiques  (MathML),  la  musique  (MML, 
MusicML) et beaucoup d’autres applications.

REFERENCES

Adam, A. 1998. 

ArtiïŹ cial Knowing: Gender & the Thinking Machine.

 London: Routledge.

Anis, J. 1997. A Linguistic Approach to Programming.Arob@se, 1.2.

http://www.liane.net/arobase

Androutsopoulos, J. 1998. Orthographic variation in Greek e- mails: a ïŹ rst approach. 

Glossa 

46, S. pp. 49-67.

background image

88

Mesurer la diversitĂ© linguistique sur Internet

Barrera-Bassols, N. and Zinck, J.A. 2002. Ethnopedological research : a worldwide review. In 

17th World congress of  soil science CD-ROM proceedings: Confronting new realities in the 21st cen-
tury. 

590.1-590.12. Bangkok: Kasetsart University.

(http://www.itc.nl/library/Papers/arti_conf_pr/barrera.pdf).

Block, D. 2004. Globalization, transnational communication and the Internet. 

International 

Journal on Multicultural Societies,

 Vol. 6,No.1, pp.13-28. 

Climent, S., J. MorĂ©, A. Oliver, M Salvatierra, I SĂ nchez, M. TaulĂ© and L. Vallmanya. 2004. 

Bilingual Newsgroups in Catalonia: A Challenge for Machine Translation. 

Journal of  Com-

puter-Mediated Communication, 

Vol. 9, No.1. http://www.ascusc.org/jcmc/

Crystal, D. 2000. 

Language Death.

 Cambridge: Cambridge University Press.

—. 2001. 

Language and the Internet.

 Cambridge: Cambridge University Press.

—. 2003. 

English as a Global Language, Second Edition.

 Cambridge: Cambridge University Press.

Dalby, A. 2003. 

Language in Danger.

 New York: Columbia University Press.

Dunker, E. 2002. Cross-cultural usability of  the library metaphor. 

Proceedings of  the second ACM/

IEEE-CS joint conference on Digital libraries.

 Portland, OR. 

Durham, M. 2004. Language Choice on a Swiss Mailing List. 

Journal of  Computer-Mediated Com-

munication 

9.1. http://www.ascusc.org/jcmc/

Fellbaum, C., and G. Miller. 1998. 

WordNet: An Electronic Lexical Database.

 Cambridge, MA: MIT 

Press.

Ferguson, C. A. 1959. Diglossia. 

Word,

 15, pp.325-340.

Friedman, B. and H. Nissenbaum. 1995. Minimizing bias in   computer systems. 

Conference com-

panion on Human factors in computing systems, 

444. ACM Press.

Friedman, B. and H. Nissenbaum. 1997. Bias in computer sys tems. In Friedman, B., ed. 

Human 

Values and the Design of  Computer Technology,

 pp.21-40. Stanford, California. Cambridge ; New 

York, CSLI Publications; Cambridge University Press. 

—. 1997. Self-presentation and interactional alliances in e-mail discourse: the style- and code-

switches of  Greek messages, 

International Journal of  Applied Linguistics 

7: pp.141-164.

Georgakopolou, A. (Forthcoming). On for drinkies? E-mail cues of  participant alignments. In S. 

Herring (ed.), 

Computer-Mediated Conversation.

Global Reach. 1999-2005. Global internet statistics by language. Online marketing information.

http://global-reach.biz/globstats/index.php3

Greenberg, J. 1956. The measurement of  linguistic diversity. 

Language,

 Vol. 32, No.2, pp.109-

115.

Grefenstette,  Gregory.  1999.  The  WWW  as  a  resource  for  example-based  MT  tasks.  Paper 

presented at ASLIB â€œTranslating and the Computer” conference, London.

background image

89

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

Grimes, J. E. 1986. â€œArea norms of  language size.” In B.F. Elson, ed., 

Language in global perspective: 

Papers in honor of  the 50th anniversary of  the Summer Institute of  Linguistics, 

1935-1985, pp.5-19. 

Dallas: Summer Institute of  Linguistics.

Hafner, K., and Lyon, M. 1996. 

Where Wizards Stay Up Late: The Origins of  the Internet. 

New York: 

Simon and Schuster.

HĂ„rd af  Segerstad, Y. 2002. Effects of  Mobile Text Messaging on Swedish Written Language 

— human adaptability made visible. 

International Conference on Cultural Attitudes towards Tech-

nology and Communication, The Net(s) of  Power: Language, Culture and Technology,

 MontrĂ©al.

Holmes, H. K. 2004. An analysis of  the language repertoires of  students in higher education 

and  their  language  choices  on  the  Internet  (Ukraine,  Poland,  Macedonia,  Italy,  France, 
Tanzania, Oman and Indonesia). 

International Journal on Multicultural Societies,

 Vol. 6, No.1, 

pp. 29-52. 

Ifrah, G. 1999. 

The Universal History of  Numbers: From Prehistory to the Invention of  the Computer. 

New 

York: John Wiley and Sons. 

Information Sciences Institute. 2003. USC Researchers Build Machine Translation System â€” and 

More â€” For Hindi in Less Than a Month. http://www.usc.edu/isinews/stories/98.html

Kay, Martin, Jean-Mark Gawron, and Peter Norvig. 1993. 

Verbmobil : A Translation System for Face-

to-Face Dialog.

 Stanford , CA: CSLI Publications.

Krauss, Michael. 1992. The world’s languages in crisis. 

Language

 Vol. 68, No.1, pp. 4-10.

Language

Language

Koutsogiannis, D., and B.. Mitsikopolou. 2004. Greeklish and Greekness: Trends and Discour-

ses of  â€œGlocalness”. 

Journal of  Computer-Mediated Communication

 9.1.

http://www.ascusc.org/jcmc/

Lavoie, B. F. and E. T. O’Neill. 1999. How â€œWorld Wide” is the Web? Annual Review of  OCLC 

Research 1999. 2003.

LĂ©vĂ©nez, Eric. 2003. Computer languages timeline. http://www.levenez.com/lang/

Lieberson, S. 1964. An extension of  Greenberg’s linguistic di  versity  measures.  Language,  40, 

pp.526-531. 

Mafu, S. 2004. From oral tradition to the information era: The case of  Tanzania. 

International 

Journal on Multicultural Societies,

 Vol.6, No.1, pp. 53-78. 

MuhlhĂ€usler, P. 1996. 

Linguistic Ecology: Language Change & Linguistic Imperialism in the PaciïŹ c Rim.

London: Routledge.

Nettle, D. 1999. 

Linguistic Diversity.

 Oxford: Oxford University Press.

Nettle, D., and S. Romaine. 2000. 

Vanishing Voices: The Extinction of  the World’s Languages. 

Oxford: 

Oxford University Press.

Nunberg, Geoffrey. 1998. Languages in the Wired World. Paper presented at 

La politique de la langue 

et la formation des nations modernes,

 Centre d’Etudes et Recherches Internationales de Paris.

background image

90

Mesurer la diversitĂ© linguistique sur Internet

O’Neill, Edward T, Brian F. Lavoie, and Rick Bennett. 2003. Trends in the Evolution of  the 

Public Web: 1998 - 2002. 

D-Lib Magazine,

 9.4. 

http://www.dlib.org/dlib/april03/ lavoie/04lavoie.html

O’Neil, E.T. ; P.D. McClain; and B.F. Lavoie 1997. A methodology for sampling the World-

Wide Web. Technical report, 

OCLC Annual Review of  Research.

http://www.oclc.org/oclc/research/publications/review97/oneill/o’neilla%r980213.html

Paolillo, J. C. 1996. Language Choice on soc.culture.Punjab. 

Electronic Journal of  Communication/

Revue Electronique de Communication,

 6(3). http://www.cios.org/

Paolillo, J. C. 2001. Language Variation in the Virtual Speech Community: A Social Network 

Appoach. 

Journal of  Sociolinguistics, 

5.2. 

Paolillo, J. C. 2002. Finite-state transliteration of  South Asian text encodings. In 

Recent Advances 

in Natural Language Processing: Proceedings of  the ICON International Conference on Natural Language 
Processing. 

New Delhi: Vikas Publishing House, Ltd. 

Paolillo, J. C. To appear, 2006. â€˜Conversational’ code switching on Usenet and Internet Relay 

Chat. To appear in S. Herring, ed., 

Computer-Mediated Conversation.

 Cresskill, NJ: Hampton 

Press.

Peel, R. 2004. The Internet and language use: A case study in the United Arab Emirates. 

Inter-

national Journal on Multicultural Societies,

 Vol. 6, No. 1, pp.79-91. 

Phillipson, R. 1992. 

Linguistic Imperialism.

 Oxford: Oxford University Press.

Phillipson, R. 2003. 

English-Only Europe?

 London: Routledge.

English-Only Europe?

English-Only Europe?

Pimienta,  D.;  and  B.  Lamey.  2001.  Lengua  española  y  cultural  hispanicas  en  la  Internet: 

ComparaciĂł con el ingles y el frances. II Congreso Internacional de la Lengua Espanola, 
Valladolid, 16-19 October 2001.

Pimienta, D.; et al. 2001. L5: The ïŹ fth study of  languages on the Internet.

http://funredes.org/LC/english/L5/L5tendencies.html

Reed, S. L., and D. B. Lenat. 2002. Mapping Ontologies onto Cyc. American Association for 

ArtiïŹ cial Intelligence. http://www.aaai.org/

Resnik, P. 1999. Mining the Web for Bilingual Text. 

37th Annual Meeting of  the Association for Com-

putational Linguistics

 (ACL’99), College Park, Maryland.

putational Linguistics

putational Linguistics

Rheingold, H. 2000. 

The Virtual Community: Homesteading on the Electronic Frontier,

 revised edition. 

Cambridge, MA: MIT Press.

Skutnabb-Kangas, T., and R.. Phillipson. 1995. 

Linguistic Human Rights: Overcoming Linguistic Dis-

crimination.

 Berlin: Mouton de Gruyter.

Smith, E. A. 2001. On the co-evolution of  linguistic, cultural  and  biological  diversity.  In  L. 

MafïŹ , ed. 

On Biocultural Diversity,

 95-117. Washington DC: Smithsonian Institution Press.

background image

91

3. DiversitĂ© linguistique sur Internet : examen des biais linguistiques

Smith, M. 1999. Invisible Crowds in Cyberspace: Measuring  and  Mapping  the  Social  Struc-

ture  of   USENET.  In  M.  Smith  and  P.  Kollock,  eds., 

Communities  in  Cyberspace.

  London: 

Routledge Press.

Spencer, H. and Lawrence, D. 1998. 

Managing Usenet.

 Sebastopol, CA: O’Reilly.

Su,  H.-Y.  2004.  The  Multilingual  and  Multi-Orthographic  Taiwan-Based  Internet:  Creative 

Uses of  Writing Systems on College-AfïŹ liated BBSs. 

Journal of  Computer-mediated Communi-

cation

 9.1. http://www.ascusc.org/jcmc/

Torres i Vilatarsana, Marta. 2001. Funciones pragmĂĄticas de los emoticonos en los chats. Inter-

lingĂŒĂ­stica 11.

Torres i Vilatarsana, Marta. 1999. Els xats: entre l’oralitat i l’escriptura. Article publicat a la 

revista Els Marges, 65 (desembre, 1999). Publicat a Internet (gener, 2001) amb el consen-
timent d’aquesta revista.

UNESCO. 2003. 

Cultural and Linguistic Diversity in the Information Society.

 UNESCO publications 

for the World Summit on the Information Society. CI.2003/WS/07
http://unesdoc.UNESCO.org/images/0013/ 001329/132965e.pdf

Unicode Consortium. 1991. 

The Unicode Standard: Worldwide Character Encoding.

 Reading, Mass., 

Addison-Wesley Pub.

Unicode Consortium. 1996. 

The Unicode Standard, Version 2.0.

 Reading, Mass., Addison-Wesley 

Developers Press.

Unicode Consortium. 2000. 

The Unicode Standard, Version 3.0.

 Reading, Mass., Addison-Wesley.

Unicode Consortium. 2003. 

The Unicode Standard, Version 4.0.

 Reading, Mass., Addison-Wesley.

Warschauer, M., G. R. El Said and A. Zohry. 2002. Language Choice Online: Globalization 

and Identity in Egypt. 

Journal of  Computer-Mediated Communication

 (JCMC), 7.4.

http://www.ascusc.org/jcmc/

Wasserman, Herman. 2002. Between the local and the global: Souoth African languages and the 

Internet. 

Litnet Seminar Room.

 http://www.litnet.co.za/seminarroom/11wasserman.asp

Wright, S. 2004. Introduction. 

International Journal on Multicultural Societies,

 Vol.6,No.1, pp. 3-11.

Wurm, S. A.. 1991. Language death and disappearance: causes and circumstances. In R. H. 

Robbins and E. M. Uhlenbeck, eds., 

Endangered Languages,

 1-18. Oxford: Berg.

Wurm, S. A., ed. 1996. 

Atlas of  the World’s Languages in Danger of  Disappearing.

 Paris: UNESCO 

Publishing/PaciïŹ c Linguistics.

background image
background image

93

Perspectives alternatives

a. DiversitĂ© linguistique sur Internet :

une perspective asiatique

Yoshiki Mikami

*

, Ahamed Zaki abu Bakar

●

,

Virach Sonlertlamvanich , Om Vikas

■

,

Zavarsky Pavol

*

, Mohd Zaidi abdul Rozan

*

,

Göndri Nagy JĂĄnos , Tomoe Takahashi

*

(Membres du Projet d’observatoire des langues (LOP),

Agence de la science et de la technologie du Japon) 

« Avant de terminer cette lettre, j’aimerais souligner respectueusement Ă  Son Ă‰mi-

nence le fait que durant plusieurs annĂ©es, j’ai voulu consulter dans cette Province 

des  livres  imprimĂ©s  dans  la  langue  et  l’alphabet  du  pays,  comme  c’est  le  cas  Ă  

Malabar  et  Ă©tant  d’un  grand  intĂ©rĂȘt  pour  la  communautĂ©  chrĂ©tienne.  Malheu-

reusement, ce fut impossible pour deux raisons : tout d’abord parce qu’il semblait 

impossible de couler autant de moules, plus de six cents en tout, comparativement 

4.

* UniversitĂ© de la technologie de Nagaoka, JAPON : 

●

UniversitĂ© de la technologie de la Malaisie, MA-

LAISIE :  Laboratoire de linguistique informatique thaĂŻ, THAÏLANDE : 

■

Service de la technologie des 

langues indiennes (TDIL), MinistĂšre des technologies de l’information, INDE :  UniversitĂ© de Miskolc, 

HONGRIE. On peut contacter les auteurs Ă  l’adresse de courriel : mikami@kjs.nagaokaut.ac.jp.

background image

94

Mesurer la diversitĂ© linguistique sur Internet

Ă  seulement vingt-quatre comme c’est le cas en Europe Â»â€Š Lettre d’un jĂ©suite Ă  

Rome (Priolkar, 1958).

« Lorsque  Gutenberg  imprima  sa  fameuse  Bible  Ă   Mainz  il  y  a  plus  de 

500 cents ans, il n’eut besoin que d’un caractĂšre de base pour chaque lettre de 

l’alphabet. En comparaison, quand la mission amĂ©ricaine imprima la bible arabe 

Ă  Beyrouth en 1849, au moins 900 caractĂšres furent requis â€“ et mĂȘme ce nombre 

s’avĂ©ra insufïŹ sant Â»â€Š John M. Munro, 1981 (Lunde, 1981).

DiversitĂ© linguistique et Ă©crite en Asie

Les experts linguistiques estiment qu’environ 7 000 langues sont parlĂ©es Ă  travers 

le monde Ă  l’heure actuelle (Gordon, 2005). Le nombre de langues ofïŹ cielles reste 

Ă©levĂ©  et  pourrait  se  chiffrer  Ă   plus  de  300.  Le  Haut  Commissariat  des  Nations 

Unies aux droits de l’homme (UNHCHR) a traduit un texte d’une valeur univer-

selle, la DĂ©claration universelle des droits de l’homme (UDHR), dans plus de 328 

langues diffĂ©rentes (UNHCHR, 2005). 

De toutes les langues apparaissant sur ce site, le chinois est la plus parlĂ©e 

(presque  un  milliard  de  personnes),  suivi  de  l’anglais,  du  russe,  de  l’arabe,  de 

l’espagnol, du bengali, de l’hindi, du portugais, de l’indonĂ©sien et du japonais. 

La liste des langues inclut celles parlĂ©es par moins de cent mille personnes. Les 

langues  asiatiques  sont  parmi  les  plus  parlĂ©es  au  monde  (six  des  dix  langues 

les plus parlĂ©es) et constituent presque la moitiĂ© (48) des cent langues les plus 

parlĂ©es. 

Le site de l’UNHCHR fournit aussi le nombre approximatif  de groupes 

linguistiques pour chaque langue. Si l’on rĂ©partit les langues selon la population 

et que l’on fait le relevĂ© de chaque langue sur un tableau Ă  Ă©chelle logarithmi-

que, le rapport entre la population et son rang ressemble Ă  une courbe de la Loi 

de Zip comme l’indique la Figure 1, avec un Ă©cart d’au moins un dixiĂšme Ă  un 

centiĂšme. 

background image

95

4. Perspectives alternatives

Figure  1:  Quasi  courbe  de  la  Loi  de  Zip  pour  les  groupes  linguisti-

ques

La  diversitĂ©  en  Asie  est  plus  Ă©vidente  si  l’on  observe  les  multiples  caractĂšres 

d’écriture servant Ă  reprĂ©senter la langue. Cette diversitĂ© des caractĂšres d’écriture 

s’avĂšre problĂ©matique dĂšs que l’on s’interroge sur la complexitĂ© de la localisation 

linguistique.  La  rĂ©ponse  Ă   la  question  Â«  Combien  de  caractĂšres  d’écriture  sont 

utilisĂ©s Ă  travers le monde ? Â» est difïŹ cile, puisqu’elle dĂ©pend d’un comptage trĂšs 

fragmentĂ©. Aux ïŹ ns de simpliïŹ er le prĂ©sent article, on traitera en une seule catĂ©-

gorie tous les caractĂšres d’écriture et alphabets dĂ©rivĂ©s du latin de mĂȘme que leurs 

dĂ©veloppements dans diffĂ©rentes langues europĂ©ennes, le vietnamien, le philippin, 

etc. De mĂȘme, les caractĂšres d’écriture cyrilliques et arabes constituent une seule 

catĂ©gorie. C’est aussi le cas pour les idĂ©ogrammes chinois, les syllabiques japonais 

et le caractĂšre hangul corĂ©en. Les autres caractĂšres d’écriture sont trĂšs diversiïŹ Ă©s. 

Prenons le cas des Â« caractĂšres d’écriture indic » qui forment la cinquiĂšme catĂ©-

gorie. Celle-ci comprend non seulement les caractĂšres de langues indiennes telles 

le devanagari, bengali, tamoul, gujarĂątĂź, etc., mais aussi quatre autres caractĂšres 

d’écriture majeurs de l’Asie du Sud-est, c’est-Ă -dire le thaĂŻ, le lao, le cambodgien 

(khmer) et le myanmar. En dĂ©pit de leurs formes diffĂ©rentes, ces caractĂšres d’écri-

ture  ont  tous  la  mĂȘme  origine  (l’ancien  caractĂšre  brahmi)  et  le  mĂȘme  type  de 

formulation. Le regroupement de la population parlant chacune de ces langues 

background image

96

Mesurer la diversitĂ© linguistique sur Internet

est prĂ©sentĂ© au Tableau 1. Les caractĂšres d’écriture utilisĂ©s en Asie s’étendent Ă  
ces cinq catĂ©gories, tandis que ceux utilisĂ©s ailleurs dans le monde sont surtout 
d’origine latine, cyrillique, arabe et plusieurs autres.

Tableau 1. Distribution de la population selon les principales catĂ©go-
ries de caractĂšres d’écriture

CaractĂšre

d’écriture

Latin

Cyrilli-

que

Arabe

Hanzi

Indic

Autres*

Nombre d’usagers 

(millions)

2 238

451

462

1 085

807

129

[ % du total ]

[43,28%]

[8,71%]

[8,93%]

[20,98%]

[15,61%]

[2,49%]

* Autres inclut grec, gĂ©orgien, armĂ©nien, amharique, dhivehi, hĂ©breu, etc. 

Statut actuel de la couverture linguistique â€“

le cas de Windows

Depuis  une  dĂ©cennie,  les  produits  des  technologies  de  l’information  et  de  la 
communication  (TIC)  actuels  peuvent  accomplir  des  tĂąches  multilingues  dans 
une  certaine  mesure.  GrĂące  Ă   l’émergence  d’une  norme  de  code  de  caractĂšres 
multilingues sous forme d’ISO/IEC 10646, aussi utilisĂ©e pour la norme Unicode, 
de mĂȘme que pour le dĂ©ploiement international de logiciels, le nombre de langues 
supportĂ©es par des plateformes majeures de bureau TIC a augmentĂ© au cours de 
la derniĂšre dĂ©cennie. La couverture linguistique de ces plateformes majeures reste 
cependant limitĂ©e. La plus rĂ©cente version de Windows XP (Professional SP2) est 
en mesure de traiter une liste longue de 123 langues. Toutefois, l’examen attentif  
de cette liste indique qu’il s’agit pour la plupart de langues europĂ©ennes et trĂšs peu 
sont asiatiques ou africaines. La couverture linguistique est rĂ©sumĂ©e au Tableau 2. 
Ce tableau fait voir les langues catĂ©gorisĂ©es selon le regroupement des caractĂšres 
d’imprimerie prĂ©sentĂ©s dans la premiĂšre partie de cet article. En ce sens, la cou-
verture par Windows XP est d’environ 83,72 % de la population globale. MĂȘme si 
ce chiffre semble acceptable, il apparaĂźt ĂȘtre une estimation exagĂ©rĂ©e ne reïŹ‚ Ă©tant 
pas la rĂ©alitĂ©, comme on le constatera dans le prĂ©sent article.

background image

97

4. Perspectives alternatives

Tableau 2. Couverture linguistique de Windows XP SP2 pour les prin-

cipales catĂ©gories de caractĂšres d’écriture

RĂ©gion 
linguis.

Latin

Cyrillique

Arabe

Hanzi

Indic

Autres

Europe

langues 
europ.*
et slaves**

langues russe, 
macédo-
nienne
et slaves***

—

—

—

grec
géorgien
arménien

Asie

azéri
vietnamien
malaisien
indonésien
uzbek
turc

mongolien
azéri
kazakh
kirghiz
uzbek

arabe
urdu
perse

chinois
japonais
coréen

gujarĂątĂź 
tamoul
telugu
kannara
bengali
malayalam
punjabi
hindi
marathe
sanskrit
konkani
oriya
thaĂŻ

assyrien
dhivehi
hébreu

*  Inclut  :  albanais,  allemand,  anglais,  basque,  catalan,  danois,  espagnol,  estonien,  fĂ©ringien, 
ïŹ nlandais,  français,  galicien,  gallois,  hollandais,  hongrois,  islandais,  italien,  letton,  lithuanien, 
maltais, norvĂ©gien, portugais, roumain, sami et suĂ©dois.
** Inclut : bosniaque, croate, polonais, serbe, slovaque, slovĂšne, tchĂšque. 
*** Inclut : bĂ©larusse, bosniaque, bulgare, serbe et ukrainien. 

Le cas de Google

Les  moteurs  de  recherche  sont  des  composantes  indispensables  de  la  sociĂ©tĂ© 

d’information globale. Ils permettent d’accĂ©der Ă  une vaste rĂ©serve de connais-

sances. Si l’on examine la couverture linguistique des moteurs de recherche les 

plus populaires, on constate que la situation est encore plus dĂ©plorable que pour 

la couverture linguistique de Windows. En date d’avril 2005, Google, qui est l’un 

des moteurs de recherche multilingue utilisĂ© Ă  l’échelle internationale, avait indexĂ© 

plus  de  huit  milliards  de  pages  rĂ©digĂ©es  dans  diffĂ©rentes  langues.  Toutefois,  les 

langues recensĂ©es jusqu’ici se limitent Ă  environ 35. Parmi celles-ci, on ne retrouve 

que sept langues asiatiques, notamment l’indonĂ©sien, l’arabe, le chinois classique, 

le chinois simpliïŹ Ă©, le japonais, le corĂ©en et l’hĂ©breu (Tableau 3). En termes de 

background image

98

Mesurer la diversitĂ© linguistique sur Internet

couverture linguistique, cette proportion diminue Ă  61,37 % surtout parce que les 

pages en langues asiatiques et africaines ne peuvent faire l’objet de recherches. 

Tableau 3. Couverture linguistique de Google pour les principales catĂ©-

gories de caractĂšres d’écriture

RĂ©gion

linguist.

Latin

Cyrillique

Arabe

Hanzi

Indic

Autre

Europe

langues 
europ.* et 
slaves**

russe
bulgare
serbe

—

—

—

grec

Asie

indonésien

arabe

chinois 
tradition-
nel et 
simpl.,
japonais 
coréen

hébreu
turc

* Inclut : allemand, anglais, catalan, danois, espagnol, estonien, ïŹ nlandais, français, hollandais, 
hongrois, islandais, italien, letton, lithuanien, norvĂ©gien, portugais, roumain, suĂ©dois.
** Inclut : croate, polonais, slovaque, slovĂšne et tchĂšque.

Le cas du corpus multilingue UDHR

Voici un autre exemple. Tel que mentionnĂ© dans la premiĂšre partie de cet article, 

la  DĂ©claration  universelle  des  droits  de  l’homme  (UDHR)  sur  le  site  Web  du 

Haut  Commissariat  des  Nations  Unies  aux  droits  de  l’homme  (UNHCHR)  est 

afïŹ chĂ©e  dans  plus  de  300  langues  diffĂ©rentes,  commençant  par  l’abkhaze  et  se 

terminant par le zoulou. Malheureusement, on constate aussi que beaucoup de 

ces traductions, surtout celles dans les langues Ă  caractĂšres d’écriture ne dĂ©rivant 

pas  du  latin,  sont  afïŹ chĂ©es  en  formats  Â« GIF »  ou  Â« PDF »,  plutĂŽt  que  sous  la 

forme de texte codĂ©. Ă€ nouveau, nous rĂ©sumons la situation dans le Tableau 4 

en regroupant les principaux caractĂšres d’imprimerie comme dans les tableaux 

prĂ©cĂ©dents. Ce tableau indique clairement que les langues dĂ©rivĂ©es des caractĂšres 

d’imprimerie  latins  sont  surtout  prĂ©sentĂ©es  sous  la  forme  de  textes  codĂ©s.  Les 

langues ayant recours aux caractĂšres d’imprimerie non dĂ©rivĂ©es du latin, surtout 

l’indic et autres, peuvent difïŹ cilement ĂȘtre prĂ©sentĂ©es sous forme codĂ©e. Quand le 

caractĂšre d’imprimerie n’est pas prĂ©sentĂ© sous l’une des trois formes indiquĂ©es, il 

background image

99

4. Perspectives alternatives

est regroupĂ© dans la colonne Â« Non disponible ». De plus, il faut absolument tĂ©lĂ©-

charger des fontes spĂ©ciales pour lire correctement ces caractĂšres d’imprimerie. 

Cette situation difïŹ cile peut ĂȘtre dĂ©crite comme une fracture numĂ©rique parmi les 

langues, ou qualiïŹ Ă©e de Â« fracture numĂ©rique linguistique ».

Tableau 4. Formes de reprĂ©sentation du corpus multilingue UDHR par 

regroupement des principaux caractĂšres d’imprimerie 

Forme de

présentation

Latin

Cyril.

Arabe

Hanzi

Indic

Autres

Codé

253

10

1

3

0

1

PDF

2

4

2

0

7

10

Image (GIF)

1

3

7

0

12

7

Non disponible

0

0

0

0

1*

1*

* Les langues non disponibles sont le magadi et le bhojpuri.

Localisation linguistique des technologies de l’information 

– un regard historique

Retournons  cinq  siĂšcles  en  arriĂšre,  Ă   l’époque  de  l’invention  de  la  presse  Ă  

imprimer. Cette technologie fut inventĂ©e sĂ©parĂ©ment dans les pays de l’Est et de 

l’Ouest. Ă€ l’Est, des artisans corĂ©ens dĂ©couvrirent cette technologie au 13

e

 siĂšcle 

et  furent  suivis  des  Chinois.  Mais  la  technologie  ne  devint  pas  populaire  et  fut 

remplacĂ©e  par  la  xylographie.  L’origine  directe  des  technologies  d’impression 

maintenant rĂ©pandues en Asie remonte donc Ă  celle inventĂ©e par Gutenberg au 

milieu du 15

e

 siĂšcle. 

La premiĂšre presse Ă  imprimer fut amenĂ©e Ă  Goa en 1556. On croit aussi 

qu’il s’agit de la premiĂšre presse en Asie. Cet appareil se retrouva par la suite dans 

d’autres rĂ©gions asiatiques, notamment Manille, Malacca, Macau, etc. Ă€ l’origine, 

ces machines servaient surtout Ă  imprimer des textes religieux traduits ou translit-

tĂ©rĂ©s Ă  l’aide du latin, mais servirent plus tard Ă  imprimer diffĂ©rents textes Ă  l’aide 

de  types  de  caractĂšres locaux.  Selon  un  historien  indien,  Doctrina  Christiana 

fut le premier texte imprimĂ© en Asie comportant des caractĂšres locaux tamouls. 

background image

100

Mesurer la diversitĂ© linguistique sur Internet

La deuxiĂšme page du texte nous indique l’approche retenue pour la localisation 

linguistique de la technologie en caractĂšres d’impression tamoule. Bien que cette 

langue comporte environ 246 syllabes en tout, des Ă©chantillons de types de carac-

tĂšres relevĂ©s seulement Ă  la deuxiĂšme page du livre en contiennent plus de cent 

cinquante. Un jĂ©suite en mission sur la cĂŽte du Malabar au 17

e

 siĂšcle Ă©crivit une 

lettre Ă  Rome, dans laquelle il dĂ©plorait Â« j’essaie depuis longtemps d’imprimer 

des textes dans la langue et les caractĂšres d’imprimerie locaux, mais sans succĂšs. 

Ceci est attribuable au fait que nous devons forger plus de 600 types de caractĂšres 

diffĂ©rents ici sur les cĂŽtes du Malabar, plutĂŽt que seulement 24 comme c’est le cas 

Ă  Rome » (Priolkar, 1958).

Doctrina fut traduite en langue tagalog en 1593 Ă  Manille, alors le cen-

tre des activitĂ©s coloniales espagnoles de l’époque. Il semble toutefois que cette 

traduction s’accompagna aussi de translittĂ©ration. La version actuelle de la Doc-

trina en tagalog s’appuya sur trois approches : la langue tagalog avec caractĂšres 

d’imprimerie tagalog ; la langue tagalog avec caractĂšres d’imprimerie latins ; et 

la langue espagnole avec caractĂšres d’imprimerie latins. Dans le siĂšcle qui suivit 

l’introduction de la technologie d’impression Ă  Manille, la premiĂšre approche a 

complĂštement disparu au proïŹ t des deux derniĂšres approches. Et ïŹ nalement, les 

caractĂšres  d’imprimerie  tagalog  furent  complĂštement  oubliĂ©s,  mĂȘme  parmi  la 

population locale (Hernandez, 1996). Un timbre-poste Ă©mis par le service postal 

des Philippines en 1995 reprĂ©sente le caractĂšre d’imprimerie tagalog comme un 

motif  de leur hĂ©ritage culturel maintenant disparu.

Ces deux faits historiques nous enseignent que lorsque la localisation lin-

guistique n’est pas effectuĂ©e de maniĂšre convenable, l’émergence de la nouvelle 

technologie risque de dĂ©truire le systĂšme d’écriture de la culture elle-mĂȘme. 

Normes de codage comme pierre angulaire de la localisation 

linguistique 

Cette division est certainement attribuable Ă  plusieurs facteurs, de nature Ă©cono-

mique,  politique,  sociale,  etc.  Mais  d’un  point  de  vue  technique,  la  localisation 

linguistique  devrait  ĂȘtre  le  principal  facteur.  Tel  que  clairement  Ă©noncĂ©  dans 

la  lettre  du  jĂ©suite  Ă   Rome,  Ă©crite  il  y  a  quatre  siĂšcles  (et  citĂ©e  en  exergue  Ă   la 

premiĂšre  page  de  cet  article),  les  pionniers  des  technologies  de  l’information  Ă  

l’ùre de la typographie devaient surmonter des difïŹ cultĂ©s semblables par nature 

background image

101

4. Perspectives alternatives

Ă  celles rencontrĂ©es de nos jours par les ingĂ©nieurs en informatique qui doivent 

effectuer  la  localisation  linguistique  des  technologies  pour  diffĂ©rents  caractĂšres 

d’écriture. Le principal obstacle des langues utilisant des caractĂšres d’écriture non 

latins est certes le manque (ou l’absence) de disponibilitĂ© des normes de codage 

appropriĂ©es. C’est la raison pour laquelle les crĂ©ateurs du site Web UDHR doi-

vent  convertir  le  texte  non  encodable  en  format  PDF  ou  en  images.  Si  l’on  se 

rĂ©fĂšre aux rĂ©pertoires internationaux reconnus de sĂ©quences de codages, comme 

le  IANA  Registry  of   character  codes  (IANA,  2005)  ou  le  ISO  International 

Registry  of   Escape  Sequences  (IPSJ/ITSCJ,  2004),  on  ne  peut  trouver  aucune 

sĂ©quence de codage pour ces langues pouvant avoir Â« passĂ© Ă  travers les mailles 

du ïŹ let ». Il est Ă  noter que beaucoup de normes de codage de caractĂšres Ă©tablies 

au niveau national se retrouvent aussi dans plusieurs langues. Ces normes sont 

identiïŹ Ă©es comme Ă©tant nationales. Concernant la famille de systĂšmes d’écriture 

indiens, la premiĂšre norme nationale indienne fut annoncĂ©e en 1983 et appelĂ©e 

Indian  Standard  Script  Code  pour  l’  Information  Interchange  (ISSCII).  Par  la 

suite en 1991, elle fut amendĂ©e et devint la deuxiĂšme version (norme nationale IS 

13194) utilisĂ©e Ă  l’heure actuelle en Inde. Cependant, bien qu’il existe des normes 

nationales,  des  vendeurs  de  matĂ©riel  informatique,  des  dĂ©veloppeurs  de  polices 

de caractĂšres et mĂȘme des usagers ont crĂ©Ă© leurs propres tableaux de codes de 

caractĂšres, ce qui entraĂźne inĂ©vitablement une situation chaotique. La crĂ©ation de 

ces supposĂ©es sĂ©quences de codage exotique ou de codage interne local fut par-

ticuliĂšrement favorisĂ©e par la popularitĂ© des outils de dĂ©veloppement conviviaux 

de polices de caractĂšres. Bien que les systĂšmes d’application dans ces domaines 

ne soient pas autonomes et soient largement diffusĂ©s sur le Web, la nĂ©cessitĂ© d’une 

standardisation n’a pas fait l’objet d’une attention sĂ©rieuse de la part des usagers, 

vendeurs  et  dĂ©veloppeurs  de  polices  de  caractĂšres.  Cette  situation  chaotique 

s’explique  aussi  par  l’absence  d’associations  professionnelles  et  d’organismes  de 

rĂ©glementation  gouvernementale.  Aruna  Rohra  et  Ananda  of   Saora  Inc.,  ont 

prĂ©parĂ© une Ă©tude intĂ©ressante (voir : http://www.gse.uci.edu/markw/languages.

html), qui a recueilli des documents linguistiques de langues indiennes. L’étude a 

dĂ©couvert 15 sĂ©quences de codage diffĂ©rentes sur les 49 sites Web tamoul visitĂ©s 

(Aruna et Ananda, 2005).

UCS/Unicode

La  premiĂšre  version  du  Universal  Multiple-Octet  Coded  Character  Set  (UCS, 

ISO/IEC  10646)  fut  publiĂ©e  en  1993.  L’Unicode,  initialement  mis  au  point  Ă  

background image

102

Mesurer la diversitĂ© linguistique sur Internet

titre de consortium industriel, est maintenant synchronisĂ© Ă  la rĂ©vision de UCS. Il 

s’agit rĂ©ellement d’un effort valable pour Ă©liminer les situations chaotiques. Mais 

il n’a pas encore acquis un statut dominant, du moins en Asie. Notre plus rĂ©cente 

Ă©tude rĂ©vĂšle que la pĂ©nĂ©tration du codage UTF-8 est limitĂ©e Ă  seulement 8,35 % 

de toutes les pages Web sous ccTLD asiatique (Mikami et autres, 2005). Les dix 

premiers et les dix derniers ccTLDs sont indiquĂ©s au Tableau 5. MĂȘme si l’on 

prĂ©voit que la vitesse de migration sera Ă©levĂ©e, le processus doit ĂȘtre Ă©troitement 

surveillĂ©. 

Tableau 5. Ratio d’usage UTF-8 des pages Web par ccTLD

CcTLD

nom

ratio

ccTLD

nom

ratio

Tj

Tadjikistan

92,75 %

uz

Ouzbékistan

0,00 %

Vn

Vietnam

72,58 %

tm

Turkménistan

0,00 %

Np

NĂ©pal

70,33 %

sy

Syrie

0,00 %

Ir

Iran

51,30 %

mv

Maldives

0,00 %

Tp

Timor oriental

49,40 %

la

Lao

0,01 %

Bd

Bangladesh

46,54 %

ye

YĂ©men

0,05 %

Kw

KoweĂŻt

36,82 %

mm

Myanmar

0,07 %

Ae

États Arabes Unis

35,66 %

ps

Palestine

0,12 %

Lk

Sri Lanka

34,79 %

bn

Brunei

0,36 %

Ph

Philippines

20,72 %

kg

Kirghizstan

0,37 %

Source : Projet d’observatoire des langues.

Projet d’observatoire des langues - Objectifs

Le Projet d’observatoire des langues (LOP) fut crĂ©Ă© en 2003 (UNESCO, 2004) 

aïŹ n  de  reconnaĂźtre  l’importance  de  surveiller  le  niveau  d’activitĂ©  linguistique 

dans l’espace cybernĂ©tique. On prĂ©voit que le Projet d’observatoire des langues 

sera un outil pour Ă©valuer le niveau d’usage de chaque langue sur le Web. De 

background image

103

4. Perspectives alternatives

façon  plus  spĂ©ciïŹ que,  le  projet  devrait  fournir  pĂ©riodiquement  un  proïŹ l  statis-

tique  des  langues,  caractĂšres  d’écriture  et  sĂ©quences  de  codage  dans  l’espace 

cybernĂ©tique. Lorsque cet observatoire sera pleinement fonctionnel, on sera en 

mesure  de  rĂ©pondre  aux  questions  suivantes :  combien  de  langues  diffĂ©rentes 

retrouve-t-on dans l’univers virtuel ? Quelles langues sont absentes de cet uni-

vers  virtuel  ?  Combien  de  pages  Web  sont  rĂ©digĂ©es  dans  une  langue  donnĂ©e, 

par  exemple  le  pashto  ?  Combien  de  pages  Web  sont  rĂ©digĂ©es  en  caractĂšres 

d’écriture  tamoule  ?  Quels  types  de  sĂ©quences  de  codage  sont  utilisĂ©s  pour  le 

codage d’une langue donnĂ©e, par exemple le berbĂšre ? Ă€ quelle vitesse Unicode 

remplace-t-il les sĂ©quences de codage conventionnelles et dĂ©veloppĂ©es localement 

sur Internet ? En plus de recueillir ces informations, on prĂ©voit que le projet fera 

une proposition pour corriger la situation actuelle, tant au niveau technique que 

des politiques.

Projet Alliance

À  l’heure  actuelle,  plusieurs  groupes  d’experts  collaborent  Ă   l’Observatoire 

des  langues  Ă   l’échelle  internationale.  Les  organisations  fondatrices  incluent : 

l’UniversitĂ©  de  la  technologie  de  Nagaoka  au  Japon  ;  l’UniversitĂ©  des  Ă©tudes 

Ă©trangĂšres de Tokyo au Japon ; l’UniversitĂ© Keio au Japon ; l’UniversitĂ© de la 

technologie de la Malaisie, en Malaisie ; l’UniversitĂ© Miskolc en Hongrie ; le pro-

jet de dĂ©veloppement technologique des langues indiennes relevant du ministĂšre 

indien des technologies de l’information ; ainsi que le Laboratoire de recherche 

en  communications  de  la  ThaĂŻlande.  Le  projet  est  ïŹ nancĂ©  par  l’Agence  japo-

naise de science et de technologie, en vertu du programme RISTEX (RISTEX, 

2005). L’UNESCO appuie ofïŹ ciellement le projet depuis sa crĂ©ation. Parmi les 

principales composantes techniques de l’Observatoire des langues, on retrouve 

une puissante technologie de robot Web 

(Web crawler)

 ainsi qu’une technologie 

d’identiïŹ cation des propriĂ©tĂ©s linguistiques (Suzuki et autres, 2002). La techno-

logie de robot Web, appelĂ©e UbiCrawler (Boldi et autres, 2004), est extensible 

et  entiĂšrement  distribuĂ©e  grĂące  aux  efforts  conjoints  de  dĂ©veloppement  du 

dĂ©partement  des  sciences  informatiques  de  l’UniversitĂ©  de  Milan  ainsi  que  de 

l’Institut d’informatique et de tĂ©lĂ©matique du Conseil de recherche national ita-

lien. Cette technologie constitue un puissant moteur de collecte de donnĂ©es pour 

l’observatoire des langues. Pour de brĂšves descriptions des efforts conjoints du 

LOP et de l’équipe UbiCrawler, voir UNESCO WebWorld News, 23 fĂ©v. 2004 

(UNESCO, 2004).

background image

104

Mesurer la diversitĂ© linguistique sur Internet

Conclusion

Dans  cet  article,  nous  avons  soulignĂ©  l’importance  de  surveiller  dans  l’espace 

cybernĂ©tique  le  comportement  et  les  activitĂ©s  des  diffĂ©rentes  langues  parlĂ©es  Ă  

travers le monde. Le Projet d’observatoire des langues (LOP) permet une mĂ©thode 

perfectionnĂ©e  pour  comprendre  et  surveiller  les  langues.  Le  consortium  LOP 

veut contribuer Ă  sensibiliser davantage le monde entier aux langues existantes et 

celles en voie de disparition, et appliquer aussi des mesures prĂ©ventives dans ce 

dernier cas. Pour que ces efforts rĂ©ussissent, l’Observatoire se veut aussi le point 

central de dĂ©veloppement du capital humain, tout autant que le dĂ©positaire des 

diffĂ©rentes ressources linguistiques. L’accumulation de ces ressources numĂ©riques 

par la recherche et le dĂ©veloppement aidera les pays en voie de dĂ©veloppement 

ainsi que les communautĂ©s rĂ©gionales Ă  acquĂ©rir la capacitĂ© et l’habiletĂ© requises 

pour faire migrer leurs langues autochtones dans l’espace cybernĂ©tique, en vue 

d’éviter la disparition de leur hĂ©ritage national. 

Références

Aruna,  R.  &  Ananda,  P.  2005.  Collecting  Language  Corpora:  Indian  Languages. 

The  Second 

Language Observatory Work Shop Proceedings.

 Tokyo University of  Foreign Studies, Tokyo.

Boldi, P., Codenotti, B., Santini, M., & Vigna, S. 2004. UbiCrawler: A scalable fully distributed 

web crawler. 

Software: Practice & Experience,

 Vol. 34, No. 8, pp.711-726.

Gordon, R. 2005. 

Ethnologue: Languages of  the World 15th Edition.

 (http://www.ethnologue.com/)

Hernandez, Vincente S. 1996. 

History of  Books and Libraries in the Philippines: 

Manila, The National 

Commission for Culture and the Arts, pp. 24-31.

IANA. 2005. 

Character Sets.

 (http://www.iana.org/assignments/character-sets)

IPSJ/ITSCJ. 2004. 

International Register of  Coded Character ets to be used with Escape Sequences.

(

http://www.itscj.ipsj.or.jp/ISO-IR/)

((

Mikami,  Y.,  Zavarsky,  P.,  Zaidi,  M.,  Rozan,  A.,  Suzuki,  I.,  ?akahashi,  M.,  Maki,  T.,  Ayob, 

I.N., Boldi, P., Santini, M. & Vigna, S. 2005. The Language Observatory Project (LOP). 
P

roceedings  of   the  Fourteenth  International  World  Wide  eb  Conference,

  May  2005.  Chiba,  Japan. 

pp.990-991.

Lunde. P. 1981. 

Arabic and the Art of  Printing.

 Saudi, Aramco World.

Priolkar,  A.  K.  1958. 

The  Printing  Press  in  India  -  Its  Beginning  and  Early  Development. 

Bombay, 

Marathi Samshodhana Mandala. pp.13-14.

background image

105

4. Perspectives alternatives

RISTEX. 2005. (http://www.ristex.jp/english/top_e.html)

Suzuki, I., Mikami, Y., Ohsato, A. & Chubachi, Y. 2002. A language and character set determi-

nation method based on N-gram statistics, ACM 

Transactions on Asian Language Information 

Processing,

 Vol. 1, No. 3, pp.270-279.

UNESCO. 2004. Parcourir le cyberespace Ă  la recherche de la diversitĂ© linguistique. 

UNESCO WebWorld News, 23rd Feb. 2004.

(http://portal.UNESCO.org/ci/en/ev.php-URL_ID=14480&URL_DO=DO_TOPIC&URL_SECTION=201.html)

UNHCHR. 2005. 

Universal Declaration of  Human Rights.

(http://www.unhchr.ch/udhr/navigate/alpha.htm)

background image
background image

107

4. Perspectives alternatives

b. Une note sur les langues africaines

sur la Toile mondiale

Xavier Fantognan

Aperçu

Les  Cahiers  du  RFAL  n°  23  Â« Traitement  informatique  des  langues  africai-
nes Â» soulignent que le nombre de langues africaines est estimĂ© Ă  environ 2000, 
qui reprĂ©sente un tiers des langues du monde. C’est donc un patrimoine et une 
richesse qui mĂ©ritent qu’on y prĂȘte attention. Aujourd’hui, le cyberespace peut 
permettre Ă  toutes les langues de participer d’ĂȘtre de vĂ©ritables instruments de 
communication Ă  grande Ă©chelle. Cependant, toutes les langues du monde ne 
font  pas  usage  et  ne  proïŹ tent  pas  de  l’opportunitĂ©  que  reprĂ©sente  cet  espace. 
Bien  Ă©videmment  pour  y  accĂ©der,  il  faut  avoir  fait  l’objet  d’un  traitement 
informatique,  traitement  qui  relĂšve  de  l’amĂ©nagement  linguistique.  DĂšs  lors, 
la premiĂšre question que l’on se pose ici se rapporte Ă  l’utilisation des langues 
africaines  dans  le  cyberespace.  Marcel  Diki-Kidiri  et  Edema  Atibakwa,  dans 
« Les  langues  africaines  sur  la  Toile  Â»,  explorent  plus  de  3  000  sites  pour  ne 
retenir que ceux qui traitent des langues africaines. De leur analyse, on retient 
qu’il  existe  bien  une  abondante  documentation  sur  les  langues  africaines  sur 
la Toile, mais trĂšs peu de sites utilisent une langue africaine comme langue de 
communication.  Bien  que  de  nombreux  facteurs  puissent  ĂȘtre  pris  en  compte 
pour expliquer cet Ă©tat des faits, deux facteurs dominants seraient l’inexistence 
de  cybercommunautĂ©s  linguistiques  capables  d’intensiïŹ er  leurs  Ă©changes  dans 
leurs langues via la Toile et l’absence d’un traitement informatique concluant 
des langues africaines. 

Cette  conclusion  sera  modĂ©rĂ©e,  nuancĂ©e,  voire  corrigĂ©e  par  une  Ă©tude 

diffĂ©rente faite par Gilles Maurice de Schryver et Anneleen Van der Veken, Â« Les 
langues africaines sur la Toile : Ă©tude des cas haoussa, somali, lingala et isixhosa Â». 
Ces auteurs ont explorĂ© plutĂŽt les forums de discussion pour y dĂ©couvrir un taux 
d’utilisation tout Ă  fait satisfaisant de trois langues africaines largement diffusĂ©es : 
le kiswahili, le hausa et le lingala. 

background image

108

Mesurer la diversitĂ© linguistique sur Internet

Les principaux enseignements qu’on peut retenir de l’étude du RIFAL sont les 

suivants :

—  Les langues africaines apparaissent sur la Toile beaucoup plus comme 

des objets d’étude (mention, documentation, description, Ă©chantillons, 

textes, cours) que comme des vĂ©hicules de communication ;

—  La  langue  de  communication  utilisĂ©e  pour  parler  des  langues  afri-

caines  est  trĂšs  largement  l’anglais,  mĂȘme  pour  les  langues  en  zone 

francophone ;

—  Les cours de langues africaines sont beaucoup trop rares sur la Toile. 

Ce qui entrave la possibilitĂ© de dĂ©velopper des cybercommunautĂ©s de 

locuteurs utilisant les langues africaines comme vĂ©hicules de commu-

nication via l’Internet ;

—  Les produits logiciels ou les solutions informatiques intĂ©grant en stan-

dard des polices de caractĂšres pour toutes les langues africaines sont 

rarement proposĂ©s sur les sites.

Pour corriger cette situation, il y a donc lieu de promouvoir :

—  la  multiplication  des  sites  bilingues  (ou  multilingues)  comportant  le 

français ou l’anglais et au moins une langue africaine comme langues 

de communication ;

—  une plus grande diffusion de la documentation sur les langues africai-

nes, car cette documentation existe mais n’est pas systĂ©matiquement 

diffusĂ©e sur la Toile ;

—  les cours de langues africaines de qualitĂ© Ă  diffuser sur la Toile ;

—  le dĂ©veloppement et la diffusion de produits logiciels ou de solutions 

informatiques facilitant l’écriture des langues africaines et leur utilisa-

tion normale et courante dans le cyberespace.

Nous  ne  pouvons  plus  dire  aujourd’hui  que  les  langues  africaines  ne  sont  pas 

prĂ©sentes  sur  la  Toile  mondiale.  Il  existe  beaucoup  de  documentations  sur  les 

background image

109

4. Perspectives alternatives

langues africaines sur la Toile mais trĂšs peu de textes sont Ă©crits en langues afri-

caines et pourquoi ? Le manque de motivations parmi les Africains Ă  Ă©crire dans 

leur propre langue est une des raisons que l’on peut citer pour expliquer le relatif  

insuccĂšs des langues africaines sur la Toile. Le cybernaute qui s’exprime sur la 

Toile veut ĂȘtre lu et compris, il va donc Ă©crire dans une langue connue par le plus 

grand nombre de gens. 

En effet, une grande partie des textes en langues africaines trouvĂ©s sur la 

Toile n’a pas Ă©tĂ© Ă©crit par des Africains, comme nombre de documents religieux 

ou  de  textes  destinĂ©s  Ă   l’enseignement.  Des  forums  oĂč  des  Africains  communi-

quent  avec  d’autres  Africains,  en  langues  africaines,  sont  l’exception  et  non  la 

rĂšgle.

Microsoft a annoncĂ© que Windows et OfïŹ ce seront prochainement traduits 

en langage Swahili. Le Kiswahili est sans doute la langue la plus parlĂ©e d'Afrique. 

PrĂšs de 100 millions de personnes parlent cette langue, en Afrique et dans les Ăźles 

de l'OcĂ©an Indien. Avant de passer Ă  la traduction proprement dite, les linguistes 

de Microsoft devront Ă©tablir un glossaire commun aux diffĂ©rents dialectes issus du 

Kiswahili. Microsoft prĂ©voit aussi de traduire ses logiciels dans d'autres langues 

africaines, notamment les langues Hausa et Yoruba.

Si les intentions de Microsoft semblent bonnes, il est tout de mĂȘme inquiĂ©-

tant  de  constater  que  les  logiciels  de  Microsoft  seront  la  seule  alternative  des 

Swahili qui ne parlent pas d'autres langues. En effet, les logiciels libres traduits en 

Kiswahili ne sont pas lĂ©gions. EspĂ©rons que les efforts de Microsoft pour la stan-

dardisation des langues africaines proïŹ teront aussi Ă  Linux et aux logiciels libres.

Dans  ce dernier cas,  celui des logiciels libres, un  travail considĂ©rable  est 

en  cours  en  Afrique.  Au  Burkina-Faso,  les  langues  comme  le  moorĂ©,  le  dioula 

connaissent une localisation avec Open OfïŹ ce. Le mĂȘme travail est en cours au 

Mali avec le bambara, au BĂ©nin avec le fongbĂ©, le yoruba, le mina et le dendi. 

Le  formidable  travail  Ă©laborĂ©  avec  l’amharique  et  son  alphabet  illustre  de  la 

possibilitĂ©  de  rendre  plus  efïŹ cace  la  recherche  sur  l’informatisation  des  langues 

africaines.  La  dĂ©marche  de  UNICODE  pour  la  standardisation  de  l’alphabet 

N’ko rĂ©conforte plus d’un.

Cependant, de vĂ©ritables questions restent posĂ©es Ă  savoir que les questions 

orthographiques  et  la  normalisation  des  langues  africaines  ne  sont  pas  encore 

background image

110

Mesurer la diversitĂ© linguistique sur Internet

rĂ©solues.  Beaucoup  de  langues  sont  toujours  transcrites  phonĂ©tiquement  et  le 

risque de voir chaque langue disposer de son alphabet n’est plus Ă  Ă©carter.

Si l’Afrique dispose de 2000 langues environ, seulement 400 environ d’en-

tre elles ont Ă©tĂ© dĂ©crites. Il en reste 1600 qui n’ont pas bĂ©nĂ©ïŹ ciĂ© d’études sĂ©rieuses. 

Aucune de ces langues aujourd’hui n’a d’audience sur le Web pas plus les 400 qui 

ont connu une description mais qui souffrent d’enrichissement en vue de devenir 

de vĂ©ritables langues vivantes sur la Toile mondiale.

Références

Diki-Kidiri M., Don D., Dimo-Lexis, Dictionnaires monolingues et Lexiques spĂ©cialisĂ©s, Outils 

logiciels pour linguiste, CNRS-LACITO, Paris.

Meloni  H. ;  1996.  Fondements  et  Perspectives  en  traitement  automatique  de  la  parole. 

AUPELF/UREF.

Morvan P. ; 2000. Dictionnaire de l’Informatique : Acteurs concepts, rĂ©seaux, Larousse, Paris.

Peek J., Lui C., et al ; 1997. SystĂšme d’information sur Internet : Installation et mise en Ć“uvre, 

Editions O’Reilly International Thomson.

Rint-RioïŹ l,  C.,  Chanard,  et  Diki-Kidiri,  M.  (hors  date)  Stage  de  formation  niveau1  et  3,

Document de travail : Introduction aux inforoutes par le dĂ©veloppement de la terminologie 
et des contenus textuels pour le français et les langues partenaires, Lumigny, Marseilles.

Gilles Maurice de Schryver et Anneleen Van der Veken ; 2003. Le traitement informatique des 

langues africaines, Cahiers du RIFAL, Revue coĂ©ditĂ©e par l’Agence de la francophonie et 
la CommunautĂ© française de Belgique.

background image

111

PrĂ©sentation des Auteurs

Xavier  Fantognon

  est  un  Ă©tudiant  en  linguistique  togolais  de  l'UniversitĂ©  du 

BĂ©nin (xavier@bj.refer.org) qui a dĂ©cidĂ© de se consacrer Ă  la mise en valeur des 

langues africaines sur l'Internet. Il a traduit l'interface de la plate forme libre SPIP 

en  langue  FongbĂ©  (http://www.spip.net/fon)  et  s’engage  Ă©galement  sur  le  front 

des activitĂ©s culturelles traditionnelles ou en forme de multimĂ©dia. 

Yoshiki Mikami

 est Professeur des Sciences du Management et de l’Informa-

tion Ă  l’UniversitĂ© Technologique de Nagaoka. Il a occupĂ© des postes de direction 

au MITI (standards et politiques d’information). Il est responsable du projet d'Ob-

servatoire  des  Langues  dans  l'Internet  (http://www.language-observatory.org/

- http://gii.nagaokaut.ac.jp/gii/- http://kjs.nagaokaut.ac.jp/mikami/).

John Paolillo

 est professeur associĂ© en science de l’information et en techniques 

informatiques; Professeur associĂ© adjoint en linguistique, School of  Library and 

Information Science. Ph.D., Linguistics, Stanford University, 1992, B.A., Linguis-

tics,  Cornell  University,  1986.  Domaines  de  recherche :  linguistique  informati-

que,  recherche  d’information,  communication  assistĂ©e  par  ordinateur,  modĂšles 

statistiques et mĂ©thodes quantitatives de recherche, sociolinguistique et acquis de 

langues, acquis en langues Ă©trangĂšres, langues de l’Asie du Sud.

Daniel Pimienta,

 français d’origine marocaine qui vit Ă  Saint Domingue, est le 

PrĂ©sident de l'Association RĂ©seaux & DĂ©veloppement (FUNREDES â€“ http://fun-

redes.org), une ONG qui travaille sur le terrain des TIC et dĂ©veloppement depuis 

1988. Funredes a conduit un certain nombre d'expĂ©rimentations sur le terrain en 

ce qui concerne les langues et les cultures, dans certains cas en collaboration avec 

l'Union Latine et/ou avec le soutien de l'Agence de la Francophonie. (http://fun-

redes.org/tradauto/index.htm/bamaktxt - http://funredes.org/lc).

Daniel Prado, 

un argentin qui vit Ă  Paris, est le Directeur du Programme de 

Terminologie  et  Industries  de  la  Langue  de  l'Union  Latine  (http://unilat.org/

dtil/), un organisme inter-gouvernemental de promotion des langues nĂ©olatines. 

Il gĂšre des statistiques sur la rĂ©alitĂ© dynamique des langues dans notre sociĂ©tĂ© et 

des informations sur les politiques linguistiques et terminologiques.

background image