Questions fréquemment posées à propos du génome humain



Les cellules des êtres vivants contiennent un programme d'instructions (le génome) leur permettant de se maintenir en vie ou de se reproduire. Les instructions de ce programme (les gènes) sont codées sous une forme chimique le long de molécules géantes, les molécules d'ADN qui forment les chromosomes. Le génome correspond l'ensemble des gènes d'un organisme, donc à l'ensemble de l'ADN ainsi qu'à l'ensemble des chromosomes.

Les instructions contenues dans l'ADN sont codées dans un alphabet chimique à 4 signes, les nucléotides (ou bases), qu'on symbolise par les lettres A, T, G et C. Les molécules d'ADN sont constituées de l'enchaînement de millions d'exemplaires de ces signes élémentaires tel un collier dont chaque perle est d'une couleur parmi 4 possibles. C'est l'ordre des bases dans chaque enchaînement qui constitue la forme de stockage de l'information biologique, de même que la succession des octets magnétiques permet le stockage d'informations dans un ordinateur. En d'autres termes, l'ADN est la mémoire chimique du vivant.

L'illustration ci-dessous représente l'analogie entre deux séquences d'égales longueurs (succession des lettres A, T, G et C) et les colliers de perles à 4 couleurs. L'ordre des bases (ou des perles) est différent dans ces deux séquences (ou colliers) ci-dessous, elles renferment donc une information différente.

Pour connaître les instructions que renferme une molécule d'ADN il est donc d'abord nécessaire de prendre connaissance de la succession (de l'ordre) des signes (la séquence) de l'enchaînement. Cette prise de connaissance est une sorte de lecture de l'information qu'on appelle séquençage. A la différence de la lecture d'un texte dont la compréhension est immédiate, la lecture ou séquençage de l'ADN nécessite une interprétation supplémentaire pour (1) identifier les instructions, (2) en comprendre le sens biologique.

La connaissance des instructions (gènes) est une étape indispensable à la compréhension des phénomènes biologiques au niveau cellulaire et moléculaire. Mais cette connaissance (la séquence) n'est que le point de départ d'une meilleure compréhension.

A mesure que progresse la compréhension des phénomènes biologiques, nous voyons apparaître des applications de plus en plus nombreuses dans les domaines de la médecine et des industries pharmaceutique, biotechnologique, agro-alimentaire, ainsi que dans d'autres domaines en prise directe avec les processus biologiques (agriculture, environnement). La séquence est donc le point de départ indispensable, mais non suffisant pour des applications dans ces domaines.

Un fragment d'ADN à séquencer est constitué de l'enchaînement de centaines d'exemplaires des 4 constituants élémentaires, les nucléotides (A, C, G et T) dans un ordre défini. Séquencer une telle molécule, c'est déterminer cet ordre.

Le principe utilisé consiste à réaliser à partir d'un point fixe, des copies partielles de la molécule, interrompues au hasard. On synthétise toutes les copies intermédiaires possibles à partir du point fixe.

Puis on les sépare selon leur taille par une migration électrophorétique dans un gel poreux. Ces gels permettent de séparer deux intermédiaires consécutifs qui ont une différence de taille d'un seul nucléotide. Si l'on peut identifier le nucléotide du point d'interruption sur chacune de ces copies partielles, de la plus petite à la plus grande, il devient possible de reconstituer la succession des nucléotides tout au long de la copie.

Dans la pratique, pour identifier les nucléotides terminaux, l'ADN à séquencer est recopié à l'aide d'un composé chimique qui provoquera l'interruption au hasard, mais systématiquement à la suite d'un seul des 4 nucléotides A, C, G ou T. On fera donc en parallèle 4 séries de copies. Dans chaque série, toutes les copies seront interrompues derrière un seul type de nucléotide, par exemple toutes les copies intermédiaires d'une série seront terminées par un A. En outre, le composé provoquant l'interruption est fluorescent pour pouvoir être détecté automatiquement à l'aide d'un système optique qui balaye le bas du gel d'électrophorèse dans les séquenceurs automatiques. Le signal obtenu est interprété par un programme informatique qui reconstituera la séquence originale du fragment d'ADN analysé. Un séquenceur automatique peut par opération unitaire, ou lecture, déterminer l'enchaînement de 500 à 1000 nucléotides.

On sait aujourd'hui lire une succession ou séquence de 500 à 1000 signes (ou bases) en une seule manipulation de séquençage ou lecture. Comme les molécules d'ADN sont beaucoup plus longues que les lectures, il est nécessaire de raccorder les lectures les unes aux autres. Pour pouvoir les raccorder on réalise des lectures redondantes. En procédant à la lecture d'un grand nombre de segments de petite taille on obtiendra des séquences qui se recouvrent en partie.

On procède ensuite à une comparaison des lectures ainsi obtenues de manière à reconnaître et aligner les parties séquencées plusieurs fois. Celles-ci pourront être reconnues, puisqu'elle correspondent à la même séquence. On peut ainsi aligner puis réassembler un certain nombre de lectures pour reconstituer des enchaînements beaucoup plus grands.

On pourra ainsi reconstituer la séquence de la totalité du fragment de départ. Cette opération d'assemblage, réalisée par des programmes informatiques, permet in fine de déterminer la séquence de molécules de plusieurs millions à plusieurs dizaines de millions de bases.

Pour des génomes comme le génome humain, il est nécessaire d'opérer avec une redondance d'un facteur 8 à 10 pour réassembler des fragments de grande taille. En d'autres termes, la séquence d'un grand fragment d'ADN nécessite de le réduire en petits segments (voir clonage moléculaire) puis de réaliser un nombre suffisant de lectures qui mises bout à bout couvrent 10 fois le fragment d'ADN qu'on veut séquencer. De plus, même à ce niveau de redondance, il subsiste quelques trous. Le nombre et la taille des trous seront d'autant plus importants, que le niveau de redondance des lectures sera faible.

Pour déterminer la séquence complète des grandes molécules (les chromosomes) qui renferment l'ensemble des gènes d'une espèce (génome) comme l'homme, il faut donc réaliser des dizaines de millions de manipulations de séquençage (lectures). Il est cependant possible d'obtenir une première ébauche avec un niveau de redondance moindre. Dans ce cas, les fragments réassemblés seront assez petits. Par exemple, avec un niveau de redondance de 5 x, on obtient pour le génome humain des fragments reconstitués d'environ 5000 bases. La séquence du génome ainsi obtenue sera donc en plusieurs centaines de milliers de morceaux.

Pour des raisons d'économie, il est beaucoup plus efficace de réaliser ces millions de manipulations à grande échelle dans des structures appropriées, les centres de séquençage, où le travail est organisé et en partie robotisé de manière à réaliser chaque jour plusieurs milliers ou dizaines de milliers de lectures à un coût bien moindre que dans les laboratoires de recherche traditionnels.

De tels centres se sont constitués aux Etats-Unis, au Royaume-Uni, au Japon, en Allemagne, en Chine et en France.

Au début des années 1990, la communauté scientifique internationale s'est fixé pour objectif le séquençage complet du génome humain - 23 paires de chromosomes, 3,5 milliards de nucléotides, soit, en caractères, le contenu de 2000 livres de 500 pages - pour le début du troisième millénaire. En raison de la taille de ce génome, les grands centres de séquençage financés par des moyens publics ont convenu de diviser le travail et de se charger individuellement de régions chromosomiques ou de chromosomes particuliers. Chaque centre s'engage à déposer les données dans des bases de données publiques dès leur obtention. (voir organisation)

Il a été décidé pour des raisons pratiques de procéder par étapes successives. Les objectifs de chaque étape permettent de répondre à des besoins spécifiques. Le besoin le plus urgent consiste à effectuer un inventaire des gènes du génome humain. La première étape du programme de séquençage a donc pour objectif de produire une ébauche du génome humain qui permet d'identifier la grande majorité des gènes. Cette démarche consiste à séquencer de grands fragments d'ADN ordonnées et chevauchants.

Cette ébauche reste cependant constituée d'un très grand nombre de fragments (plusieurs centaines de milliers) qui sont ordonnés par groupes de 20 à 30, chaque groupe correspondant à un des grands fragments de départ. Au total il y a environ 20000 groupes de 20 à 30 fragments de 5000 à 6000 bases chacun. Fin juin 2000, le consortium des centres de séquençage publics a réalisé 90% de l'ébauche de la séquence du génome humain.

La deuxième étape aura pour but (1) d'orienter et d'ordonner tous les fragments de chacun des 20000 groupes (2) de boucher les trous, souvent petits mais très nombreux (plusieurs centaines de milliers) et (3) d'avoir un niveau de qualité qui ne nécessitera pas de continuelles et coûteuses vérifications. Cette deuxième étape devrait être terminée pour 2003, mais la séquence complète de nombreux chromosomes sera obtenue bien avant.

Une société privée, Celera Genomics, s'est également donnée pour but de réaliser la séquence du génome humain.

Les objectifs à court terme (courant 2000) sont similaires : obtenir une ébauche non complète mais utilisable de la séquence du génome humain. Cette première version devra être améliorée par des données supplémentaires, de manière à obtenir une couverture aussi totale que possible et de bonne qualité de l'ensemble du génome. C'est un objectif que le projet public essaiera d'atteindre pour 2003. Celera Genomics n'a pas précisé ses intentions sur cet objectif.

Les stratégies suivies par les deux projets sont très différentes et complémentaires. Le projet public procède au séquençage de grands fragments préalablement ordonnés sur une carte. En raison de sa localisation sur une carte, la séquence d'un fragment est donc utilisable dès qu'elle est établie.

La société Celera Genomics a, quant à elle, proposé de séquencer le génome humain en s'appuyant sur une stratégie de séquençage aléatoire global qui ne passe pas par l'établissement préalable d'une carte de fragments ordonnés. Cette stratégie nécessite de disposer d'une grande quantité de données avant de pouvoir procéder à un assemblage valable de l'ensemble. Dans le cas du génome humain, il est nécessaire de s'appuyer sur plusieurs dizaines de millions de fragments. Celera a testé sa stratégie sur le génome de la mouche du vinaigre (la drosophile) avec succès et a publié en collaboration avec des laboratoires publics une séquence inachevée mais de bonne qualité du génome de la drosophile. Cette réalisation, a cependant nécessité de produire des séquences qui mises bout à bout couvrent 14 fois le génome de la drosophile. Celera n'envisage pas de produire une quantité équivalente de séquence du génome humain. Dans la stratégie utilisée par Celera, les fragments assemblés peuvent aussi être reliés les uns aux autres sous forme d'une ossature.

Le génome de la drosophile a pu être reconstitué sous forme d'une vingtaine d'ossatures non reliées. Pour l'assemblage de sa séquence du génome humain, la société Celera a utilisé les données du projet public qui est réalisé à partir d'une carte du génome pré-établie et donc très complémentaire. Cette combinaison des deux ensembles de données a permis à la société Celera de réaliser des ossatures de l'ordre du million de bases qui recouvrent la plus grande partie du génome, sans toutefois en préciser la fraction.

Depuis qu'il a appris à lire la séquence de l'ADN au cours des années 70, l'homme rêve de connaître son propre génome, même s'il n'est pas encore capable de connaître le sens de toutes les instructions contenues.

Toute une série de retombées résultant de l'interprétation et de l'exploitation de ces données sont attendues pour les décennies à venir. Les plus importantes de ces retombées se situent sur les plans médical et scientifique, sans oublier que les retombées scientifiques seront elles-mêmes à l'origine de la très grande majorité des nouvelles applications. Mais ces retombées ne seront pas immédiates et nécessiteront de nombreuses années de recherches. A l'inverse, ces recherches ne peuvent être entreprises que grâce à la séquence du génome.

La séquence du génome humain permettra en premier lieu de procéder à l'identification et à l'inventaire complet des gènes de l'homme. On connaît à ce jour environ 10000 à 12000 gènes. Les estimations les plus récentes faites au Genoscope donnent un nombre total de gènes humains compris entre 30000 et 35000, soit un nombre bien inférieur aux estimations antérieures.

Dans le cas des génomes d'organismes multicellulaires, l'identification des gènes ne découle pas immédiatement de l'examen de la séquence du génome. Elle nécessite en premier lieu des analyses à l'aide de programmes informatiques. Dans l'état actuel des connaissances, ces analyses restent imparfaites et nécessitent souvent une validation expérimentale. Même imparfaite, cette identification des gènes permet cependant de beaucoup mieux orienter les travaux de recherches aussi bien dans le domaine médical que fondamental. En orientant les travaux en aval, la séquence permet un gain de temps considérable.

Très souvent, des études de génétique permettent de définir un intervalle du génome (sur un chromosome) dans lequel on a localisé un gène responsable d'une maladie génétique. L'inventaire des gènes de l'intervalle en question (rendu possible par l'analyse de la séquence) permettra ensuite de choisir parmi ces gènes ceux qui ont le plus de chances (en raison des propriétés connues ou supposées des produits de ces gènes) d'être impliqués dans la pathologie et de commencer les travaux sur les meilleurs candidats.

Plusieurs milliers de gènes responsables demaladie génétique pourront ainsi être trouvés plus rapidement grâce à la séquence du génome. La connaissance de ces gènes permet de mettre au point un diagnostic à partir de l'ADN. Pour les maladies les plus graves, le diagnostic génétique peut être pratiqué avant la naissance dans les familles à risque. L'identification du gène responsable permet aussi de comprendre le mécanisme physiologique de l'apparition de la maladie et donc, dans certains cas, d'explorer de nouvelles possibilités thérapeutiques. C'est ainsi qu'un nouveau traitement de l'Ataxie de Friedreich directement issu de la connaissance du gène et de sa fonction a été développé récemment par une équipe française à l'Hôpital Necker.

Un grand nombre de maladies humaines ont une origine génétique ou en partie génétique. L'influence de cette composante sur la maladie est variable.

Pour de nombreuses maladies rares (comme la mucoviscidose ou la myopathie de Duchenne), une altération (mutation) dans un seul gène se manifestera en général par l'apparition d'une série de signes caractéristiques de la maladie, alors que pour la plupart des maladies communes telles que le diabète, l'hypertension, les maladies neuro-psychiatriques, etc., l'effet des variations des gènes est modulé par une influence exercée par le reste du génome et par le milieu environnant. C'est pourquoi on distingue d'une part les maladies purement génétiques rares, encore appelées mendéliennes ou monogéniques, dont l'apparition peut être prédite dès que l'on connaît le gène responsable (ou même seulement sa localisation) et, d'autre part, les maladies communes, dont l'origine est multifactorielle et pour lesquelles la présence d'un facteur de prédisposition chez un individu n'entraîne pas nécessairement l'apparition de la maladie.

Les maladies purement génétiques sont rares bien qu'il en existe beaucoup de différentes. A ce jour, on connaît environ un millier de gènes responsables de maladies génétiques. A l'inverse, on ne connaît que quelques gènes de prédisposition aux maladies communes.

Les maladies communes (diabète, maladies cardiovasculaires, maladies psychiatriques) ont aussi une composante génétique. Les facteurs de prédisposition à ces maladies pourront aussi être recherchés avec des chances de succès considérablement accrues par la connaissance de la séquence du génome humain.

Le projet génome humain a démarré au début des années 90. Il a commencé par une phase de cartographie, à laquelle les équipe françaises ont contribué de manière primordiale. Depuis 1996, il s'est engagé dans le séquençage qui est réalisé pour la plus grande partie par des équipes américaines et britanniques.

Un consortium public de centres de séquençage de 6 pays différents coordonne ses efforts. Le projet de séquençage public procède au séquençage des fragments couvrant chacun des 23 chromosomes. Chaque centre a annoncé les régions (chromosomes ou parties de chromosomes) qu'il avait l'intention de séquencer. Sur le plan international les objectifs retenus par les différents pays sont les suivants :

Etats-Unis55-60 %
Royaume-Uni 33 %
Japon 10 %
France 2,5 %
Allemagne 1,5 %
Chine 1 %

A ce jour, le travail réalisé par les centres de séquençage se répartit comme montré ci-dessous :

Deux chromosomes, les chromosomes 21 et 22, sont déjà entièrement séquencés. En raison de la réalisation prioritaire de l'ébauche décidée en 1999, le séquençage complet des autres chromosomes n'interviendra qu'après.

La contribution française porte essentiellement sur le chromosome 14. Ce travail est réalisé au Genoscope qui assure l'intégralité de la contribution française. Contrairement aux autres centres, le Genoscope réalise d'emblée une séquence dont les fragments réassemblés sont ordonnés et orientés et donc déjà plus complète que l'ébauche.

Il est encore difficile d'estimer quel sera le coût final du projet génome, notamment en raison du coût de la finition qui reste à accomplir pour plus de 80% du génome. Le coût de la première étape destinée à obtenir l'ébauche est d'environ 300 à 400 millions de dollars. Le coût final sera de l'ordre du double (700 millions de dollars).

La contribution française pour le séquençage sera de l'ordre d'un budget du Genoscope (80 MF du Ministère de la Recherche et de la technologie) (soit de l'ordre de 1,6% du coût final pour 2,5% de la séquence).

Abbréviation Centre
AECOM Albert Einstein College of Medicine
BCM Baylor College of Medicine
Beijing Human Genome Center, Institute of Genetics, Chinese Academy of Sciences
CGM Center for Genetics in Medicine (Perkin Elmer/Washinton Univ.)
GBF Gesellschaft fur Biotechnologische Forschung mbH
GS Genoscope
GTC GTC Sequencing Center
IMB Institute for Molecular Biotechnology, Jena, Germany
LAHGC Lita Annenberg Hazen Genome Center, Cold Spring Harbor
MPIMG Max Planck Institute for Molecular Genetics
JGI Joint Genome Institute, U.S. Department of Energy
JST Japan Science and Technology Corporation
RIKEN RIKEN Genome Sciences Center
SC The Sanger Centre
SDSTC Stanford DNA Sequencing and Technology Development Center
SHGC Stanford Human Genome Center
TIGR The Institute for Genome Research
UUGC University of Utah Genome Center
UOAGTC University of Oklahoma, Advanced Genome Technology Center
UTSW University of Texas, Southwestern Medical Center
UWGC University of Wasington Genome Center
UWMSC University of Wasington Multimegabase Sequencing Center
WIBR Whitehead Institute for Biomedical Research/MIT
WUGSC Washington University, Genome Sequencing Center
YMGC The National Yang Ming University Genome Center



webmaster@genoscope.cns.fr © Genoscope