génétique

(grec gennêtikos, de gennân, engendrer)

Lois de Mendel

Partie de la biologie qui étudie les lois de l'hérédité.

Historique

Les Grecs, plusieurs siècles avant Jésus-Christ, avaient imaginé que certaines caractéristiques physiques des individus, appelées aujourd'hui caractères, se transmettaient des parents aux enfants. Mais il fallut attendre le milieu du xix^e siècle , avec les travaux du moine autrichien Johann Mendel, pour que les premières lois qui régissent la transmission héréditaire des caractères soient établies, en 1865.

Les découvertes de Mendel. Ces travaux consistaient à croiser des pois de couleurs et de formes différentes et à observer les caractéristiques des pois obtenus d'une génération à l'autre. Des observations de Mendel découlent deux des notions fondamentales de la génétique : d'une part, celle de phénotype (ensemble des caractères physiques et biologiques d'un individu) et de génotype (ensemble des caractères inscrits dans le patrimoine génétique d'un individu, qu'ils se traduisent ou non dans son phénotype) ; d'autre part, celle de caractère dominant (n'ayant besoin, pour se manifester chez un enfant, que d'être transmis par un seul des parents) et de caractère récessif (qui doit être transmis par le père et la mère pour se manifester chez l'enfant). Cependant, les lois de l'hérédité définies par Mendel tombèrent dans l'oubli et ne furent redécouvertes qu'au début du xx^e s.

L'avènement de la biologie moléculaire. Dans les années 1900 William Bateson, Carl Correns, Erich von Tschermak et Hugo de Vries redécouvrent les lois de l'hérédité de Mendel et contribuent à leur diffusion. Puis ce fut la découverte des gènes, de leur localisation sur les chromosomes, notamment grâce aux travaux de Thomas Morgan sur la drosophile (1915), des mutations génétiques. À la fin de la Seconde Guerre mondiale, Oswald Avery, Colin MacLeod et Maclyn McCarty (1944) furent à l'origine de la génétique moléculaire en découvrant le rôle de l'ADN, dont la structure est établie aux débuts des années 1950 par les travaux de Rosalind Franklin, Maurice Wilkins, James Watson et Francis Crick ; la publication de Watson et Crick sur la structure en double hélice de l’ADN, qui marque la naissance de la génétique moléculaire, date de 1953.

Quelques années plus tard, François Jacob, Jacques Monod et André Lwoff montrent l'existence de mécanismes régulateurs génétiques. Les années suivantes voient l'accès direct au gène que l'on peut désormais extraire et manipuler.

Les techniques apparues dans les années 1980 (notamment la PCR, → amplification génique) ont permis des progrès considérables. Le premier séquençage complet du génome d'un être vivant (une bactérie) a été réalisé en 1995, suivi l'année suivante par celui de la levure, premier eucaryote dont on ait décrypté la totalité des 6 100 gènes. Le projet Génome humain, initié en 1990, s’est terminé en 2003 : les trois milliards de bases (qui forment quelque 30 000 gènes) qui constituent le génome de l’espèce humaine ont été séquencées.

Le premier résultat important de la génétique des populations a été, en 1908, la découverte par un mathématicien britannique, Godfrey Hardy, et un biologiste allemand, Wilhelm Weinberg, de la loi (loi de Hardy-Weinberg) selon laquelle les fréquences des divers génotypes sont liées à celles des gènes et qui expose que, d'une génération à la suivante, l'équilibre se maintient.

Pour en savoir plus, voir l'article dérive génétique.

Le trait le plus marquant de la génétique des populations depuis un quart de siècle est sans doute sa mathématisation croissante. Les recherches ont montré l'extrême polymorphisme des populations pour presque tous les caractères et que l'homogénéité des structures génétiques à laquelle on devrait théoriquement aboutir n'est pas atteinte. Le problème central de la génétique des populations reste celui de l'évolution du monde vivant.

Le support de l’information génétique

Chez certains virus (virus à ARN), l'information génétique est stockée dans des molécules d'ARN. Chez tous les autres organismes, depuis les virus à ADN jusqu'aux mammifères, dont l’homme, l'information génétique est stockée dans des molécules d'ADN. Chez les bactéries, l'ADN est présent sous forme d'un double brin unique, de forme circulaire, disposé à nu dans le cytoplasme (sans noyau). Dès que l'on s'élève dans l'échelle de l'évolution, le noyau s'individualise et contient plusieurs chromosomes qui stockent l'information génétique dans leur ADN.

L'expression génétique et son contrôle

Parmi les protéines, acteurs essentiels de la vie cellulaire, les régulateurs de transcription sont chargés de moduler l'expression des gènes pour répondre aux besoins du moment de la cellule et de l'organisme. La détermination de la structure tridimensionnelle d'un certain nombre de complexes ADN-régulateur de transcription a permis de visualiser comment ces protéines reconnaissent sélectivement leurs sites de fixation sur l'ADN. Les principes gouvernant cette reconnaissance mutuelle commencent à être compris, sans qu'on puisse parler d'un code à proprement parler.

Le contrôle de l'expression génétique

Le bon fonctionnement d'une cellule repose sur deux classes de macromolécules : les acides nucléiques (l'ADN, dépositaire de l'information génétique, et les ARN, impliqués dans la traduction de cette information) et les protéines (produits de la traduction de l'information). Les protéines présentent des activités variées : catalyse (enzymes), stockage de molécules (protéines de liaison), transport actif ou passif à travers les membranes (transporteurs, canaux), communications cellulaires (hormones peptidiques, récepteurs), architecture et mouvement (protéines du cytosquelette), reconnaissance du non-soi (anticorps)…

La relation universelle entre ces macromolécules s'exprime ainsi : toute protéine est codée par un gène, segment d'ADN constituant une unité fonctionnelle. Le nombre de gènes varie selon les organismes (de l'ordre de 2 500 chez les bactéries, 30 000 chez les mammifères). L'expression d'un gène aboutit à la synthèse d'une protéine spécifique. Chez les organismes pluricellulaires, toutes les cellules disposent du même stock de gènes, hérité d'une cellule initiale unique (l'œuf issu de la fécondation), et pourtant elles ne sont pas toutes identiques, parce qu'elles sont capables de synthétiser plus ou moins – voire pas du tout – les différentes protéines codées dans le génome, en fonction de leur type cellulaire et du stade de développement de l'organisme. Ainsi, l'hémoglobine est produite dans les précurseurs des globules rouges, les anticorps dans les lymphocytes B, l'actine et la myosine dans les cellules du muscle, la kératine dans celles de l'épiderme. Par ailleurs certaines protéines sont fabriquées uniquement au stade embryonnaire, les phénomènes de développement et de différenciation reposant sur l'expression différentielle d'un matériel génétique commun. De même, chez les organismes adultes, le cycle cellulaire fait appel au contrôle de l'expression des gènes. De nombreuses maladies, dont le cancer, les infections virales, les désordres immunitaires et les réactions allergiques, ainsi que les malformations au cours du développement embryonnaire, découlent de la production excessive ou insuffisante de certaines protéines. Le contrôle de l'expression génétique est effectué au niveau de la transcription de l'ADN par une famille de protéines, les régulateurs de transcription ; ceux-ci sont codés par les gènes régulateurs, qui pourraient représenter de 5 à 10 % du nombre total de gènes chez les eucaryotes supérieurs. Il apparaît que de nombreux désordres génétiques proviennent de mutations affectant les gènes régulateurs.

La transcription des gènes

L'ADN (acide désoxyribonucléique) est formé d'une suite linéaire de millions de nucléotides formés chacun de l'enchaînement d'un groupement phosphate et d'un sucre, le désoxyribose, portant une base pouvant être une adénine, une cytosine, une guanine ou une thymine (A, C, G ou T) ; l'information réside dans la suite des bases (la séquence nucléotidique). L'ADN comporte en réalité deux brins complémentaires de directions opposées enroulés l'un autour de l'autre (structure en double hélice élucidée par Watson et Crick en 1953). On peut la décrire comme un escalier en colimaçon, où les deux chaînes sucres-phosphates constituent les rampes, et les bases, tournées vers l'intérieur et se faisant face deux à deux, les marches. La complémentarité s'exprime par le fait qu'une adénine s'apparie toujours avec une thymine et une guanine toujours avec une cytosine (on ne trouve donc que des « marches » A-T, T-A, C-G ou G-C). Elle constitue le fondement non seulement de la perpétuation de l'information génétique (lors de la réplication), mais aussi de la transcription : la double hélice est alors juste déroulée transitoirement pour permettre à l'ARN polymérase de synthétiser selon les règles de l'appariement un brin d'ARN messager complémentaire du brin non codant, qui sert de matrice sur toute la région codante du gène considéré. L'ARN messager possède la même séquence que le brin codant d'ADN de départ, mais comporte des riboses au lieu des désoxyriboses et l'uracile (U) à la place de la thymine.

La question est de savoir ce qui détermine le début et la fin de la transcription par la polymérase. Pour le démarrage, des séquences signal, présentes au niveau du promoteur (partie du gène située en amont de la région codante), servent à positionner la polymérase. Chez les bactéries, les promoteurs contiennent très souvent la séquence TTGACA à 35 paires de bases et la séquence TATAAT à 10 paires de bases en amont du point de départ. Chez les eucaryotes, dans la très grande majorité des cas, la polymérase est positionnée par la fixation de la protéine TBP (en anglais, TATA-binding protein) à un court segment du promoteur contenant aussi la séquence TATA (la « boîte TATA »), mais situé cette fois à 25 paires de bases en amont du point de départ. Au point de départ proprement dit se trouve un autre élément de signalisation, le site initiateur, mais dont la séquence est beaucoup moins conservée. Une fois initiée, la transcription continue par élongation de l'ARN messager jusqu'au terminateur, situé juste après la région codante, et qui contient un signal de fin d'élongation.

La régulation de la transcription

Cette tâche est dévolue aux régulateurs de transcription, que l'on peut classer en deux grands groupes : les répresseurs et les activateurs. Chacun contrôle toute une catégorie de gènes possédant dans la région régulatrice une même séquence de reconnaissance à laquelle il se lie spécifiquement. Chez les bactéries, la régulation est souvent fondée sur la répression : un répresseur est fixé sur son site de liaison, l'opérateur, situé à proximité du promoteur, gênant ainsi la fixation de la polymérase. La répression est levée par la présence d'un inducteur dans le milieu, qui agit en dissociant le répresseur de l'opérateur, permettant à la transcription de démarrer.

La situation est beaucoup plus complexe chez les eucaryotes, où le niveau de transcription d'un gène résulte de l'interaction globale de l'ensemble des activateurs et répresseurs qui le contrôlent avec la machinerie transcriptionnelle. Les activateurs facilitent l'assemblage d'un complexe de préinitiation comprenant une dizaine d'entités multi-protéiques appelées « facteurs de transcription ». Les répresseurs empêchent l'ARN polymérase de démarrer la transcription, entre autres par compétition avec les facteurs de transcription ou les activateurs pour la liaison à l'ADN. La transcription de chaque gène est contrôlée spécifiquement, chacun étant régulé par une combinaison unique d'activateurs et de répresseurs.

De plus, chez les eucaryotes, l'ADN est stocké de manière très compacte au sein du noyau sous forme de fibre de chromatine, long chapelet de grains de forme cylindrique, les nucléosomes, constitués chacun d'un cœur de protéines basiques, les histones, autour duquel la double hélice est elle-même enroulée sur deux tours. Au sein de la chromatine, les facteurs de transcription et les protéines régulatrices n'ont pas accès aux séquences d'ADN qu'elles reconnaissent spécifiquement, ce qui constitue une manière basale de réprimer l'expression des gènes. Il faut l'intervention de protéines capables de remodeler la chromatine au niveau de ces sites régulateurs pour les rendre accessibles à la machinerie transcriptionnelle.

La reconnaissance de sites spécifiques de l'ADN

Comment les régulateurs de transcription reconnaissent-ils leurs gènes cibles au sein d'un génome qui en compte plus d'une centaine de milliers ? Des études de mutagenèse ont montré que chacune de ces protéines se lie à l'ADN, le plus souvent en amont de la partie codante des gènes dont elle contrôle l'expression, grâce à la présence d'une séquence d'une dizaine de paires de bases qui lui sert à la fois de site de reconnaissance spécifique et de point d'ancrage. Pour favoriser la formation du complexe ADN-protéine au niveau de la séquence correcte par rapport à toutes les autres, il faut une complémentarité structurale et une stabilisation énergétique, réalisée essentiellement au moyen de liaisons hydrogène et de Van der Waals. La mutation d'une seule paire de bases du site de liaison ou d'un seul aminoacide de la protéine peut suffire à diminuer considérablement l'association sélective des deux.

La double hélice présente, entre les deux chaînes enroulées l'une autour de l'autre, un petit et un grand sillon ; le second, plus large, offrant un meilleur accès aux bases enfouies au cœur de la structure et un plus grand pouvoir discriminant entre les différentes paires de bases, est utilisé le plus souvent dans l'interaction avec la protéine. Dans de très nombreux cas, la protéine utilise un élément de sa propre structure, une hélice α : celle-ci va se loger dans le grand sillon à la manière d'une « tête de lecture », les chaînes latérales de certains aminoacides de l'hélice contactant directement les bases de la séquence cible. Cette « hélice de reconnaissance » fait toujours partie d'un motif structural (le « domaine de liaison ») permettant de la stabiliser et de renforcer l'association avec le bon segment d'ADN, en particulier grâce à des liaisons électrostatiques avec les groupements phosphates. Actuellement, une centaine de structures de complexes entre un domaine de liaison à l'ADN et un fragment d'ADN contenant la séquence reconnue ont été déterminées expérimentalement, essentiellement par cristallographie aux rayons X et dans quelques cas par résonance magnétique nucléaire. Il est apparu que les modes de reconnaissance étaient variés, en particulier qu'ils n'étaient pas limités aux hélices α, mais faisaient parfois intervenir des feuillets β (autre grand type d'élément de structure secondaire rencontré dans les protéines), et aussi le petit sillon de la double hélice plutôt que le grand sillon, comme dans le cas de la TBP. Différents motifs structuraux lient l'ADN, les plus fréquemment rencontrés étant l'« hélice-coude-hélice » et les « doigts de zinc ». Dans les seconds, des ions zinc servent à stabiliser la structure du domaine protéique par liaison à quatre aminoacides disséminés le long de la chaîne polypeptidique, des cystéines ou des histidines.

Un domaine de liaison à l'ADN reconnaît de 3 à 6 paires de bases, ce qui est trop court pour assurer la spécificité de la séquence cible. Pour résoudre ce problème, certains régulateurs de transcription contiennent plusieurs domaines de liaison à l'ADN, mais, le plus souvent, deux molécules de protéines s'associent pour former un dimère. Dans les deux cas, le site reconnu est plus long et la spécificité (discrimination) est donc accrue considérablement, mais l'autre avantage du dimère est l'augmentation importante de la force de liaison du complexe (affinité). Par ailleurs, la possibilité d'association en hétérodimère (deux protéines différentes) permet une combinatoire plus élevée qu'en homodimère et donc une régulation plus complexe.

Un autre facteur important dans la formation et la stabilisation des complexes ADN-protéine est la courbure de l'ADN. Celle-ci peut être intrinsèque (due à la séquence nucléotidique elle-même), ou bien encore induite par l'interaction avec la protéine. Dans ce cas, une adaptation mutuelle des deux partenaires permet d'optimiser leur association. Ainsi, le dimère de la protéine CAP catabolite activator protein coude la double hélice à plus de 90° pour s'y fixer plus facilement. La courbure de l'ADN est parfois essentielle à l'activité de la protéine ; ainsi, les activateurs de transcription pourraient agir en facilitant l'assemblage du complexe de préinitiation par le rapprochement de ses différents composants.

Le code génétique

Le problème s'est alors posé de l'existence d'un code permettant d'énoncer simplement les règles de la reconnaissance de séquences spécifiques de l'ADN par des protéines, mais l'on s'est rapidement aperçu, à la lumière des structures connues de complexes ADN-protéine, qu'il n'existait pas de code universel simple, selon lequel par exemple une paire de bases serait toujours reconnue par le même aminoacide. C'est plutôt la multiplicité des agencements qui est de règle : une même paire de bases peut interagir avec différents aminoacides, voire plusieurs à la fois ; parfois, il n'y a aucun contact direct entre les bases qui déterminent la spécificité et la protéine, l'interaction étant médiée par des molécules d'eau fixées par le complexe ; enfin, dans les différents types de motifs de liaison utilisant une hélice de reconnaissance, celle-ci n'est pas orientée de la même façon par rapport au grand sillon. Néanmoins, pour chaque type de motif, on observe qu'une paire de bases donnée interagit plutôt avec certains aminoacides. La mise en évidence de telles préférences permet de prédire des interactions ADN-protéine, de changer la spécificité en mutant soit la protéine, soit la séquence d'ADN reconnue, et de concevoir des protéines artificielles capables de lier une séquence particulière d'ADN (cela a été réalisé très récemment par l'équipe de Carl Pabo aux États-Unis).

Le code génétique, basé sur la correspondance entre les triplets de bases (codons) et les aminoacides, est un code de lecture (linéaire et séquentiel) qui ne doit donc permettre aucune équivoque. En revanche, la fixation de protéines à des séquences spécifiques d'ADN est un problème de reconnaissance de formes (donc en trois dimensions) qui peut donc comporter des solutions beaucoup plus nombreuses. Avec le temps, de plus en plus de nouvelles structures sont déterminées expérimentalement, mettant en évidence des arrangements originaux. La régulation de la transcription faisant appel à de multiples acteurs, la nature, comme souvent, a utilisé la diversité des solutions pour générer au cours de l'évolution ces réseaux d'interactions complexes. Leur connaissance détaillée permettra sans doute de combattre un certain nombre de maladies comme le cancer, les désordres immunitaires et les affections cardio-vasculaires en modulant la transcription de certains gènes. C'est déjà le cas des médicaments qui agissent sur les récepteurs hormonaux, comme le tamoxifène dans le traitement du cancer du sein et les anti-inflammatoires stéroïdiens.

Historique

Le support de l’information génétique

L'expression génétique et son contrôle

Le contrôle de l'expression génétique

La transcription des gènes

La régulation de la transcription

La reconnaissance de sites spécifiques de l'ADN

Le code génétique

acide désoxyribonucléique (ADN).

acide ribonucléique (ARN).

allosome.

Balbiani (anneaux de).

Barr (corpuscule de).

Beadle.

carte.

cellule.

chromosome.

clonage.

clone.

code génétique.

croisement.

drosophile.

Éphrussi.

fonctions de régulation.

gamétogenèse.

génie génétique.

génome.

hérédité.

hermaphrodisme.

invalidation génique.

Jacob.

manipulation mentale.

Mendel.

métis.

Monod.

monosomie.

Morgan.

mutation.

Nirenberg.

opéron.

Palade.

parenté.

parthénogenèse.

phénotype.

procaryote.

ségrégation.

sélection.

sexe.

Tatum.

tétraploïdie.

transgenèse végétale (la).

triploïdie.

Turner (syndrome de).

virus.