L'objectif de la détermination de génomes complets–d'organismes simples ou complexes– est de permettre l'identification de principes et lois apportant à la biologie les bases nécessaires pour une science quantitative ét prédictive.
- motif biologique
une suite non-aléatoire de nucléotides. Il est la conséquence de plusieurs facteurs biologiques :
son processus d'évolution (construction et transformation)
ses contraintes spatiales
sa fonction
Caractériser ces motifs permet d'étudier les séquences qui leurs sont associés. Par exemple, la recherche de gènes dans le génome (début, fin, phase) peut être réalisée en déterminant les motifs associés à ces gènes, comme le codon d'initiation, le codon de terminaison, les signaux de transcription (TAT box, etc.).
- motif
un mot sur un alphabet biologique. Il est caractérisé par plusieurs paramètres:
son alphabet
alphabet génétique et alphabets génétiques réduits
alphabet protéique et alphabets protéiques réduits (de 3-4 à 15-16 lettres)
sa longueur : de l'ordre de la dizaine de lettres
sa structure : motifs simple, à trous, répétés, palindromique,complémentaire, etc.
sa forme géométrique
2D : ADN : tige, boucle, etc.
3D : ADN : hélice gauche, droite; protéine : hélice α, feuillet β, etc.
sa localisation : par rapport au génome, au chromosome, au gène codant, etc.
sa fréquence d'occurrence : dans un gène, dans une population de gènes, etc.
son histoire évolutive : transformation du motif au cours du temps.
La définition du motif est donc très générale, expliquant ainsi la grande variété des méthodes informatiques développées.
RNY : code (comma-free) primitif dans les gènes (Shephard, 1981)
YRY N6 YRY : code de la rotation de la double d'hélice d'ADN
x = {AAC, AAT, ACC, ATC, ATT, CAG, CTC, CTG, GAA, GAC, GAG, GAT, GCC, GGC, GGT, GTA, GTC, GTT, TAC, TTC} : code (circulaire) dans les gènes.
La recherche de motifs dans les séquences biologiques est un domaine de recherche récent et en pleine expansion (et beaucoup encore à faire : le nombre de nucléotides contenus dans toutes les espèces vivantes est estimé à 1020). Il existe cinq conditions principalement à ce développement récent.
Développements de l'algorithmique et des langages de programmation
Construction d'ordinateurs de plus en plus puissants, avec simultanément,
augmentation de la vitesse de calcul du processeur
augmentation des capacités mémoires centrales et périphériques
augmentation des capacités de transmission (internet)
diminution des coûts (matériel et logiciel)
diminution du volume d'encombrement
Méthodes rapides de séquençage des séquences génétiques, apparues en 1977 (Maxam et Gilbert, Sanger et al.)
Création (normalisation) de bases de données de gènes pour le stockage des séquences génétiques. 1982, créations de EMBL, European Molecular Biology Laboratory et Genbank, abse de données américaine.
Projets de recherche internationaux “Génomes” (homme, levure, E. Coli, etc.) pour accélérer la détermination de leurs séquençages (à partir des années 1990).
Dans ce cours (et dans le cours sur les algorithmes de recherche) nous verrons trois classes de méthodes : statistiques, algorithmiques, et probabilistes.
-
Méthodes de fréquence d'occurrence
Méthodes de corrélation et leurs transformées
Méthodes basées sur l'entropie
Méthodes statistique multidimensionnelles
-
Reconnaissance de facteurs dans un texte
Alignement de séquences
-
Modèles d'évolution des gènes et génomes par simulation informatique. Ils sont basés sur des automates stochastiques pour étudier l'évolution dans le sens passé-présent.
Modèles probabilistes d'évolution linéaire, non-linéaire et pseudo chaotique des gènes et génomes. Ils sont basés sur des équations différentielles pour étudier l'évolution dans les sens passé-présent et présent-passé.
Reconstruction d'arbres phylogénétiques.