Motifs Biologiques

Motifs Biologiques

Objectifs de la Recherche de Motifs Biologiques

L'objectif de la détermination de génomes complets–d'organismes simples ou complexes– est de permettre l'identification de principes et lois apportant à la biologie les bases nécessaires pour une science quantitative ét prédictive.

Définitions

Définition biologique du motif

motif biologique

une suite non-aléatoire de nucléotides. Il est la conséquence de plusieurs facteurs biologiques :

son processus d'évolution (construction et transformation)
ses contraintes spatiales
sa fonction

Caractériser ces motifs permet d'étudier les séquences qui leurs sont associés. Par exemple, la recherche de gènes dans le génome (début, fin, phase) peut être réalisée en déterminant les motifs associés à ces gènes, comme le codon d'initiation, le codon de terminaison, les signaux de transcription (TAT box, etc.).

Définition informatique du motif

motif

un mot sur un alphabet biologique. Il est caractérisé par plusieurs paramètres:

son alphabet
1. alphabet génétique et alphabets génétiques réduits
2. alphabet protéique et alphabets protéiques réduits (de 3-4 à 15-16 lettres)
sa longueur : de l'ordre de la dizaine de lettres
sa structure : motifs simple, à trous, répétés, palindromique,complémentaire, etc.
sa forme géométrique
1. 2D : ADN : tige, boucle, etc.
2. 3D : ADN : hélice gauche, droite; protéine : hélice α, feuillet β, etc.
sa localisation : par rapport au génome, au chromosome, au gène codant, etc.
sa fréquence d'occurrence : dans un gène, dans une population de gènes, etc.
son histoire évolutive : transformation du motif au cours du temps.

La définition du motif est donc très générale, expliquant ainsi la grande variété des méthodes informatiques développées.

Exemples de Motifs Identifiés Informatiquement

RNY : code (comma-free) primitif dans les gènes (Shephard, 1981)
YRY N⁶ YRY : code de la rotation de la double d'hélice d'ADN
x = {AAC, AAT, ACC, ATC, ATT, CAG, CTC, CTG, GAA, GAC, GAG, GAT, GCC, GGC, GGT, GTA, GTC, GTT, TAC, TTC} : code (circulaire) dans les gènes.

Conditions à la Recherche de Motifs Biologiques

La recherche de motifs dans les séquences biologiques est un domaine de recherche récent et en pleine expansion (et beaucoup encore à faire : le nombre de nucléotides contenus dans toutes les espèces vivantes est estimé à 10²⁰). Il existe cinq conditions principalement à ce développement récent.

Développements de l'algorithmique et des langages de programmation
Construction d'ordinateurs de plus en plus puissants, avec simultanément,
1. augmentation de la vitesse de calcul du processeur
2. augmentation des capacités mémoires centrales et périphériques
3. augmentation des capacités de transmission (internet)
4. diminution des coûts (matériel et logiciel)
5. diminution du volume d'encombrement
Méthodes rapides de séquençage des séquences génétiques, apparues en 1977 (Maxam et Gilbert, Sanger et al.)
Création (normalisation) de bases de données de gènes pour le stockage des séquences génétiques. 1982, créations de EMBL, European Molecular Biology Laboratory et Genbank, abse de données américaine.
Projets de recherche internationaux “Génomes” (homme, levure, E. Coli, etc.) pour accélérer la détermination de leurs séquençages (à partir des années 1990).

Méthodes Bioinformatiques de Recherche des Motifs Biologiques

Dans ce cours (et dans le cours sur les algorithmes de recherche) nous verrons trois classes de méthodes : statistiques, algorithmiques, et probabilistes.

Méthodes statistiques (chapitre 4)
1. Méthodes de fréquence d'occurrence
2. Méthodes de corrélation et leurs transformées
3. Méthodes basées sur l'entropie
4. Méthodes statistique multidimensionnelles
Méthodes algorithmiques (algorithmes de recherche et chapitre 2)
1. Reconnaissance de facteurs dans un texte
2. Alignement de séquences
Méthodes d'évolution (5. Modèles Probabilistes de l'évolution des gènes et des génomes)
1. Modèles d'évolution des gènes et génomes par simulation informatique. Ils sont basés sur des automates stochastiques pour étudier l'évolution dans le sens passé-présent.
2. Modèles probabilistes d'évolution linéaire, non-linéaire et pseudo chaotique des gènes et génomes. Ils sont basés sur des équations différentielles pour étudier l'évolution dans les sens passé-présent et présent-passé.
3. Reconstruction d'arbres phylogénétiques.