Table des matières

Motifs Biologiques

Objectifs de la Recherche de Motifs Biologiques

L'objectif de la détermination de génomes complets–d'organismes simples ou complexes– est de permettre l'identification de principes et lois apportant à la biologie les bases nécessaires pour une science quantitative ét prédictive.

Définitions

Définition biologique du motif

motif biologique

une suite non-aléatoire de nucléotides. Il est la conséquence de plusieurs facteurs biologiques :

  1. son processus d'évolution (construction et transformation)
  2. ses contraintes spatiales
  3. sa fonction

Caractériser ces motifs permet d'étudier les séquences qui leurs sont associés. Par exemple, la recherche de gènes dans le génome (début, fin, phase) peut être réalisée en déterminant les motifs associés à ces gènes, comme le codon d'initiation, le codon de terminaison, les signaux de transcription (TAT box, etc.).

Définition informatique du motif

motif

un mot sur un alphabet biologique. Il est caractérisé par plusieurs paramètres:

  1. son alphabet
    1. alphabet génétique et alphabets génétiques réduits
    2. alphabet protéique et alphabets protéiques réduits (de 3-4 à 15-16 lettres)
  2. sa longueur : de l'ordre de la dizaine de lettres
  3. sa structure : motifs simple, à trous, répétés, palindromique,complémentaire, etc.
  4. sa forme géométrique
    1. 2D : ADN : tige, boucle, etc.
    2. 3D : ADN : hélice gauche, droite; protéine : hélice α, feuillet β, etc.
  5. sa localisation : par rapport au génome, au chromosome, au gène codant, etc.
  6. sa fréquence d'occurrence : dans un gène, dans une population de gènes, etc.
  7. son histoire évolutive : transformation du motif au cours du temps.

La définition du motif est donc très générale, expliquant ainsi la grande variété des méthodes informatiques développées.

Exemples de Motifs Identifiés Informatiquement

Conditions à la Recherche de Motifs Biologiques

La recherche de motifs dans les séquences biologiques est un domaine de recherche récent et en pleine expansion (et beaucoup encore à faire : le nombre de nucléotides contenus dans toutes les espèces vivantes est estimé à 1020). Il existe cinq conditions principalement à ce développement récent.

  1. Développements de l'algorithmique et des langages de programmation
  2. Construction d'ordinateurs de plus en plus puissants, avec simultanément,
    1. augmentation de la vitesse de calcul du processeur
    2. augmentation des capacités mémoires centrales et périphériques
    3. augmentation des capacités de transmission (internet)
    4. diminution des coûts (matériel et logiciel)
    5. diminution du volume d'encombrement
  3. Méthodes rapides de séquençage des séquences génétiques, apparues en 1977 (Maxam et Gilbert, Sanger et al.)
  4. Création (normalisation) de bases de données de gènes pour le stockage des séquences génétiques. 1982, créations de EMBL, European Molecular Biology Laboratory et Genbank, abse de données américaine.
  5. Projets de recherche internationaux “Génomes” (homme, levure, E. Coli, etc.) pour accélérer la détermination de leurs séquençages (à partir des années 1990).

Méthodes Bioinformatiques de Recherche des Motifs Biologiques

Dans ce cours (et dans le cours sur les algorithmes de recherche) nous verrons trois classes de méthodes : statistiques, algorithmiques, et probabilistes.