L'objectif de la détermination de génomes complets–d'organismes simples ou complexes– est de permettre l'identification de principes et lois apportant à la biologie les bases nécessaires pour une science quantitative ét prédictive.
une suite non-aléatoire de nucléotides. Il est la conséquence de plusieurs facteurs biologiques :
Caractériser ces motifs permet d'étudier les séquences qui leurs sont associés. Par exemple, la recherche de gènes dans le génome (début, fin, phase) peut être réalisée en déterminant les motifs associés à ces gènes, comme le codon d'initiation, le codon de terminaison, les signaux de transcription (TAT box, etc.).
un mot sur un alphabet biologique. Il est caractérisé par plusieurs paramètres:
La définition du motif est donc très générale, expliquant ainsi la grande variété des méthodes informatiques développées.
La recherche de motifs dans les séquences biologiques est un domaine de recherche récent et en pleine expansion (et beaucoup encore à faire : le nombre de nucléotides contenus dans toutes les espèces vivantes est estimé à 1020). Il existe cinq conditions principalement à ce développement récent.
Dans ce cours (et dans le cours sur les algorithmes de recherche) nous verrons trois classes de méthodes : statistiques, algorithmiques, et probabilistes.