Méthodes Statistiques de Recherche de Motifs Biologiques

Concept de Populations de Gènes

Exercice

Proposer des hypothèses de structures de gènes primitifs et de modes d'évolution de ces gènes.

Est-ce que le gène primitif était aléatoire ou non? Et l'évolution, aléatoire ou non-aléatoire?

Considérons les possibilités, et leurs conséquences reflétées dans les gènes actuels.

gène primitif
aléatoires non-aléatoires
évolution aléatoire aléatoires aléatoires (à terme)
non-aléatoires non-aléatoire mais pauvre non-aléatoires

Exercice

Proposer une approche statistique permettant d'analyser les hypothèses précédentes.

Si l'on considère les mutations comme un bruitage aléatoire du signal “gène primitif”, on peut analyser ensemble beaucoup d'échantillons. Pas très claires, mes notes sur ce cours.:-(

Méthodes de Fréquence d'Occurrence

Les méthodes de fréquence d'occurrences analysent la fréquence et la position de motifs simples dans les séquences.

  • nucléotides et acides aminés
  • dinucléotides de dipeptides
  • trinucléotides et tripeptides

Dans les gènes, elles peuvent considérer la phase de lecture

  • nucléotides par site de codon
  • trinucléotides dans les phases décalées, etc.

La significativité de l'occurrence des motifs dans les séquences est généralement analysée par des techniques statistiques classiques :

  1. Fréquences relatives
  2. Ratios fréquence observée sur fréquence attendue, tests du Khi-Deux, etc.
  3. Tests d'hypothèse
  4. Tests paramétriques et non paramétriques.

Exercice

Donner une expression de motifs complexes en généralisant des motifs simples.

  • Cycles ou périodicités : A–A–; plus généralement, A Nx A, avec AA = A N0 A, etc.

Fonctions de Corrélation

Les fonctions de corrélation analysent la fréquence et la position de motifs complexes dans les séquences, en particulier les motifs à trous.

La fonction de corrélation donne la probabilité qu'un motif apparaisse i lettres quelconques après un autre motif dans un mot ou dans un langage.

Il existe plusieurs méthodes de calcul de cette définition :

  1. directement (ci-dessous)
  2. spectre de puissance (transformée de Fourier de la fonction de corrélation)
  3. transformation en ondelettes

Définition classique de la fonction de corrélation

Soit un mot w formé de n lettres l sur un alphabet B : w =I0I1…In-1.

La fonction de corrélation A_{l,l\prime}\left(i\right) est classiqement définie pour i\in \left\{0,\ldots,n-1\right\} par

A_{l,l\prime}\left(i\right) = \sum_{p=0}^{n-1} h_{l}\left(p\right) h_{l\prime}\left(p+i\right)
avec h_{l}\left(p\right) = 1 si la lettre en position p est l et 0 autrement.

Proposition

La transformée de Fourier discrète (TFD) de la fonction de corrélation A_{l,l'}\left(i\right) est le produit des transformées de Fourier des deux signaux dont l'un est le conjugué

TFD\left[A_{l,l\prime}\left(i\right)\right] = \bar{H}_{l}\left(f\right) H_{l'}\left(f\right)
H_{l}\left(f\right) est la transformée de Fourier de h_{l}\left(p\right)

Exercice

Donner la preuve de la proposition précédente sachant que

TFD\left[A_{l,l\prime}\left(i\right)\right] = \sum_{i=0}^{n-1} A_{l,l\prime}\left(i\right) e^{-j2\pi f i}
où j est la partie imaginaire.

  • \displaystyle TFD\left[A_{l,l\prime}\left(i\right)\right] = \sum_{j=0}^{n-1} A_{l,l\prime}\left(j\right) e^{-i 2\pi f j} (indication, avec rôles de i et j échangés pour avoir 'i' imaginaire)
  • \displaystyle A_{l,l\prime}\left(i\right) = \sum_{p=0}^{n-1} h_{l}\left(p\right) h_{l\prime}\left(p+i\right) : définition
  • \displaystyle TFD\left[A_{l,l\prime}\left(i\right)\right] = \sum_{j=0}^{n-1}\sum_{p=0}^{n-1} h_{l}\left(p\right) h_{l\prime}\left(p+i\right) e^{-i 2\pi f j} : substitution de (2) dans (1)
  • \displaystyle \bar{H}_{l}\left(f\right) = \sum_{p=0}^{n-1} h_{l}\left(p\right) e^{+ i 2\pi f p} : conjugué, donc -p à la place de p dans l'exposant.
  • \displaystyle H_{l'}\left(f\right) = \sum_{j=0}^{n-1} h_{l'}\left(p+j\right) e^{- i 2\pi f j - 2 i \pi f p}
  • \displaystyle \bar{H}_{l}\left(f\right) H_{l'}\left(f\right) = \sum_{p=0}^{n-1} h_{l}\left(p\right) e^{+ i 2\pi f p} \sum_{j=0}^{n-1} h_{l'}\left(p+j\right) e^{- i 2\pi f j - 2 i \pi f p}

Définition variante de la fonction de corrélation

A_{l,l'}\left(i\right) = \frac{1}{n} \sum_{p=0}^{n-1} h_{l}\left(p\right)h_{l'}\left(p+i\right)

Les définitions classiques de la fonction de corrélation A_{l,l'}\left(i\right) conduisent à des probabilités biaisées dans le cas de séquences biologiques.

Nouvelle définition de la fonction de corrélation

Un langage F est constitué de n(F) mots sur un alphabet B. Soit x un mot de F de longueur |x|. Soient deux motifs w et w' de longueurs respectives |w| et |w'| sur B. soit mi, appelé i-motif, 2 motifs w et w' séparés par i, i∈{0,…,imax}, lettres quelconques N et noté mi=wNi w'. Pour chaque mot x de F, le compteur ci(x) compte les occurrences de mi dans x. Pour compter les occurrences dans les mêmes conditions pour tout i∈{0,…,imax}, uniquement les l(x) = |x|-(imax+|w|+|w'|)+1 premières lettres de x sont considérées. Alors la probabilité d'occurrence oi(x) de mi dans x est égale au ratio du compteur par le nombre de lettres étudiées

o_i\left(x\right)=\frac{c_i\left(x\right)}{l\left(x\right)}
La probabilité d'occurrence A_{w,w'}\left(i,F\right) de mi dans F est donc égale à
A_{w,w'}\left(i,F\right) = \frac{1}{n\left(F\right)}\sum_{x\in F}o_i\left(x\right)
La fonction i\rightarrow A_{w,w'}\left(i,F\right) donnant la probabilité d'occurrence que w' apparaisse i lettres quelconques N après w dans le langage F, est dite fonction de corrélation wNi w' (associée au i-motif wNi w').

Cette fonction de corrélation wNi w' est représentée par une courbe avec :

  • en abscisse, le nombre i de lettres N entre w et w', i variant de 0 à imax
  • en ordonnée, la probabilité A_{w,w'}\left(i,F\right) d'occurrence de wNiw' dans F.

Exercice

Quelles sont les différences entre cette définition nouvelle de la donction de corrélation et la définition classique?

Exercice

Quelle est la propriété mathématique associée aux probabilités de tous les i-motifs?

Exercice

Donnez les probabilités P(R) et P(Y) pour spécifier aléatoirement les lettres R et Y de N6 du mot YRYN6 de façon à avoir globalement autant de R que de Y.

  • \displaystyle \frac{4Y}{18}+\frac{2R}{18}+\frac{aY}{18}+\frac{bR}{18}=1
  • 4+a = 9 = 2+b \Rightarrow a=5, b=7
  • \displaystyle P\left(Y\right)=\frac{a}{a+b}=\frac{5}{12}
  • \displaystyle P\left(R\right)=\frac{b}{a+b}=\frac{7}{12}

corrigé

  • P(R)+P(Y) = 1
  • P(R)-P(Y) = 1/6
  • 2*P(R) = 7/6 [somme des deux équations précédentes]
  • P(R) = 7/12

Exercice

Donner le calcul de la fonction de corrélation A_{R,R}\left(i,F\right) sur un mot aléatoire.

Pour un i donné (quelconque) il n'y a que quatre cas de figure, et ils sont équiprobables: RNiR, YNiR, RNiY, YNiY. Donc la fonction est une probabilité de 0,25 pour toute longueur i.

Exercice

Donner le calcul de la fonction de corrélation A_{R,R}\left(i,F\right) sur le mot F = (RNY)+.

Réf R _ Y R _ Y R _ Y R _ Y Touches *1/3
N1 R _ R 0
R _ R 1/2 1/6
R _ R 0
N2 R _ _ R 1 4/12
R _ _ R 1/2 * 1/2 1/12
R _ _ R 0
N3 R _ _ _ R 1/2 1/6
R _ _ _ R 0
R _ _ _ R 0
N4 R _ _ _ _ R 0
R _ _ _ _ R 1/2 1/6
R _ _ _ _ R 0
N5 R _ _ _ _ _ R 4/4 1/3
R _ _ _ _ _ R 1/4 1/12
R _ _ _ _ _ R 0
N6 R _ _ _ _ _ _ R 1/2 1/6
R _ _ _ _ _ _ R 0
R _ _ _ _ _ _ R 0
Résumé i mod 3 A
0 1/6
1 1/6
2 5/12

Exercice

Donner le calcul de la fonction de corrélation A_{R,YR}\left(i,F\right) après évolution du pot (RNY)+ en le mot F = (l1 l2 l3 ) tel que

  • P(l1 = R) = 3/4, P(l1 = Y) = 1-P(l1 = R) = 1/4
  • P(l2 = R) = P(l2 = R) = 1/2
  • P(l3 = R) = 1/4, P(l3 = Y) = 1-P(l3 = R) = 3/4

Méthode Mesurant les Fluctuations d'une "Promenade de l'ADN"

Méthode de Représentation des Jeux de Chaos (CGR)

Méthodes Basées sur l'Entropie

Les méthodes basées sur l'entropie (Shannon, 1951), sur la complexité de Chaitin-Kolmogorov et sur la compression de textes, permettent de rechercher des motifs répétés. L'idée repose sur le principe qu'une séquence est d'autant moins aléatoire (d'autant plus compressible) qu'elle présente des motifs répétés.

Méthodes Statistiques Multi-dimensionnelles

 
m1ilc/bioinfo_4.txt · Dernière modification: 2010/05/25 20:13 par suitable
 
Sauf mention contraire, le contenu de ce wiki est placé sous la licence suivante :CC Attribution-Noncommercial-Share Alike 3.0 Unported
Recent changes RSS feed Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki