Méthodes Statistiques de Recherche de Motifs Biologiques

Concept de Populations de Gènes

Exercice

Proposer des hypothèses de structures de gènes primitifs et de modes d'évolution de ces gènes.

Est-ce que le gène primitif était aléatoire ou non? Et l'évolution, aléatoire ou non-aléatoire?

Considérons les possibilités, et leurs conséquences reflétées dans les gènes actuels.

		gène primitif
		aléatoires	non-aléatoires
évolution	aléatoire	aléatoires	aléatoires (à terme)
	non-aléatoires	non-aléatoire mais pauvre	non-aléatoires

Exercice

Proposer une approche statistique permettant d'analyser les hypothèses précédentes.

Si l'on considère les mutations comme un bruitage aléatoire du signal “gène primitif”, on peut analyser ensemble beaucoup d'échantillons. Pas très claires, mes notes sur ce cours. :-(

Méthodes de Fréquence d'Occurrence

Les méthodes de fréquence d'occurrences analysent la fréquence et la position de motifs simples dans les séquences.

nucléotides et acides aminés
dinucléotides de dipeptides
trinucléotides et tripeptides

Dans les gènes, elles peuvent considérer la phase de lecture

nucléotides par site de codon
trinucléotides dans les phases décalées, etc.

La significativité de l'occurrence des motifs dans les séquences est généralement analysée par des techniques statistiques classiques :

Fréquences relatives
Ratios fréquence observée sur fréquence attendue, tests du Khi-Deux, etc.
Tests d'hypothèse
Tests paramétriques et non paramétriques.

Exercice

Donner une expression de motifs complexes en généralisant des motifs simples.

Cycles ou périodicités : A–A–; plus généralement, A N^x A, avec AA = A N⁰ A, etc.

Fonctions de Corrélation

Les fonctions de corrélation analysent la fréquence et la position de motifs complexes dans les séquences, en particulier les motifs à trous.

La fonction de corrélation donne la probabilité qu'un motif apparaisse i lettres quelconques après un autre motif dans un mot ou dans un langage.

Il existe plusieurs méthodes de calcul de cette définition :

directement (ci-dessous)
spectre de puissance (transformée de Fourier de la fonction de corrélation)
transformation en ondelettes

Définition classique de la fonction de corrélation

Soit un mot w formé de n lettres l sur un alphabet B : w =I₀I₁…I_n-1.

La fonction de corrélation A_{l,l\prime}\left(i\right) est classiqement définie pour i\in \left\{0,\ldots,n-1\right\} par

A_{l,l\prime}\left(i\right) = \sum_{p=0}^{n-1} h_{l}\left(p\right) h_{l\prime}\left(p+i\right)

avec h_{l}\left(p\right) = 1 si la lettre en position p est l et 0 autrement.

Proposition

La transformée de Fourier discrète (TFD) de la fonction de corrélation A_{l,l'}\left(i\right) est le produit des transformées de Fourier des deux signaux dont l'un est le conjugué

TFD\left[A_{l,l\prime}\left(i\right)\right] = \bar{H}_{l}\left(f\right) H_{l'}\left(f\right)

où H_{l}\left(f\right) est la transformée de Fourier de h_{l}\left(p\right)

Exercice

Donner la preuve de la proposition précédente sachant que

TFD\left[A_{l,l\prime}\left(i\right)\right] = \sum_{i=0}^{n-1} A_{l,l\prime}\left(i\right) e^{-j2\pi f i}

où j est la partie imaginaire.

\displaystyle TFD\left[A_{l,l\prime}\left(i\right)\right] = \sum_{j=0}^{n-1} A_{l,l\prime}\left(j\right) e^{-i 2\pi f j} (indication, avec rôles de i et j échangés pour avoir 'i' imaginaire)
\displaystyle A_{l,l\prime}\left(i\right) = \sum_{p=0}^{n-1} h_{l}\left(p\right) h_{l\prime}\left(p+i\right) : définition
\displaystyle TFD\left[A_{l,l\prime}\left(i\right)\right] = \sum_{j=0}^{n-1}\sum_{p=0}^{n-1} h_{l}\left(p\right) h_{l\prime}\left(p+i\right) e^{-i 2\pi f j} : substitution de (2) dans (1)
\displaystyle \bar{H}_{l}\left(f\right) = \sum_{p=0}^{n-1} h_{l}\left(p\right) e^{+ i 2\pi f p} : conjugué, donc -p à la place de p dans l'exposant.
\displaystyle H_{l'}\left(f\right) = \sum_{j=0}^{n-1} h_{l'}\left(p+j\right) e^{- i 2\pi f j - 2 i \pi f p}
\displaystyle \bar{H}_{l}\left(f\right) H_{l'}\left(f\right) = \sum_{p=0}^{n-1} h_{l}\left(p\right) e^{+ i 2\pi f p} \sum_{j=0}^{n-1} h_{l'}\left(p+j\right) e^{- i 2\pi f j - 2 i \pi f p}

Définition variante de la fonction de corrélation

A_{l,l'}\left(i\right) = \frac{1}{n} \sum_{p=0}^{n-1} h_{l}\left(p\right)h_{l'}\left(p+i\right)

Les définitions classiques de la fonction de corrélation A_{l,l'}\left(i\right) conduisent à des probabilités biaisées dans le cas de séquences biologiques.

Nouvelle définition de la fonction de corrélation

Un langage F est constitué de n(F) mots sur un alphabet B. Soit x un mot de F de longueur |x|. Soient deux motifs w et w' de longueurs respectives |w| et |w'| sur B. soit m_i, appelé i-motif, 2 motifs w et w' séparés par i, i∈{0,…,imax}, lettres quelconques N et noté m_i=wNⁱ w'. Pour chaque mot x de F, le compteur c_i(x) compte les occurrences de m_i dans x. Pour compter les occurrences dans les mêmes conditions pour tout i∈{0,…,imax}, uniquement les l(x) = |x|-(imax+|w|+|w'|)+1 premières lettres de x sont considérées. Alors la probabilité d'occurrence o_i(x) de m_i dans x est égale au ratio du compteur par le nombre de lettres étudiées

o_i\left(x\right)=\frac{c_i\left(x\right)}{l\left(x\right)}

La probabilité d'occurrence A_{w,w'}\left(i,F\right) de m_i dans F est donc égale à

A_{w,w'}\left(i,F\right) = \frac{1}{n\left(F\right)}\sum_{x\in F}o_i\left(x\right)

La fonction i\rightarrow A_{w,w'}\left(i,F\right) donnant la probabilité d'occurrence que w' apparaisse i lettres quelconques N après w dans le langage F, est dite fonction de corrélation wNⁱ w' (associée au i-motif wNⁱ w').

Cette fonction de corrélation wNⁱ w' est représentée par une courbe avec :

en abscisse, le nombre i de lettres N entre w et w', i variant de 0 à imax
en ordonnée, la probabilité A_{w,w'}\left(i,F\right) d'occurrence de wNⁱw' dans F.

Exercice

Quelles sont les différences entre cette définition nouvelle de la donction de corrélation et la définition classique?

Exercice

Quelle est la propriété mathématique associée aux probabilités de tous les i-motifs?

Exercice

Donnez les probabilités P(R) et P(Y) pour spécifier aléatoirement les lettres R et Y de N⁶ du mot YRYN⁶ de façon à avoir globalement autant de R que de Y.

\displaystyle \frac{4Y}{18}+\frac{2R}{18}+\frac{aY}{18}+\frac{bR}{18}=1
4+a = 9 = 2+b \Rightarrow a=5, b=7
\displaystyle P\left(Y\right)=\frac{a}{a+b}=\frac{5}{12}
\displaystyle P\left(R\right)=\frac{b}{a+b}=\frac{7}{12}

corrigé

P(R)+P(Y) = 1
P(R)-P(Y) = 1/6
2*P(R) = 7/6 [somme des deux équations précédentes]
P(R) = 7/12

Exercice

Donner le calcul de la fonction de corrélation A_{R,R}\left(i,F\right) sur un mot aléatoire.

Pour un i donné (quelconque) il n'y a que quatre cas de figure, et ils sont équiprobables: RNⁱR, YNⁱR, RNⁱY, YNⁱY. Donc la fonction est une probabilité de 0,25 pour toute longueur i.

Exercice

Donner le calcul de la fonction de corrélation A_{R,R}\left(i,F\right) sur le mot F = (RNY)⁺.

Réf	R	_	Y	R	_	Y	R	_	Y	R	Touches	*1/3
N¹	R	_	R								0
		R	_	R							1/2	1/6
			R	_	R						0
N²	R	_	_	R							1	4/12
		R	_	_	R						1/2 * 1/2	1/12
			R	_	_	R					0
N³	R	_	_	_	R						1/2	1/6
		R	_	_	_	R					0
			R	_	_	_	R				0
N⁴	R	_	_	_	_	R					0
		R	_	_	_	_	R				1/2	1/6
			R	_	_	_	_	R			0
N⁵	R	_	_	_	_	_	R				4/4	1/3
		R	_	_	_	_	_	R			1/4	1/12
			R	_	_	_	_	_	R		0
N⁶	R	_	_	_	_	_	_	R			1/2	1/6
		R	_	_	_	_	_	_	R		0
			R	_	_	_	_	_	_	R	0

Résumé	i mod 3	A
	0	1/6
	1	1/6
	2	5/12

Exercice

Donner le calcul de la fonction de corrélation A_{R,YR}\left(i,F\right) après évolution du pot (RNY)⁺ en le mot F = (l₁ l₂ l₃ ) tel que

P(l₁ = R) = 3/4, P(l₁ = Y) = 1-P(l₁ = R) = 1/4
P(l₂ = R) = P(l₂ = R) = 1/2
P(l₃ = R) = 1/4, P(l₃ = Y) = 1-P(l₃ = R) = 3/4

Méthode Mesurant les Fluctuations d'une "Promenade de l'ADN"

Méthode de Représentation des Jeux de Chaos (CGR)

Méthodes Basées sur l'Entropie

Les méthodes basées sur l'entropie (Shannon, 1951), sur la complexité de Chaitin-Kolmogorov et sur la compression de textes, permettent de rechercher des motifs répétés. L'idée repose sur le principe qu'une séquence est d'autant moins aléatoire (d'autant plus compressible) qu'elle présente des motifs répétés.