Proposer des hypothèses de structures de gènes primitifs et de modes d'évolution de ces gènes.
Est-ce que le gène primitif était aléatoire ou non? Et l'évolution, aléatoire ou non-aléatoire?
Considérons les possibilités, et leurs conséquences reflétées dans les gènes actuels.
| gène primitif | |||
|---|---|---|---|
| aléatoires | non-aléatoires | ||
| évolution | aléatoire | aléatoires | aléatoires (à terme) |
| non-aléatoires | non-aléatoire mais pauvre | non-aléatoires | |
Proposer une approche statistique permettant d'analyser les hypothèses précédentes.
Si l'on considère les mutations comme un bruitage aléatoire du signal “gène primitif”, on peut analyser ensemble beaucoup d'échantillons. Pas très claires, mes notes sur ce cours.
Les méthodes de fréquence d'occurrences analysent la fréquence et la position de motifs simples dans les séquences.
Dans les gènes, elles peuvent considérer la phase de lecture
La significativité de l'occurrence des motifs dans les séquences est généralement analysée par des techniques statistiques classiques :
Donner une expression de motifs complexes en généralisant des motifs simples.
A–A–; plus généralement, A Nx A, avec AA = A N0 A, etc.Les fonctions de corrélation analysent la fréquence et la position de motifs complexes dans les séquences, en particulier les motifs à trous.
La fonction de corrélation donne la probabilité qu'un motif apparaisse i lettres quelconques après un autre motif dans un mot ou dans un langage.
Il existe plusieurs méthodes de calcul de cette définition :
Soit un mot w formé de n lettres l sur un alphabet B : w =I0I1…In-1.
La fonction de corrélation A_{l,l\prime}\left(i\right) est classiqement définie pour i\in \left\{0,\ldots,n-1\right\} par
La transformée de Fourier discrète (TFD) de la fonction de corrélation A_{l,l'}\left(i\right) est le produit des transformées de Fourier des deux signaux dont l'un est le conjugué
Donner la preuve de la proposition précédente sachant que
Les définitions classiques de la fonction de corrélation A_{l,l'}\left(i\right) conduisent à des probabilités biaisées dans le cas de séquences biologiques.
Un langage F est constitué de n(F) mots sur un alphabet B. Soit x un mot de F de longueur |x|. Soient deux motifs w et w' de longueurs respectives |w| et |w'| sur B. soit mi, appelé i-motif, 2 motifs w et w' séparés par i, i∈{0,…,imax}, lettres quelconques N et noté mi=wNi w'. Pour chaque mot x de F, le compteur ci(x) compte les occurrences de mi dans x. Pour compter les occurrences dans les mêmes conditions pour tout i∈{0,…,imax}, uniquement les l(x) = |x|-(imax+|w|+|w'|)+1 premières lettres de x sont considérées. Alors la probabilité d'occurrence oi(x) de mi dans x est égale au ratio du compteur par le nombre de lettres étudiées
Cette fonction de corrélation wNi w' est représentée par une courbe avec :
Quelles sont les différences entre cette définition nouvelle de la donction de corrélation et la définition classique?
Quelle est la propriété mathématique associée aux probabilités de tous les i-motifs?
Donnez les probabilités P(R) et P(Y) pour spécifier aléatoirement les lettres R et Y de N6 du mot YRYN6 de façon à avoir globalement autant de R que de Y.
corrigé
Donner le calcul de la fonction de corrélation A_{R,R}\left(i,F\right) sur un mot aléatoire.
Pour un i donné (quelconque) il n'y a que quatre cas de figure, et ils sont équiprobables: RNiR, YNiR, RNiY, YNiY. Donc la fonction est une probabilité de 0,25 pour toute longueur i.
Donner le calcul de la fonction de corrélation A_{R,R}\left(i,F\right) sur le mot F = (RNY)+.
| Réf | R | _ | Y | R | _ | Y | R | _ | Y | R | _ | Y | Touches | *1/3 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| N1 | R | _ | R | 0 | ||||||||||
| R | _ | R | 1/2 | 1/6 | ||||||||||
| R | _ | R | 0 | |||||||||||
| N2 | R | _ | _ | R | 1 | 4/12 | ||||||||
| R | _ | _ | R | 1/2 * 1/2 | 1/12 | |||||||||
| R | _ | _ | R | 0 | ||||||||||
| N3 | R | _ | _ | _ | R | 1/2 | 1/6 | |||||||
| R | _ | _ | _ | R | 0 | |||||||||
| R | _ | _ | _ | R | 0 | |||||||||
| N4 | R | _ | _ | _ | _ | R | 0 | |||||||
| R | _ | _ | _ | _ | R | 1/2 | 1/6 | |||||||
| R | _ | _ | _ | _ | R | 0 | ||||||||
| N5 | R | _ | _ | _ | _ | _ | R | 4/4 | 1/3 | |||||
| R | _ | _ | _ | _ | _ | R | 1/4 | 1/12 | ||||||
| R | _ | _ | _ | _ | _ | R | 0 | |||||||
| N6 | R | _ | _ | _ | _ | _ | _ | R | 1/2 | 1/6 | ||||
| R | _ | _ | _ | _ | _ | _ | R | 0 | ||||||
| R | _ | _ | _ | _ | _ | _ | R | 0 |
| Résumé | i mod 3 | A |
|---|---|---|
| 0 | 1/6 | |
| 1 | 1/6 | |
| 2 | 5/12 |
Donner le calcul de la fonction de corrélation A_{R,YR}\left(i,F\right) après évolution du pot (RNY)+ en le mot F = (l1 l2 l3 ) tel que
Les méthodes basées sur l'entropie (Shannon, 1951), sur la complexité de Chaitin-Kolmogorov et sur la compression de textes, permettent de rechercher des motifs répétés. L'idée repose sur le principe qu'une séquence est d'autant moins aléatoire (d'autant plus compressible) qu'elle présente des motifs répétés.