Table des matières

5. Modèles Probabilistes de l'évolution des gènes et des génomes

Principe

Les principaux modèles probabilistes de l'évolution des gènes et génomes sont les modèles de substitution de lettres au cours du temp et leurs extensions aux modèles de substitution de motifs.

Il existe quatre hypothèses probabilistes sur le processus de substitution :

  • indépendant et identiquement distribué : les transformations d'un site au cours du temps ne sont influencées ni par le site considéré ni par les transformation des autres sites de la léquence (gène ou génome)
  • réversible (indifférence au sens du temps) : la probabilité de transformation d'une lettre l0 en une lettre l1 pendant le temps t est identique à la probabilité de transformation de l1 en l0 pendant le même temps.
  • processus de Markov homogène et stationnaire : l'état futur du processus de Markov ne dépend que de l'état présent. Un processus homogène signifie que la probabilité de substitution ne dépend que de la durée de l'intervalle et non de sa position relative sur l'axe du temps. Un processus stationnaire conduit à une distribution constante des états du processus au cours du temps.
  • La probabilité de substitution durant un intervalle de temps infinitésimal dt est proportionnelle à la durée. Cette constante de proportionnalité est le taux de substitution. La probabilité que durant dt il y ait deux substitutions ou plus est négligeable par rapport à la probabilité d'avoir une substitution.

Modèles de substitution de lettres sur un alphabet à N lettres

Énoncé du problème

Soit αT = PT(B→B') la probabilité (taux) de substitution par unité de temps T d'une lettre B en une lttre B', B et B' ∈ {A1,…An} et B≠B'. Soit B une lettre avant le processus de substitution. Quelle est la probabilité P(t) que le site soit occupé par B au temps t?

Solution par la résolution d'une équation différentielle

L'étude des transformation de la lettre B au cours du temps peut se mettre sous forme d'une équation différentielle. Voici le plan de travail :

  1. Déterminer la relation de récurrence pour t=0, 1, 2.
  2. Déterminer la relation de récurrence P(t+1) vérifiée pour tout t.
  3. Déterminer la formulation générale de la relation de récurrence PB(t+T) vérifiée pour tout t et en introduisant PB, PB', PT, T et plusieurs taux de substitution.
  4. Retrouver le cas particulier de PB(t+T) avec un taux de substitution 1)
  5. Déduire PB(t+T) - PB(t)
  6. Calculer P'B(t) [dérivé]
  7. Déterminer l'approximation entre αT et α.
  8. Simplifier P'B(t) [avec α?]
  9. Déduire la matrice de substitution.
  10. Appliquer la méthode de l'équation différentielle linéaire de premier ordre à l'équation différentielle du modèle.
  11. Déterminer la probabilité P(t) en fonction de la constante d'intégration c.
  12. Calculer (exprimer) c en fonction de P(0).
  13. Déterminer (exprimer) la probabilité P(t) en fonction de P(0) [au lieu de c]
  14. Déterminer la probabilité P(t) que le site soit occupé par B au temps t.
  15. Déterminer la probabilité Q(t) que le site soit occupé par B' ≠ B au temps t.
  16. Donner la relation entre P(t) et Q(t).
  17. Donner la relation entre x et αt.
  18. Déduire la probabilité F(x) que le site soit occupé par B après x substitutions.
  19. Déduire la probabilité G(x) que le site soit occupé par B' ≠ B après x substitutions.
  20. Constater la relation entre F(x) et G(x)
  21. Application sur l'alphabet à deux lettres {R, Y}
  22. Application sur l'alphabet à quatre lettres {A, C, G, T}

Ça en fait des étapes!

Déterminer la relation de récurrence pour t=0, 1, 2.

Soit n le nombre de lettres de l'alphabet. Si on a B en temps 0, et on a αT, le taux de substitution en un temps de chacune des autres lettres, on aura (n-1)*αT la probabilité que la lettre ne sera pas B si elle était B au temps précédent (0), et (1-(n-1)αT) la probabilité que B soit inchangé. Donc,

  • P(1) = (1-(n-1)αT)*P(0)
  • P(2) = (1-(n-1)αT)*P(1) + αT*(1-P(1))

Déterminer la relation de récurrence P(t+1) vérifiée pour tout t.

  • P(t+1) = (1-(n-1)αT)*P(t) + αT*(1-P(t))
    • = P(t) - n*αT*P(t) +αT*P(t) - αT*P(t)+αT
    • = P(t) - n*αT*P(t) +αT = P(t) - 1*P(t) +αT = αT

Déterminer la formulation générale de la relation de récurrence P<sub>B</sub>(t+T)

… vérifiée pour tout t et en introduisant PB, PB', PT, T et plusieurs taux de substitution.

  • P_{B}\left(t+T\right) = \left(1-\sum P_{B'} \right)P_{B}\left(t\right) + \alpha \left(\sum P_{B'}\right)
  • P_{B}\left(t+T\right) = P_{B}\left(t\right)P_{T}\left(B\rightarrow B\right) + \sum_{B' \neq B} P_{B'}\left(t\right) P_{T}\left(B'\rightarrow B\right)
  • P_{T}\left(B\rightarrow B\right) = 1 - \sum_{B\neq B'} P_{T} \left(B \rightarrow B'\right)
  • P_{B}\left(t+T\right) = P_{B}\left(t\right)- \sum_{B\neq B'}P_{B}\left(t\right)P_{T}\left(B\rightarrow B'\right) + \sum_{B\neq B'}P_{B'}\left(t\right)P_{T}\left(B'\rightarrow B\right)
    • = P_{B}\left(t\right) +\sum_{B\neq B'}\left[P_{B'}\left(t\right)P_{T}\left(B'\rightarrow B\right) - P_{B}\left(t\right)P_{T}\left(B\rightarrow B'\right)\right]

Retrouver le cas particulier de P<sub>B</sub>(t+T) avec un taux de substitution unique

Soit αT le taux de substitution unique de PT(B→B') [ et PT(B'→B) ]. De la relation précédente nous retrouvons

  • \displaystyle P_{B}\left(t+T\right) = P_{B}\left(t\right) +\sum_{B\neq B'}\left[P_{B'}\left(t\right)P_{T}\left(B'\rightarrow B\right) - P_{B}\left(t\right)P_{T}\left(B\rightarrow B'\right)\right]
    • \displaystyle = P_{B}\left(t\right) +\sum_{B\neq B'}\left[P_{B'}\left(t\right)\alpha_{T} - P_{B}\left(t\right)\alpha_{T}\right]
    • \displaystyle = P_{B}\left(t\right) +\alpha_{T}\sum_{B\neq B'}\left[P_{B'}\left(t\right) - P_{B}\left(t\right)\right]
    • \displaystyle = P_{B}\left(t\right) +\alpha_{T}\sum_{B\neq B'}P_{B'}\left(t\right) - \alpha_{T}\sum_{B\neq B'}P_{B}\left(t\right)
    • \displaystyle = P_{B}\left(t\right)\times\left[1- \alpha_{T}\sum_{B\neq B'} 1\right] +\alpha_{T}\sum_{B\neq B'}P_{B'}\left(t\right)
    • \displaystyle = P_{B}\left(t\right)\times\left[1- \alpha_{T}\left(n-1\right)\right] +\alpha_{T}\underbrace{\sum_{B\neq B'}P_{B'}\left(t\right)}_{1-P_{B}\left(t\right)}
    • \displaystyle = P_{B}\left(t\right)\times\left[1- \alpha_{T}\left(n-1\right)\right] +\alpha_{T}\left(1- P_{B}\left(t\right)\right)

Déduire P<sub>B</sub>(t+T) - P<sub>B</sub>(t)

\begin{eqnarray} P_{B}\left(t+T\right) & = & P_B\left(t\right)\left(1-\left(n-1\right) \alpha_T\right)+\alpha_T\left(1-P_B\left(t\right)\right) \\ P_{B}\left(t+T\right) - P_B\left(t\right) & = & P_B\left(t\right)\left(1-1-\left(n-1\right)\right)\alpha_T +\alpha_T\left(1-P_B\left(t\right)\right) \\ & = & \alpha_T \left(1-P_B\left(t\right)\right) - P_B\left(t\right)\left(n-1\right)\alpha_T\\ & = & - \left(n-1\right)\alpha_T P_B\left(t\right) + \alpha_T\left(1-P_B\left(t\right)\right) \end{eqnarray}

Calculer P'<sub>B</sub>(t) [dérivé]

\begin{eqnarray} P_{B}\prime\left(t\right) & = & \lim_{T\rightarrow 0} \alpha_T\left[1 - P_B\left(t\right)-nP_B\left(t\right) +P_B\left(t\right)\right]/T \\ & = & \lim_{T\rightarrow 0} \frac{\alpha_T}{T}\left[1 - nP_B\left(t\right)\right]\\ & = & \left[1 - nP_B\left(t\right)\right] \lim_{T\rightarrow 0}\frac{\alpha_T}{T}\\ & = & \left[1 - nP_B\left(t\right)\right] \lim_{T\rightarrow 0}\frac{\alpha\cdot T}{T}\\ & = & \left[1 - nP_B\left(t\right)\right] \alpha \end{eqnarray}

Déterminer l'approximation entre α<sub>T</sub> et α.

Comment fonctionne αT? Pour T très petit, pas plus d'une substitution peut avoir lieu par lapse de temps, ⇒ α =P(B→B'), αT = α*T.

Simplifier P'<sub>B</sub>(t) [avec α?]

Ainsi, nous trouvons

P_{B}\prime\left(t\right) = \alpha - \alpha n P_B\left(t\right)

Déduire la matrice de substitution.

Suite

Equation différentielle linéaire du première ordre

  • \displaystyle P'\left(t\right) + \underbrace{n\alpha}_{p(t)} P\left(t\right) = \underbrace{\alpha}_{q(t)}
  • \displaystyle P'\left(t\right) + p(t) P\left(t\right) = q(t)
  • calcul du facteur intégrant l(t)
    • l\left(t\right)=e^{\int p\left(t\right)dt} d'où
    • l\prime\left(t\right)=\frac{d}{dt}\left(\int p\left(t\right)dt\right)e^{\int p\left(t\right)dt} = p\left(t\right)l\left(t\right)
  • multiplication de l'équation différentielle par l(t)
    • \displaystyle l\left(t\right) P'\left(t\right) + \underbrace{l\left(t\right)p\left(t\right)}_{l'\left(t\right)}P\left(t\right) = l\left(t\right) q\left(t\right)
    • Or, d\left(f\cdot g\right) = f' \cdot g + f\cdot g' , d'où
    • \displaystyle \frac{d}{dt}\left(l\left(t\right)P\left(t\right)\right) = l\left(t\right)q\left(t\right)
  • Ensuite, intégration de l'équation différentielle :
    • \displaystyle \int \frac{d}{dt}\left(l\left(t\right)P\left(t\right)\right) = \int l\left(t\right)q\left(t\right) = l\left(t\right)P\left(t\right)

Appliquer la méthode de l'équation différentielle linéaire de premier ordre

à l'équation différentielle du modèle.

  • \int \frac{d}{dt}\left(e^{n\alpha t}P\left(t\right)\right)dt = \int e^{n\alpha t}\cdot \alpha\cdot dt
  • e^{n\alpha t}\cdot P\left(t\right) = \int d^{n \alpha t} \cdot \alpha \cdot dt = \frac{1}{n} e^{n\alpha t} + c

Déterminer la probabilité P(t) en fonction de la constante d'intégration c.

  • P\left(t\right) =\frac{1}{n}+c\cdot e^{-n\alpha t}

Calculer (exprimer) c en fonction de P(0)

  • P\left(0\right) = \frac{1}{n} + c e^{-n\alpha t} = \frac{1}{n} + c
    • c = P\left(0\right) - \frac{1}{n}, qu'on substitue dans P(t) :

Déterminer (exprimer) la probabilité P(t) en fonction de P(0) [au lieu de c]

  • \displaystyle P\left(t\right) = \frac{1}{n}+\left[P\left(0\right)-\frac{1}{n}\right] e^{-n\alpha t}

Déterminer la probabilité P(t) que le site soit occupé par B au temps t.

  • \displaystyle P\left(t\right) = \frac{1}{n}+\left[P\left(0\right)-\frac{1}{n}\right] e^{-n\alpha t} = \frac{1}{n}+\left[\frac{n-1}{n}\right]e^{-n\alpha t} car P\left(0\right)=1

Déterminer la probabilité Q(t) que le site soit occupé par B' ≠ B au temps t.

  • Q\left(t\right) = \frac{1}{n}+\left[0 -\frac{1}{n}\right]e^{-n\alpha t} = \frac{1}{n}-\frac{1}{n} e^{-n\alpha t}

Donner la relation entre P(t) et Q(t).

\begin{eqnarray} P\left(t\right) & = & \frac{1}{n} + \frac{n-1}{n}e^{-n\alpha t} \\ Q\left(t\right) & = & = \frac{1}{n}-\frac{1}{n} e^{-n\alpha t} \\ 1 - P\left(t\right) & = & 1 - \frac{1}{n}-\frac{n-1}{n} e^{-n\alpha t} \\ & = & \frac{n-1}{n} - \frac{n-1}{n} e^{-n\alpha t} \\ & = & \left(n-1\right)\left[\frac{1}{n} - \frac{1}{n} e^{-n\alpha t} \right]\\ & = & \left(n-1\right)Q\left(t\right) \\ 1 & = & P\left(t\right) + \left(n-1\right)Q\left(t\right) \end{eqnarray}

Donner la relation entre x et αt.

x est le nombre moyen de substitutions aléatoires par site (nombre total de substitutions divisé par la lngueur du mot).

  • x ∈ [0, ∞ [
  • x est “normalisé” par la longueur de mot, on peut comparer des “x” de séquences de longueurs différentes.
  • x = (n-1) α t

Déduire la probabilité F(x) que le site soit occupé par B après x substitutions.

Dans mes notes, j'ai dessiné un schéma avec :

  • B vers non-B : (n-1) α
  • non-B vers non-B : 1 - α
  • non-B vers B : α

mais est-ce pertinent? Je ne sais plus. En tout cas, la réponse est

\displaystyle F\left(x\right) = \frac{1}{n} + \frac{n-1}{n} e^{-\frac{n}{n-1} x}

Déduire la probabilité G(x) que le site soit occupé par B' ≠ B après x substitutions.

x G(x)
0 0
1 1/(n-1)
2 (n-2)/(n-1) * 1/(n-1) ?
G\left(x\right) = \frac{1}{n}-\frac{1}{n}e^{-\frac{n}{n-1}x}

Constater la relation entre F(x) et G(x)

\displaystyle F\left(x\right) + \left(n-1\right) G\left(x\right) = 1

Application sur l'alphabet à deux lettres {R, Y}

  • F\left(x\right) = \frac{1}{n} + \frac{n-1}{n} e^{-\frac{n}{n-1} x} = \frac{1}{2}+\frac{1}{2} e^{-2x}
  • G\left(x\right) = \frac{1}{n}-\frac{1}{n}e^{-\frac{n}{n-1}x} =\frac{1}{2}-\frac{1}{2}e^{-2x}

Application sur l'alphabet à quatre lettres {A, C, G, T}

  • F\left(x\right) = \frac{1}{n} + \frac{n-1}{n} e^{-\frac{n}{n-1} x} = \frac{1}{4}+\frac{3}{4} e^{-\frac{4}{3}x}
  • G\left(x\right) = \frac{1}{n}-\frac{1}{n}e^{-\frac{n}{n-1}x} =\frac{1}{4}-\frac{1}{4}e^{-\frac{4}{3}x}

Solution du problème par la résolution d'une relation de récurrence

Modèles de substitution de lettres à 2 paramètres sur un alphabet à 4 lettres

Solution du problème par la résolution d'un système de 4 équations différentielles

Énoncé du problème

Matrice de substitution à 2 paramètres : il existe deux taux de substitution, un à l'intérieur des purine et pyrimidines, et un entre purines et pyrimidines. Soient

  • α le taux de transition (intra-classe)
  • β le taux de transversion (entre classes)

Ce modèle (de Kimura, ou Chimura?) s'exprime par une matrice de substitutions telle celle-ci :

A C G T
A 1-α-2β β α β
C β 1-α-2β β α
G α β 1-α-2β β
T β α β 1-α-2β

Soit B une lettre avant le processus de substitution. Nous allons nous intéresser aux questions suivantes :

  • Quelle est la probabilité X(t) que le site soit occupé par B au temps t?
  • Quelle est la probabilité Y(t) que le site soit occupé au temps t par une lettre qui diffère de B par une transition?
  • Quelle est la probabilité Z(t) que le site soit occupé au temps t par une lettre qui diffère de B par une transversion?

Solution par la résolution d'un système de 4 éq. diff.

Soient PA(t), PC(t), PG(t), PT(t), les probabilités respectives d'avoir la lettre au temps t.

Alors,

P_A\left(t+T\right) = P_A\left(t\right)\left(1-\alpha_T - 2\beta_T \right) + P_C\left(t\right) \beta_T + P_G\left(t\right) \alpha_T + P_T\left(t\right) \beta_T
et similaire pour les autres (C, G, T). De là on calcule
\begin{eqnarray} P_A\left(t+T\right) - P_A\left(t\right) & = & P_A\left(t\right)\left(1-\alpha_T - 2\beta_T -1\right) + P_C\left(t\right) \beta_T + P_G\left(t\right) \alpha_T + P_T\left(t\right) \beta_T \\ & = & P_C\left(t\right) \beta_T + P_G\left(t\right) \alpha_T + P_T\left(t\right) \beta_T -P_A\left(t\right)\left(\alpha_T + 2\beta_T\right) \end{eqnarray}

Ensuite, comme dans le cas précédent,

\begin{eqnarray} {P_A}' \left(t\right) & = & \lim_{T\rightarrow 0} \left( \frac{P_A\left(t+T\right)-P_A\left(t\right)}{T} \right)\\ & = & \lim_{T\rightarrow 0} \left( \frac{P_C\left(t\right) \beta_T + P_G\left(t\right) \alpha_T + P_T\left(t\right) \beta_T - P_A\left(t\right)\left(\alpha_T + 2\beta_T\right)}{T} \right)\\ & = & \left[P_C\left(t\right)+ P_T\left(t\right) \right]\lim_{T\rightarrow 0} \frac{\beta_T}{T} + P_G\left(t\right) \lim_{T\rightarrow 0}\frac{\alpha_T }{T} -P_A\left(t\right)\lim_{T\rightarrow 0}\frac{\alpha_T}{T} - 2P_A\left(t\right)\lim_{T\rightarrow 0}\frac{\beta_T}{T}\\ & = & -P_A\left(t\right)\left(\alpha - 2\beta\right) + P_C\left(t\right)\beta+ P_G\left(t\right) \alpha + P_T\left(t\right) \beta \end{eqnarray}
Les autres se dérivent de la même manière, et nous obtenons :
\begin{pmatrix} {P'}_A\left(t\right) \\ {P'}_C\left(t\right) \\ {P'}_G\left(t\right)\\{P'}_T\left(t\right) \end{pmatrix} = \begin{pmatrix} -\left(\alpha+2\beta\right) & \beta & \alpha & \beta \\ \beta & -\left(\alpha+2\beta\right) & \beta \alpha \\ \alpha & \beta & -\left(\alpha+2\beta\right) & \beta \\ \beta & \alpha & \beta & -\left(\alpha+2\beta\right)\end{pmatrix}\begin{pmatrix} P_A\left(t\right) \\ P_C\left(t\right) \\ P_G\left(t\right)\\ P_T\left(t\right) \end{pmatrix}

Avec des traitements analogues aux traitements des équations différentielles vus plus haut, nous obtenons enfin

  • \displaystyle X\left(t\right) = \frac{1}{4}\left(1 + e^{-4\beta t} + 2 e^{-2\left(\alpha+\beta\right)t} \right)
  • \displaystyle Y\left(t\right) = \frac{1}{4}\left(1 + e^{-4\beta t} - 2 e^{-2\left(\alpha+\beta\right)t} \right)
  • \displaystyle Z\left(t\right) = \frac{1}{4}\left(1 - e^{-4\beta t}\right)

Quelle relation pouvons-nous trouver à X(t), Y(t) et Z(t)?

\begin{eqnarray} X\left(t\right) & = & \frac{1}{4} & + & \frac{1}{4} e^{-4\beta t} & + & \frac{1}{2}e^{-2\left(\alpha+\beta\right)t} \\ Y\left(t\right) & = & \frac{1}{4} & + & \frac{1}{4} e^{-4\beta t} & - & \frac{1}{2}e^{-2\left(\alpha+\beta\right)t} \\ 2\cdot Z\left(t\right) & = & \frac{2}{4} & - & \frac{2}{4} e^{-4\beta t} & & \\ \Sigma & = & 1 & + & 0 & + & 0 \end{eqnarray}

Solution du problème par approche matricielle

Distance évolutive

FIXME : Traitement incomplet :

5.4 Distance évolutive

Le problème est de définir une distance entre deux mots qui ont évolué d'un même ancêtre.

Rappel, la probabilité que le site soit occupé au temps t par une lettre identique à celle au temps 0 et P\left(t\right) = \frac{1}{n}+\frac{n-1}{n}e^{-\alpha n t}.

La probabilité que deux mots aient 2 lettres identiques dans un même site au temps t qui soient identiques à la lettre au temps 0, puisqu'ils sont censés évoluer indépendamment, est P(t)*P(t).

La probabilité que deux mots aient 2 lettres identiques dans un même site au temps t qui différent de la lettre au temps 0? Q(t)*Q(t).

La probabilité p(t) que deux mots aient 2 lettres identiques dans un même site au temps t?

Matrices de substitution

1) il ne manque pas quelque chose à cette phrase?
 
m1ilc/bioinfo_5.txt · Dernière modification: 2010/05/25 20:29 par suitable
 
Sauf mention contraire, le contenu de ce wiki est placé sous la licence suivante :CC Attribution-Noncommercial-Share Alike 3.0 Unported
Recent changes RSS feed Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki