BM121 Resume af tirsdags forlæsningen, Uge 47

Størrelse: px

Starte visningen fra side:

Download "BM121 Resume af tirsdags forlæsningen, Uge 47"

Benjamin Steffensen
8 år siden
Visninger:

1 BM121 Resume af tirsdags forlæsningen, Uge 47 Morten Källberg 22/ Probabilistiske modeller Vi vil i det følgende betragte to forskellige måder at evaluerer en given model udfra et bestemt datasæt. Udfra disse overvejelser vil vi forsøge at opstille probabilistiske modeller for evolution. 1.1 Maximum likelihood Parametrene i en probabilistisk model estimeres ofte udfra repræsentative datasæt. Dette kunne fx. være frekvensen hvormed hver af de tyve aminosyre forekommer i vores random sequence model. Denne model udtaler sig om sandsynligheden for at sekvensen x 1... x n er opstået tilfældigt, baseret på en estimeret sandsynlighed for hver aminosyre q a 1 : n P (x 1... x n ) = q xi (1) i=1 Mere genrelt kan man sige at maximum likelihood tilpasser vores modelparametre således at P (data model) bliver størst mulig. 1.2 Posterior probability Posterior probability udtaler sig om situationen hvor vi givet noget data ønsker at finde sandsynligheden for en model, dvs. P (model data). Dette illustreres med et eksempel: 1 Egentlig gælder denne model kun for sekvenser af en given længde n, da SSH fordelingen skal summe til 1. Alternativt kunne medregnes en faktor der udtaler sig om SSH for en given længde n. 1

Udfra disse overvejelser vil vi forsøge at opstille probabilistiske modeller for evolution. 1.1 Maximum likelihood Parametrene i en probabilistisk model estimeres ofte udfra repræsentative datasæt.

2 1.2.1 Eksempel: Intracellulære og extracellulære proteiner Vi antager at intracellulære (int.) og extracellulære (ext.) proteiner har forskellige aminosyre distributioner, således kan hver aminosyre tilskrives værdier qa ext og qa int afhængig af, om den stammer fra et ext. eller int. protein. Desuden vil vi definere SSH for at en sekvens er ext. ved p ext. og SSH for at en sekvens er int. p int = 1 p ext. (, idet der ses bort fra andre muligheder). Disse kaldes prior SSH, da de repræsenterer et gæt vi foretager før vi har noget information omkring den sekvens der ønskes undersøgt. Udfra ovenstående er P (x ext.) = n i=1 qext. x i og P (x int.) = n i=1 qint. x i, og dermed opskrive P (x) = P (x ext.)p ext. + P (x int.)p int. Vi kan opskrive sandsynligheden for P (ext. x) vha. Bayes formel (idet x angiver sekvens data): P (ext x) = p(x ext)p(ext) p(x) = p ext. i qext. x i P (x ext.)p ext. + P (x int.)p int. (2) P (ext x) kaldes posterior SSH idet den udtaler sig om SSH for vores ext.-model givet en sekvens x, eller med andre ord SSH for at x er sekvens for et ext. protein. 1.3 Baysian parameter estimation Er vi ikke i besiddelse af nok data til at kunne estimere troværdige parametre i en model, kan vi anvende Bayes formel. Denne kan ligeledes bruges som ovenfor, til at finde sandsynligheden for en model givet data. Ønsker vi at estimere en parameter q givet en datamængde D beregnes følgende SSH: P (q D) = P (q)p (D q) q P (q )P (D q ) (3) Idet vores parameter oftest er kontinuerte størrelser anvendes integralet i nævneren til at bestemme P (D). Et problem med denne metode er at vi ofte ikke har en givet distribution for P (q), dette løses enten ved at lave distributionen uniform, eller foretaget kvalificerede estimator udfra a priori viden. Et andet problem vi bør se på er hvorledes (3) skal anvendes. Vi kan vælge den værdi af q der maksimerer P (q D), dette kaldes maximum a posterior (MAP) estimering. Idet nævneren i (3) er uafhængig af q, vil MAP estimering svare til at maksimere tælleren i udtrykket 2. 2 Bemærk at hvis P (q) er uniform fordelt svarer dette til maximum likelehood estimering. 2

ved p ext. og SSH for at en sekvens er int. p int = 1 p ext. (, idet der ses bort fra andre muligheder).

3 2 Probabilistisk tilgang til konstruktion af evolutionstræer Vi ønsker at tilskrive et givent træ T en værdi udfra en af de to metoder: Maximum Likelihood: p(data T ) Posterior probability: p(t data) Lad os antage at vi har en metode til at tilskrive sandsynlighenden for at en parental sekvens y udvikler sig til en sekvens x over en kant af længde t, dvs. P (x y, t). Sandsynlighenden for sekvenserne i et træ T bestående af x 1... x n knuder er da P (x 1... x n T,t), idet t angiver kanterne i træet. Vi finder altså sandsynligheden for sekvenserne givet en topologi. Denne sandsynlighed kan beregnes ved at betragte produktet af hver overgang mellem to sekvenser, givet et kant. Ved de to ovenfor nævnte tilgange til at finde det bedste træ gøres da følgende: Maximum Likelihood (Ml): For hver topologi Find ML kantlængderne Det træ der medfører højst likelihood udvælges Posterior probability: Vi ser på antal gange vi møder et træ udfra stokastisk sampling idet vi har givet en posterior distribution P (T, t, x 1... x n ). Dvs. vi sampler udfra en mængde af træer hvis sandsynlighed er givet ved forudbestemt distribution. Vi kan nu ved at tælle hvor ofte en given topologi forekommer estimere dennes sandsynlighed. 2.1 Model for evolution Vi vil starte med at opstille en simplificeret model for evolution. Vi ved at biologiske sekvenser (fx. polypeptider) ændres idet der sker substitutioner, samt deletioner og insertioner af enkelte residues eller længere sekvens stykker. Den model vi først vil arbejde udfra er dog noget simplificeret i forholdet til dette: Det antages at hvert residue kan betragtes som uafhængigt af de andre og at indels ikke forekommer. Modellen medfører at de sekvenser vi laver vores træ udfra kan alignes uden gaps, og med en evolution af hvert site der er uafhængig af andre sites. 3

Sandsynlighenden for sekvenserne i et træ T bestående af x 1... x n knuder er da P (x 1... x n T,t), idet t angiver kanterne i træet. Vi finder altså sandsynligheden for sekvenserne givet en topologi.

4 2.2 Substitution matricer Lad P (x i y i, t) angive sandsynligheden for at residue y i i sekvens y er blevet udskiftet med x i over en given kantlængde t. Det vil sige sansynligheden for sekvens y er blevet til x over en given tid er u P (x u y u, t) hvor t angiver en kantlængde. Genrelt kan sandsynligheden for at udskifte et residue med et andet givet et alfabet af størrelse K, angives i en K K matrix, der afhænget af t: S(t) = P (a 1 a 1, t) P (a 2 a 1, t)... P (a K a 1, t) P (a 1 a 2, t) P (a 2 a 2, t)... P (a K a 2, t) P (a 1 a K, t) P (a 2 a K, t)... P (a K a K, t) (4) Multiplikativitet Begrebet multiplikativitet skal her nævnes. En matrice som ovenstående siges at være mutiplikativ hvis det gælder at: S(t)S(s) = S(t + s) For alle værdier s og t (5) 2.3 Jukes-Cantor modellen For nukleotid sekvenser findes såkaldte Jukes-Cantor substiotutions model. Denne antager at matricen R der angiver raten hvormed substitutioner forekommer tager følgende form: A C G T A 3α α α α C α 3α α α G α α 3α α T α α α 3α (6) Betragter vi nu substitutionsmatricen S(ɛ) for små tidskrift ɛ, denne er da givet ved S(ɛ) (I + Rɛ), hvor I er identitetsmatricen. Altså har vi I + Rɛ = 1 3αɛ αɛ αɛ αɛ αɛ 1 3αɛ αɛ αɛ αɛ αɛ 1 3αɛ αɛ αɛ αɛ αɛ 1 3αɛ 4 (7)

Genrelt kan sandsynligheden for at udskifte et residue med et andet givet et alfabet af størrelse K, angives i en K K matrix, der afhænget af t: S(t) = P (a 1 a 1, t) P (a 2 a 1, t).

5 Udfra (5) har vi at S(t + ɛ) = S(t)S(ɛ) S(t)(I + Rɛ). Dette kan omskrive til følgende differenskvotient: S(t)R S(t + ɛ) S(t) ɛ (8) Denne har for ɛ gående mod nul værdien S (t) = S(t)R. Vi antager nu at S(t) har følgende form: S(t) = r t s t s t s t s t r t s t s t s t s t r t s t s t s t s t r t (9) Ved at indsætte dette i det opnåede udtryk for S (t) får vi følgende utryk for de enkelte elementer i S (t): dr dt ds dt = 3αr + 3αs (10) = αs + αr (11) Ved differantering ses det let at de to ovenstående ligninger er opfyldt af: r t = (1/4)(1 + 3e 4αt ) (12) s t = (1/4)(1 e 4αt ) (13) Det skal her bemærkes at hvis t går imod uendelig får vi at r t = s t = 1 4. Modellen siger altså implicit at de fire nukleotider i grænsen vil være distribueret ens, hvilket for så vidt passer nogenlunde med autentiske observationer. 3 Set udfra et biologisk synspunkt har Jukes-Cantor dog den svaghed at modellerer purinepurine eller pyrimidine-pyrimidine substitutioner som værende lige så sandsynlig som en purine-pyrimidine substitution, hvilket ikke stemmer overens med faktiske iagtagelser. I virkeligheden er transitioner (fx. purine-purine subst.) mere almindelige en transversioner (purinepyrimidine subst.). 3 Statistisk er de 4 nukleotider bestemt til at forkomme med følgende frekvenser: A = 28.9%, T = 27.4%, C = 21.9% og G = 21.8% 5

enkelte elementer i S (t): dr dt ds dt = 3αr + 3αs (10) = αs + αr (11) Ved differantering ses det let at de to ovenstående ligninger er opfyldt af: r t = (1/4)(1 + 3e 4αt ) (12) s t = (1/4)(1 e 4αt )

Relaterede dokumenter

Bayesiansk statistik. Tom Engsted. DSS Aarhus, 28 november 2017

Bayesiansk statistik. Tom Engsted. DSS Aarhus, 28 november 2017 Bayesiansk statistik Tom Engsted DSS Aarhus, 28 november 2017 1 Figure 1: Nicolajs gur 2 Klassisk frekvensbaseret statistik Statistisk beslutningsteori Bayesiansk statistik Et kompromis mellem den klassiske