GRAFISKE MODELLER 4. JUNI 2009 ET MAT4-PROJEKT I GRAFISKE MODELLERS ANVENDELSE I UDARBEJDET AF MIKKEL MEYER ANDERSEN 389I 389II

Størrelse: px
Starte visningen fra side:

Download "GRAFISKE MODELLER 4. JUNI 2009 ET MAT4-PROJEKT I GRAFISKE MODELLERS ANVENDELSE I UDARBEJDET AF MIKKEL MEYER ANDERSEN 389I 389II"

Transkript

1 GRAFISKE MODELLER ET MAT4-PROJEKT I GRAFISKE MODELLERS ANVENDELSE I BESTEMMELSE AF HAPLOTYPEFREKVENS UDARBEJDET AF MIKKEL MEYER ANDERSEN 4. JUNI I II VEJLEDER: POUL SVANTE ERIKSEN GRUPPE: G4-115A INSTITUT FOR MATEMATISKE FAG

2

3 Institut for Matematise Fag Fredri Bajers Vej 7G 9220 Aalborg Øst Telefon Fax Synopsis: Titel: Avanceret teori og metode Hovedområde: Sandsynlighedsregning og statisti PE-ursus: Grafise modeller Projetperiode: MAT4, forårssemestret 2009 Projetgruppe: G4-115a Projetmedlem: Miel Meyer Andersen Vejleder: Poul Svante Erisen Oplagstal: 4 Sidetal: 58 Bilagsantal og art: Ingen Afsluttet: 4. juni I dette projet arbejdes der med Y-STR-data og modellering af locis afhængighed. Denne afhængighedsstrutur i Y-STR er uendt, hvilet gør opgaven vanselig. I et forsøg på at finde denne afhængighed, igges der bl.a. på automatis struturlæring vha. PC-algoritmen samt informationsriterierne BIC og AIC. Det viser sig dog at være problematis med automatis struturlæring pga. tynde datasæt. Derfor onstrueres også en grafis model ud fra locis fysise placering i håb om, at det måse afspejler afhængigheden. For at vurdere valiteten af de grafise modeller, indføres Brier-score og estimation af den uobserverede sandsynlighedsmasse. Det viser sig, at ingen af de fundne modeller er brugbare i prasis. For at forsøge at lave tættere datasæt, så den automatise struturlæring måse bliver bedre, undersøges om visse alleler an ollapses for at minimere antal mulige haplotyper. Test for uafhængighed i forbindelse med ollapsning foretages både med Fishers esate test og Krusall og Goodmans γ. Det viser sig, at der an ollapses voldsomt fatis an mulige haplotyper reduceres med mere end 90% ved brug af Fishers esate test. I forbindelse med ollapsning undersøges også estimation af p-værdier vha. importance sampling af 2 - ontingenstabeller, hvilet netop er dem, der bruges i forbindelse med ollapsning. Udover modellering af locis afhængighed, udregnes også afstande mellem populationerne ved hjælp af Φ ST -værdier. Ved hjælp af lusteranalyse an der onstrueres et dendogram, der tydeligt viser, hvad man unne forvente: der er lar sammenhæng mellem geografis afstand mellem populationer og afstande mellem populationernes haplotyper. Projetrapportens indhold er frit tilgængeligt, offentliggørelse er tilladt med ildeangivelse. 3

4

5 Forord Dette projet er udarbejdet i forbindelse med MAT4-semestret i forårssemesteret 2009 af Miel Meyer Andersen, studerende ved Institut for Matematise Fag på Aalborg Universitet. Projetets tema er Avanceret teori og metode, og hovedområdet er Sandsynlighedsregning og statisti med Grafise modeller som PE-ursus, hvor bl.a. [Edwards, 2000] er blevet gennemgået. I studieordningen står der: Studerende, for hvem MAT4-semestret ie optræder som det afsluttende semester i deres bacheloruddannelse, an erstatte den sædvanlige rapporteringsform med en ortere oversigt over læste emner eller anvendte metoder. Esempelvis en oversigt over de centrale begreber og resultater på synopsis- eller artielform. Da undertegnede har opnået bachelorgraden, er den sædvanlige rapporteringsform erstattet med en oversigt over læste emner og anvendte metoder. Der er således i projetperioden blevet anvendt væsentligt mere tid på at læse artiler og bøger samt implementere metoder og algoritmer end at nedsrive teori og finpudse projetet der er blevet produceret ca liniers R-ode og ca liniers C#-ode. Kildeoden til programmer og scripts onstrueret i dette projet an findes på people.math.aau.d/~mil/mat4/projet. Der sal lyde en stor ta til vejlereden Poul Svante Erisen, der har bidraget med megen onstrutiv riti. Derudover sal Torben Tvedebrin ph.d.-studerende ved Institut for Matematise Fag, Aalborg Universitet også have en stor ta for altid at have tid til ontrutive samtaler omring retsgeneti såvel som matemati i almindelighed. Tilsvarende sal Retsmedicins Institut på Københavns Univertitet have stor ta for at levere data til dette projet. Bemær at der i projetet benyttes engelse separatorer. Med andre ord benyttes omma som tusindeseparator og puntum som decimalseparator. Tilsvarende er aritmetise gennemsnit noteret som x, summation over et indes noteres x j = i x ij og vetorer noteres som x. Miel Meyer Andersen

6

7 Indhold 1 Introdution Besrivelse af data Berørte emner AMOVA 13 3 Grafise modeller SL Structure Learner Scoringsbaseret grådig algoritme PC-algoritmen Udregning af sandsynligheder Kom hurtigt i gang med SL Modellering ud fra fysis placering af loci Resultater Estimat for sandsynlighedsmassen af uobserverede haplotyper Brier score Korretion BIC-resultater AIC-resultater NPC-resultater Sammenligning af grafise modeller Kollapsning Metode Resultater Grafise modeller ud fra ollapsede datasæt Automatis struturlæring Importance sampling Reursionsformler Baglæns indution

8 5.3 Fishers esate test Kommentarer til implementeringen Resultater Konfidensintervaller Kontingenstabeller Sammenligning af forsellige importance sampling-parametre Sammenligning af importance og Monte Carlo-sampling Opsummering Opsummering Videre arbejde

9 Kapitel 1 Introdution I traditionel STR på de autosomale romosomer, er der uafhængighed mellem de forsellige loci. Denne uafhængighed er esempelvis nyttig i udregning af den bevismæssige vægt. I Y-STR er der ie uafhængighed mellem de forsellige loci. Det gør, at udregningen af den bevismæssige vægt er mere ompliceret, men omvendt vil afhængigheden unne udnyttes til esempelvis at estimere en given Y-STR-haplotypefrevens under en grafis model, som afspejler afhængigheden mellem loci. I resten af rapporten vil begrebet haplotype henvise til Y-STR-haplotype. Projetet vil fousere på metoder vedrørende locis afhængighed primært ved hjælp af grafise modeller: hvordan man identificerer afhængighedsstruturen mm. Udregning af den bevismæssige vægt vil ie blive omtalt yderligere i dette projet. 1.1 Besrivelse af data I dette projet, har der været anvendt tre datasæt: dane fra [Hallenberg et al., 2004] bestående af de 10 loci DYS19, DYS389-I, DYS389-II, DYS390, DYS391, DYS392, DYS393, DYS437, DYS438 og DYS439 locus DYS385a/b er blevet sorteret bort grundet entydighedsproblematien 1 somali fra [Hallenberg et al., 2005] bestående af samme 10 loci som dane euystr04 fra i 2004 bestående af samme loci som dane pånær DYS437, DYS438 og DYS439 Datasættene dane og somali an findes på mens euystr04 an fås ved at sende en til mil@math.aau.d. Følgende R-script der anvender hclust-funtionen til clustering på en Manhattan-afstandsmatrix giver figur 1.1, der viser, at haplotyperne i dane og somali hovedsageligt er ret forsellige: 1 db < rbinddanes, somali 2 db < as.data.framedb 3 db$pop < crep"dk", nrowdanes, rep"som", nrowsomali 4 distdb < distdb[, -ncoldb], method="manhattan" 5 fit < hclustdistdb, method="ward" 6 plotfit, labels=db$pop 7 groups < cutreefit, =6 8 rect.hclustfit, =6, border="dargrey" 1 Allelerne for DYS385a/b er på formen X-Y, hvor man ie an selne om DYS385a=X og DYS385b=Y eller DYS385a=Y og DYS385b=X. 9

10 1.2 Berørte emner I dette projet er der blevet arbejdet med følgende: Udregning af afstande mellem populationerne på baggrund af metoden besrevet i [Excoffier et al., 1992] udtryt vha. Φ ST -værdier på samme måde som gjort i [Roewera et al., 2000] behandles i apitel 2 Udviling af værtøjet SL til struturlæring vha. PC-algoritmen, BIC og AIC og udregning af sandsynligheder i grafise modeller, som enten er fundet gennem struturlæring eller specificeret manuelt behandles i apitel 3 Opstilling af grafise modeller på baggrund af locis fysise placering behandles i afsnit 3.2 Udnyttelse af SL på de tre datasæt samt sammenligning af de resulterende grafise modeller og modeller afspejlende locis fysise placering ved hjælp af dæet sandsynlighedsmasse og Brier score behandles i afsnit 3.3 Kollapsning af forsellige alleler for at lave tættere datasæt ved hjælp af uafhængighedstests med Fishers esate test samt Krusall og Goodmans γ og efterfølgende sammenligning med uollapsede datasæt behandles i apitel 4 Implementering af importance samplingen fra [Mehta et al., 1988] samt sammenligning med traditionel Monto Carlo-sampling i forbindelse med estimation af p- værdier for 2 -ontingenstabeller behandles i apitel 5 10

11 11 Figur 1.1: Dendogram der viser, at haplotyperne i dane og somali hovedsageligt er ret forsellige.

12

13 Kapitel 2 AMOVA Analyse af moleylær varians analysis of molecular variance er behandlet i [Excoffier et al., 1992]. De ommer bl.a. frem til følgende vadratafvigelsessummer sum of squared deviations med samme notation som i ilden WP = within population; AP/WG = among population, within group; AG = among group: SSD WP = SSD AP/WG = G I g g=1 i=1 N ig j=1 N ig =1 δ2 j 2N ig, G Ig i=1 N ig j=1 I g i =1 N i g =1 δ2 j g=1 SSD AG = N j=1 N =1 δ2 j 2N I g i=1 2N ig G g=1 I g i=1 N ig j=1 N ig I g i=1 N ig j=1 I g i =1 N i g I g i=1 2N ig 2N ig =1 δ2 j =1 δ2 j hvor δ j er en Eulidis afstandsmetri mellem haplotype h j og h, I g er antal populationer i den g te gruppe og N ig er antal individer i den i te population i den g te gruppe hierariet er individ population gruppe. Rent beregningsmæssigt er det dog ie den mest optimale måde. I tilfældet, hvor afstanden mellem to haplotyper blot afspejler om allellerne på de forsellige loci er ens eller ej, an man i stedet lave vadratafvigelsessummer mere beregningseffetive. Denne simple metri har dog den ulempe, at den ie inorporerer single-step mutationer. For at lave metrien Eulidis, laves vadratafstandsmålet som dummy-odning, hvor et loci er en vetor med en længde svarende til antallet af mulige alleller og omponenterne har værdien på pladsen svarende til det atuelle allel og 0 på de andre pladser. For esemplets syld antages haplotypen at bestå af locus DYS437, der an antage allellerne 14, 15 og 16, samt locus DYS19, der an antage allellerne 22, 23, 24, 25. En haplotype h 1 = 14, 24 an så dummy-odes som vetoren 2 2 1, 0, 0, 0, 0, 2 } {{ } 1 2, 0, og tilsvarende an } {{ } DYS437 DYS19 h 2 = 16, 22 dummy-odes som 0, 0, 2 1 2, 2 } {{ } 1 2, 0, 0, 0. Dermed bliver } {{ } DYS437 DYS19 h 1 h 2 2 = = = 2, ,,

14 hvilet netop er antallet af positioner, hvor haplotyperne er forsellige. Lad x jig betegne den dummy-odede haplotype for det j te individ i den i te population i den g te gruppe og lad S være antal loci i haplotype. Dermed an vadratafvigelsessummer i stedet laves således, at SSD WP = = G g=1 I g N ig i=1 j=1 G I g N ig g=1 i=1 j=1 = N 1 2 x jig x ig 2 S G I g s=1 g=1 i=1 I g N ig i=1 j=1 G xjig 2 g=1 n s 2 ig N ig, N ig x ig 2 hvor man udnytter at dummy-odningen resulterer i, at xjig = 1. Vetoren nig s består af allel-antaller for locus s, og den har dermed antallet af forsellige alleller som dimension. Tilsvarende an gøres for SSD AP/WG = = = G g=1 I g N ig i=1 j=1 G I g N ig g=1 i=1 j=1 = 1 2 G g=1 I g S s=1 x ig x g 2 G x ig 2 g=1 g=1 i=1 I g N ig i=1 j=1 I g i=1 x g 2 G N ig x ig 2 N ig x g 2 i=1 g=1 G I g n s 2 G I g ig N ig N ig N ig g=1 i=1 n s g I g i=1 N ig 2 og SSD AG = = 1 2 = 1 2 G g=1 I g N ig i=1 j=1 S s=1 S s=1 x g x 2 G I g N ig g=1 i=1 G I g N ig g=1 i=1 n s g I g i=1 N ig n s g I g i=1 N ig 2 G I g N ig n s g=1 i=1 G g=1 I g 2 N n s 2 N i=1 N ig 2 14

15 Ved at benytte hjælpestørrelserne 1 an man udregne n = n = n = G g=1 I g i=1 N ig G g=1 G g=1 Ig i=1 N2 ig Ig i=1 N ig G g=1 I g G G 1 G g=1 I g i=1 N ig G g=1 Ig i=1 N2 ig Ig i=1 N ig G g=1 Ig i=1 N2 ig G g=1 Ig i=1 N ig Ig 2 i=1 N ig G g=1 Ig i=1 N ig G 1 σ 2 c = σ 2 c + nσ 2 b = SSD AP/WG g I g G σ2 b = σ 2 c + n σ 2 b + n σ 2 a = SSD AG G 1 σ2 a = SSD WP N g I g n SSD AP/WG for G > 1 for G > 1 σ2 c g I g G n SSD AG n G 1 n σ 2 b + σ2 c n for G > 1. Den besrevne metode resulterer udeluende i én Φ ST -værdi, så for at analysere variansen mellem populationer, an man udregne parvise Φ ST -værdier ved at onstruere én gruppe med de to populationer som [Roewera et al., 2000] esempelvis gør. Dermed an udregningerne reduceres til: SSD WP = N 1 S 2 n 2 s 2 i N i N s=1 i=1 i = N 1 S n 2 s 2 1 N 1 n s 2 2 N + N 2, s=1 1 N 2 SSD AP/WG = 1 S 2 2 N i n s 2 i n N s 2 s=1 i=1 i 2 i=1 N i = 1 S n 2 s 2 1 N 1 N n s 2 n s 2 2 s=1 1 N + N 2 N n s 2, 2 N SSD AG = 1 S 2 n 2 s 2 N i N N n s 2 = 1 S n N 2 s 2 N 1 n N + s 2 N 2 N N n s N s=1 i=1 s=1 = 1 N N 2 n s 2 N N n s 2 N = 0 n = S s=1 2 N i i=1 = 2N 1N 2 N σ 2 c = SSD WP N 2 2 i=1 N2 i 2 i=1 N i σ 2 b = SSD AP/WG σ 2 c n = N N2 1 + N2 2 N = N N 1 + N 2 2 2N 1 N 2 N 1 I [Excoffier et al., 1992] træes G ie fra i nævneren i udtryet for n, men det er en tryfejl, hvilet manualen til programmet Arlequin også afspejler. 2 = N N2 2N 1 N 2 N 15

16 Ved at implementere dette i R, an man vha. lusteranalysen foretaget af R-funtionen hclust få dendogrammet i figur 2.1. R-oden for plottet og AMOVA-analysen an findes i AMOVA-*.R-filerne, der an downloades fra projet. Afstanden mellem dane og somali er udregnet på baggrund af alle 10 loci, mens afstande mellem dane/somali og populationer fra euystr04-datasættet un ser på baggrund af de 7 loci i euystr04-datasættet det vil sige, at locus DYS437, DYS438 og DYS439 i dane/somali bliver ignoreret i udregninger med euystr04-datasættet. 16

17 17 Figur 2.1: Dendogram ud fra parvise AMOVA-afstande.

18

19 Kapitel 3 Grafise modeller I dette apitel arbejdes der hovedsageligt med grafise modeller. Først ommer et afsnit om struturlæring, dernæst ommer et afsnit omring modelontrol af grafise modeller, så ommer et afsnit omring haplotypemodellering ud fra fysis placering og til sidst ommer et afsnit med resultater af struturlæring og sammenligninger mellem de forsellige grafise modeller. 3.1 SL Structure Learner For at få et bedre indbli i struturinferens, er to algoritmer til struturinferens blevet implementeret i et program, der er blevet døbt SL for structure learner. Implementeringen er foretaget i programmeringssproget C#, der enten ræver.net- eller Mono-frameworet installeret. I SL er det un muligt at håndtere DAGs dvs. orienterede grafer uden redse. Dels er der blevet implementeret en scoringsbaseret grådig algoritme, hvor man an vælge mellem enten BIC eller AIC som informationsriterium, og dels er den restritionsbaserede PC-algoritme blevet implementeret. Den udvidede NPC-algoritme er ie blevet implementeret Scoringsbaseret grådig algoritme Scoringsbaseret læring foregår typis vha. deomposable informationsriterier på formen 2 log Q + p, hvor det gælder om at minimere scoren. Q er lielihood af data under modellen og p er omplesiteten af modellen. Tilfældet = 2 aldes AIC for Aaie Information Criteria og = log N, hvor N er antal observationer, aldes BIC for Bayesian Information Criteria. Hvis man transformerer scoringsfuntionen vha. x 2 x ligesom [Jensen and Nielsen, 2007, s. 243] hvor det så gælder om at masimere scoren, så an BIC for en DAG ifølge [Jensen and Nielsen, 2007, s. 243] udtryes som hvor BIC = n i=1 q i j=1 r i =1 N ij log Nij N ij log N 2 n q i r i 1, i=1 n er antallet af variable nuder i grafen, x i er den i te variabel, 19

20 r i er antallet af tilstande i x i, q i = xj pax i r j er antallet af onfigurationer over forældrene med den sædvanlige onvention, at det tomme produt er 1 og N ij er antallet af tilfælde i databasen med x i i sin te tilstand og pax i i sin j te tilstand. Den grådige version, der er implementeret i SL er blevet implementeret efter besrivelsen i [Jensen and Nielsen, 2007, algoritme 7.2, s. 246]. Fordi den er grådig, finder den un et loalt masimum. I SL er det gjort muligt at starte fra tilfældige startstruturer for at teste stabiliteten af de fundne masima. Der er også blevet forset i at finde et globalt masimum uden at sulle gennemsøge alle DAGs. Et esempel på det er [Singh and Moore, 2005], der begrænser mængden af mulige DAGs på følgende måde citat: We start with a simpler question than full structure discovery. Every acyclic digraph has at least one leaf. Can we identify a leaf of the best networ, x = LeafV? Since x cannot be the parent of any other variable, the score of the best networ on V consists of two parts: i the score of the best networ on V x and ii the score of LeafV given the best set of parents from V x, i.e., the set of parents that maximizes the node score of x. This argument requires a decomposable scoring metric. Recursively, we can as which node is a leaf in the best networ on V x. This process induces a reverse order on the variables. It remains to be shown how to choose LeafV. De finder LeafV vha. dynamis programmering. På denne måde undgår de at lave en udtømmende søgning, der ører i superesponentiel tid, men reducerer søgningen til un at øre i esponentiel tid. De sriver ydermere, at deres algoritme er pratis anvendelig for færre end 26 nuder PC-algoritmen PC-algoritmen er blevet implementeret efter besrivelsen i [Jensen and Nielsen, 2007, afsnit 7.1, s. 230]. Implementationen er forholdsvis langsom, da den er implementeret i et fuldt objetorienteret sprog uden ret mange optimeringer. Det er dog værre, at den er ubrugelig, da den er implementeret præcis som foresrevet i [Jensen and Nielsen, 2007], og ved grundig gennemlæsning af denne opdager man, at besrivelsen er problematis. Dels er der et mindre problem i forbindelse med introdution af v-struturer, og dels er der et alvorligt problem i forbindelse med den efterfølgende proces med at orientere anterne. Forfatterne af [Jensen and Nielsen, 2007] er blevet gjort opmærsom på problemerne. Problem med introdution af v-struturer I [Jensen and Nielsen, 2007, Rule 1, s. 231] er der en vis ularhed over, hvornår nye v- struturer introduceres; de sriver: If you have three nodes A, B, C, such that A C and B C, but not A B, then introduce the v-structure A C B if there exists an X possible empty such that IA, B, X and C X. Notationen IA, B, X betyder, at A er d-separeret fra B givet X. Når alle sådanne v-struturer er indført, sal man efterfølgende undgå at indføre nye v-struturer. Umiddelbart gør den 20

21 nævnte regel gensabelsen af en strutur som esempelvis C A B D umulig. Først ville man introducere v-struturen A C B: C A B D Herefter sal nye v-struturer undgås, hvilet ville resultere i: C A B D I stedet bør reglens ordlyd være: If you have three nodes A, B, C, such that A C and B C or wlog. A C and B C, but not A B, then introduce the v-structure A C B if there exists an X possible empty such that IA, B, X and C X. Problem med orientering af resterende anter Hvis man sammenligner [Jensen and Nielsen, 2007, Rule 2-4, afsnit 7.1] med [Kalisch and Buhlmann, 2007, Algorithm 2, s. 619] ser man, at Rule 2 i [Jensen and Nielsen, 2007] undgå nye v-struturer er ævivalent med R1 i [Kalisch and Buhlmann, 2007]. Tilsvarende er Rule 3 i [Jensen and Nielsen, 2007] undgå cyler ævivalent med R2 i [Kalisch and Buhlmann, 2007]. Herefter er Rule 4 i [Jensen and Nielsen, 2007], at man sal orientere anterne tilfældigt. Dog er der to regler mere i [Kalisch and Buhlmann, 2007]: R3 siger, at hvis man har situationen i l j hvor og l ie må være naboer, så sal i j orienteres til i j, således at i j l 21

22 Med udgangspunt i denne regel, vil [Jensen and Nielsen, 2007] un unne gensabe følgende DAG ved hjælp af tilfældighed: i j l Grunden til det er, at i j an risiere at blive orienteret i j i stedet for i j, da det er tilfældighedsreglen, der vil blive anvendt. Det sal dog nævnes, at R4 i [Kalisch and Buhlmann, 2007] også har minimum én tryfejl; reglen lyder nemlig som følger: R4 Orient i j into i j whenever there are two chains i l and l j such that and l are nonadjacent. Muligvis burde reglen i stedet ende med such that and j are nonadjacent eller such that i and l are nonadjacent. Disse nævnte problemer gør, at PC-algoritmen i SL er ubrugelig. I stedet an programmet Hugin esempelvis anvendes Udregning af sandsynligheder Ud over struturlæring an SL udregne sandsynligheder i DAGs. Man an vælge både at udregne sandsynligheder i de lærte struturer eller i en gyldig strutur, man selv specificerer dvs. en uden redse. Man an vælge enten at specificere de sandsynligheder, man ønser at få udregnet; at få udregnet dem, der er repræsenteret i datasættet eller sandsynlighederne for alle mulige onfigurationer. Da sidstnævnte mulighed an give anledning til et enormt antal udregninger, sriver SL hvor mange, det drejer sig om Kom hurtigt i gang med SL Dataformatet SL forstår består af en header, der besriver olonnerne, efterfulgt af data. Mulige olonner er:! angiver at olonnen sal ignoreres # angiver at olonnen er et antal og dermed bliver ræen talt med det antal gange, der står i #-olonnen un én olonne må være af typen angiver at olonnen er en fator eller gruppering om man vil; alle ræer med samme værdi samles i én struturlæring og sandsynlighedsudregning uden alle de andre un én olonne må være af De andre olonner evt. indapslet i anførselstegn fungerer som variabelnavne/nuder/tilstande Kolonner separeres af mellemrum, tab og semiolon Et esempel på en lovlig data-fil er følgende: 22

23 @ X1 X2 #! "Type_1" "Type_1" "Type_1" "Type_2" "Type_2" "Type_2" Man an også selv specificere DAGs, som man blot ønser at udregne sandsynligheder i. En DAG specificeres ved at angive en tilstands forældres separeret af omma. Følgende er et esempel, hvor DYS19 har DYS391 som forælder og DYS439 har både DYS389-I og DYS389-II som forældre: DYS19: DYS391 DYS389-I: DYS438, DYS389-II DYS389-II: DYS438 DYS390: DYS392 DYS391: DYS437 DYS392: DYS393: DYS19 DYS437: DYS439 DYS438: DYS390 DYS439: DYS389-I, DYS389-II 3.2 Modellering ud fra fysis placering af loci I stedet for at foretage automatis fitning af modellerne, an man også bruge a priori-viden til at onstruere modellerne. Umiddelbart ved vi ie, hvordan de forsellige loci har indflydelse på hinanden; det vides blot, at de ie er uafhængige. En mulighed unne være, at deres indbyrdes fysise placering på dna et afspejlede deres indbyrdes afhængighedsforhold. I [Hanson and Ballantyne, 2005] an de forsellige locis fysise placering findes. Der er lavet tre forsellige modeller navnepræfiset DYS er ie medtaget af oversuelighedsårsager: 1. ordens model: figur 3.1. Her er det antaget, at de enelte loci un er afhængige af sine direte naboer. 2. ordens model: figur 3.2. Her er det antaget, at de enelte loci un er afhængige af sine direte naboer samt naboernes direte naboer. 3. ordens model: figur 3.3. Her er det antaget, at de enelte loci un er afhængige af sine direte naboer, deres direte naboer samt naboernes naboers direte naboer. Her er modellerne lavet som uorienterede grafise modeller, men de unne lige så godt være lavet som DAGs, da det ville give de samme Marov-egensaber idet alle nuders forældre er indicente pr. onstrution. Ved at lave DAGs se DAG for 1. ordens modellen i figur 3.4 lavet vha. SL i stedet for uorienterede grafise modeller, an SL anvendes til at udregne dæet sandsynlighedsmasse. Marovegensaberne i de uorienterede og orienterede grafise modeller er ens, da den moraliserede graf for den orienterede graf har de samme anter som den orienterede graf populært sagt er alle forældrene gift. 23

24 389I II Figur 3.1: 1. ordens model efter locis fysise placering på dna et 389I II Figur 3.2: 2. ordens model efter locis fysise placering på dna et 389I II Figur 3.3: 3. ordens model efter locis fysise placering på dna et Figur 3.4: 1. ordens modellen som DAG tegnet vha. SL. 24

25 Datasæt Singletons Observationer Uobserveret masse dane somali Tabel 3.1: Sandsynlighedsmasse for uobserverede haplotyper. 3.3 Resultater I dette afsnit introduceres først to måder at vurdere, hvor godt en grafis model modellerer loci afhængighed. Dels an man sige noget om, hvor meget sandsynlighedsmasse uobserverede haplotyper ca. udgør, og dels an ved hjælp af Brier score vurdere, hvor godt en grafis model modellerer data. Det observerede data sal gerne være sandsynligt under en given model. I dette afsnit tages der un udgangspunt i dane og somali, fordi euystr04 indeholder mange forsellige populationer, og AMOVA-analysen i apitel 2 viste, at man ie an tillade sig at betragte hele datasættet som én population. Samtidig viser analysen også, at dane og somali repræsenterer to vidt forsellige populationer Estimat for sandsynlighedsmassen af uobserverede haplotyper Jf. [Robbins, 1968] an sandsynlighedsmassen af uobserverede haplotyper tilnærmelsesvis estimeres ved antal singletons antal observationer + 1. I tabel 3.1 ses sandsynlighedsmassen af uobserverede haplotyper for dane og somali. Datasættet euystr04 er ie medtaget grundet resultatet af AMOVA-analysen i apitel 2, der viste, at man ie an tillade sig at betragte hele datasættet euystr04 som én population. Tallene er fundet med følgende ode: 1 # ds is the data set in question 2 lengthwhichas.matrixtableapplyds, 1, paste, collapse=","==1 Når man sal udregne den dæede sandsynlighedsmasse under modellen, summerer man sandsynlighederne for de forsellige observerede haplotyper under den givne model Brier score For at ontrollere, hvor god den grafise model er, an man sammenligne den relative frevens med sandsynligheden udregnet under modellen. Til det formål an man udregne den såaldte Brier score. Brier scoren bruges som et nødvendigt rav: den model man har, sal som minimum modellere det observerede data godt, men det er ie nødvendigvis et tilstræeligt rav til at sire en god model. Lad n være antal observationer i alt, antal forsellige haplotyper, x i antal observationer af haplotypen i og p i sandsynligheden for haplotype i under den grafise model. Antag at hvormed x i Bin n, p i for i = 1, 2,...,, E [x i ] = np i Var [x i ] = np i 1 p i 25

26 Betragt nu den stoastise variabel y i = Fra Den Centrale Grænseværdisætning fås, at xi 2 n p i. y i N,, i=1 hvor middelværdien og variansen an findes. Først bemæres, at [ xi ] [ 2 E [y i ] = E n p xi i = E n E [x ] 2 [ i] xi ] = Var = 1 n n n 2 np i1 p i = 1 n p i1 p i [ ] [ Var [y i ] = E y 2 i E [y i ] 2 xi ] 4 = E n p i E [y i ] 2, hvor [ xi ] [ 4 E n p xi i = E n = 1 n 4 E [x 4 i 4 xi 3 4 pi + 6 n ] 4p i [x n 3 E i 3 xi 2 p 2 n i 4 x i ] + 6p2 i n 2 E [ x 2 i ] n p3 i + p4 i ] 4p3 i n E [x i] + p 4 i. Den momentgenerende funtion for x i er givet ved og ydermere gælder, at M xi t = E [exp tx i ] = = p i exp t + 1 p i n, [ ] E xi d = M x d i 0, altså den momentgenerende funtions d te afledede. Dermed fås, at 1 Var [y i ] = x i 0 4p i n 3 M3 x i 0 + 6p2 i n 2 M x i 0 4p3 i n np i + p 4 i n 4 M4 1 2 n p i1 p i. Dermed an der standardiseres, således at der grundet uafhængighed gælder, at b := i=1 y i i=1 E [y i] i=1 Var [y i] N0, 1, hvormed b > 1.96 er ritise med et signifiansniveau på 2.5% 1.96 er 97.5%-fratilen for standardnormalfordelingen. Brier scoren sal dog bruges varsomt. I visse henseender an den være ritis; hvordan sal man esempelvis fortole, hvis b er signifiant negativ hvormed modellen passer for godt på data? En implementation af den gennemgåede Brier score an ses i Listing 3.1, hvor udtryet for variansen er fundet vha. Maple: 1 cat"en-sidet test: værdier større end 1.96 er ritise.\n\n" 2 3 binvar < functionp, n 4 { 5 sum 6 n^4 p^4+6 n^3 p^3-6 n^3 p^4+7 n^2 p^2-18 n^2 p^3+11 n^2 p^4+n p-7 n p^2+12 n p^3-6 n p^4/ 7 n^4-4 p n^3 p^3+3 n^2 p^2-3 n^2 p^3+n p-3 n p^2+2 n p^3/ 26

27 8 n^3+6 p^2 n^2 p^2+n p-n p^2/n^2-3 p^4-p^2 1-p^2/n^2 9 } brier < functionn, p, rel.freq 12 { 13 if lengthp!= lengthrel.freq 14 { 15 stop"lengthp!= lengthrel.freq" 16 } sumobs < sumrel.freq - p^2 19 sume < sum1/n p 1-p 20 var < binvarp, n cat"sumobs = sumrel.freq - p^2 =", sumobs, "\n" 23 cat"sume = sum1/n p 1-p =", sume, "\n" 24 cat"var = ", var, "\n" 25 cat"sumobs - sume / sqrtvar = ", sumobs - sume / sqrtvar, "\n" 26 } Listing 3.1: Filen brier.r: Brier score Korretion Man an lave en orretion, således at man i stedet for E [x i ] tager E [x i x i > 0], da resten er 0. Det bemæres, at E [X X > 0] = x px, X > 0 xpx X > 0 = x = x xpx x px > 0 px > 0 = E [X] 1 px = 0 = E [X] 1 1 p n så derfor sættes p i := p i 1 1 p i n. Man unne overveje at orrigere variansen på tilsvarende vis BIC-resultater I figur 3.5 ses den bedste strutur, BIC har unnet finde ud fra læring med dane. Den er fundet ud fra den tomme startstrutur. Der blev også forsøgt 10 tilfældige startstruturer hvoraf nogle gav anledning til samme score som den tomme. Listen over scores er: Random08 has score = -2666, Random01 has score = -2666, NoEdges has score = -2666, Random05 has score = -2666, Random07 has score = -2679, Random00 has score = -2725, Random03 has score = -2742, Random09 has score = -2754, Random06 has score = -2762, Random02 has score = -2792, Random04 has score = -2796, Summen af sandsynlighedsmassen for de forsellige haplotyper under modellen er , hvorfor det uobserverede sandsynlighedsmasse er I figur 3.7 ses den bedste strutur, BIC har unnet finde ud fra læring med somali. Den er fundet ud fra en tilfældig startstrutur, der an ses i figur 3.6. Som før blev der forsøgt med den tomme graf som startstrutur samt 10 tilfældige. Listen over scores er: 27

28 Figur 3.5: Resultatet af BIC på dane med den tomme graf som startstrutur. Random08 has score = -1848, Random02 has score = -1850, Random05 has score = -1857, NoEdges has score = -1857, Random04 has score = -1859, Random03 has score = -1859, Random09 has score = -1874, Random06 has score = -1883, Random07 has score = -1891, Random01 has score = -1948, Random00 has score = -1957, Summen af sandsynlighedsmassen for de forsellige haplotyper under modellen er , hvorfor det uobserverede sandsynlighedsmasse er AIC-resultater I figur 3.8 ses den bedste strutur, AIC har unnet finde ud fra læring med dane. Den er fundet ud fra den tomme startstrutur. Der blev også forsøgt 10 tilfældige startstruturer hvoraf ingen gav anledning til samme score som den tomme. Listen over scores er: NoEdges has score = -2255, Random00 has score = -2364, Random01 has score = -2404, Random05 has score = -2500, Random02 has score = -2507, Random07 has score = -2561, Random03 has score = -2586, Random04 has score = -2601, Random08 has score = -2613, Random09 has score = -2654, Random06 has score = -2682,

29 Figur 3.6: Den tilfældige startstrutur for BIC på somali. Resultatet an ses i figur 3.7. Figur 3.7: Resultatet af BIC på somali med startstruturen i figur

30 Figur 3.8: Resultatet af AIC på dane med den tomme graf som startstrutur. Summen af sandsynlighedsmassen for de forsellige haplotyper under modellen er , hvorfor det uobserverede sandsynlighedsmasse er I figur 3.9 ses den bedste strutur, AIC har unnet finde ud fra læring med somali. Den er fundet ud fra den tomme startstrutur. Der blev også forsøgt 10 tilfældige startstruturer hvoraf ingen gav anledning til samme score som den tomme. Listen over scores er: NoEdges has score = -1499, Random01 has score = -1531, Random09 has score = -1588, Random02 has score = -1639, Random07 has score = -1698, Random06 has score = -1700, Random03 has score = -1703, Random00 has score = -1707, Random08 has score = -1708, Random04 has score = -1739, Random05 has score = -1786, Summen af sandsynlighedsmassen for de forsellige haplotyper under modellen er , hvorfor det uobserverede sandsynlighedsmasse er NPC-resultater På grund af problematien besrevet i afsnit medtages udeluende en struturlæring med NPC-algoritmen foretaget af programmet Hugin. For dane ses den grafise model i figur 3.10 og for somali i figur Da modellerne er for simple, arbejdes der ie yderligere med dem Sammenligning af grafise modeller Jf. afsnit an man give et estimat for den uobserverede sandsynlighedsmasse. I tabel 3.2 ses en opsummering af, hvor meget uobserveret sandsynlighedsmasse de forsellige grafise modeller prediterer. For en forlaring af 1., 2., og 3. ordens fysise modeller, henvises til afsnit

31 Figur 3.9: Resultatet af AIC på somali med den tomme graf som startstrutur. Figur 3.10: Resultatet af NPC-algoritmen på dane foretaget af programmet Hugin. Figur 3.11: Resultatet af NPC-algoritmen på somali foretaget af programmet Hugin. 31

32 dane somali Teoretis estimat BIC AIC ordens fysis model ordens fysis model ordens fysis model Tabel 3.2: Tabel over uobserveret sandsynlighedsmasse fundet med den bedst passende model. Det teoretis estimatet bygger på afsnit 3.3.1, der er baseret på [Robbins, 1968]. dane somali dane* somali* BIC AIC ordens fysis model ordens fysis model ordens fysis model Tabel 3.3: Tabel over Brier-scores ved de forsellige grafise modeller. De to olonner længst til højre mareret med * er den orrigerede Brier-score se afsnit I afsnit blev Brier-scoren introduceret. I tabel 3.3 ses Brier-scoren for de forsellige grafise modeller. Det ses, at den orrigerede Brier-score specielt for dane opfører sig marant anderledes end den uorrigerede. For en forlaring af 1., 2., og 3. ordens fysise modeller, henvises til afsnit 3.2. I alt må det siges, at der ie er fundet en god model. 32

33 Kapitel 4 Kollapsning Kontingenstabellerne er meget tynde, dvs. der er mange nuller. Det giver flere problemer. Esempelvis an man ie udnytte, at deviansen approsimativt er χ 2 -fordelt, da det er alt for upræcist i så tynde tabeller. For at få større styre, an man forsøge at ollapse niveauer og på den måde få tættere ontingenstabeller. For at ollapse to niveauer X 1 og X 2, vil man for enhver Y af de andre variable undersøge, om PY X 1 = PY X 2 svarende til uafhængighed i en 2 -ontingenstabel. For S + 1 variable i alt får man dermed ontingenstabellerne 2 c 1, 2 c 2,..., 2 c S, der alle sal testet for uafhængighed mellem X 1 og X 2. Hvis X 1 og X 2 findes at være uafhængige i alle tabellerne, an de ollapses. Normalt ville man no anvende Pearsons approsimative χ 2 -test på deviansen, men pga. de tynde ontingenstabeller, er det ie muligt. Derfor vælges i stedet esate test, der ie afhænger af om ontingenstabellerne er tynde eller tætte. Man an teste for uafhængighed i ontingenstabeller på flere måder: i det atuelle tilfælde med 2 c s -tabeller generelt r c- tabeller an man esempelvis anvende Fishers esate test eller Krusall og Goodman γ for ordinale data. For at gennemgå udregningen af Krusall og Goodman γ, betragtes ontingenstabellen For denne 2 s-ontingenstabel udregnes Y 1 Y 2 Y s X 1 n 11 n 12 n 1s X 2 n 21 n 22 n 2s ˆγ = { C D C+D hvor C er de onordante par givet ved for C + D = 0, 0 ellers C = n 22 n 11 + n 23 n 11 + n n 2s n 11 + n n 1s 1 = s j=2 j 1 n 2j n 1, =1 og tilsvarende er D de disonordante par givet ved D = n 12 n 21 + n 13 n 21 + n n 1s n 21 + n n 2s 1 = s j=2 j 1 n 1j n 2. =1 33

34 Per definition vil γ [ 1, 1]. Hvis der er uafhængighed, vil γ = 0. Ved positiv orrelation vil γ > 0 og for negativ orrelation vil γ < 0. For at teste for uafhængighed, gøres således: Algoritme 1 Test for uafhængighed vha. Krusall og Goodmans γ Require: t {t is the contingency table in question} 1: N 1000 {random contingency tables to generate} 2: α 0.05 {significance level} 3: e 0 {number of tables with a more extreme γ-value than t} 4: for i = 1 to N do 5: t randtablet {generates a random contingency table with the same size and marginals as t} 6: if γt > γt then 7: e e + 1 8: end if 9: end for 10: p e/n 11: if p α then 12: return true{indepence} 13: else 14: return false{depence} 15: end if Bemær at funtionen randtable ie er nærmere specificeret. Det er fordi, at den an laves på flere forellige måder. Esempelvis an Patefields algoritme anvendes til at sample tilfældige ontingenstabeller med faste marginaler i R er Patefields algoritme implementeret vha. funtionen r2dtable. 4.1 Metode Såvel ræefølgen af variable, der gennemsøges, såvel som variablenes niveauer, der undersøges for ollaps, er tilfældigt. Så snart der er fundet et ollaps startes reursivt at ollapse på det nye datasæt, hvor niveauerne er blevet ollapset. Der foretages altså ie flere ollaps samtidigt. Som argumentation for det i tilfældet med Fishers esate test, betragt da ontigenstabellen a 1,1 a 1,n R a m,1 a m,n R m C 1 C n Under nulhypotesen om at der er uafhængighed vil celle-counts følge en generaliseret hypergeometris fordeling, og dermed er sandsynligheden for en ontingenstabel med de givne marginaler givet ved P cutoff = R 1! R m!c 1! C n!. i R i i j a i,j! I det onrete tilfælde sal det tjees, om P 1 cutoff for a 1,1 a 1,p a 1,p+1 a 1,n R 1 a 2,1 a 2,p a 2,p+1 a 2,n R 2 C 1 C p C p+1 C n 34

35 Fishers esate test Krusall og Goodmans γ Datasæt Niveauer ollapset Redutionsprocent Niveauer ollapset Redutionsprocent dane % % somali % 0 0 % Tabel 4.1: Resultatet af den optimale ollapsning på grundlag af 100 tilfældige ræefølger for tests. I testet for Krusall og Goodmans γ er der genereret 1000 tabeller ved generering af tabeller fås samme resultater. Redutionsprocenten er hvor mange procent antallet af mulige haplotyper er reduceret med i forhold til inden ollapsningen. I dane var un ét af ollapsene det samme ved Fishers esate test som ved Krusall og Goodmans γ. er det samme som P 2 cutoff for a 1,1 a 1,p + a 1,p+1 a 1,n R 1 a 2,1 a 2,p + a 2,p+1 a 2,n R 2 C 1 C p + C p+1 C n Bemær at man, da det ie er en rangtest, vha. ombytning af olonnerne altid an få de to niveauer, der sal ollapses til at hedde p og p + 1. Dermed er P 1 cutoff = R 1!R 2!C 1! C n! R 1 + R 2 a 1,1! a 1,n!a 2,1! a 2,n! P 2 cutoff = R 1!R 2!C 1! C p + C p+1! Cn! R 1 + R 2 a 1,1! a 1,p + a 1,p+1! a1,n!a 2,1! a 2,p + a 2,p+1! a2,n! Antag modsætningsvist, at P 1 cutoff = P2 cutoff. I så fald sulle der gælde, at C 1! C n! a 1,1! a 1,n!a 2,1! a 2,n! = C 1! Cp + C p+1! Cn! a 1,1! a 1,p + a 1,p+1! a1,n!a 2,1! a 2,p + a 2,p+1! a2,n!, hvilet ville føre til, at C p!c p+1! a 1,p!a 1,p+1!a 2,p!a 2,p+1! = Cp + C p+1! a1,p + a 1,p+1! a2,p + a 2,p+1!, hvilet generelt ie gælder. Dermed an man ie generelt ollapse flere niveauer i samme ørsel. Dog an man bemære, at da ollapsning oftest giver større styre, vil to niveauer, der inden ollaps er signifiant afhængige, som oftest også være signifiant afhængige efter ollaps, da de ie-signifiante niveauer er blevet ollapset. Denne bemærning bliver dog ie benyttet i den atuelle metode: her øres test for ollaps forfra vha. reursion så snart et ollaps er foretaget. R-ildeoden til ollapsningen findes i cluster-*.r-filerne på Resultater I tabel 4.1 ses opsummering af resultaterne for den optimale ollapsning. Datasættet dane ollapses på 3 forsellige måder, når det øres 100 tests hvor den eneste forsel er hvilen ræefølge, ollapsene er blevet forsøgt fortaget for ollaps med Fisher esate test. Hvile niveauer der ollapses afhænger altså af den ræefølge, de forsøges ollapset i. De tre repræsentanter for de forsellige ollaps giver % redution, % redution og % redution i antallet af mulige haplotyper. Forsellen er fx at nogle steder bliver DYS439 ollapset til 3 niveauer i stedet for 4 på grund af ræefølgen, de er undersøgt i. Tilsvarende bliver DYS389II ollapset til enten 5 eller 6 niveauer. 35

36 Den masimale redution er altså %, hvilet må siges at være en væsentlig redution. Niveauerne ollapses således udsrift fra R-scriptet allelerne er saleret op med en fator 10 for un at sulle arbejde med heltal; esempelvis findes allelet 10.2: DYS19: 160 and 170 is independent so 170 has been collapsed to 160 DYS389II: 300 and 330 is independent so 330 has been collapsed to 300 DYS389II: 270 and 340 is independent so 340 has been collapsed to 270 DYS389II: 300 and 320 is independent so 320 has been collapsed to 300 DYS390: 230 and 210 is independent so 210 has been collapsed to 230 DYS391: 90 and 100 is independent so 100 has been collapsed to 90 DYS392: 120 and 160 is independent so 160 has been collapsed to 120 DYS392: 110 and 102 is independent so 102 has been collapsed to 110 DYS392: 150 and 140 is independent so 140 has been collapsed to 150 DYS393: 140 and 150 is independent so 150 has been collapsed to 140 DYS439: 100 and 140 is independent so 140 has been collapsed to 100 DYS439: 120 and 130 is independent so 130 has been collapsed to 120 Datasættet somali blev tilsvarende ollapset, hvilet resulterede i en redution i antallet af mulige haplotyper på % ved hjælp af Fishers esate test: DYS19: 140 and 170 is independent so 170 has been collapsed to 140 DYS389I: 120 and 110 is independent so 110 has been collapsed to 120 DYS389II: 260 and 290 is independent so 290 has been collapsed to 260 DYS389II: 310 and 330 is independent so 330 has been collapsed to 310 DYS390: 220 and 230 is independent so 230 has been collapsed to 220 DYS390: 210 and 260 is independent so 260 has been collapsed to 210 DYS390: 240 and 250 is independent so 250 has been collapsed to 240 DYS393: 140 and 150 is independent so 150 has been collapsed to 140 DYS437: 160 and 150 is independent so 150 has been collapsed to 160 DYS438: 100 and 120 is independent so 120 has been collapsed to 100 DYS439: 130 and 100 is independent so 100 has been collapsed to 130 For Krusall og Goodmans γ ved ørsel af 100 tests blev somali slet ie reduceret, og dane blev ved reduceret med % således: DYS391: 120 and 110 is independent so 110 has been collapsed to 120 DYS393: 120 and 140 is independent so 140 has been collapsed to 120 DYS389II: 270 and 280 is independent so 280 has been collapsed to 270 DYS439: 120 and 130 is independent so 130 has been collapsed to 120 Her ses, at i DYS393 er to ie-naboer blevet ollapset. Der an argumenteres for, at ved anvendelse af Krusall og Goodmans γ, må un naboer ollapses ellers vil der blive problemer med, hvordan ordinaliteten i data bibeholdes. 4.3 Grafise modeller ud fra ollapsede datasæt Hvis man laver en grafis model til udregning af sandsynligheder i et ollapset datasæt, fatoriserer den simultane sandsynlighed ie helt som sædvanligt. Man er nødt til at ompensere for de ollapsede niveauer ved at gange passende sandsynligheder på. Hvis esempelvis a 1 og a 2 er to niveauer, der er blevet ollapset, så består ompensationen i, at den simultane sandsynlighed fatoriserer til PA = a 1, B = b,... = PA = a 1 A = a 1 a 2 PA = a } {{ } 1 a 2, B = b,..., } {{ } I oprindeligt datasæt I ollapset datasæt hvor A = a 1 a 2 er hændelsen A {a 1, a 2 }. 36

37 dane somali Teoretis estimat ordens fysis model ordens fysis model ordens fysis model Tabel 4.2: Tabel over uobserveret sandsynlighedsmasse for de masimalt ollapsede datasæt, hvor ollapsningen er foretaget vha. Fishers esate test. Tabel over uobserveret sandsynlighedsmasse for de uollapsede datasæt ses i tabel 3.2. Det teoretis estimatet bygger på afsnit 3.3.1, der er baseret på [Robbins, 1968]. dane Teoretis estimat ordens fysis model ordens fysis model ordens fysis model Tabel 4.3: Tabel over uobserveret sandsynlighedsmasse for de masimalt ollapsede datasæt, hvor ollapsningen er foretaget vha. Krusall og Goodmans γ. Datasættet somali er ie medtaget, da det ie gav anledning til ollaps. Tabel over uobserveret sandsynlighedsmasse for de uollapsede datasæt ses i tabel 3.2. Det teoretis estimatet bygger på afsnit 3.3.1, der er baseret på [Robbins, 1968]. I stedet for at implementere understøttelse af ollapsning i SL se besrivelse i afsnit 3.1, er det i stedet implementeret fra bunden i R for DAGs. Både fordi datastruturen, der registrerer hvile alleler, der er blevet ollapset allerede var internt i R efter ollapsningen var foretaget den bliver onstrueret netop til formålet at unne udregne ompensationen; Fishers esate test og Patefields algoritme var implementeret i R, fordi at SL er odet i C# og ingen af de API er der findes til R an bruges fra C#, samt at det også gav mulighed for at teste udregningerne i SL. Det er implementeret på den måde, at man angiver en liste med en længde svarende til antallet af nuder, og hver indgang i listen indeholder en vetor bestående af indeser på den atuelle nudes forældre. Dette er brugt til at udregne dels summen af den dæede sandsynlighedsmasse samt Brier-scoren i de masimalt ollapsede datasæt. Når man sal udregne Brier-scoren for de ollapsede datasæt, foregår det som normalt: sandsynligheden er den ompenserede simultane sandsynlighed og den relative frevens for en haplotype er den samme som i det ie-ollapsede datasæt. Ved brug af Fishers esate test ses den estimerede uobserverede sandsynlighedsmasse i tabel 4.2 og Brier-scores ses i tabel 4.4. Tilsvarende for Krusall og Goodmans γ ses i henholdsvis tabel 4.3 og 4.5. På samme måde som i resultaterne for de uollapsede datasæt se afsnit 3.3 ses det, at den orrigerede Brier-score opfører sig marant anderledes end den uorrigerede på dane, hvorimod de ser ens ud på somali. dane somali dane* somali* 1. ordens fysis model ordens fysis model ordens fysis model Tabel 4.4: Tabel over Brier-scores for de masimalt ollapsede datasæt, hvor ollapsningen er foretaget vha. Fishers esate test. Tabel over Brier-scores for de uollapsede datasæt ses i tabel 3.3. De to olonner længst til højre mareret med * er den orrigerede Brier-score se afsnit

38 dane dane* 1. ordens fysis model ordens fysis model ordens fysis model Tabel 4.5: Tabel over Brier-scores for de masimalt ollapsede datasæt, hvor ollapsningen er foretaget vha. Krusall og Goodmans γ. Datasættet somali er ie medtaget, da det ie gav anledning til ollaps. Tabel over Brier-scores for de uollapsede datasæt ses i tabel 3.3. Kolonnen længst til højre mareret med * er den orrigerede Brier-score se afsnit Figur 4.1: Resultatet af NPC-algoritmen på det masimalt ollapsede dane foretaget af programmet Hugin Automatis struturlæring En automatis struturlæring på de ollapsede datasæt sulle gerne resultere i en stærere afhængighedsstrutur og dermed en graf med flere anter. I dette afsnit vises automatis struturlæring med NPC vha. Hugin på datasættet ollapset med Fishers esate test. Funtionaliteten i cluster*.r-filerne vil unne udvides på en sådan måde, at man ved hjælp af samme funtioner som bruges i udregning af dæet sandsynlighedsmasse og vetorerne til udregning af Brier-scoren ved modellerne for locis fysise placering. Her er der dog udeluende medtaget resultatet af NPC. I figur 4.1 ses resultatet af NPC-algoritmen lavet ved hjælp af Hugin på dane sammenlign med figur Struturmæssigt ligner det en form for 1. ordens model, men afhængighederne er ie i overensstemmelse med 1. ordens modellen baseret på locis fysise placering. I figur 4.2 ses resultatet af NPC-algoritmen lavet ved hjælp af Hugin på somali sammenlign med figur Struturmæssigt ligner det en form for 3. ordens model, hvis grafen moraliseres, men afhængighederne er ie i overensstemmelse med 3. ordens modellen baseret på locis fysise placering. 38

39 Figur 4.2: Resultatet af NPC-algoritmen på det masimalt ollapsede somali foretaget af programmet Hugin. 39

40

41 Kapitel 5 Importance sampling I dette apitel igges nærmere på metoden besrevet i [Mehta et al., 1988], der handler om, hvordan man an estimere esate p-værdier for 2 -ontingenstabeller. I første afsnit udledes formler, der ie er udledt i artilen, og i afsnittet herefter anvendes metoden på Fishers esate test, og der sammenlignes med Rs implementation i form af fisher.test, der anvender Patefields algoritme [Patefield, 1981]. En implementation af den besrevne importance sampling i R an også findes på projet i impsamp.r-filen. For at introducere notationen, lad x = x 1,..., x være den første ræe i en 2 - ontingenstabel. For faste marginaler m = i=1 x i og søjlesummerne n 1, n 2,..., n identificerer x derfor entydigt en ontingenstabel. Som hjælpestørrelse sættes N = i=1 n i og { j s j = i=1 x i j 1 0 j = 0 og som i tilfældet med s j, lad der generelt gælde, at j i=x f i = 0, når j < x. Idéen i [Mehta et al., 1988] er at opbygge et netvær, hvor en vej fra starttilstanden 0, 0 gennem j, s j for j = 1, 2,..., 1 til sluttilstanden, m er en ontingenstabel, og vejens sandsynlighed er ontingenstabellens unormerede sandsynlighed og vejens længde er værdien af teststørrelsen. I sridt j vil der således være mange mulige tilstande j, s j1, j, s j2,.... Se en mere detaljeret besrivelse i [Mehta et al., 1988, afsnit 3.1]. Hvis N j = j i=1 n i, så an s j variere mellem max 0, N j + m N og min m, N j. Det er nyttigt at give mængden af mulige børn til en tilstand j, s j betegnelsen { Rj, s j = j + 1, w : max s j, m i=j+2 n i w min m, s j + n j+1 }. Lad Γj, s j betegne mængden af alle veje fra tilstanden j, s j til sluttilstanden, m, og lad x j = x j+1,..., x. Inden der introduceres de essentielle funtioner, nævnes først nogle nødvendige antagelser. Der er få generelle antagelser i [Mehta et al., 1988], bl.a. at teststørrelsen tx sal unne srives på formen t x = a i x i i=1 og at sandsynligheden hx for en ontingenstabel x an srives på formen hx = C 1 i=1 λ i s i 1, x i 41

Bilag 5: DEA-modellen Bilaget indeholder en teknisk beskrivelse af DEA-modellen

Bilag 5: DEA-modellen Bilaget indeholder en teknisk beskrivelse af DEA-modellen Bilag 5: DEA-modellen Bilaget indeholder en tenis besrivelse af DEA-modellen FRSYNINGSSERETARIATET INDLEDNING... 3 INPUTSTYRET DEA-MDEL... 3 UTPUTSTYRET DEA-MDEL... 7 SALAAFAST... 12 2 Indledning Data

Læs mere

Bernoullis differentialligning v/ Bjørn Grøn Side 1 af 10

Bernoullis differentialligning v/ Bjørn Grøn Side 1 af 10 Bernoullis differentialligning v/ Bjørn Grøn Side af 0 Bernoullis differentialligning Den logistise differentialligning er et esempel på en ie-lineær differentialligning Den logistise differentialligning

Læs mere

Numerisk løsning af differentialligninger

Numerisk løsning af differentialligninger KU-LIFE; Matemati og modeller 009 Numeris løsning af differentialligninger Thomas Vils Pedersen 1 Numerise metoder Ved numeris analyse forstås tilnærmet, talmæssig løsning af problemer, som ie, eller un

Læs mere

Projekt 5.3 De reelle tal og 2. hovedsætning om kontinuitet

Projekt 5.3 De reelle tal og 2. hovedsætning om kontinuitet Projet 53 De reelle tal og 2 hovedsætning om ontinuitet Mens den 1 hovedsætning om ontinuerte funtioner om forholdsvis smertefrit ud af intervalrusebetragtninger, så er 2 hovedsætning betydeligt vanseligere

Læs mere

Dagens forelæsning. Grinblatt & Titman kap. 5. Introduktion. Introduktion. Exhibit 5.1. Investeringsmulighedsområdet. Investeringsmulighedsområdet

Dagens forelæsning. Grinblatt & Titman kap. 5. Introduktion. Introduktion. Exhibit 5.1. Investeringsmulighedsområdet. Investeringsmulighedsområdet Dagens forelæsning Investeringsmulighedsområdet Grinblatt & Titman ap. 5 Sammenhængen mellem risio og forventet afast (security maret line Capital Asset Pricing Model ( Empirise tests af 2 G&T ap 4: Introdution

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Program for i dag og næste gang: Kvantitative metoder Besrivende statisti og analyse af valitatitive data 7. februar 007 Besrivende statisti som grundlag for en øonometris analyse Statistise metoder til

Læs mere

En undersøgelse af faktoriseringsalgoritmen Pollard p-1

En undersøgelse af faktoriseringsalgoritmen Pollard p-1 itsi 009, proetopgave Torsten Jordt, 9754 00009 En undersøgelse af fatoriseringsalgoritmen Pollard p- Indhold: Opgavens mål og rammer Introdution til fatoriseringsalgoritmer og Pollard p- 3 Pollard p-

Læs mere

Sammenligning af proteiners 3-dimensionelle strukturer

Sammenligning af proteiners 3-dimensionelle strukturer Sammenligning af proteiners 3-dimensionelle struturer Køreplan 01005 Matemati 1 - FORÅR 2006 1 Formål Formålet med opgaven er at lave en metode til sammenligning af proteiners 3-dimensionale struturer

Læs mere

Foldningsintegraler og Doobs martingale ulighed

Foldningsintegraler og Doobs martingale ulighed Foldningsintegraler og Doobs martingale ulighed N.J. Nielsen Indledning I dette notat vil vi vise en sætning om foldningsintegraler, som blev benyttet trin 2 i onstrutionen af Itointegralet, gennemgå esempel

Læs mere

J n (λ) = dvs. n n-jordan blokken med λ i diagonalen. Proposition 1.2. For k 0 gælder. nullity (J n (λ) λi) k 1) 1 for 1 k n. n for k n.

J n (λ) = dvs. n n-jordan blokken med λ i diagonalen. Proposition 1.2. For k 0 gælder. nullity (J n (λ) λi) k 1) 1 for 1 k n. n for k n. . Jordan normalform Målet med dette notat er at vise hvorledes man ud fra en given matrix beregner dens Jordan normalform. Definition.. For n og λ C sættes λ 0... 0. 0 λ... J n λ).......... 0....... λ

Læs mere

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistiske Modeller 1: Kontingenstabeller i SAS Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.

Læs mere

UGESEDDEL 7 LØSNINGER. Opgave 7.2.1

UGESEDDEL 7 LØSNINGER. Opgave 7.2.1 UGESEDDEL 7 LØSNINGER Opgave 7.2.1 Definition 1. En følge {x } in R n onvergerer mod puntet x, dersom der, for ethvert ɛ > 0, findes et N N sådan at x x < ɛ for alle N. Her definerer vi 1) x x 2 = x 1)

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Vina Nguyen HSSP July 13, 2008

Vina Nguyen HSSP July 13, 2008 Vina Nguyen HSSP July 13, 2008 1 What does it mean if sets A, B, C are a partition of set D? 2 How do you calculate P(A B) using the formula for conditional probability? 3 What is the difference between

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Jordskælvs svingninger i bygninger.

Jordskælvs svingninger i bygninger. Jordsælvssvingninger side 1 Institut for Matemati, DTU: Gymnasieopgave Jordsælvs svingninger i bygninger. Jordsælv. Figur 1. Forlaring på de tetonise bevægelser. Jordsælv udløses når de tetonise plader

Læs mere

Basic statistics for experimental medical researchers

Basic statistics for experimental medical researchers Basic statistics for experimental medical researchers Sample size calculations September 15th 2016 Christian Pipper Department of public health (IFSV) Faculty of Health and Medicinal Science (SUND) E-mail:

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

UGESEDDEL 7 LØSNINGER. ) og ɛ > 0 N N : (1 + konvergerer ikke, thi følgen x 1 + = ( 1)k

UGESEDDEL 7 LØSNINGER. ) og ɛ > 0 N N : (1 + konvergerer ikke, thi følgen x 1 + = ( 1)k UGESEDDEL 7 LØSNINGER Opgave 7.2. Definition. En følge {x } in R n onvergerer mod puntet x, dersom der, for ethvert ɛ > 0, findes et N N sådan at x x < ɛ for alle N. Her definerer vi ) x x 2 = x ) x )

Læs mere

Statistisk mekanik 1 Side 1 af 11 Introduktion. Indledning

Statistisk mekanik 1 Side 1 af 11 Introduktion. Indledning Statistis meani Side af Indledning Statisti er et uundværligt matematis redsab til besrivelsen af et system med uoversueligt mange bestanddele. F.es. er der så mange luftmoleyler i blot mm 3 luft, at det

Læs mere

Maksimum likelihood estimation af parametrene i logitmodellen med stokastiske individparametre Et simulationsstudie.

Maksimum likelihood estimation af parametrene i logitmodellen med stokastiske individparametre Et simulationsstudie. Masimum lelihood estimation af parametrene i logitmodellen med stoastise individparametre Et simulationsstudie Jørgen Kai Olsen Institut for Afsætningsøonomi Handelshøjsolen i København 23 Indholdsfortegnelse

Læs mere

Imputeret forbrug over livscyklussen

Imputeret forbrug over livscyklussen Imputeret forbrug over livscylussen Stephanie Koefoed Rebbe Danish Rational Economic Agents Model, DREAM DREAM Arbejdspapir 2014:1 Marts 2014 Abstract Arbejdspapiret beregner individers private forbrug

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Målet for disse slides er at diskutere nogle metoder til at gemme og hente data effektivt.

Målet for disse slides er at diskutere nogle metoder til at gemme og hente data effektivt. Merging og hashing Mål Målet for disse slides er at diskutere nogle metoder til at gemme og hente data effektivt. Dette emne er et uddrag af kurset DM507 Algoritmer og datastrukturer (2. semester). Mål

Læs mere

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6 Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Forelæsning 11: Envejs variansanalyse, ANOVA

Forelæsning 11: Envejs variansanalyse, ANOVA Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Målet for disse slides er at beskrive nogle algoritmer og datastrukturer relateret til at gemme og hente data effektivt.

Målet for disse slides er at beskrive nogle algoritmer og datastrukturer relateret til at gemme og hente data effektivt. Merging og hashing Mål Målet for disse slides er at beskrive nogle algoritmer og datastrukturer relateret til at gemme og hente data effektivt. Dette emne er et uddrag af kurset DM507 Algoritmer og datastrukturer

Læs mere

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test) Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalse, ANOVA Peder Bacher DTU Compute, Dnamiske Sstemer Bgning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lngb Danmark e-mail:

Læs mere

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse Afsnit 8.3 - E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse Først skal normalfordelingen lige defineres i Maple, så vi kan benytte den i vores udregninger. Dette gøres

Læs mere

Skriftlig Eksamen Kombinatorik, Sandsynlighed og Randomiserede Algoritmer (DM528)

Skriftlig Eksamen Kombinatorik, Sandsynlighed og Randomiserede Algoritmer (DM528) Skriftlig Eksamen Kombinatorik, Sandsynlighed og Randomiserede Algoritmer (DM58) Institut for Matematik og Datalogi Syddansk Universitet, Odense Torsdag den 1. januar 01 kl. 9 13 Alle sædvanlige hjælpemidler

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder 2 Beskrivende statistik og analyse af kvalitatitive data 12. februar 2007 Kvantitative metoder 2: F3 1 Program for i dag: Test i multinomialfordelingen: Q-testet (BL.13.1-2) Opsamling

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Approximations-algoritmer. Løsningsmetoder for NP -hårde opt.problemer

Approximations-algoritmer. Løsningsmetoder for NP -hårde opt.problemer Motivation Definitioner Approximations-algoritme for nudeoverdæning Approximations-algoritme for TSP med treantsulighed Negativt resultat om generel TSP Approximations-algoritme for SET-OVERING Fuldt polynomiel-tids

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Program for i dag: Kvantitative metoder Beskrivende statistik og analyse af kvalitatitive data 1. februar 007 Test i multinomialfordelingen: Q-testet (BL.13.1-) Opsamling fra sidste gang To eksempler To-dimensionale

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Noter til kursusgang 8, IMAT og IMATØ

Noter til kursusgang 8, IMAT og IMATØ Noter til kursusgang 8, IMAT og IMATØ matematik og matematik-økonomi studierne 1. basissemester Esben Høg 25. oktober 2013 Institut for Matematiske Fag Aalborg Universitet Esben Høg Noter til kursusgang

Læs mere

Algoritmedesign med internetanvendelser ved Keld Helsgaun

Algoritmedesign med internetanvendelser ved Keld Helsgaun Algoritmedesign med internetanvendelser ved Keld Helsgaun 1 Analyse af algoritmer Input Algoritme Output En algoritme er en trinvis metode til løsning af et problem i endelig tid 2 Algoritmebegrebet D.

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Vores mange brugere på musskema.dk er rigtig gode til at komme med kvalificerede ønsker og behov.

Vores mange brugere på musskema.dk er rigtig gode til at komme med kvalificerede ønsker og behov. På dansk/in Danish: Aarhus d. 10. januar 2013/ the 10 th of January 2013 Kære alle Chefer i MUS-regi! Vores mange brugere på musskema.dk er rigtig gode til at komme med kvalificerede ønsker og behov. Og

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,

Læs mere

6. Regression. Hayati Balo,AAMS. 1. Nils Victor-Jensen, Matematik for adgangskursus, B-niveau 1

6. Regression. Hayati Balo,AAMS. 1. Nils Victor-Jensen, Matematik for adgangskursus, B-niveau 1 6. Regression Hayati Balo,AAMS Følgende fremstilling er baseret på 1. Nils Victor-Jensen, Matematik for adgangskursus, B-niveau 1 6.0 Indledning til funktioner eller matematiske modeller Mange gange kan

Læs mere

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl Landmålingens fejlteori Lektion 4 Vægtet gennemsnit Fordeling af slutfejl - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/36 Estimation af varians/spredning Antag X 1,...,X n stokastiske

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner afsnit 6.1 og 6.2 Betingede diskrete

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen Sandsynlighedsregning 0. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner afsnit 6. og 6. Betingede diskrete

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen Sandsynlighedsregning 10. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner afsnit 6.1 og 6.2 Betingede diskrete

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Selvstudium 1, Diskret matematik

Selvstudium 1, Diskret matematik Selvstudium 1, Diskret matematik Matematik på første studieår for de tekniske og naturvidenskabelige uddannelser Aalborg Universitet I dette selfstudium interesserer vi os alene for tidskompleksitet. Kompleksitet

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling. Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mål for sammenhæng mellem to variable

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mål for sammenhæng mellem to variable Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Mål for sammenhæng mellem to variable Estimation Stikprøve Data Population Teori relativ hyppighed parameter estimat sandsynlighed parameter

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Uafhængighedstestet Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher Kursus 02323: Introducerende Statistik Forelæsning 12: Forsøgsplanlægning Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Preben Blæsild og Jens Ledet Jensen

Preben Blæsild og Jens Ledet Jensen χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Linear Programming ١ C H A P T E R 2

Linear Programming ١ C H A P T E R 2 Linear Programming ١ C H A P T E R 2 Problem Formulation Problem formulation or modeling is the process of translating a verbal statement of a problem into a mathematical statement. The Guidelines of formulation

Læs mere

Tilgang til data. To udbredte metoder for at tilgå data: Sekventiel tilgang Random access: tilgang via ID (også kaldet key, nøgle) for dataelementer.

Tilgang til data. To udbredte metoder for at tilgå data: Sekventiel tilgang Random access: tilgang via ID (også kaldet key, nøgle) for dataelementer. Merging og Hashing Tilgang til data To udbredte metoder for at tilgå data: Sekventiel tilgang Random access: tilgang via ID (også kaldet key, nøgle) for dataelementer. API for sekventiel tilgang (API =

Læs mere

Ikke-parametriske tests

Ikke-parametriske tests Ikke-parametriske tests 2 Dagens menu t testen Hvordan var det nu lige det var? Wilcoxson Mann Whitney U Kruskall Wallis Friedman Kendalls og Spearmans correlation 3 t-testen Patient Drug Placebo difference

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Afsnit 6.1. Ligefordelinger, fra sidst Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler

Læs mere

Help / Hjælp

Help / Hjælp Home page Lisa & Petur www.lisapetur.dk Help / Hjælp Help / Hjælp General The purpose of our Homepage is to allow external access to pictures and videos taken/made by the Gunnarsson family. The Association

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Log-lineære modeller Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Kontingenstabel Contingency: mulighed/tilfælde Kontingenstabel: antal observationer (frekvenser)

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Maple-oversigt til matematik B-niveau: Rungsted Gymnasium Definer en funktion og funktionsværdier. Tegn grafen for en funktion.

Maple-oversigt til matematik B-niveau: Rungsted Gymnasium Definer en funktion og funktionsværdier. Tegn grafen for en funktion. Maple-oversigt til matematik B-niveau: Rungsted Gymnasium 2011 Definer en funktion og funktionsværdier (1.1) 32 (1.2) (1.3) Tegn grafen for en funktion (2.1) 250 200 150 100 50 0 5 10 8 6 4 2 0 1 2 0 y

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

RESEARCH PAPER. Nr. 5, Prisoptimering i logitmodellen under konkurrence. Jørgen Kai Olsen

RESEARCH PAPER. Nr. 5, Prisoptimering i logitmodellen under konkurrence. Jørgen Kai Olsen RESEARCH PAPER Nr. 5, 004 Prisoptimering i logitmodellen under onurrence af Jørgen Kai Olsen INSTITUT FOR AFSÆTNINGSØKONOMI COPENHAGEN BUSINESS SCHOOL SOLBJERG PLADS 3, DK-000 FREDERIKSBERG TEL: +45 38

Læs mere

Statistik for MPH: 7

Statistik for MPH: 7 Statistik for MPH: 7 3. november 2011 www.biostat.ku.dk/~pka/mph11 Attributable risk, bestemmelse af stikprøvestørrelse (Silva: 333-365, 381-383) Per Kragh Andersen 1 Fra den 6. uges statistikundervisning:

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner Stokastiske variable:

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Fejlbeskeder i SMDB. Business Rules Fejlbesked Kommentar. Validate Business Rules. Request- ValidateRequestRegist ration (Rules :1)

Fejlbeskeder i SMDB. Business Rules Fejlbesked Kommentar. Validate Business Rules. Request- ValidateRequestRegist ration (Rules :1) Fejlbeskeder i SMDB Validate Business Rules Request- ValidateRequestRegist ration (Rules :1) Business Rules Fejlbesked Kommentar the municipality must have no more than one Kontaktforløb at a time Fejl

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Erhvervsakademiet Fyn Signalbehandling Aktivt lavpas filter Chebyshev Filter

Erhvervsakademiet Fyn Signalbehandling Aktivt lavpas filter Chebyshev Filter Erhvervsaademiet Fyn Signalbehandling Ativt lavpas filter --3 Chebyshev Filter Udarbejdet af: Klaus Jørgensen & Morten From Jacobsen. It- og Eletronitenolog, Erhvervsaademiet Fyn Udarbejdet i perioden:

Læs mere