i Hjørring Ph.d.-studerende Institut for Matematiske Fag Aalborg Universitet 7. maj 2008 1/36
Oversigt Hvad kan man blive? Fra talmateriale til analyse Sæsonvariation Retsgenetik 2/36
Statistikerens opgave Som statistiker fungerer man ofte som en slags konsulent for andre. Statistik er sammen med matematik blandt de videnskaber som har størst tværfaglig anvendelse. Store fagområde hvor statistiske modeller anvendes er: Lægevidenskaben Økonomi Teknologi og produktion 3/36
Lægevidenskaben Undersøgelser i forbindelse med nye præparater eller behandlingsmetoder. Analyser af sammenhænge mellem sygdom og øvrige oplysninger. 4/36
Økonomi Overvåge (kontinuerte) markeder (valuta, aktier) vha statistiske modeller. Kvantifisere risikogrupper for forsikringsselskaber. 5/36
Teknologi og produktion Produkt og kvalitetskontrol. Analysere store mængder data i forbindelse med nye produkter eller teknologier. 6/36
Hvad kan man blive? På Aalborg Universitet kan man når man studerer matematik bl.a. specialisere sig indenfor statistik. Således har man statisik i to af sine fire år på matematik studiet. Tidligere medstuderende med speciale i statistik Sidefag Ingeniørfag Fysik Økonomi Ophold i Cambridge Ophold i Oxford Jobbeskrivelse Ph.d.-studerende - pt. i Chicago senere Perth. Statistiker i produktsupport hos Vestas. Statistiker i økonomiafdelingen hos Vestas. Ph.d.-studerende - Vinder af rejselegat. Ph.d.-studerende i retsgenetik. Andre statistikere (tidligere studerende eller ansatte på Aalborg Universitet) arbejder hos fx. Sonofon, Spar Nord, Novo Nordisk, Aalborg Sygehus, Statens Seruminsitut, Kræftens Bekæmpelse, m.fl. 7/36
Master of Science i Oxford University of Oxford : 2005-2006 Et-årig MSc i Anvendt Statistik Legater Internationalt miljø i verdensklasse Engelsk Mester i håndbold 8/36
Statistik teori Som tidligere nævnt er statistikerens opgave ofte at bistå andre i deres analysearbejde. Således udspringer langt de fleste statistiske teorier fra anvendelsesområder, mens andre udvikles pga. ren teoretisk interesse. Regression er blandt de mest anvendte metoder i statistik til at analysere sammenhænge mellem variable. 9/36
Inden dataindsamling I samarbejde med den faglige ekspert (læge, fysiker, biolog, ingeniør, ect.) diskuteres problemstillingen og hvilke formål analysen har. For at få bedst mulige resultater bør denne diskussion finde sted inden data indsamles. Processen indebærer bl.a. hvorledes forsøget skal designes. 10/36
Inden dataindsamling I samarbejde med den faglige ekspert (læge, fysiker, biolog, ingeniør, ect.) diskuteres problemstillingen og hvilke formål analysen har. For at få bedst mulige resultater bør denne diskussion finde sted inden data indsamles. Processen indebærer bl.a. hvorledes forsøget skal designes. 11/36
Inden dataindsamling I samarbejde med den faglige ekspert (læge, fysiker, biolog, ingeniør, ect.) diskuteres problemstillingen og hvilke formål analysen har. For at få bedst mulige resultater bør denne diskussion finde sted inden data indsamles. Processen indebærer bl.a. hvorledes forsøget skal designes. 12/36
Deskriptive analyser I denne fase bruger man ofte det som kaldes deskriptive metoder - dvs. man typisk laver en masse plot af data med forskellige formål. Alle statistiske teorier bygger på en række antagelser - disse antaglser er vigtige at undersøge validiteten af inden analysen foretages. 13/36
Dataplot eksempler Sepal.Length Sepal.Width Petal.Length Petal.Width Species 5.1 3.5 1.4 0.2 setosa 4.9 3.0 1.4 0.2 setosa 4.7 3.2 1.3 0.2 setosa 4.6 3.1 1.5 0.2 setosa 5.0 3.6 1.4 0.2 setosa.... 7.0 3.2 4.7 1.4 versicolor 6.4 3.2 4.5 1.5 versicolor 6.9 3.1 4.9 1.5 versicolor 5.5 2.3 4.0 1.3 versicolor 6.5 2.8 4.6 1.5 versicolor.... 6.3 3.3 6.0 2.5 virginica 5.8 2.7 5.1 1.9 virginica 7.1 3.0 5.9 2.1 virginica 6.3 2.9 5.6 1.8 virginica 6.5 3.0 5.8 2.2 virginica.. 14/36
Dataplot eksempler Anderson s Iris Data 3 species 2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5 Sepal.Length 4.5 5.5 6.5 7.5 2.0 2.5 3.0 3.5 4.0 Sepal.Width Petal.Length 1 2 3 4 5 6 7 0.5 1.0 1.5 2.0 2.5 Petal.Width 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 1 2 3 4 5 6 7 15/36
Dataplot eksempler Guinea Pigs Tooth Growth tooth length 0 5 10 15 20 25 30 35 Ascorbic acid Orange juice 0.5 0.5 1 1 2 2 Vitamin C dose mg 16/36
Dataplot eksempler 160 170 180 190 200 160 170 180 190 200 Alto 2 Alto 1 Soprano 2 Soprano 1 0.08 0.06 0.04 0.02 Density Bass 2 Bass 1 Tenor 2 Tenor 1 0.00 0.08 0.06 0.04 0.02 0.00 160 170 180 190 200 160 170 180 190 200 Height (cm) 17/36
Dataplot eksempler Normal Q Q Plot Precipitation [in/yr] for 70 US cities 10 20 30 40 50 60 2 1 0 1 2 Theoretical Quantiles 18/36
Lungebetændelser i Nordjylland I perioden 1995-2002 har vi både data om forekomsten af lungebetændelser (pneumonia) og meteorologiske data (temperatur, nedbør, luftfugtighed mm). Analysens formål er at undersøge om der er en sammenhæng mellem forekomsten af lungebetændelser (målt på populations niveau) og meteorologiske variable. 19/36
Sinuskurve Det er almindelig kendt at både meteorologiske variable og forekomsten af lungebetændelse varierer hen over året. Derfor forsøges data modelleret med en sinuskurve. 20/36
Sinuskurve Det er almindelig kendt at både meteorologiske variable og forekomsten af lungebetændelse varierer hen over året. Derfor forsøges data modelleret med en sinuskurve. Temperature 10 0 5 15 1995 1996 1997 1998 1999 2000 2001 2002 2003 Year 21/36
Sæsonvariation En kurve som den på forrige slide kan skrives som μ + A sin(φ + tω) =μ + A [sin(φ)cos(tω)+cos(φ)sin(tω)], hvor vi brugte additionsformlen for sin. Symbolerne betyder følgende: μ Forskydningen af nulpunktet i forhold til x-aksen. A Amplituden der sikre kurven kan svinge mellem A og A. φ Fasen som forskyder kurven til skærering i (φ, 0) og ikke (φ, 0). ω Vinkelhastigheden som tiden t bevæger sig med. t Tiden t, forhvertår er 0 t 1, så ω sættes til 2π. 22/36
Sæsonvariation - fortsat Ved at indføre variablene α = A sin(φ) ogβ = A cos(φ) kan udtrykket skrives som μ+a [sin(φ) cos(tω) + cos(φ) sin(tω)] = μ+α cos(2πt)+β sin(2πt). I simpel lineær regression har vi y = ax + b hvor a er hædningen og b skærringen med y-aksen. Nu har vi på samme måde et udtryk for y = ax + bz + c, hvor x =cos(2πt) ogz =sin(2πt). 23/36
Sæsonvariation - fortsat Bemærk at tan 1 ( α β ) ( ) sin(φ) =tan 1 =tan 1 (tan(φ)) = φ cos(φ) α 2 + β 2 = A 2 sin 2 (φ)+a 2 cos 2 (φ) = A ( 2 sin 2 (φ)+cos 2 (φ) ) = A. 24/36
Resultater Lad λ = φ 1 φ 2 differensen mellem to faser φ 1 og φ 2. Interessant er forskellen mellem lungebetændelse, φ 1, og de meteorologiske variable, φ 2. Variabeliforholdtil lungebetændelse λ i dage Temperatur -16 (-18 ; -14) Minimums temperatur -13 (-15 ; -11) Maksimums temperatur -19 (-22 ; -17) Vindhastighed 3 (1 ; 5) Luftfugtighed -59 (-65 ; -52) Nedbør 28 (2 ; 55) 95%-konfidens interval Negative λ-værdier betyder variablen topper tidligere end lungebetændelse, men postive betyder variablen topper senere. 25/36
Lungebetændelse og temperatur Pneumococcal bacteremia Temperature Pneumococcal bacteremia incidence 0 1 4 9 16 20 15 10 5 0 5 Temperature [ C] 1995 1996 1997 1998 1999 2000 2001 2002 2003 Year 26/36
Sagstyper Faderskabssager Familiesamføringssager Kriminalsager 27/36
Kromosomer og DNA 28/36
Mendels Lov S Kort hale B Brun pels s Lang hale b Hvid pels S recessivt i forhold til s B dominerende i forhold til b 29/36
SGM plus kit 30/36
SGM plus kit 31/36
Miksturer Kriminalsager hvor mere end én person bidrager til et spor kaldes DNA miksturer. Data kan fremkomme fra fx. gruppevoldtægt, mordsager, indbrud mm. I to personers blandinger har vi således fra 1 til 4 peaks på forskellige systemer, med henholdvis 1, 7, 12 og 6 mulige allelkombinationer som er konsistente med de observerede alleler. Det er kun muligt at observere de kumulative højder og arealer for delte toppe og det er ej muligt at se hvilke er delte. 32/36
Mixture separator 33/36
Mixture separator 34/36
Mixture separator - rigtig kriminal sag 35/36
Mixture separator - rigtig kriminal sag 36/36