Statistikforedrag i Hjørring

Relaterede dokumenter
Figur 1: Kraftpåvirkning af vingeprol

WPS / R day. Rune Juhl (DTU Technical University of Denmark. 11th December DTU Compute Department of Applied Mathematics and Computer Science

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Fysik 2 - Den Harmoniske Oscillator

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Skråplan. Esben Bork Hansen Amanda Larssen Martin Sven Qvistgaard Christensen. 2. december 2008

Fejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Rapport uge 48: Skråplan

Produkt og marked - matematiske og statistiske metoder

Landmålingens fejlteori - Lektion 5 - Fejlforplantning

Kapitel 12 Variansanalyse

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

David Kallestrup, Aarhus School of Engineering, SRP-forløb ved Maskinteknisk retning 1

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Kapitel 12 Variansanalyse

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

M A S T E R I M AT E M AT I K

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Undervisningsbeskrivelse

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Vægte motiverende eksempel. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægtet model. Vægtrelationen

Fysik 2 - Oscillator. Amalie Christensen 7. januar 2009

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

KØBENHAVNS UNIVERSITET NATURVIDENSKABELIG BACHELORUDDANNELSE

Undervisningsbeskrivelse

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

En sumformel eller to - om interferens

Løsninger til øvelser i kapitel 1

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Kommunal Rottebekæmpelse tal og tendenser

Undervisningsplan. Stamoplysninger til brug ved prøver til gymnasiale uddannelser. Oversigt over planlagte undervisningsforløb

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Kortprojektioner L mm Længde og vinkelmåling på flader. Konforme og arealtro kort.

Harmonisk oscillator. Thorbjørn Serritslev Nieslen Erik Warren Tindall

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der)

Susanne Ditlevsen Institut for Matematiske Fag susanne

En model for elbilers energiforbrug baseret på GPS-data fra Test en elbil

Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Elementær Matematik. Trigonometriske Funktioner

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Dansk titel Bachelor (BSc) i folkesundhedsvidenskab. Engelsk titel Bachelor of Science (BSc) in Public Health. Adgangskrav

Undervisningsplan. Stamoplysninger til brug ved prøver til gymnasiale uddannelser. Oversigt over planlagte undervisningsforløb

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Uge 10 Teoretisk Statistik 1. marts 2004

Matematik A. Højere handelseksamen

Undervisningsbeskrivelse

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

Lyngallup om Brugerbetaling i sundhedsvæsenet Dato: 16. maj 2012

Udledning af Keplers love

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

VEKSELSPÆNDINGENS VÆRDIER. Frekvens Middelværdi & peak værdi (max) Effektiv værdi (RMS) Mere om effektiv værdi!

ØKONOMI AKADEMIET FOR TALENTFULDE UNGE. Carsten Paysen T. Rosenskjold. d. 24 marts. Department of Economics and Business, Aarhus University

Kandidatuddannelsen i folkesundhed. Adjunkt Charlotte Overgaard Institut for Sundhedsvidenskab og teknologi Åbent hus, 7.

Studieordning for kandidatuddannelsen i humanfysiologi (September 2009) (Revideret med virkning 1. sep. 2012)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Hypotesetests, fejltyper og p-værdier

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Sandsynlighedsregning

Undervisningsbeskrivelse

Tema. Dagens tema: Indfør centrale statistiske begreber.

Undervisningsbeskrivelse

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

MATEMATIK 11 Eksamensopgaver Juni 1995 Juni 2001, 3. fjerdedel

Statistik og Sandsynlighedsregning 2

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Vejr. Matematik trin 2. avu

Kapitel 4 Sandsynlighed og statistiske modeller

Vektorfunktioner. (Parameterkurver) x-klasserne Gammel Hellerup Gymnasium

Studieordning for kandidatuddannelsen i statistik September 2010 (Revideret med virkning 1. sep. 2013)

1. Formål og fagområder

1 Regressionsproblemet 2

2 X 2 = Antal mygstik på enpersoniløbetaf1minut

Lineære sammenhænge, residualplot og regression

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Nedenfor er tegnet svingningsmønsteret for to sinus-toner med frekvensen 440 og 443 Hz:

Produkt og marked - matematiske og statistiske metoder

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Wigner s semi-cirkel lov

Produkt og marked - betinget sandsynlighed

Undervisningsbeskrivelse for hold h1mac4b5

Sandsynlighedsregning 12. forelæsning Bo Friis Nielsen

Transkript:

i Hjørring Ph.d.-studerende Institut for Matematiske Fag Aalborg Universitet 7. maj 2008 1/36

Oversigt Hvad kan man blive? Fra talmateriale til analyse Sæsonvariation Retsgenetik 2/36

Statistikerens opgave Som statistiker fungerer man ofte som en slags konsulent for andre. Statistik er sammen med matematik blandt de videnskaber som har størst tværfaglig anvendelse. Store fagområde hvor statistiske modeller anvendes er: Lægevidenskaben Økonomi Teknologi og produktion 3/36

Lægevidenskaben Undersøgelser i forbindelse med nye præparater eller behandlingsmetoder. Analyser af sammenhænge mellem sygdom og øvrige oplysninger. 4/36

Økonomi Overvåge (kontinuerte) markeder (valuta, aktier) vha statistiske modeller. Kvantifisere risikogrupper for forsikringsselskaber. 5/36

Teknologi og produktion Produkt og kvalitetskontrol. Analysere store mængder data i forbindelse med nye produkter eller teknologier. 6/36

Hvad kan man blive? På Aalborg Universitet kan man når man studerer matematik bl.a. specialisere sig indenfor statistik. Således har man statisik i to af sine fire år på matematik studiet. Tidligere medstuderende med speciale i statistik Sidefag Ingeniørfag Fysik Økonomi Ophold i Cambridge Ophold i Oxford Jobbeskrivelse Ph.d.-studerende - pt. i Chicago senere Perth. Statistiker i produktsupport hos Vestas. Statistiker i økonomiafdelingen hos Vestas. Ph.d.-studerende - Vinder af rejselegat. Ph.d.-studerende i retsgenetik. Andre statistikere (tidligere studerende eller ansatte på Aalborg Universitet) arbejder hos fx. Sonofon, Spar Nord, Novo Nordisk, Aalborg Sygehus, Statens Seruminsitut, Kræftens Bekæmpelse, m.fl. 7/36

Master of Science i Oxford University of Oxford : 2005-2006 Et-årig MSc i Anvendt Statistik Legater Internationalt miljø i verdensklasse Engelsk Mester i håndbold 8/36

Statistik teori Som tidligere nævnt er statistikerens opgave ofte at bistå andre i deres analysearbejde. Således udspringer langt de fleste statistiske teorier fra anvendelsesområder, mens andre udvikles pga. ren teoretisk interesse. Regression er blandt de mest anvendte metoder i statistik til at analysere sammenhænge mellem variable. 9/36

Inden dataindsamling I samarbejde med den faglige ekspert (læge, fysiker, biolog, ingeniør, ect.) diskuteres problemstillingen og hvilke formål analysen har. For at få bedst mulige resultater bør denne diskussion finde sted inden data indsamles. Processen indebærer bl.a. hvorledes forsøget skal designes. 10/36

Inden dataindsamling I samarbejde med den faglige ekspert (læge, fysiker, biolog, ingeniør, ect.) diskuteres problemstillingen og hvilke formål analysen har. For at få bedst mulige resultater bør denne diskussion finde sted inden data indsamles. Processen indebærer bl.a. hvorledes forsøget skal designes. 11/36

Inden dataindsamling I samarbejde med den faglige ekspert (læge, fysiker, biolog, ingeniør, ect.) diskuteres problemstillingen og hvilke formål analysen har. For at få bedst mulige resultater bør denne diskussion finde sted inden data indsamles. Processen indebærer bl.a. hvorledes forsøget skal designes. 12/36

Deskriptive analyser I denne fase bruger man ofte det som kaldes deskriptive metoder - dvs. man typisk laver en masse plot af data med forskellige formål. Alle statistiske teorier bygger på en række antagelser - disse antaglser er vigtige at undersøge validiteten af inden analysen foretages. 13/36

Dataplot eksempler Sepal.Length Sepal.Width Petal.Length Petal.Width Species 5.1 3.5 1.4 0.2 setosa 4.9 3.0 1.4 0.2 setosa 4.7 3.2 1.3 0.2 setosa 4.6 3.1 1.5 0.2 setosa 5.0 3.6 1.4 0.2 setosa.... 7.0 3.2 4.7 1.4 versicolor 6.4 3.2 4.5 1.5 versicolor 6.9 3.1 4.9 1.5 versicolor 5.5 2.3 4.0 1.3 versicolor 6.5 2.8 4.6 1.5 versicolor.... 6.3 3.3 6.0 2.5 virginica 5.8 2.7 5.1 1.9 virginica 7.1 3.0 5.9 2.1 virginica 6.3 2.9 5.6 1.8 virginica 6.5 3.0 5.8 2.2 virginica.. 14/36

Dataplot eksempler Anderson s Iris Data 3 species 2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5 Sepal.Length 4.5 5.5 6.5 7.5 2.0 2.5 3.0 3.5 4.0 Sepal.Width Petal.Length 1 2 3 4 5 6 7 0.5 1.0 1.5 2.0 2.5 Petal.Width 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 1 2 3 4 5 6 7 15/36

Dataplot eksempler Guinea Pigs Tooth Growth tooth length 0 5 10 15 20 25 30 35 Ascorbic acid Orange juice 0.5 0.5 1 1 2 2 Vitamin C dose mg 16/36

Dataplot eksempler 160 170 180 190 200 160 170 180 190 200 Alto 2 Alto 1 Soprano 2 Soprano 1 0.08 0.06 0.04 0.02 Density Bass 2 Bass 1 Tenor 2 Tenor 1 0.00 0.08 0.06 0.04 0.02 0.00 160 170 180 190 200 160 170 180 190 200 Height (cm) 17/36

Dataplot eksempler Normal Q Q Plot Precipitation [in/yr] for 70 US cities 10 20 30 40 50 60 2 1 0 1 2 Theoretical Quantiles 18/36

Lungebetændelser i Nordjylland I perioden 1995-2002 har vi både data om forekomsten af lungebetændelser (pneumonia) og meteorologiske data (temperatur, nedbør, luftfugtighed mm). Analysens formål er at undersøge om der er en sammenhæng mellem forekomsten af lungebetændelser (målt på populations niveau) og meteorologiske variable. 19/36

Sinuskurve Det er almindelig kendt at både meteorologiske variable og forekomsten af lungebetændelse varierer hen over året. Derfor forsøges data modelleret med en sinuskurve. 20/36

Sinuskurve Det er almindelig kendt at både meteorologiske variable og forekomsten af lungebetændelse varierer hen over året. Derfor forsøges data modelleret med en sinuskurve. Temperature 10 0 5 15 1995 1996 1997 1998 1999 2000 2001 2002 2003 Year 21/36

Sæsonvariation En kurve som den på forrige slide kan skrives som μ + A sin(φ + tω) =μ + A [sin(φ)cos(tω)+cos(φ)sin(tω)], hvor vi brugte additionsformlen for sin. Symbolerne betyder følgende: μ Forskydningen af nulpunktet i forhold til x-aksen. A Amplituden der sikre kurven kan svinge mellem A og A. φ Fasen som forskyder kurven til skærering i (φ, 0) og ikke (φ, 0). ω Vinkelhastigheden som tiden t bevæger sig med. t Tiden t, forhvertår er 0 t 1, så ω sættes til 2π. 22/36

Sæsonvariation - fortsat Ved at indføre variablene α = A sin(φ) ogβ = A cos(φ) kan udtrykket skrives som μ+a [sin(φ) cos(tω) + cos(φ) sin(tω)] = μ+α cos(2πt)+β sin(2πt). I simpel lineær regression har vi y = ax + b hvor a er hædningen og b skærringen med y-aksen. Nu har vi på samme måde et udtryk for y = ax + bz + c, hvor x =cos(2πt) ogz =sin(2πt). 23/36

Sæsonvariation - fortsat Bemærk at tan 1 ( α β ) ( ) sin(φ) =tan 1 =tan 1 (tan(φ)) = φ cos(φ) α 2 + β 2 = A 2 sin 2 (φ)+a 2 cos 2 (φ) = A ( 2 sin 2 (φ)+cos 2 (φ) ) = A. 24/36

Resultater Lad λ = φ 1 φ 2 differensen mellem to faser φ 1 og φ 2. Interessant er forskellen mellem lungebetændelse, φ 1, og de meteorologiske variable, φ 2. Variabeliforholdtil lungebetændelse λ i dage Temperatur -16 (-18 ; -14) Minimums temperatur -13 (-15 ; -11) Maksimums temperatur -19 (-22 ; -17) Vindhastighed 3 (1 ; 5) Luftfugtighed -59 (-65 ; -52) Nedbør 28 (2 ; 55) 95%-konfidens interval Negative λ-værdier betyder variablen topper tidligere end lungebetændelse, men postive betyder variablen topper senere. 25/36

Lungebetændelse og temperatur Pneumococcal bacteremia Temperature Pneumococcal bacteremia incidence 0 1 4 9 16 20 15 10 5 0 5 Temperature [ C] 1995 1996 1997 1998 1999 2000 2001 2002 2003 Year 26/36

Sagstyper Faderskabssager Familiesamføringssager Kriminalsager 27/36

Kromosomer og DNA 28/36

Mendels Lov S Kort hale B Brun pels s Lang hale b Hvid pels S recessivt i forhold til s B dominerende i forhold til b 29/36

SGM plus kit 30/36

SGM plus kit 31/36

Miksturer Kriminalsager hvor mere end én person bidrager til et spor kaldes DNA miksturer. Data kan fremkomme fra fx. gruppevoldtægt, mordsager, indbrud mm. I to personers blandinger har vi således fra 1 til 4 peaks på forskellige systemer, med henholdvis 1, 7, 12 og 6 mulige allelkombinationer som er konsistente med de observerede alleler. Det er kun muligt at observere de kumulative højder og arealer for delte toppe og det er ej muligt at se hvilke er delte. 32/36

Mixture separator 33/36

Mixture separator 34/36

Mixture separator - rigtig kriminal sag 35/36

Mixture separator - rigtig kriminal sag 36/36