Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne



Relaterede dokumenter
3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Statistik i basketball

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Estimation og konfidensintervaller

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Susanne Ditlevsen Institut for Matematiske Fag susanne

Normalfordelingen og Stikprøvefordelinger

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Estimation og usikkerhed

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

To samhørende variable

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Konfidensintervaller og Hypotesetest

Kvantitative Metoder 1 - Forår Dagens program

Binomialfordelingen. Binomialfordelingen. Binomialfordelingen

Forelæsning 8: Inferens for varianser (kap 9)

Uge 48 II Teoretisk Statistik 27. november Numerisk modelkontrol af diskrete fordelinger: intro

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Tema. Dagens tema: Indfør centrale statistiske begreber.

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Valgkampens og valgets matematik

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Produkt og marked - matematiske og statistiske metoder

Eksempel 1.1: kvalitetskontrol

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen

Note om Monte Carlo eksperimenter

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002

ØVELSER // SVAR Statistik, Logistikøkonom Konfidensintervaller for én middelværdi og én andel

Kvantitative Metoder 1 - Forår 2007

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79.

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for

Note til styrkefunktionen

Module 1: Data og Statistik

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Konfidensinterval for µ (σ kendt)

Fagplan for statistik, efteråret 2015

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Det sorte danmarkskort:

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mål for sammenhæng mellem to variable

Maple 11 - Chi-i-anden test

Kvantitative Metoder 1 - Forår 2007

Studieplan Biostatistik Semester 1

Undervisningsbeskrivelse

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Behandling af kvantitative data

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Besvarelse af opgavesættet ved Reeksamen forår 2008

Forelæsning 11: Kapitel 11: Regressionsanalyse

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Basal statistik. 30. januar 2007

Hver anden vil benytte øget åbningstid i dagtilbud

Undervisningsbeskrivelse

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Statistiske principper

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Kapitel 4 Sandsynlighed og statistiske modeller

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod.

Kvantitative Metoder 1 - Forår Dagens program

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Undervisningsbeskrivelse

Statistisk modellering og regressionsanalyse

Imputering af borgere på plejehjem/-bolig

Introduktion til sandsynlighedsregning

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Kapitel 3 Centraltendens og spredning

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

ØVELSER Statistik, Logistikøkonom Lektion 6: Hypotesetest 1

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Transkript:

Statistik og Sandsynlighedsregning 1 Indledning til statistik, kap 2 i STAT Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 5. undervisningsuge, onsdag 1 Udfaldsrum = D 3 (6) x1 x2 x3 2 Udfaldsrum = D 3 (20) x1 x2 x3 3 Udfaldsrum = D 3 (70) x1 x2 x3 4

Parameterrum = 3 p1 p2 p3 5 1.5 0.5 0.5 1.5 Korrelation: corr(,) = 1 1.5 0.5 0.5 1.5 Korrelation: corr(,) = 0.996 2.0 1.0 0.0 1.0 Korrelation: corr(,) = 0.209 6 0 1 2 3 Korrelation: corr(,) = 0.091 1 0 1 2 3 Korrelation: corr(,) = 0.733 2 1 0 1 2 3 Korrelation: corr(,) = 0.515 7 Statistik Vi har en population vi gerne vil vide noget om. Eksempler: den danske befolkning, kvinder med brystkræft, risikogrupper (rygere, asbestarbejdere, børn af forældre med en arvelig sygdom, etc), produktionsenheder, forsikringsskader... Vi kan ikke observere hele populationen, så vi tager en stikprøve (sample). Med statistiske redskaber infererer vi udfra stikprøven tilbage til populationen. 8

Mål-population Stikprøve-population Stikprøve Vi antager forskellige egenskaber ved populationen, som er med til at bestemme hvilke statistiske redskaber, vi kan bruge. Vi kan bl.a. antage hvordan vores studieobjekt fordeler sig i populationen med nogle ukendte parametre, vi gerne vil kende. Udfra stikprøven kan vi efterprøve vores antagelser. Hvis de holder stik kan vi inferere om størrelsen af parametrene. Vi kan sammenligne forskellige populationer. 9 10 Model: simpel, men til formålet tilstrækkelig, beskrivelse af virkeligheden. Problem: variationen mellem personer er normalt ikke ubetydelig. Fuldstændig forklaring af variationen matematisk model. Ikke-fuldstændig forklaring statistisk model. Hvad er statistik? Formål: at skelne støj/stokastisk variation fra struktur. Statistik er den videnskab, der forsøger at beskrive kilderne til variation mellem observerede mål. Statistik Drejer sig om at drage konklusioner om det virkelige liv, (fx medicinske, biologiske eller fysiske) baseret på (ikke officiel statistik ). DATA Metode: fra en stikprøve (sample): 1. Variationen i en population beskrives 2. Konklusioner drages om ukendte størrelser, parametre, i populationen. 1. Deskriptiv statistik 2. Statistisk inferens 11 12

Eksempel: Antag at vi ønsker at kende andelen af børn (f.eks mellem 12 og 18 år) i vores område med astma. PLANLÆGNING: Hvor skal vi samle information? Registre, spørgeskemaer, hospitaljournaler... DESIGN: Hvilken information skal vi indsamle? Hvor mange individer? Hvor og hvorfor er statistik nødvendig? individuel på grund af stikprøve variation Population sample Population: Meget stor mængde med en (eller flere) værdier (tal) knyttet til hvert element Eksperiment: En tilfældig stikprøve trækkes fra populationen og værdierne fra de udvalgte elementer måles (observationer eller data) Vigtigt koncept: Forestil jer at et stort antal uafhængige stikprøver af en given størrelse vælges (gentagelse af eksperimentet) Da vil udfaldet variere fra stikprøve til stikprøve på grund af: 1) stikprøve variation, 2) individuel variation 13 14 Eksempel: Vi samler information om n = 500 individer 1 hvis astma x 1, x 2,, x n = 0 ellers Stikprøvegennemsnittet x = 1 n (x 1 x 2 x n ) = 1 n x = 1 n er andelen, ˆp, af individer i stikprøven med astma. Denne estimerer p, andelen af individer i populationen med astma = sandsynligheden for at en tilfældig udvalgt person har astma. n j=1 x j Eksempel: Antag at 175 af de n = 500 har astma, dvs ˆp = 175 = 0.35 eller 35% 500 Hvor godt er vores estimat ˆp for p? Med andre ord, i gentagne forsøg, hvor tæt er ˆp på p? Dette udtrykkes ved standardfejlen på ˆp: SE(ˆp) 15 16

Distribution of, n=20, P=0.35, repetitions=10000 Distribution of, n=500, P=0.35, repetitions=10000 Frequency 0 1000 2000 3000 4000 Frequency 0 1000 2000 3000 4000 17 18 Standardfejlen, SE(ˆp), på estimatet for sandsynligheden p, er estimeret ved SE(ˆp) = ˆp(1 ˆp) I eksemplet fås 0.35(1 0.35) = 0.021 500 Dette kan bruges til at lave konfidensintervaller for p 95%CL : ˆp ± 1.96 SE(ˆp) 1.96? I eksemplet 95%CL : fra 0.308 til 0.392 Fortolkning? n CI for, n=20, P=0.35, repetitions=100 19 20

CI for, n=20, P=0.35, repetitions=100 CI for, n=500, P=0.35, repetitions=100 21 22 CI for, n=500, P=0.35, repetitions=100 Tallet 1.96 kommer fra Normalfordelingen. Den skal vi først høre om på SaSt2!!! Men her er en lille forsmag: Normalfordelingen kommer fra Den centrale grænseværdisætning et matematisk resultat der angiver at stikprøvegennemsnit er tilnærmelsesvist Normalfordelte: Hvis tilfældige stikprøver udtages fra en population med middelværdi m og varians s 2 da er fordelingen af stikprøvegennemsnittet x tilnærmelsesvist Normal med middelværdi m og varians s 2 /n. Tilnærmelsen bliver bedre og bedre jo større n (stikprøvestørrelsen) er. 23 24

Sammenligning af grupper Antag nu at vores tidligere observation kom fra et byområde, og vi ønsker at vurdere om forekomsten af astma er forskellig mellem land og by. Vi tager derfor en ny stikprøve blandt børn mellem 12 og 18 år, der bor på landet. Antag at vi observerer n = 400 børn, hvoraf 120 har astma, dvs ˆp land = 120 = 0.3 eller 30% 400 Kan vi udfra disse data sige noget om forekomsten af astma er forskellig i byen og på landet? Analyse af datamaterialer Hvad er statistik? Metoder til at drage (generelle) konklusioner fra konkrete datasæt - redskaber til at vurdere kvaliteten af konklusionerne Hvorfor lave statistik? Konklusionen på en given undersøgelse er sjældent oplagt Ønsket om at drage generelle konklusioner fra konkrete data Med andre ord, skyldes den observerede forskel blot tilfældig variation, eller er der en systematisk forskel? 25 26