Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

Relaterede dokumenter
Vi ønsker også at teste hypoteser om parametrene. F.eks: Kan µ tænkes at være 0 (eller anden fast, kendt værdi)? Eksempel: dollarkurser

24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik.

Økonometri 1. Funktionel form. Funktionel form (fortsat) Dagens program. Den simple regressionsmodel 14. september 2005

Hvorfor n-1 i stikprøvevariansen?

Statistik Lektion 14 Simpel Lineær Regression. Simpel lineær regression Mindste kvadraters metode Kovarians og Korrelation

Spørgsmål 1 (5 %) Bestem sandsynligheden for at batteriet kan anvendes i mere end 5 timer.

Repetition. Forårets højdepunkter

Notato: k grupper observeret tl tdspuktere (logartmerede) t1;t2;:::;t k. Tl tdspukt observeres et atal ( ) ph-vρrder, 1 ; 2 ;:::;. V opfatter dem som

Statistisk analyse. Vurdering af usikkerhed i forbindelse med statistiske opgørelser forudsætter:

Simpel Lineær Regression - repetition

Men tilbage til regression og Chi-i-anden. test. Begge begreber refererer til normalfordelingen med middelværdi μ og spredning σ.

Statistik 9. gang 1 REGRESSIONSANALYSE. Korrelation (kontrol af model) Regression (tilpasning af model)

Scorer FCK "for mange" mål i det sidste kvarter?

Økonometri 1. For mange variable i modellen. For få variable. Dagens program. Den multiple regressionsmodel 21. september 2004

bestemmes. kendes ( ) A i Subjektiv information + objektiv information Bayesiansk statistik (gang 10) Bayes sætning

Variansanalyse. på normalfordelte observationer af Jens Friis

Kvalitet af indsendte måledata

6. SEMESTER Epidemiologi og Biostatistik Opgaver til 3. uge, fredag

BEVISER TIL KAPITEL 7

Rettevejledning til Økonomisk Kandidateksamen 2006I, Økonometri 1

Ikke-parametriske tests af forskel i central tendens. Tests for forskel i central tendens for data på ordinal- og intervalskala

Lineær regression lidt mere tekniske betragtninger om R^2 og et godt alternativ

29. januar Epidemiologi og biostatistik Forelæsning 2 Uge 1, torsdag 2. februar 2006 Michael Væth, Afdeling for Biostatistik.

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 21. september 2005

Kvantitative metoder 2

Pearsons formel for χ 2 test. Den teoretiske forklaring

FORDELINGER: HYPERGEOMETRISK FORDELING, BINOMIALFORDELING MIDDELVÆRDI DEFINITION. X er en stokastisk variabel på et endeligt sandsynlighedsfelt ( )

Induktionsbevis og sum af række side 1/7

Indeks over udviklingen i biltrafikken i Danmark

L komponent produceret i linie 1

x-klasserne Gammel Hellerup Gymnasium

Betænkning om kommunernes udgiftsbehov. Bilag (med metodediskussion af professor Anders Milhøj)

Supplement til sandsynlighedsregning og matematisk statistik

Kontrol af udledninger ved produktion af ørred til havbrugsfisk

Fordelingen af gentagne observationer (målinger) kan beskrives ved hjælp af et histogram, der viser antallet af målinger i et givet interval.

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

Kogebog: 5. Beregn F d

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

Brugen af R 2 i gymnasiet

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

Videregående Algoritmik. David Pisinger, DIKU. Reeksamen, April 2005

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

Elementær Matematik. Sandsynlighedsregning

Morten Frydenberg Biostatistik version dato:

Motivation. En tegning

Kvantitative metoder 2

Økonometri 1. Instrumentvariabelestimation 26. november Plan for IV gennemgang. Exogenitetsantagelsen. Exogenitetsantagelsen for OLS

1.0 FORSIKRINGSFORMER

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk!

Regressionsanalyse. Epidemiologi og Biostatistik. 1.Simpel lineær regression (Kapitel 11) systolisk blodtryk og alder

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Analyse af bivariate data: korrelation og regression. korrelation. Korrelation og regression: Co-varians:

FY01 Obligatorisk laboratorieøvelse. O p t i k. Jacob Christiansen Afleveringsdato: 3. april 2003 Morten Olesen Andreas Lyder

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

Korrelation (kontrol af model) Regression (tilpasning af model) 1. Grad af fælles variation mellem X og Y. 2. Område og fordeling af sample data

Morten Frydenberg Biostatistik version dato:

FACITLISTE TIL KOMPLEKSE TAL

EKSAMEN I MATEMATIK-STATISTIK, 27. JANUAR 2006, KL 9-13

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

IKKE-KONTINUERTE (DISKRETE) STOKASTISKE VARIABLE MIDDELVÆRDI, VARIANS, SPREDNING FORDELINGER: HYPERGEOMETRISK, BINOMIAL, POISSON

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Generelle lineære modeller

Lineær regressionsanalyse8

Lineære Normale Modeller

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.

Binomialfordelingen: april 09 GJ

Løsninger til kapitel 7

Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab

SUPPLEMENT til Anvendt statistik

Økonometri 1. Heteroskedasticitet 27. oktober Økonometri 1: F12 1

9. Binomialfordelingen

Overlappende stationsoplande: Bestemmelse af passagerpotentialer

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

Estimation ved momentmetoden. Estimation af middelværdiparameter

Kombinatorik. 1 Kombinationer. Indhold

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

Regressions modeller Hvad regresserer vi på og hvorfor? Anders Stockmarr Axelborg statistikgruppe 6/

Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller

Vejledende besvarelser til opgaver i kapitel 15

Statistik II Lektion 4 Generelle Lineære Modeller. Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA)

antal gange krone sker i første n kast = n

Binomialfordelingen. Erik Vestergaard

Stikprøvefordelinger og konfidensintervaller

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning)

Statikstik II 4. Lektion. Generelle Lineære Modeller

vejer (med fortegn). Det vil vi illustrere visuelt og geometrisk for (2 2)-matricer og (3 3)-matricer i enote 6.

Estimation og test i normalfordelingen

Beregning af strukturel arbejdsstyrke

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Økonometri 1. Test for heteroskedasticitet. Test for heteroskedasticitet. Dagens program. Heteroskedasticitet 26. oktober 2005

Kvantitative metoder 2

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelsøgning Modelkontrol

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave december 2007

Transkript:

Epdemolog og bostatstk. Uge, trsdag. Erk Parer, Isttut for Bostatstk. Geerelt om statstk Dataaalyse - Deskrptv statstk - Statstsk feres Sammelgg af to grupper med kotuerte data - Geemst og spredg - Parametre - Estmater - Skkerhedstervaller Deskrptv statstk Eksempel: Sammelgg af to grupper med kotuerte data Udgagspukt: V øsker at sammelge lugefukto for mæd og kvder. Idsamlg af data (stkprøve): -målger for - 4 tlfældgt udvalgte kvder - 6 tlfældgt udvalgte mæd Data: - vder: 522, 383, 428, 442, 500, 548, 540, 475, 540, 475, 50, 470, 485, 480 - æd: 580, 560, 460, 600, 600, 55, 550, 640, 550, 620, 50, 547, 540, 570, 430, 575 2 Hvorfor er der brug for statstk? Data/observatoer er uderlagt tlfældg varato. Behov for at kvatfcere hvor meget skyldes tlfældg og hvor meget skyldes systematsk varato. Behov for at resumere mage ekelte observatoer ogle få tal. vatfcere at koklusoer baseret på meget data er mere præcse ed koklusoer baseret på få data. 3 Formålet med de statstske aalyse er ofte at estmere e ukedt kostat (parameter), som fx.: ddel ddel for e 30 årg kvde Forskel (mddel) mellem mæd og kvder De relatve rsko for SIDS forbudet med maveleje Bemærk: dsse parametre omhadler kke ku vores stkprøve, me hele de populato v betragter. Det ka være e større opgave, at beslutte sg tl hvlke størrelse ma øsker at estmere: Hvorda beskrver ma sammehæge mellem kost og kræft? 4 Hvorfor stkprøver (samples)? hurtgere bllgere umulgt at udersøge alle mere præcst (dsamlg af data/ homogetet) statstske metoder ka bruges tl at vurdere uskkerhed Dataaalyse ka opdeles deskrptv statstk statstsk feres Dataaalyse: deskrptv statstk Beskrvelse af data fra stkprøve: Data summary : - geemst / meda / percetler - hyppgheder / relatv rsko / oddsrato - varas / spredg - korrelatoer Tegger/fgurer: Vgtg! 5 6

Dataaalyse: statstsk feres Fra stkprøve tl populato: Eksempel - deskrptv statstk odel / Atagelser agåede varatoe data. Estmato af relevate parametre populatoe (f.eks. mddelværd eller forskel mellem to grupper) ud fra stkprøve med tlhørede skkerhedstervaller. Opstllg af statstske hypoteser, statstske test Statstske koklusoer Faglg koklusoer (l/m) vder (=4) æd (=6) Fgure er god, me ka ma beskrve dsse data med få tal? 7 8 (l/m) Geemsttet for hver grupper er markeret med vder: 485.6 l/m æd: 552.9 l/m (l/m) vder: sd=46.6 l/m æd: sd=55.0 l/m Jo mere data varerer jo større sd. På fgure er vst geemst +/- sd. vder (=4) æd (=6) vder (=4) æd (=6) Geemst = x = x = ( x + x + + x )/ = 2 (Summe af tallee dvderet med atallet) Geemsttet beskrver mdte / det geerelle veau / 9 de cetrale tedes af data. sd = ( x x) = Som et mål for varatoe bruges ofte spredge (stadard afvgelse / stadard devato / sd) 2 0 (l/m) 350 400 450 500 550 600 6% 68% 6% vder (=4) 2.5% 95% 2.5% Hvad sger spredge? Hvs data er fordelt rmelgt symmetrsk omkrg geemsttet (ormalfordelt), da vl tervallet geemst ± sd dække ca. 68% af data, og geemst ±.96*sd dække ca. 95% af (kommede) data. V veder tlbage dsse tervaller (prædktostervaller) æste gag. Parametre: v har lavet et gæt på parametree µ = mddelværd = geemsttet for hele populatoe σ = spredg = sd udreget for hele populatoe Normalfordelge er beskrevet ved de to parametre: mddelværd og spredg. Der kommer mere om ormalfordelge æste gag. Estmato: vder: µ = geemst = 485.6 l/m ˆ ˆ σ = sd = 46.6 l/m æd : ˆ µ = geemst = 552.9 l/m ˆ σ = sd = 55. 0 l/m ^: Dette er et estmat, dvs. et gæt bereget på bass af data. 2

Hvor godt passer de observerede geemst med de sade værder? Hvs v havde taget 6 adre mæd og målt deres vlle v kke få et geemst på 552.9 l/m For at beskrve uskkerhede på estmatet bruger ma ofte et (skkerheds-) terval omkrg estmatet. Skkerhedstervallet er de parameter-værder der er foreelge ( e eller ade forstad) med data. 3 Skkerhedsterval For et gvet estmat (f.eks. geemsttet) ka ma berege e tlhørede uskkerhed / spredg (se). Hvs atallet af data,, er stor da vl tervallet Estmat ±.96 se(estmat) være (approxmatvt) et 95% skkerheds- / kofdesterval for estmatet. Uskkerhede på geemsttet er: sd se( ˆ µ ) = sem = sem: Stadard error of the mea 4 Fortolkge af et 95% skkerhedsterval: Hvs v udtager mage stkprøver og bereger et skkerheds- eller kofdesterval for hver stkprøve da vl de sade værd lgge 95% af dsse tervaller. Sagt på e ade måde: Skkerhedstervallet deholder de sade værd med 95% sadsylghed. vder: Eksempel beregg af skkerhedsterval = 4, ˆ µ = 485.6 l/m, ˆ σ = 46. 6 l/m 46.6 se ( ˆ µ ) = = 2.4 4 CI( µ ): 485.6 ±.96 2.4 d vs. ( 46.2; 50.0) l/m CI: Cofdece Iterval æd: se( ˆ µ ) = 3.7 l/m CI( µ ) = ( 526.0; 579.9) l/m 5 6 De estmerede forskel mellem mæd og kvder: ˆ µ ˆ µ = 552.9-485.6 = 67. 4 l/m Uskkerhede på forskelle geemsttee: se( ˆ µ ˆ µ ) = se( ˆ µ ) + se( ˆ µ ) 2 2 2 2 = 2.4 + 3.7 = 8.5 l/m Skkerhedstervallet for forskelle blver Statstsk test E ade måde at udersøge om der er forskel mellem mæd og kvder er vha et statstsk test. ere om dette æste gag. Estmat ±.96 se(estmat) CI( µ µ ): 67.4 ±.96 8.5 dvs. ( 3.0; 03.7) l/m Der er altså statstsk sgfkat forskel mellem mæd og kvder! 7 8

Eksempel - resultater veau: vder: ˆ µ = geemst = 486 l/m CI( µ ) = ( 46; 50) l/m æd : ˆ µ = geemst = 553 l/m CI( µ ) = ( 526; 580) l/m okluso: æd har (statstsk sgfkat) højere veauet ed kvder! Forskelle er mellem 3 og 04 l/m. Vores bedste bud på forskelle er 67 l/m. Varato : vder: σ = sd = 47 l/m ˆ æd : ˆ σ = sd = 55 l/m Bemærk: koklusoe vedrører hele populatoe, og kke ku de stkprøve v har udersøgt. Forskel veau: Forskel = ˆ µ ˆ µ = 67 l/m CI( µ µ ) = ( 3; 04) l/m 9 20 Sammelgg af to grupper med kotuerte data geerelt Statstsk model: Atag at varatoe hver gruppe er symmetrsk (data er ormalfordelt) observatoere defor hver gruppe er uafhægge (ge søskee defor gruppere) de to sæt af observatoer er uafhægge (ge søskee, kke par af målger de to grupper) Estmato: ˆ µ = geemst (beskrver veauet gruppe) ˆ σ = sd (beskrver varatoe gruppe) ( =,2 svarede tl gruppeummer) 2 Skkerhedsterval for mddelværde: ˆ σ se( ˆ µ ) = CI ( µ ): ˆ µ ±. 96 se( ˆ µ ) Skkerhedsterval på forskelle: se( ˆ µ ˆ µ ) = se( ˆ µ ) + se( ˆ µ ) 2 2 2 2 CI ( µ µ ): ˆ µ ˆ µ ±. 96 se( ˆ µ ˆ µ ) 2 2 2 Bemærk: Formle for se gælder geerelt for alle parametre forudsat de to grupper er uafhægge. 22 Et yt, større stude Dataaalyse: deskrptv statstk Et større stude for de samme populato gav følgede resultat: Tl sammelgg fk v tdlgere: vder æd Forskel vder æd Forskel 43 58 4 6 Geemst 474 568 94 Geemst 486 553 67 CI (459;489) (552;584) (72;6) CI (46;50) (526;580) (3;04) Numerske metoder tl beskrvelse af kotuerte data: Hvor lgger typske data (det geerelle veau): Geemst (artmetrsk): data skal være rmelg symmetrsk fordelt Geemst (geometrsk): logartme-trasformerede (f.eks kocetratoer) data skal være rmelg symmetrsk fordelt Skkerhedstervallere blver mdre jo større studet er! eda (50 percetl): skæve fordelger (V blver klogere jo mere data v samler d...) 23 24

Numerske metoder tl beskrvelse af kotuerte data: Hvor meget afvger de fra hade (varato)? Percetler: 5 percetle er der hvor der er 5% af data der er mdre (og 95% større) Spredg/varas: Varatoskoeffcet (f.eks kocetratoer) data skal være rmelg symmetrsk fordelt logartme-trasformerede data skal være rmelg symmetrsk fordelt 25 percetle er lg. kvartle 50 percetle er lg 2. kvartl der er lg medae 95 percetle er der hvor der er 95% af data der er mdre (og 5% større) Percetler / kvartler: Rage/ max / m skæve fordelger 25 og geerelt X percetle er der hvor der er X% af data der er mdre (og 00-X% større) 26 vartler: Præsetato af umerske data: scatterplot 0. kvartl er lg det mdste tal. kvartl = 25 percetle 2. kvartl = 50 percetle = medae 3. kvartl = 75 percetle 4. kvartl er lg det største tal (l/m) vder (=4) æd (=6) 27 28 Præsetato af umerske data: boxplot Præsetato af umerske data: hstogram maxmum* 3. kvartl meda. kvartl mmum* 350 400 450 500 550 vder vder æd * det varerer ldt hvorda ma deferer de øvre é observato mellem 350-400 to observatoer mellem 400-450 29 30 og edre græse. Atal 0 2 3 4 5 6

Typer af data Hstogrammet beskrver stkprøves fordelg. V vl seere bruge hstogrammet tl at udersøge om data er ormalfordelt. 3 V skal dette kursus kgge på statstske aalyser af kotuerte [ ] to kategorer (dchotom) [ Syg/rask ] flere kategorer [ Hvlket amt ma bor ] vetetdsdata [ Td tl død eller tlbagefald af sygdom ] De statstske aalyse afhæger af type af data og hvorda data er dsamlet. V vl også kgge på statstske aalyser som ka besvare spørgsmål som: a forskelle mæd og kvder s værd forklares ved at mæd er højre ed kvder? 32 Resumé Dataaalyse Sammelgg af to grupper med kotuerte data: Geemst og spredg Estmater Skkerhedstervaller Deskrptv statstk 33