Morte Frdeberg versio dato: 4--4 Itroduktio til kurset Statistik Forelæsig Morte Frdeberg, Sektio for Biostatistik af Biostatistik dele af. semester kurset. Statistiske modeller Biomialfordelige Normalfordelige Maximum likelihood metode Eksakt iferes biomialfordelige CI og test af hpotese Eksakt iferes: ormalfordelige CI ogtest af hpotese ag middelværdie CI for spredige Statistik på bacheloruddaelse i FSV Der er udervisig i statistik tre gage i bachelorforløbet:. E ultrakort itroduktio til sikkerhedsitervaller og test af hpoteser på Itroduktioskurset.. På. semester redskaber til forståelse og små regerier i forbidelse med læsig af artikler, rapporter mv. Udervisige vil foregå i tæt samspil med udervisige i epidemiologi Ikke redskaber til (store) aalser af ege data. Alle regerier vil forgå i håde tpisk ved brug af regeark. 3. På 4.semester metoder og redskaber til aalse af ege data. Beregiger og aalser vil foregå vha. af et program desiget til statistiske aalser: Stata. Statistik 4. semester - Udervisigsmateriale. Bøger Kirkwood & Stere: Essetial Medical Statistics ISHR: Itroductio to Stata for Health Researchers. Forelæsigsoter. Stata do-filer 3. Ugesedler og opgaver 4. Datasæt 5. Artikler eller ade form for litteratur, der aveder statistik..+ 4.semester - EPICENTER Hjælp til særlige/kokrete problemer. Husk ige ka svare på alle opgaver ide øvelsere. Formålet med øvelsere er at etop at arbejde med begrebere og metodere. Hvor og hvorår Lokale i 5-5. Madage 6-8. Første gag. februar. Bemadig Mette Lise Kroborg, FSV-studerede årgag NN, FSV-studerede årgag? MM, FSV-studerede årgag? 3 4 Statistik FSV 4.sem: Uge
Morte Frdeberg versio dato: 4--4 Hvad er statistik? Følgede kompoeter bør idgå i ehver statistisk aalse: E model e matematisk beskrivelse af de proces, der geerer de data ma vil aalsere. Modelle vil ofte dele variatioe op i sstematiske og tilfældig variatio. Parametre - Ukedte kostater, der idgår i modelle Data Estimater Data-baserede bud på de ukedte parametre Sikkerhedsitervaller Beskriver usikkerhede på estimatere Statistiske test Tester hpoteser om parametree Modelkotrol Et check af de atagelser, der ligger bag modelle 5 Med udgagspukt i forskellige (mere eller midre udspecificerede) modeller lærte I at lave iferes agåede e ukedt parameter, θ baseret på et estimat og e stadard error ˆ θ og se ( ˆ θ ) (ogle gage lavede vi udregigere på log-skala) Vi fadt et (approksimativt) 95% sikkerhedsiterval ved ˆ θ ±.96ise ˆ θ Dette er et stokastisk iterval, der afhæger af data, me det har følgede egeskab: Der er 95% chace for at itervallet ideholder de ukedte sade værdi θ. (.5% ligger over og.5% uder) ( ) 6 Vi kue teste hpotese H: θ=θ Vi målte afstade mellem det vi har set og det vi forveter ved: observeret forvetede ˆ θ θ zobs = = usikkerhed se ˆ θ Numerisk store værdier af z obs vil være kritisk for hpotese. ( ) z obs P-værdi estimat hpotese = =.65 stadard error Numerisk store værdier vil være kritiske for hpotese! Mere kritisk ed det vi har set P-værdie er sadslighede for at observere oget, der er lige så eller mere kritisk for hpotese ed det vi ret faktisk har observeret. Sadslighede er bereget givet hpotese er sad. P-værdie fadt vi ved brug af stadard ormalfordelige. 7.4% +.4% =.8% 8 Statistik FSV 4.sem: Uge
Morte Frdeberg versio dato: 4--4 Tolkig af P-værdi: Meget lille P-værdi: Det er usadsligt at observere det vi har set hpotese forkastes. stor P-værdi: Data strider ikke mod hpotese hpotese forkastes ikke. Husk, det ikke at forkaste e hpotese er ikke det samme som at sige at de er sad! Hvorår er P-værdie meget lille? Traditioelt betragtes P<5% som meget lille!? Ma vil ofte skrive i metode/statistik afsittet: P-values below 5% are cosidered (statistical) sigificat. Dvs. e P-værdi midre ed 5% vil betde, at ma forkaster hpotese. 9 Hvis vi havde to parametre θ og θ og to uafhægige estimater, så kue vi fide stadard error på differese ved: se ˆ θ ˆ θ = se ˆ θ + se ˆ θ ( ) ( ) ( ) Vi kue således også lave iferes for ratioe baseret på ˆ θ ( ˆ θ ) ( ˆ θ ) se l = se l + se l ˆ θ hvis vi kedte se( l ˆi θ ) Kokret lærte I formler for estimater og stadard errors for: Hppigheder (prævales, kummuleret icides) Rater (icides og mortalitet) Middelværdier Relativ Risiko, Risiko Differes, Odds Ratio (Icides) Rate Ratio, (Icides) Rate Differes Vægtet geemsit af estimater i forbidelse med stratificeret samplig eller korrektio (for cofoudig) Diskrete fordeliger/modeller Biomialfordelige Atag at Y agiver atallet af rgere ud af persoer. Y ka således atage værdiere fra til. Hvis sadslighede (probabilit) for at Y= er givet ved Pr( Y = ) = Pr ( Y = ;, π ) = π ( π ) =, så siges Y at være biomialfordelt med sadslighedsparameter π og atalsparameter. Vi vil egag imellem skrive dette kort: Y bi(, π ) Bemærk at ma ka vise at Pr( Y = ) = ( ) π π = = = Statistik FSV 4.sem: Uge 3
Morte Frdeberg versio dato: 4--4 (, ) Diskrete fordeliger/modeller Biomialfordelige Hvis Y bi π er er middelværdie (Expectatio, mea) givet ved k E ( Y ) = Pr( Y = ) = ( ) π π = = Reger ma (oget) får ma Dvs. det forvetede atal rgere er π E ( Y ) = π Variase (variace) er givet ved: Var ( Y ) = [ E ( Y )] Pr( Y = ) Reger ma (oget mere) får ma Var ( Y ) = π ( π ) Spredige (stadard deviatio) er = sd ( Y ) = Var ( Y ) sd ( Y ) = π ( π ) 3 = = = 5.4..3.. Forskellige biomialfordeliger.3. 5 5 5 5. 5 5 5 5 5 5 5 5 5.5.3...5 5 5 5 5 π = π =.3 π =.5 π =.9.4..3.. 4 Atagelser bag biomialfordeligsmodelle Biomialfordelige bgger på følgede fire atagelser, der svarer til kast med e møt, ude sd :. Atal,, afhæger ikke af ualdee.. uafhægige delforsøg.. Præcist to mulige uald. 3. Samme sadslighed, π hver gag. 5 Diskrete fordelige: middelværdi og varias Biomialfordelige er e såkaldt diskret fordelig, hvor variable ku ka atage adskilte værdier, tpisk ikke egative heltal eller e delmægde af disse. Sådae fordeliger beskrives ved at agive sadslighede for hver ekelt værdi: ( = ) Pr Y Middelværdie er givet som et vægtet geemsit af ekelte værdier, hvor vi bruger sadslighede som vægt. E ( Y ) = Pr( Y = ) Tilsvarede er variase givet som et vægtet geemsit af kvadratafvigelsere fra middelværdie. ( Y ) = [ ( Y )] ( Y = ) Var E Pr 6 Statistik FSV 4.sem: Uge 4
Morte Frdeberg versio dato: 4--4 Kotiuerte fordeliger Størrelser så som vægt, BMI, PEFR og idkomst ka (i pricippet) atage alle mulige (positive) værdier. Sådae variable kaldes kotiuerte. Det giver derfor ige meig at agive sadslighede for at observere e bestem værdi, da e såda sadslighed er lig ul. Fx er sadslighede for at e perso har BMI = 3.4577893. kg/m lig ul. Ma må derfor beskrive fordelige af e kotiuert variable på e ade måde ved hjælp af e tæthedsfutio. desit 5.5 Kotiuerte fordeliger Tæthedsfuktio (desit fuctio): Sadslighed for e observatio i itervallet [a,b] = areal uder kurve fra a til b. Areal uder kurve=. Høj værdi for e give x-værdi Mage observatioer tæt ved dee værdi. Lille værdi for e give x-værdi Få observatioer tæt ved dee værdi. 5 5 5 3 7 8 Tætheder med formler E tæthed, f, er e fuktio, der er ikke egativ areallet uder kurve er lig ( ), [, ] f f ( ) d = Hvis Y beteger et tilfældig størrelse, fx vægt eller BMI, så siges Y at have tæthede f hvis Sadslighede for at Y ligger mellem a og b er lig arealet uder kurve i dette iterval. b Pr( ) ( ) a < Y b = f d a Middelværdi og varias for e kotiuert fordelig Middelværdie (Expectatio, mea) er defieret som ( ) = ( ) E Y f d Variase (Variace) er defieret som ( ) = [ E( )] ( ) Var Y Y f d Spredige (stadard deviatio) er defieret ved Bemærk, at det er æste ligesom for diskrete fordeliger. Vi bruger blot itegratio og vægte f()d, som jo er sadslighede for observere Y i itervallet [, +d] 9 ( ) = ( ) = [ ( )] ( ) sd Y Var Y E Y f d Statistik FSV 4.sem: Uge 5
Morte Frdeberg versio dato: 4--4 Normalfordelige Hvad betder spredige i e ormalfordelig? E kotiuert variable Y siges at være ormalfordelt med middelværdi, µ, og spredig, σ, (varias σ ) hvis de har tæthedsfuktioe: ( µ ) f ( ) = exp, σ π σ [ ] µ = σ = Middelværdi Spredig 95.% Dvs. hvis Kort vil vi skrive: ( µ ) σ b Pr ( a < Y b) = exp d a σ π (, ) Y N µ σ.5%.5% Og der vil gælde: E( Y ) Var ( Y ) sd( Y ) = µ = σ = σ µ.96 σ µ µ +.96 σ Atagelser bag ormalfordeligsmodelle observatioer,,,,, siges at være e stikprøve fra e ormalfordelig hvis disse atagelser er opfldt : Atagelser bag ormalfordeligsmodelle Hvis de to første betigelser er opfldt, så ka ma checke atagelse om ormalfordelig grafisk vha. af et histogram eller edu bedre vha. af et QQ-plot. uafhægige delforsøg.. alle forsøg er idetiske. Dvs.,,, stammer fra de samme fordelig. Frequec 5 4 3 barets vægt 6 5 4 3. Dee fordelig er e ormalfordelig. 3 De to første atagelser checkes ved at geemgå hvorda data er samlet id. 3 4 5 6 barets vægt 3 4 5 Iverse Normal Hvis data er ormalfordelte så vil puktere i QQ-plottet ligge omkrig e ret liie. På forelæsiger/checknorm.p ka I se eksempler på QQ-plots (og histogrammer) for forskellige stikprøvestørrelser. 3 4 Statistik FSV 4.sem: Uge 6
Morte Frdeberg versio dato: 4--4 Maximum likelihood metode I vil på dette kursus møde mage statistiske modeller. Disse modeller vil ideholde ogle (ukedte) parametre, som π i biomialfordeligsmodelle eller µ og σ i ormalfordeligsmodelle. Maximum likelihood metode Der fides flere forskellige metoder/kriterier til at fide de bedste estimater. De mest udbredte metode (og det vi vil bruge her= hedder maximum likelihood metode, som leder frem til Maximum Likelihood Estimater (MLE). E væsetlig del af de statistiske aalse af data er at estimere disse ukedte parametre. Dette betder, at ma vælger de værdi af de() ukedte parameter, der giver størst sadslighed for at observere det data vi har set. Jeg vil illustrere dette for biomialfordeligsmodelle. 5 6 ( ) Maximum likelihood metode Atag Y bi, π og at vi har observeret Y= obs MLE for π er givet ved de værdi af π, der maksimerer Pr( ) obs obs Y = obs = π ( π ) obs Eller ækvivalet maksimerer. l ( π ) l[ Pr( Y )] l = = obs = + obs l ( π ) + ( obs ) l ( π ) obs Differetierer ma dee fuktio så fås: obs obs obs obs l '( π ) = = π π π π Ma ser at l (π)= hvis π = obs Lidt derligere regerier viser, at dette også er et maximum for l og der med at MLE er givet ved ˆ π = obs KS Ex. 5.3: Rgig for 5-6 årige i Birmigham Spørgsmål: Hvad er prævalese af rgig bladt 5-6 årige i Birmigham og hvorda passer det med et mål på 3%? Desig/Data: Selvrapporteret rgevaer bladt tilfældige 5-6. Resultat: 3 af de teeager svarede at de var rgere. Vi er selvfølgelig iteresseret i π, sadslighede for at e tilfældig ug i Birmigham er rger. E aturlig model vil være biomialmodelle, me er atagelsere opfldt? 7 8 Statistik FSV 4.sem: Uge 7
Morte Frdeberg versio dato: 4--4 Kommetarer til atagelsere. Vi ved ikke hvorda data er samlet id, me atagelse er at de ikke har afsluttet data idsamlige, år der fx var relativt få rgere bladt de det havde svaret.. Uafhægighed mellem svar. Her ka problemet være hvis ma har svaret i grupper, hvor svaret fra de ekelte er påvirket af de adre.. Det giver selvfølgelig ku meig at aalsere data hvis alle teeagere havde øjagtig de samme to svarmuligheder. 3. Hvis de ukedte sadslighed vides at være forskellig i kedte udergrupper, så giver det ikke meig ku at rapportere et estimat. Eksakt iferece for biomialfordelige - CI Et eksakt 95%-sikkerhedsiterval for π fides ikke ved brug af stadard error, me ved at løse disse ligiger KS ex 5.3 =, obs =3 ( π π ) Pr ; = =.5 ( obs π πupper ) Pr ; = =.5.4.3. obs pu pl Lower 6 8 4 6 8 9 I Stata gøres dette ved ci variabel, biomial. 3 Eksakt iferece for biomialfordelige - test Hpotese: π = π Hvad der er mere kritisk for for hpotese (og dermed p- værdie) ka defieres på flere måder i Stata (bitest ) gøres det således: P-værdie er sadslighede for at observere et uald, der er lige så mere usadsligt, som det ma faktisk har observeretu, givet hpotese er sad p-værdi = ( π ) ( π ) Pr ;, Pr obs ;, ( π ) Pr ;, p.4.3. biomial dist = pi=3 8 9 3 4 5 6 7 8 3 KS Ex. 5.3: Rgig for 5-6 årige i Birmigham 3 ˆ π = = 3 =.3% se ( ˆ π ) ˆ π ( ˆ π ) = = 4 Exact 95% CI: (33; 45) Approx 95% CI: (6; 434) Hpotese: π = 3% = 3 : Exact p-value: Approx p-value: Eksakt ci: Eksakt test: Obs aprox ci og test: p=.54 p=.5 ci variabel,biomial bitest variabel = hpotese prtest variabel = hpotese 3 Statistik FSV 4.sem: Uge 8
Morte Frdeberg versio dato: 4--4 Estimatio af middelværdie i e ormalfordelig. Hvis data ka atages at stamme fra e ormalfordelig, så er der to ukedte størrelser: middelværdie og spredige, µ og σ! Disse estimeres ved MLE metode til: ˆ µ = = og ˆ σ = sd = i i i= i= ( ) Dvs. ved geemsittet (de observerede middelværdi) samt de observerede spredig. Usikkerhede på middelværdi estimatet er givet ved: se ˆ µ = se = sd ( ) ( ) Dee kaldes ofte Stadard Error of the Mea, sem. 33 Eksakt CI og test for middelværdie i e ormalfordelig Et eksakt 95% CI er på forme: ˆ µ ± t (5%) ise( ˆ µ ) Dette tal fides i e tabel over t-fordelige med frihedsgrader. KS Table A3 s 473, Juul B s6. Stata vil give eksakt CI ved brug af ci variabel eller ttest. Et eksakt test for hpotese µ=µ baseres på de sædvalige teststørrelse, me p-værdie fides vha. af t- fordelige. Stata giver eksakt p-værdi (og CI) ved ttest variabel=hpotese Fx vil ttest BMI = 5 lave et eksakt sikkerhedsiterval for middel BMI og teste om dee kue være 5 kg/m 34 Eksakt CI for spredige i e ormalfordelig Det er sjældet at ma a øsker at drage iferes agåede spredige, σ. Vi derfor ku her se på hvorda ma fider et eksakt sikkerhedsiterval for σ. - dette gøres ikke på de sædvalige måde!! Præcisio af spredigsestimatet i e ormalfordelig agives/måles geerelt ved atallet af frihedsgrader,, som bereges som mius atal ukedte parametre. Formle for sikkerhedsitervallet ivolvere øvre og edre.5% percetil i χ -fordelige: ˆ σ σ ˆ σ χ (.975) χ (.5) 35 Eksakt CI for spredige i e ormalfordelig ˆ σ σ ˆ σ χ (.975) χ (.5) ˆ l ( ) σ ˆ σ u( ) σ Meget få programmer (ed ikke Stata) vil berege dette. Me ma ka bruge Statas egeskab som regemaskie Eks: =7 =6 og ˆ σ = 8.365 displa 8.365*sqrt(6 6/ivchi(6 6,.975)) displa 8.365*sqrt(6 6/ivchi(6 6,.5)) Dette giver CI(σ): 7.65 < σ < 9.4 l() u() 5.64.453.699.755 5.739.548.765.444 5.784.38 5.837.43 5.899 8.9 9 36 Statistik FSV 4.sem: Uge 9