Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

Størrelse: px
Starte visningen fra side:

Download "Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik."

Transkript

1 Epidemiologi og biostatistik. Uge, tirsdag. Erik Parner, Institut for Biostatistik. Generelt om statistik Dataanalysen - Deskriptiv statistik - Statistisk inferens Sammenligning af to grupper med kontinuerte data - Gennemsnit og spredning - Parametre - Estimater - Sikkerhedsintervaller Deskriptiv statistik Eksempel: PEFR Sammenligning af to grupper med kontinuerte data Udgangspunkt: Vi ønsker at sammenligne lungefunktion for mænd og kvinder. Indsamling af data (stikprøve): PEFR-målinger for - tilfældigt udvalgte kvinder - tilfældigt udvalgte mænd Data: - Kvinder: 5, 383, 8,, 5, 58, 5, 75, 5, 75, 5, 7, 85, 8 - Mænd: 58, 5,,,, 55, 55,, 55,, 5, 57, 5, 57, 3, 575 Hvorfor er der brug for statistik? Data/observationer er underlagt tilfældig variation. Behov for at kvantificere hvor meget skyldes tilfældig og hvor meget skyldes systematisk variation. Behov for at resumere mange enkelte observationer i nogle få tal. Kvantificere at konklusioner baseret på meget data er mere præcise end konklusioner baseret på få data. 3 Formålet med den statistiske analyse er ofte at estimere en ukendt konstant (parameter), som fx.: Middel PEFR Middel PEFR for en 3 årig kvinde Forskel i (middel) PEFR mellem mænd og kvinder Den relative risiko for SIDS forbundet med maveleje Bemærk: disse parametre omhandler ikke kun vores stikprøve, men hele den population vi betragter. Det kan være en større opgave, at beslutte sig til hvilken størrelse man ønsker at estimere: Hvordan beskriver man sammenhængen mellem kost og kræft? Hvorfor stikprøver (samples)? hurtigere billigere umuligt at undersøge alle mere præcist (indsamling af data/ homogenitet) statistiske metoder kan bruges til at vurdere usikkerhed Dataanalysen kan opdeles i deskriptiv statistik statistisk inferens Dataanalyse: deskriptiv statistik Beskrivelse af data fra stikprøven: Data summary : - gennemsnit / median / percentiler - hyppigheder / relativ risiko / oddsratio - varians / spredning - korrelationer Tegninger/figurer: Vigtig! 5

2 Dataanalyse: statistisk inferens Fra stikprøve til population: Eksempel - deskriptiv statistik PEFR Model / Antagelser angående variationen i data. Estimation af relevante parametre i populationen (f.eks. middelværdi eller forskel mellem to grupper) ud fra stikprøven med tilhørende sikkerhedsintervaller. Opstilling af statistiske hypoteser, statistiske test Statistiske konklusioner Faglig konklusioner PEFR (l/min) Kvinder (n=) Mænd (n=) Figuren er god, men kan man beskrive disse data med få tal? 7 8 PEFR (l/min) PEFR Gennemsnittet for hver grupper er markeret med Kvinder: 85. l/min Mænd: 55.9 l/min PEFR (l/min) PEFR Kvinder: sd=. l/min Mænd: sd=55. l/min Jo mere data varierer jo større sd. På figuren er vist gennemsnit +/- sd. Kvinder (n=) Mænd (n=) Kvinder (n=) Mænd (n=) n Gennemsnit = x = x = ( x + x + + x )/ n i n i = (Summen af tallene divideret med antallet) Gennemsnittet beskriver midten / det generelle niveau / 9 den centrale tendens af data. n n sd = ( xi x) n i= Som et mål for variationen bruges ofte spredningen (standard afvigelsen / standard deviation / sd) PEFR (l/min) % 8% % PEFR Kvinder (n=).5% 95%.5% Hvad siger spredningen? Hvis data er fordelt rimeligt symmetrisk omkring gennemsnittet (normalfordelt), da vil intervallet gennemsnit ± sd dække ca. 8% af data, og gennemsnit ±.9*sd dække ca. 95% af (kommende) data. Vi vender tilbage disse intervaller (prædiktionsintervaller) næste gang. Parametre: vi har lavet et gæt på parametrene µ = middelværdi = gennemsnittet for hele populationen σ = spredning = sd udregnet for hele populationen Normalfordelingen er beskrevet ved de to parametre: middelværdi og spredning. Der kommer mere om normalfordelingen næste gang. Estimation: Kvinder: µ = gennemsnit = 85. l/min ˆK ˆ σ = sd =. l/min K Mænd : ˆ µ = gennemsnit = 55.9 l/min M ˆ σ = sd = 55. l/min M ^: Dette er et estimat, dvs. et gæt beregnet på basis af data.

3 Hvor godt passer de observerede gennemsnit med de sande værdier? Hvis vi havde taget andre mænd og målt deres PEFR ville vi ikke få et gennemsnit på 55.9 l/min For at beskrive usikkerheden på estimatet bruger man ofte et (sikkerheds-) interval omkring estimatet. Sikkerhedsintervallet er de parameter-værdier der er forenelige (i en eller anden forstand) med data. 3 Sikkerhedsinterval For et givet estimat (f.eks. gennemsnittet) kan man beregne en tilhørende usikkerhed / spredning (se). Hvis antallet af data, n, er stor da vil intervallet Estimat ±.9 se(estimat) være (approximativt) et 95% sikkerheds- / konfidensinterval for estimatet. Usikkerheden på gennemsnittet er: sd se( ˆ µ ) = sem = n sem: Standard error of the mean Fortolkningen af et 95% sikkerhedsinterval: Hvis vi udtager mange stikprøver og beregner et sikkerheds- eller konfidensinterval for hver stikprøve da vil den sande værdi ligge i 95% af disse intervaller. Sagt på en anden måde: Sikkerhedsintervallet indeholder den sande værdi med 95% sandsynlighed. Kvinder: Eksempel beregning af sikkerhedsinterval n =, ˆ µ = 85. l/min, ˆ σ =. l/min. se ( ˆ µ K ) = =. K CI( µ ): 85. ±.9. K d vs. (.; 5.) l/min CI: Confidence Interval K Mænd: se( ˆ µ ) = 3.7 l/min M CI( µ ) = ( 5.; 579.9) l/m in M 5 Den estimerede forskel mellem mænd og kvinder: ˆ µ ˆ M µ K = = 7. l/min Usikkerheden på forskellen i gennemsnittene: se( ˆ µ ˆ µ ) = se( ˆ µ ) + se( ˆ µ ) M K M K = = 8.5 l/min Sikkerhedsintervallet for forskellen bliver Statistisk test En anden måde at undersøge om der er forskel i PEFR mellem mænd og kvinder er vha et statistisk test. Mere om dette næste gang. Estimat ±.9 se(estimat) CI( µ µ ): 7. ± M K dvs. ( 3.; 3.7) l/min Der er altså statistisk signifikant forskel i PEFR mellem mænd og kvinder! 7 8

4 Eksempel - resultater PEFR niveau: Kvinder: ˆ µ = gennemsnit = 8 l/min K CI( µ ) = ( ; 5) l/min K Mænd : ˆ µ = gennemsnit = 553 l/min M CI( µ ) = ( 5; 58) l/min M Konklusion: Mænd har (statistisk signifikant) højere PEFR niveauet end kvinder! Forskellen i PEFR er mellem 3 og l/min. Vores bedste bud på forskellen er 7 l/min. Variation i PEFR: Kvinder: σ = sd = 7 l/min ˆK Mænd : ˆ σ = sd = 55 l/min M Bemærk: konklusionen vedrører hele populationen, og ikke kun den stikprøve vi har undersøgt. Forskel i PEFR niveau: Forskel = ˆ µ ˆ µ = 7 l/min M CI( µ µ ) = ( 3; ) l/min M K K 9 Sammenligning af to grupper med kontinuerte data generelt Statistisk model: Antag at variationen i hver gruppe er symmetrisk (data er normalfordelt) observationerne indenfor hver gruppe er uafhængige (ingen søskene indenfor grupperne) de to sæt af observationer er uafhængige (ingen søskene, ikke par af målinger i de to grupper) Estimation: ˆ µ i = gennemsnit (beskriver niveauet i gruppen) ˆ σ = sd (beskriver variationen i gruppen) i ( i =, svarende til gruppenummer) Sikkerhedsinterval for middelværdien: ˆ σ i se( ˆi µ ) = n CI ( µ ): ˆ µ ±. 9 se( ˆ µ ) i i i Sikkerhedsinterval på forskellen: se( ˆ µ ˆ µ ) = se( ˆ µ ) + se( ˆ µ ) CI ( µ µ ): ˆ µ ˆ µ ±. 9 se( ˆ µ ˆ µ ) Bemærk: Formlen for se gælder generelt for alle parametre forudsat de to grupper er uafhængige. i Et nyt, større studie Dataanalysen: deskriptiv statistik Et større studie for den samme population gav følgende resultat: Til sammenligning fik vi tidligere: Kvinder Mænd Forskel Kvinder Mænd Forskel n 3 58 n Gennemsnit Gennemsnit CI (59;89) (55;58) (7;) CI (;5) (5;58) (3;) Numeriske metoder til beskrivelse af kontinuerte data: Hvor ligger typiske data (det generelle niveau): Gennemsnit (aritmetrisk): data skal være rimelig symmetrisk fordelt Gennemsnit (geometrisk): logaritme-transformerede (f.eks koncentrationer) data skal være rimelig symmetrisk fordelt Sikkerhedsintervallerne bliver mindre jo større studiet er! Median (5 percentil): skæve fordelinger (Vi bliver klogere jo mere data vi samler ind...) 3

5 Numeriske metoder til beskrivelse af kontinuerte data: Hvor meget afviger de fra hinanden (variation)? Percentiler: 5 percentilen er der hvor der er 5% af data der er mindre (og 95% større) Spredning/varians: Variationskoefficient (f.eks koncentrationer) data skal være rimelig symmetrisk fordelt logaritme-transformerede data skal være rimelig symmetrisk fordelt 5 percentilen er lig. kvartile 5 percentilen er lig. kvartil der er lig medianen 95 percentilen er der hvor der er 95% af data der er mindre (og 5% større) Percentiler / kvartiler: Range/ max / min skæve fordelinger 5 og generelt X percentilen er der hvor der er X% af data der er mindre (og -X% større) Kvartiler: Præsentation af numeriske data: scatterplot. kvartil er lig det mindste tal. kvartil = 5 percentilen. kvartil = 5 percentilen = medianen 3. kvartil = 75 percentilen. kvartil er lig det største tal PEFR (l/min) PEFR Kvinder (n=) Mænd (n=) 7 8 Præsentation af numeriske data: boxplot Præsentation af numeriske data: histogram maximum* 3. kvartil median. kvartil minimum* Kvinder Kvinder Mænd * det varierer lidt hvordan man definerer den øvre én observation mellem 35- to observationer mellem og nedre grænse. Antal 3 5

6 Typer af data Histogrammet beskriver stikprøvens fordeling. Vi vil senere bruge histogrammet til at undersøge om data er normalfordelt. 3 Vi skal i dette kursus kigge på statistiske analyser af kontinuerte [ PEFR ] to kategorier (dichotom) [ Syg/rask ] flere kategorier [ Hvilket amt man bor ] ventetidsdata [ Tid til død eller tilbagefald af sygdom ] Den statistiske analyse afhænger af typen af data og hvordan data er indsamlet. Vi vil også kigge på statistiske analyser som kan besvare spørgsmål som: Kan forskellen i mænd og kvinder s PEFR værdi forklares ved at mænd er højre end kvinder? 3 Resumé Dataanalysen Sammenligning af to grupper med kontinuerte data: Gennemsnit og spredning Estimater Sikkerhedsintervaller Deskriptiv statistik 33

7 . februar 3 Epidemiologi og biostatistik Uge, torsdag. februar 3 Morten Frydenberg, Institut for Biostatistik. Bronkitis og hoste estimation sikkerhedsintervaller antagelser Normalfordelingen Prædiktion Statistisk test (udfra estimat og standard error) Sikkerhedsintervaller og statistiske tests Køn Kvinder Mænd Lungefunktions data fra tirsdags Gennemsnit l/min se l/min Udfra dette kunne vi beregne sikkerhedsintervaller for: Middelværdien for hvert køn Differensen mellem middel PEFR for mænd og kvinder 95% sikkerhedsinterval : CI: Estimat ±.9 se(estimat) Bronkitis og hoste Har bronkitis i den tidlige barndom betydning senere i livet? Observeret! Bronkitis som 5-årig Ja ( + B) Nej ( B) Hoster om natten som -årig Ja Nej 7 Lad os først se på de, der ikke har haft bronkitis. π B = Estimat: Sandsynlighed for at hoste om natten givet man ikke har haft bronkitis ˆ π B = =.7 Total 73 Ukendt! Bedste bud:.% af de, der ikke har haft bronkitis, hoster om natten. 3 Hoster om natten som -årig Bronkitis Ja Nej Total Ja 7 73 Nej Hvad er usikkerheden, se, på estimatet? se( ˆ π ) = ˆ π ( ˆ π ) n B B B B =.7(.7) =. ( π ) = ˆ π ±.9 se( ˆ π ) CI B B B =.7 ±.9. = (.99;.53) ˆ π =.7 B Risiko for hoste om natten 5 Risiko for hoste om natten Bronkitis Estimate se CI Bronkitis Estimate se CI Ja Nej ;.3.3;.5 Ja Nej ;.3.3;.5 Konklusion (På basis af disse data ): Risiko for at et barn, der ikke har haft bronkitis, hoster ligger et sted mellem 3.% og 5.% - bedste bud er.%. Risiko for at et barn, der har haft bronkitis hoster, ligger et sted mellem.% og 3.% - bedste bud er 9.5%. Noget tyder på større risiko for at hoste om natten, når man har haft bronkitis. Risikodifferens: RD = π + B π B RD = ˆ π ˆ π = = B B se( RD) = se ( ˆ π + B ) + se( ˆ π B ) = =. 88 CI( RD ) =.537 ± = (.;. 9)

8 . februar 3 Bronkitis Ja Nej Estimate.95.7 Risiko for hoste om natten se.777. CI.;.3.3;.5 7 Hvilke antagelser ligger bag beregningerne? Antagelse : Antagelse : Uafhængighed mellem grupper Data i hver gruppe er binomial-fordelt 8 Risiko Differens ;.9 Uafhængighed mellem grupper: Konklusion: Risikoen for hoste om natten er et sted mellem. og 9. procentpoint højere, hvis man har haft bronkitis som 5-årig. Bemærk se er mindst for Nej gruppen, da der er langt flere børn i denne gruppe. Usikkerheden på differensen er større end den største usikkerhed for de to grupper. Denne antagelse er nødvendig for at man kan bruge formlen: se RD = se ˆ π + se ˆ π ( ) ( + B ) ( B ) Er den rimelig i bronkitis eksemplet? Ja, data stammer for to forskellige grupper børn. Et muligt problem kunne være hvis der var to søskende i hver sin gruppe. Så vil der pga. arv/miljø være en sammenhæng mellem hvorvidt de to børn hoster. Data i hver af grupperne er binomial-fordelt: Denne antagelse er nødvendig for, at man kan bruge formlen: se( ˆ π ) = ˆ π ( ˆ π ) n Data er binomialfordelt hvis: Uafhængige delforsøg. Præcist to mulige udfald (hoster/ikke hoster, død/levende). 3 Sandsynligheden for succes, π, er den samme for alle delforsøg. Antal, n, delforsøg man betragter afhænger ikke af udfaldene. Opfyldt? Ingen søskende i samme gruppe. Klar definition af hoste. Grupperne kan betragtes som homogene. Der er ikke snydt under data indsamlingen. 9 Normalfordelingen En vigtig fordeling af to forskellige grunde: Mange slags data er normalfordelte næsten normalfordelte (muligvis efter en transformation). Mange estimater er normalfordelte, næsten normalfordelte, hvis de er baseret på mange observationer (muligvis efter en transformation). Ingenting er helt normalfordelt, men mange gange er det en rigtig god approksimation! Relative størrelser som Odds Ratio, Relative Risiko og Rate Ratio skal analyseres på log-skala (ln). 3 8 barnets vægt Fødselsvægt for 3 børn P 3.5kg < fødselsvægt <.kg ( ) Normalfordeling: en god approksimation 3 5 Fødselsvægt i kg

9 . februar Tæthedsfunktion: Sandsynlighed for en observation i et interval = areal under kurven. Areal under kurven=. Høj værdi for en given x-værdi Mange observationer tæt ved denne værdi. Lille værdi for en given x-værdi Få observationer tæt ved denne værdi Forskellige normalfordelinger: Middelværdi= Spredning= Middelværdi= Spredning= Middelværdi= Spredning= Standard normalfordelingen 5 µ = σ = Middelværdi Spredning 8.3% µ = σ = Middelværdi Spredning 95.5% 5.9% 5.9%.8%.8% µ σ µ µ + σ µ σ µ µ + σ Bland side 9 Bland side 9 µ = Middelværdi σ = Spredning µ.9 σ µ 95.%.5%.5% Bland side µ +.9 σ 7 Tabel over standardnormalfordelingen 8 Bland side 9 z P( Z < z) z P( Z < z) z P( Z < z) -3..% %. 8.% -.9.% %. 8.% -.8.3% -.8.%. 88.5% -.7.3% -.7.%.3 9.3% -..5% -. 7.%. 9.9% -.5.% % % -..8% %. 9.5% -.3.% % % -..% -..%.8 9.% -..8% -..%.9 97.% -..3%. 5.%. 97.7% -.9.9%. 5.%. 98.% %. 57.9%. 98.% -.7.5%.3.8% % %. 5.5%. 99.% -.5.7%.5 9.%.5 99.% -. 8.%. 7.%. 99.5% % % % -..5% % % -. 3.%.9 8.% % %. 8.% % 3

10 . februar 3 9 Sandsynlighed for mere end.9 spredninger fra middelværdi: i en normalfordeling! 5% ud af observationer: Mere end.9sd fra middelværdi standard deviation (spredning) 95% af observationerne fra en normalfordeling : middelværdi.9 sd observation middelværd i+.9 sd Dvs. der er 95% chance for: observation -middelværdi.9.9 sd Middelværdi ukendt, men sd kendt 95% sikkerhedsinterval for middelværdien: observation.9 sd middelværdi observatio n+.9 sd Baseret på én observation! Baseres det på basis af n observationer fås: gennemsnit.9 sem middelværdi gennemsn it+.9 sem 95% prædiktionsinterval for en observation sd sem = Standard error of the mean n Tilbage til fødselsvægtene: 3 Godt beskrevet ved en normalfordeling! Statistisk test Risikodifferensen for hoste blandt børn, der har/ikke har haft bronkitis n = 3 x = 3558g sd = g Et 95% prædiktionsinterval for fødselsvægten: 3558g ±.9 g = ( 83; 3) g Konklusion: 95% af børn fra en tilsvarende population vil have en fødselsvægt mellem.7 og. kg. Risikodifferensen, RD, er ukendt! Men vi har et estimat : RD =.537 se RD =.88 ( ) Spørgsmål: Er disse data forenelige med at RD=.? Dvs. ingen sammenhæng med bronkitis. Der gælder at estimatet, RD, er (næsten) normalfordelt Med spredning=se=.88 middelværdi RD Under hypotesen er RD = Normalfordeling med: middelværdi spredning=se=.88 Vi har observeret.53!.3%!! Vi har godt nok været uheldige!.53 Det tror jeg ikke vi har! =.39 Så må hypotesen være forkert! Hypotesen! Det afviger (noget) fra det forventede! Hvor stor er sandsynligheden for at observere en lige så stor eller større afvigelse? Vi forkaster hypotesen : Risikodifferensen er.5%.3% Hvad var nu det? Vi sammenlignede vores estimat (.53) med hypotesen. Som målestok brugte vi usikkerheden på estimatet: se=.88 Estimat Hypotese RD RD = =.83 se RD.88 ( ).53 Usikkerheden på estimatet Dvs. estimatet ligger.83 se er fra det forventede! Hvor ofte vil dette ske? Svar : Tabelopslag giver.% =.3% Fra forrige side

11 . februar 3 Estimat: RD =.537 Hypotese: RD= Teststørelse: z =.83 P-værdi:.% Konklusion: Hvis hypotesen er sand, så er der kun.% chance for at få et estimat, der ligger så lige så langt eller længere væk fra hypotesen end det vi har observeret. Det er med andre ord næsten usandsynligt at observere det vi har set hvis hypotesen er sand. Men vi har jo observeret det vi har observeret ergo må hypotesen være falsk. Husk CI: (.;.9) ligger ikke i intervallet! Overensstemmelse mellem test og sikkerhedsinterval! 5 Estimat: RD =.537 Hypotese: RD=.5 Teststørelse: z =.7 P-værdi: 8% = 3% Konklusion: z = (.53.5).88 =.7 Hvis hypotesen var sand, så er der 8% chance for at få estimatet, der ligger så lige så langt eller længere væk fra hypotesen end det vi har observeret. Data strider således ikke mod hypotesen. Hypotesen kan akcepteres. På basis af disse data kan vi ikke afvise at risikoen for hoste er 5% højere for børn, der har haft bronkitis! Husk CI: (.;.9).5 ligger i intervallet! Overensstemmelse mellem test og sikkerhedsinterval! Generelt 7 Generelt 8 Lad θ betegne den ukendte størrelse man ønsker at kende. Hvis man er interesseret i differensen mellem to parametre: Den relevante statistiske analyse bør bestå af beregning af to tal : ˆ θ og se ˆ θ : se( ˆ θ ): ( ˆ θ ) Et estimat af (gæt på) θ Et estimat af (gæt på) usikkerheden af estimatet Et approksimativt 95% sikkerhedsinterval : ˆ θ ±.9 se( ˆ θ ) δ = θ θ så er estimatet: ˆ δ = ˆ θ ˆ θ Hvis to estimater ˆ θ og ˆ θ er uafhængige så er: ( ˆ δ ) = ( ˆ θ ) + e( θ ) se se s ˆ Formlerne for estimatet og se afhænger af den statistiske model og kan være meget komplicerede. I langt de fleste tilfælde bruges computer programmer. HUSK! Relative størrelser som Odds Ratio, Relative Risiko og Rate Ratio skal analyseres på log-skala (LN). Hoster om natten 9 Generelt: Et statistisk test 3 Bronkitis Ja Nej Total Ja 7 73 Data/estimat: ˆ θ med se( ˆ θ ) Nej Hypotese: θ = θ ˆ θ θ Associationsmål relativ risiko Beregn: z = ( B RR π + = ˆ B.95 RR π se ˆ θ ) + = = =.385 π p-værdi = P B ˆ π B.7 ( Z < z ) i standard normalfordeling ln ( RR ) = ln (.385) =.877 Approksimativ Konklusion: Hvis p-værdien er lille er data ikke forenelig med hypotesen og hypotesen må forkastes. se( ln ( RR )) = + = Oftes sættes grænsen til 5% 95% CI(ln ( RR )):.877 ± = (.3589;.83) Bemærk: Man kan bruge en anden se, når man tester, end 95% CI( RR ): ( exp (.3589) ;exp(.83) ) = (.; 3. ) den man bruger til beregning af CI (se Bland afsnit 8.). Formlerne kan findes på de sidste sider. Dette vil vi ikke gøre i dette kursus. 5

12 . februar 3 Få data dårlige approksimationer 3 Sikkerhedsintervaller og test. 3 Eksempel, Streptomycin, Bland Table personer deraf har 3 fået det bedre Data kan antages at være binomial-fordelt. 3 ˆ π = =.87, se( πˆ ) =. 87 (.87) 5 = Approks. 95% CI:.87 ± = (.95,.39) Dårlig approksimation! Ups! Eksakt/korrekt 95% CI (findes vha. af tabel eller computer) (.59,.983) Morale: Hvis der er få eller mange hændelser, så er approksimationerne ikke gode! Men: For nogle modeller findes der eksakte metoder. 95%-sikkerhedsintervallet indeholder hypotesen hvis og kun hvis p-værdien er større end 5%. Ved sammenligning af to parametre baseret på to uafhængige data sæt, tre situationer: A: Intet overlap: B: Et estimat i det andet CI: Hverken A eller B: så p-værdi < 5% så p-værdi >5% så: p-værdi =? Bronkitis Ja Nej Risiko for hoste om natten Estimate se CI ; ;.5 33 Associationsmål i tabeller: Risiko differenser Status Population Sandsynlighed a b n π 3 Risiko Differens ;.9 c d n π Sammenligning af de to grupper: ikke med i CI p=.% < 5%.5 med i CI p= 8% > 5% De to sikkerhedsintervaller overlapper ikke p=.% < 5% Risiko Differens: ˆ π a c = ˆ se( ˆi ) ˆi ( ˆi ) / ni n π = n π = π π RD = π π a c = = n n RD ˆ π ˆ π a b c d se( RD) = se( ˆ π) + se( ˆ π ) = n n Bland p 3 Eksempel: Bland side 3 Hoster som årig Bronkitis som 5 årig Ja Nej Total Obs. Risk Ja Nej.7 35 Associationsmål i tabeller: Relativ risiko Status Population Sandsynlighed a b n π c d n π 3 RD =.95.7 =.537 se( ˆ π ) =.95 (.95 ) / 73 =.777 se( ˆ π ) =.7 (.7 ) / =. se RD = =.88 ( ) 7 = + = % CI( RD ):.537 ±.9.88 = (.8;.9) Relativ Risiko: RR = π π ˆ π a n RR = = ˆ π n c se( ln ( RR) ) = + a n c n Bland p 3

13 . februar 3 Eksempel: Bland side 3 Hoster som årig Bronkitis som 5 årig Ja Nej Total Obs. Risk Ja Nej.7 RR =.95.7 =.385 ln ( RR) = ln (.385) =.877 se( ln ( RR )) = + = % CI(ln ( RR )):.877 ± = (.3589;.83 ) 95% CI( RR ): ( exp (.3589 );exp(.83) ) = (.;3.) 37 Associationsmål i tabeller: Odds ratio Status Population Odds Ratio: π π π ( π ) OR = = π π ( π ) π ˆ π ˆ π a d OR = = ˆ π ˆ π b c se( ln ( OR) ) = a b c d Sandsynlighed a b n π c d n π Bland p 38 Eksempel: Bland side - 39 Sikkerhedsinterval for en enkelt rate Hoster som årig Bronkitis som 5 årig Ja Nej Total Odds Ja Events Risikotid Rate Y T IR Nej.39 OR = = ln OR = ln.3978 =.879 ( ) ( ) se( ln ( OR )) = = IR = Y T se ( ln ( IR) ) = Y 95% CI(ln ( OR )):.879 ± = (.398;.3787) 95% CI( OR ): ( exp (.398 );exp(.3787) ) = (.5;3.97 ) Eksempel: Analytisk epidemiologi side 8 Sammenligning af to rater: Rate ratio Emigrations Antal nye Risikotid Rate alder tilfælde (år) (antal per år) <5 år Population Events Risikotid Rate Y T IR IR = =.7533 / 53999år år ln ( IR ) = ln (.7533) =.833 se( ln ( IR )) = =.5 95% CI(ln ( IR )): ±.9.5 = (.33;.97) 95% CI( IR): ( exp(.33 );exp(.97) ) = (.8;. ) / år Y T IR Incidence Rate Ratio IR IRR = IR IR Y T IRR = = IR T Y se( ln ( IRR) ) = Y + Y 7

14 . februar 3 Eksempel: Analytisk epidemiologi side 8 3 Sammenligning af to rater: Rate differens Emigrations Antal nye Risikotid Rate alder tilfælde (år) (antal per år) <5 år Population Events Risikotid Rate Y T IR 5-9 år Y T IR IRR = = = ln IRR = ln.755 =.58 ( ) ( ) se( ln ( IRR )) = + = Incidens Rate Differens IRD = IR IR Y Y IRD = IR IR = T T 95% CI(ln ( IRR ) ):.58 ± = (.597;.593) 95% CI( IRR ): ( exp (.597 );exp(.593) ) = (.5;3.) Y Y se( IRD) = + T T Eksempel: Analytisk epidemiologi side 8 5 Emigrations Antal nye Risikotid Rate alder tilfælde (år) (antal per år) <5 år år år år IRD = ( ) / =.79/ 8 se( IRD ) = år 79år 8 = + / =.785 / år år 95% CI( IRD ):.79± = (.8;.3 ) / år 8

15 3. februar 3 Epidemiologi og biostatistik. Uge, torsdag d. 3. februar 3 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle specielle metoder: Test i RxC tabeller Test i x tabeller Fishers eksakte test Normalfordelte data : t-test eksakte sikkerhedsintervaller Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ ) for den ukendte størrelse, θ,som man er interesseret i. Et approksimativt 95% sikkerhedsinterval : ( θ ) ˆ θ ±.9 se ˆ En specifik hypotese om at = kan testes ved ˆ θ θ ˆ θ θ z = eller z = se( ˆ θ ) se ( ˆ θ ) Store værdier af z (eller z ) er kritiske! p-værdi via standard normalfordeling eller () -fordeling Approksimation Den vender vi tilbage til! Nogle statistiske begreber Type fejl: At forkaste hypotesen, selvom den er sand. Type fejl: At acceptere hypotesen, selvom den er falsk. Signifikansniveau: Den grænse man sætter for den største p-værdi, der leder til, at man forkaster hypotesen. Som regel sættes signifikansniveauet til 5%. Hvis hypotesen er sand: Sandsynligheden for type fejl =sandsynligheden for forkaste hypotesen =signifikansniveauet M.a.o. sandsynligheden for type fejl er kendt og lig signifikansniveauet (=5%). 3 Type fejl: At acceptere hypotesen, selvom den er falsk. Hvad er sandsynligheden for type fejl? Afhænger af: Hvad der så er sandt! Informationsmængden! Sandheden langt fra hypotesen Sandheden tæt på hypotesen Meget information/data Lidt information/data Statistisk styrke ikke forkaste lille ss. for type fejl stor ss. for type fejl lille ss. for type fejl stor ss. for type fejl = - sandsynlighed for type fejl = sandsynlighed for at forkaste den falske hypotese Planlægning af et follow-up studie: Antagelser: Styrkeovervejelser i forbindelse med planlægning af et studie. KIP blandt ikke eksponerede = %. 5 Øges deltagerantallet til *3 bliver chancen for type fejl reduceret til %, dvs. styrken er 89%. Styrken som funktion af gruppestørrelsen : χ!!"# $# Sand relativ risiko =.. 5 eksponerede og 5 ikke eksponerede. Når data er indsamlet vil man teste hypotese RR=. Sandsynligheden for at få data, der leder til accept af dette (Type fejl) = 39%, dvs. en styrke på %. M.a.o. lille chance for at få bekræftet, at der en sammenhæng. Ikke besværet værd!

16 3. februar 3 Afhænger af designet. Statistisk styrke Nogle kommentarer Afhænger af statistisk metode. Relevant i planlægningsfasen. Når data er indsamlet er bredden af sikkerhedsintervaller udtryk for informationsmængden. 7 Test i RxC tabeller Bland table 3.. Boligform og for tidlig fødsel : Housing tenure Preterm Term Total Owner-occupier Council tenant Private tenant 75 Lives with parents 7 Other Total Hypotese: Ingen sammenhæng. Hvis denne er sand bliver det forventede antal preterm fødsler blandt de, der bor i egen bolig: = Test i RxC tabeller 9 Forventet under hvis hypotesen er sand: Vi har fået X =.5 Housing tenure Preterm Term Total Owner-occupier Council tenant Private tenant Lives with parents Other Total Et mål for forskel mellem observeret og forventet: X = alle celler ( observeret forventet) forventet Er stor ved dårlig overensstemmelse! X = Hvor ofte vil man få noget større? Slå op i en -fordeling! Med (5-)(-)= frihedsgrader. % < p < 5% Computer giver p=3% 5% Hypotesen forkastes! 3% % Bland side Test for ingen association i R C tabeller Generelt Hypotese: Ingen sammenhæng melllem de to inddelingskriterier X rækkesum søjlesum forventet = total = alle celler En stor værdi af X er kritisk. ( observeret forventet) forventet p-værdi findes i en - fordeling med (R-)(C-) frihedsgrader. Test for ingen association i tabeller Svangerskabs- Køn længde Dreng Pige Total Total Hypotese: Ingen sammenhæng mellem køn og svangerskabslængde Teststørrelsen kan let beregnes i hånden som: ( ) X = =. <

17 3. februar % Vi har fået X =. Hvor ofte vil man få noget større? Slå op i en -fordeling med frihedsgrad! p >% % Computer giver p=% 5% 8 3 Hypotesen kan ikke afvises! tabeller Status Population a b n c d n s s N Hypotese: Ingen association Test: ( ) a d b c N X = n n s s Slåes op i en -fordeling med frihedsgrad tabeller : Fishers eksakte test Amning og tandstilling: Hypotese: Ingen sammenhæng Problemer med tandstilling Amning Nej Ja Sum Bryst Flaske Sum 5 37 For få data til at approksimationer kan bruges! Løsning: Fishers eksakte test (computer). Resultat (kun) en p-værdi! Her: p-værdi=9% Konklusion: Data strider ikke mod : Ingen sammenhæng 5 Kommentarer til test for ingen association i tabeller Hvis der er 5 eller mindre i en af cellerne, så bør man bruge Fisher s eksakte test. Nogle anvender et kontinuitets (eller Yates ) korrigeret version af X - testet: ( ) a d b c N N X C = n n s s Det giver lidt større p-værdier. Der er mange argumenter for og imod dette valg. Brug jeres tid på noget mere fornuftigt!!! Lungefunktions data fra i tirsdag i uge : Køn Kvinder Mænd Eksakt analyse af normalfordelte data n Gennemsnit l/min Under antagelse af normalfordeling : sd l/min. 55. sem l/min Approksimativt CI( µ ) : 85. ±.9.5 = ( ; 5 K ) Eksakt 95% CI for µ K : 85. ±..5 = ( 59; 53) Fra t-fordelingen!! Hvor kommer de. fra? Stort set det samme 7 Tabel over tosidige halesandsynligheder i t-fordelingen Bland side 58 df % 5% %.% df % 5% %.% Uendelig %=(-5)% n = =3 frihedsgrader (degrees of freedom) t=. Uendelig mange frihedsgrader = Standard normalfordeling 8 3

18 3. februar 3 Eksakt analyse af normalfordelte data Sikkerhedsinterval 9 Eksakt analyse af normalfordelte data One sample t-test Model/antagelse: Data er n uafhængige observationer fra en normalfordeling med ukendt middelværdi, µ, og spredning, σ Estimaterne for disse er : n n ˆ µ = x = x ˆ sd ( ) i σ = = i n n x x i= i= Hypotese : µ = µ Test : x µ z = sem p-værdi: Slå op i en t-fordeling med n- frihedsgrader PEFR-eksemplet : (ikke i en standard normalfordeling) sem = se( ˆ µ ) = se( x ) = ˆ σ n = sd Et eksakt CI for µ x ± sem tn t n- findes i en tabel over t-fordelingen n Hypotese: Middel PEFR hos kvinder er 5 l/min z = =. Eksakt p-værdi >%.5 (computer p=.8%) Konklusion: Data strider ikke mod hypotesen. Eksakt analyse af to sæt (uafhængige) normalfordelte data Køn Kvinder Mænd Estimat for spredningen blandt mænd Et fælles estimat for spredningen : sd F n = Gennemsnit ( n ) sd + ( n ) sd n + n K K K M K ( ). + ( ) 55. = + = 5.3l/min M sd. 55. Estimat for spredningen blandt kvinder se Estimat for fælles spredning: Nyt bud på sem erne: Køn Kvinder Mænd n sem sem Gennemsnit se ( ˆ µ ˆ µ ) = sem + sem = = 8.8l/min F M K M K sdf = 5.3 = sd n = 5.3 = 3.7l/min K F K = sd n = 5.3 =.8l/min M F M sem % eksakt CI for forskel i middel PEFR, µ µ : ( ˆ µ M ˆ µ K ) ± t se( ˆ µ M ˆ µ K ) = ( ) ± = ( 9; ) l/min sd. 55. sem(fælles) Fra t-fordeling med n M +n K =8 frihedsgrader Analyse af to sæt (uafhængige) normalfordelte data 3 Two sample t-test Hypotese: µ µ δ ( ˆ µ M ˆ µ K ) δ z = se ( ˆ µ ˆ µ ) F M p-værdi: Slå op i en t-fordeling med n M +n K frihedsgrader (ikke i en standard normalfordeling) PEFR-eksemplet : Hypotese: Forskel i middel PEFR er l/min. ( ) 7.3 z = = = 3.59 Eksakt p-værdi=.% Konklusion: Data strider mod hypotesen. K Kommentarer Hvis antagelsen om normalfordeling er rimelige : Fordelingen kan beskrives ved blot to tal : Middelværdi og spredning! Eksakte CI og p-værdier - ingen approksimationer! Også mulighed for at sammenligne spredninger (dækkes ikke på dette kursus) Mere komplicerede modeller og analyse metoder : Variansanalyse (ANOVA) Lineær regressionsmodeller Ikke-lineær regressionsmodeller Faktoranalyse +meget mere

19 3. februar 3 Flere kommentarer Metoderne til analyse af en stikprøve fra en normalfordeling bruges ofte hvis man har parrede data: To målinger per patient, før/efter behandling. Beregn efter-før=obs. Behandlingseffekt. Hvis disse kan antages at være normalfordelte, så analyse som en stikprøve fra en normalfordeling. Dette kaldes Parret t-test. Hvordan checker man antagelsen om normalfordeling? Plot data - histogrammer, normal plots (Q-Q plots). Hvad siger erfaringen om tilsvarende data? 5 En sidste kommentar til analyse vha. af t-fordelingen Det er kun hvis man har små stikprøver at denne metode giver noget væsentligt andet end den sædvanlige/approksimative metode. Metoden er meget udbredt, men vi vil kun undtagelsesvis bruge den i dette kursus! Komponenter i middelværdi og variation Altid mindst to komponenter i middelværdi og variation: Disse skyldes egenskaber ved populationen målemetoden Middelværdi = Middelværdi i populationen + Systematisk målefejl Variation = Variation i populationen + Tilfældig målefejl 7 5

20 Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser bruges til Beskrive sammenhængen mellem to variable. Eks: Kvantificere sammenhængen mellem blodtryk og alder. Prædiktere værdien af en variabel hvis værdien af én eller flere andre variable er kendt (referencemodel). Eks: Forudsige blodtrykket for en 5 årig person. Korrektion for potentielle confoundere. Eks: Hvad er alderseffekten på blodtrykket korrigeret for BMI? Den lineære regressionsanalyse kan anvendes når responsen er kontinuert. Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Data: Systolisk blodtryk-målinger and andre baggrundsvariable for 8 personer. i yi xi Syst. Obs. no. blodtryk Alder Frekvens Systolisk blodtryk (mmhg) Prædiktionsinterval y = 9.9, sd Total = 5.5 ( n = 8) Hvis vi antager blodtryk er normalfordelt fås PI: 9.9 ± =(99.;.) mmhg Fortolkning: Personernes systoliske blodtryk er mellem 99. og. mmhg. Bemærk: Vores bedste bud på en persons systoliske blodtryk er altså intervallet (99.;.) mmhg. Der er dog relativt stor variation i det systoliske blodtryk! Vil vores bud på personens systoliske blodtryk afhænge af persones alder? Systolisk blodtryk (mmhg) Alder Ja, yngre personer har et lavere blodtryk end ældre personer! Vi kan lave et mere præcist prædiktionsinterval, hvis vi bruger oplysningen om personens alder. 5 Systolisk blodtryk (mmhg) Én løsning er, at inddele i aldersgrupper og beregne prædiktionsintervaller indenfor hver aldersgrupper. En anden løsning er en regressionsanalyse, hvor personens præcise alder inddrages Alder En regressionsmodel er en model for sammenhængen mellem blodtryk og alder. Der ser ud til at være en lineær sammenhæng mellem blodtryk og alder.

21 y = α + β x + E i i i Formlen for en ret linie! Simpel lineær regression En simpel lineær afhængighed mellem y i og x i : Beskriver afvigelsen fra linien. Variablen E i beskriver den tilfældige/uforklarede variation omkring linien, og antages at have middelværdi og spredning σ Res (Res=Residual). En simpel lineær regressionsmodel har tre parametre: α = afskæringen med y-aksen (intercept) β = hældningen (regressionskoefficient) σ Res = et mål for variationen omkring linien. 7 Terminologi: y = responsvariabel = afhængige variabel = Systolisk blodtryk x = uafhængig variabel=forklarende variabel = Alder Fortolkning af parametrene: β er forskellen i middel systolisk blodtryk mellem to personer med en aldersforskel på år. (Fortolkningen er ikke den forventede stigning i det systoliske blodtryk når man bliver et år ældre!) α har i denne situation ingen fornuftig fortolkning. (Middel blodtrykket for en år gammel person?) σ Res et mål for variationen omkring linien. 8 Estimation af α, β og σ Res : Systolisk blodtryk (mmhg) Alder r = y ( ˆ α ˆ β x ) i i i Residual = afvigelsen af observationen fra linien. Regressionslinien bestemmes ved mindste kvadrates metode, der minimerer (kvadratet på) afstandene fra observationerne til linien. σ Res estimeres ved standard deviationen af residualerne. 9 Estimation af α, β og σ og se er m.v. er kompliceret, men kan laves af de fleste statistikprogrampakker. Resultat: Intercept Estimat.3 se. CI (3.3;8.) Regression.5.3 (.;.) sd Res. Regressionsanalysen beskriver sammenhængen mellem (systolisk) Blodtryk og Alder som middel Blodtryk =.3+.5 Alder (mmhg) (mmhg/år) (mmhg) Eksempel : Middelblodtrykket for 5 årige personer er = 35. mmhg. CI kan vi ikke udregne på basis af ovenstående tal! Eksempel : Forskellen i middelblodtryk for årige personer og 5 årige personer er Forskel = ( ˆ α + ˆ β 5) - ( ˆ α + ˆ β ) = ˆ β ( 5 ) =. 5 =. 9 mmhg se( ˆ β) = se( ˆ β) =. =. mmhg CI(Forskel) :.9 ±.9. = ( 9.9;.) mmhg Middelforskellen mellem to personer med en aldersforskel på år er mellem 9.9 og. mmhg. Eksempel 3: Hvad er vores bedste bud på en 5 årig persons systoliske blodtryk? Prædiktionsinterval= regressionslinie ±.9 sd Res Systolisk blodtryk (mmhg) Generelt: Forskellen i middelblodtryk mellem personer med en aldersforskel på år er Fo rskel = ˆ β, se( ˆ β) = s e( ˆ β ) Alder PI( x) = ( ˆ α + ˆ β x) ±.9 sd Res

22 Prædiktionsinterval for de 5 årige personer bliver således Middelblodtryk: ˆ α + ˆ β 5 = 35. mmhg sd Res =. mmhg PI(5 årige): 35. ±.9. = (.; 59.8) mmhg Det generelle prædiktionsinterval (uden hensyntagen til alder) var PI: (99.;.) mmhg. Systolisk blodtryk (mmhg) PI PI(5 årig) 3 Andel forklaret variation Prædiktionsintervallet fra regressionsanalysen er smallere end det generelle prædiktionsinterval (sd Res er mindre end sd Total ). Vi har forklaret noget af variationen i Blodtryk ved variationen i Alder. Men hvor meget? Den relative reduktion i variationen er ( ) R = =.3 = 3% Vi har således forklaret 3% af variationen i blodtryk ved variationen i alderen. R = andel forklaret variation af den totale variation (coefficient of determination). Antagelser bag den simple lineære regressionsanalyse Den statistiske model bygger på følgende antagelser: Uafhængige par af observationer (x,y ),...,(x n,y n ). Lineær sammenhæng mellem x i og y i : y i = α + β x i + E i Variationen omkring linien, E i, er normalfordel med middelværdi og spredning σ Res. Systolisk blodtryk (mmhg) Modelkontrol: lineær sammenhæng Variationen omkring linien afhænger ikke af den forklarende variabel x i Alder Det ser ud til, at den lineære sammenhæng er en rimelig beskrivelse! Modelkontrol: konstant variation Modelkontrol: normalfordeling Residualer Alder Frekvens Residualer Residualerne kan antages at være normalfordelt! Residualerne viser symmetri omkring og konstant variation uafhængig af Alder. 7 Antagelserne bag den lineære regressionsanalyse synes at være opfyldt! 8

23 Eksempel på en ikke-lineær sammenhæng Nyrefunktion 8 Glumerular filtrationsrate (GFR) 5 5 Residualer (Creatinin) Cr 8 9 Residualer efter lineær regression: - mangel på symmetri / systematisk afvigelser fra. - ikke konstant variation. Cr Ln-transformation af nyrefunktion: Hypoteser omkring β ln(gfr) 5 3 Foregår som sædvanlig! Hvis vi f.eks. ønsker at teste Hypotese: β = (ingen sammenhæng mellem Blodtryk og Alder) ˆ β. z = = = 5., p<. s( e ˆ β ) ln(cr) Her er antagelserne bag regressionsanlysen opfyldt. Multipel lineær regression Effektmodifikator? Effekten af alder er beskrevet ved hældningen (fra tidligere) ˆ β =.5 mmhg/år ( CI:.. ) Alder Blodtryk Hældningen beskriver middelforskellen i systolisk blodtryk mellem to personer med en aldersforskel på år. BMI Blodtrykket afhænger også af BMI. Afhænger alderseffekten af personens BMI? Mao. er BMI en effektmodifikator for alderseffekten? Confounder? Hvis BMI ikke er en effektmodifikator for alderseffekten: Er BMI en confounder for alderseffekten? Alder Blodtryk BMI 3

24 Data: Samme data fra før, nu suppleret med BMI oplysninger. En regressionsanalyse for hver BMI gruppe: Obs. no. 3 8 Syst. blodtryk BMI er inddelt i 3 grupper: Alder BMI gruppe = hvis BMI 5 = hvis 5 < BMI 3 = 3 hvis 3 < BMI BMI BMI gruppe 3 5 Systolisk blodtryk (mmhg) BMI<5 5<BMI<3 3<BMI Alder Er effekten af alderen den samme i de 3 BMI grupper? Strata Er BMI en effektmodifikator? BMI <5 5-3 <3 Estimaterne er noget usikre! Hældning.5..8 CI (-.;.) (.;.) (-.;.8) En multipel regressionsanalyse med samme alderseffekt (hældning) i de 3 BMI-grupper: Hypotese: Samme alderseffekt i de 3 BMI grupper (BMI er ikke en effektmodifikator) BMI<5 Hypotesen testes vha. en multipel regressionsanalyse, p=.. 5<BMI<3 3<BMI Vi accepterer dermed hypotesen om den samme alderseffekt i de 3 BMI-grupper. Alder Vi kan antage, at BMI er ikke en effektmodifikator. Modelkontrol: Som i den simple lineære regressionsanslyse, 7 dog her noget mere kompliceret. 8 Systolisk blodtryk (mmhg) Resultat: Estimat se CI p Intercept (5.;93.3). Alder.. (.7;.). BMI 5 5<BMI (-.;5.7).95 BMI>3.7. (8.7;.). sd Res. Hvordan skal vi fortolke dette resultat? middel Blodtryk = Alder -. BMI +.7 BMI Eksempel : beregning af det forventede blodtryk Betragt en person med følgende data: BMI 5-3 = Alder=5 år, BMI=7 kg/m BMI 3+ = Middelblodtrykket udregnes til Middelblodtryk = Alder -. BMI +.7 BMI = = 3. mmhg Et prædiktionsinterval kan udregnes som tidligere PI(5 årige, 5<BMI 3): 3. ±.9. = ( 9.; 5. ) mmhg 3

25 Betragt to personer: Eksempel 5: effekten af Alder Person : Alder = år, BMI =3 kg/m Persen : Alder =5 år, BMI =3 kg/m Forskellen i middelblodtrykket er Middelblodtryk Middelblodtryk = ( ) =. ( Alder Alder) =. =.8 mmhg Alder BMI BMI Alder- BMI BMI BMI 5-3 = BMI 3+ = ( ) Eksempel : effekten af BMI Betragt to personer: Person : Alder = år, BMI = kg/m Persen : Alder = år, BMI =7 kg/m Forskellen i middelblodtrykket er Middelblodtryk Middelblodtryk ˆ 5-3 = β5-3 BMI =. CI(Forskel): (-.; 5.7) CI(Forskel): (.7;. 5) = ( 7.;5. ) mmhg 3 3 Betragt to nye personer: Er BMI en confounder for alderseffekten? Person : Alder = år, BMI =7 kg/m Fra den simple lineære regressionsanalyse fik vi Persen : Alder = år, BMI =3 kg/m ˆCrude β =.5 CI( β Crude ): (.,. 99) mmhg/år Forskellen i middel blodtrykket er Middel blodtryk Middel blodtryk Fra den multiple lineære regressionsanalyse hvor også BMI-gruppe indgik i modellen fik vi = ˆ β ˆ 3+ β5-3 =.7 (.) ˆAdjusted β =.8 CI( β Adjusted ): (.7,. 5) mmhg/år = 7. Hvis βcrude βadjusted så er BMI en confounder. CI(Forskel) kan vi ikke udregne fra på basis af denne analyse. Sikkerhedsintervallet kan findes ved at lave en ny Det tyder således på, at BMI er en confounder for regressionsanalyse med BMI gruppe nr. som alderseffekten. referencegruppe. 33 3

26 7-3-3 Epidemiologi og biostatistik. Uge, torsdag Erik Parner, Institut for Biostatistik. Logistisk regressionsanalyse - Generelt om logistisk regressionsanalyse - Eksempel Kliniske målinger - Kliniske målinger og variationskilder - Estimation af størrelsen af de tilfældige variationskilder (eksempel ) - Sammenligning af to målemetoder/målinger: - kontinuerte målinger (eksempel 3) - kategoriske målinger (eksempel ) Logistisk regressionsanalyse Responsen (y) er en dichotom variabel, f.eks. - operation for diskusprolaps: sucess/ikke-sucess. - i live efter mdr: ja/nej. - fødselsvægt < 5 gram: ja/nej. Den logistiske regressionsmodel beskriver hvordan sandsynligheden for hændelsen (p) afhænger af forklarende variable x,,x m via logaritmen til odds for hændelsen (o) p logit( p) = ln( ) = ln( o) p ved ln( o) = α + β x βm xm (Bland Kapitel 7.8) Korrelation Lineær- versus logistisk regressionsanalyse Eksempel (Bland side 3-33) Lineær regressionsanalyse: Prædiktion af sandsynligheden for kejsersnit. Responsen (y) er en kontinuert variabel, f.eks. blodtryk, PEFR eller FEV. Responsen afhænger af forklarende variable x,,x m ved y = α + β x + + β x +"tilfældig variation"... m m Logistisk regressionsanalyse: Responsen (y) er en dichotom variabel og logaritmen til odds for begivenheden (o) afhænger af de forklarende variable x,,x m ved p ln( o) = ln( ) = α + β x β p m x m 3 Responsvariabel: kejsersnit: ja/nej (p = sandsynligheden for kejsersnit) Forklarende variable: BMI: kontinuert variabel Induction: ja/nej (ja=, nej=) Prev. vag. del.: ja/nej (ja=, nej=) Preliminære analyser viser: - BMI associeret med kejsersnit - Induction associeret med kejsersnit - Prev. vag. del. associeret med kejsersnit Formål med regressionsanalysen i eksemplet: Er der stadig en associationen mellem BMI og kejsersnit når vi korrigerer for Induction og Prev. vag. del. (PVD)? Eksempel: sandsynligheden for kejsersnit l n( ô ) = BMI+.7 Induction -.79 PVD Betragt en kvinde med: Resultat: BMI Induction PVD Intercept Coef Std. Err p-value <..3 <. <. Hvordan skal vi fortolke dette resultat? 95% CI.9 to.8.8 to to to -.53 l n( ô ) = BMI+.7 Induction-.79 PVD z 5 BMI=5 kg/m, Induction=, PVD= Indsættes dette i regressionsligningen fås: ln( o ˆ) = =.93 o ˆ = exp(.93) =.5 oˆ pˆ = =.8 CI kan I ikke udregne! + oˆ Hvis Induction=: ln( oˆ ) = oˆ =.9 pˆ =.3

27 7-3-3 Eksempel: effekten af Induction Betragt to kvinder: Kvinde : BMI =5 kg/m, Induction =, PVD = Kvinde : BMI =5 kg/m, Induction =, PVD = OR kan estimeres ud fra de to odd s fra før: oˆ.9 OR = = =.9 CI? o ˆ.5 Kvinde har altså dobbelt så stor risiko (odds) for kejsersnit i forhold til kvinde. Hypotese: Kunne OR være? Odds ratioen kan også udregnes som: oˆ OR = o ˆ exp( BMI +.7 Induction-.79 PVD) = exp( BMI+.7 Induction-.79 PVD) exp(.7 Induction) = exp(.7 Induction ) exp(.7 ) = exp(.7 ) = exp(.7) =.9 Samme OR som før! CI( OR ): (exp(.8),exp(.7) ) = (. 3,. 9) Vi får udregnet CI! 7 8 Der gælder altså: β = ln( OR)!!! Resultatet bliver det samme uanset hvad BMI og PVD er! Der er med andre ord i regressionsligningen l n( ô ) = BMI+.7 Induction -.79 PVD antaget ingen effektmodifikation mellem BMI, Induction og PVD! Eksempel: effekten af BMI Betragt to kvinder: Kvinde : BMI =5 kg/m Kvinde : BMI =7 kg/m hvor alt andet er lige exp(7.88 OR = ) = exp((7 5).88) = exp(.88) =. exp( 5.88) CI ( OR ) : ( exp(.9),exp(.8)) = (.,. 3) Betragt to andre kvinder: Kvinde 3: BMI 3 =8 kg/m Kvinde : BMI = kg/m hvor alt andet er lige 9 OR = exp(.88) =. dvs. samme OR!!! Vi har i regressionsmodellen antaget, at effekten af en BMI forskel på kg/m er uafhængig af størrelsen på BMI. Er det rimeligt? BMI Induction PVD Tabel for OR Odds ratio p-value.9 < <. 95% CI.5 to.3.5 to.9.9 to.98 OR en for BMI svarer til en BMI forskel på kg/m. Ofte vil det være tabellen for OR, som er angivet i en artikel. OR en svarende til en BMI forskel på kg/m fås ved OR =.9 =. CI ( OR ): (.5,.3 ) = (.,.3) Mere generelt gælder OR = OR OR OR BMI Induction PVD CI kan I ikke udregne!

28 7-3-3 Kommentarer til logistisk regressionsanalyse Estimationaf α, β,, β m og se er m.v. er kompliceret, men kan laves af de fleste statistikprogrampakker. Den logistiske regressionsanalyse bør kun anvendes hvis antallet af observationer er rimeligt stort. En tommelfingerregel er: - der bør være MINDST ja er og nej er for responsen (men helst af hver), for hver forklarende variabel i modellen (Bland side 33). En variant, betinget logistisk regressionsanalyse, anvendes for matchede data. Analysen anvendes ofte i case-control studier hvor cases og kontroller er matchede mht. potentielle risikofaktorer. 3 Kliniske målinger Hvad influerer på en (klinisk) måling? Metode-relateret: Individ-relateret: målemetode person apparat helbredstilstand kalibrering af apparat tidspunkt (sæson, døgn) observatør??? hospital??? variationskilder (Bland Kapitel ) Klinisk måling: vi forestiller os, at der er en underliggende/ukendt sand værdi, som vi forsøger at måle. (for en given person, med en given helbredstilstand, til et givet tidspunkt etc) Mange målemetoder vil ud fra metodens underliggende fysiske og/eller kemiske principper være gode (lille systematisk og tilfældig fejl) lungefunktion: måling af rumfang kemiske analyse: kromatografisk metode Ved gentagen måling med samme metode: en lidt anden værdi (som regel), fordi: metoden har en indbygget usikkerhed (tilfældig fejl) Kan ofte beskrives ved en normalfordeling målefejl 5 Måling på noget biologisk introducerer en række nye og måske ukendte variationskilder, f.eks. : fastende intra i hvile instruktion af patienten før målingen patienterne er forskellige inter Variationskomponenter Inter-individuelle variation: Hver person har et underlæggende niveau (sande værdi). Den interindividuelle variation beskriver variationen i personernes niveau. Også kaldet den biologiske variation. Eks: personens niveau kunne være gennemsnittet af målingerne over mange dage. Intra-individuelle variation: Personens sande værdi afhænger af under hvilken omstændighed den bliver målt. Variationen i de sande værdier indenfor personen kaldes for den intra-individuelle variation. Eks: den intra-individuelle variation kunne være dag-til-dag variationen i de sande værdier. Målefejl: Variationen af målingerne hvis vi måler flere gange lige efter hinanden. 7 Klinisk måling intra-individuel variation interindividuel variation Dag 3 5 personens niveau personens (sande) værdi den pågældende dag observation 8 3

29 7-3-3 Eksempel Estimation af størrelsen af de tilfældige variationskilder En stikprøve af PEFR målinger, målt med Wright. PEFR (l/min) Mean=5 SD= PI: -78 Hvor meget af variationen i PEFR (målt med Wright) skyldes variation mellem personer (inter-individuel) variation indenfor person (intra-individuel+målefejl)? 9 Nyt forsøg: PEFR (l/min) målt med Wright meter Person 3 : 5 7. måling : måling : (Bland Table 5., side 7) målt forskellige dage Ingen systematisk forskel mellem de målinger PEFR (l/min) Variationskilderne PEFR Gennemsnit Dette design kan ikke adskille 8 8 intra-individuel Person no. variation og Inter-individuel variation målefejl = variationen af gennemsnittene usikkerhed på gennemsnittene Intra-individuel+målefejl En Variansanalyse kan kvantificere de systematiske og tilfældige kilder til variation: s b = spredningen mellem personer (between) =. l/min s w = spredningen indenfor person (within) = 5.3 l/ min seen måling = sb + sw = 3. l/ min Resultaterne kan bruges til at besvare spørgsmål som: A. Hvor stor en andel udgør den biologiske variation? Andel =. 3. = 98% = variationen omkring gennemsnittene B. Prædiktionsinterval for forskel mellem målinger på samme person på forskellige dage: ± + =± 7 =± l/min.9 sw sw.7 sw..9 C. Teste hypotesen: σ b = Ensidet variansanalyse (kommer til øvelserne!) Eksempel 3 Sammenligning af to kontinuerte målinger Eksempler på metodeforskelle: Systematisk forskel: Tilfældig variation: generelt niveau forskellige måleusikkerhed kun ved små/store værdier større ved store værdier Analysen afhænger af den forskel man vil beskrive. (Hvad man måler på - standardiseret prøve, raske personer eller patienter - afhænger hvad/hvem man ønsker at generalisere til) 3

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min Epidemiologi og biostatistik Uge, torsdag 3. februar 005 Morten Frydenberg, Afdeling for Biostatistik. og hoste estimation sikkerhedsintervaller antagelr Normalfordelingen Prædiktion Statistisk test (ud

Læs mere

4. september 2003. π B = Lungefunktions data fra tirsdags Gennemsnit l/min

4. september 2003. π B = Lungefunktions data fra tirsdags Gennemsnit l/min Epidemiologi og biostatistik Uge, torsdag 28. august 2003 Morten Frydenberg, Institut for Biostatistik. og hoste estimation sikkerhedsintervaller antagelr Normalfordelingen Prædiktion Statistisk test (udfra

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Korrelation Pearson korrelationen

Korrelation Pearson korrelationen -9- Eidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Korrelation Kliniske målinger - Kliniske målinger og variationskilder - Estimation af størrelsen

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Epidemiologi og Biostatistik Kliniske målinger (Kapitel. +.1 + 11.-11 + 1.1-) Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002 Epidemiologi og Biostatistik Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002 1 Statestik Det hedder det ikke! Statistik 2 Streptomycin til behandling af lunge-tuberkulose?

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt, Statistik noter Indhold Datatyper... 2 Middelværdi og standardafvigelse... 2 Normalfordelingen og en stikprøve... 2 prædiktionsinteval... 3 Beregne andel mellem 2 værdier, eller over og unden en værdi

Læs mere

9. Chi-i-anden test, case-control data, logistisk regression.

9. Chi-i-anden test, case-control data, logistisk regression. Biostatistik - Cand.Scient.San. 2. semester Karl Bang Christensen Biostatististisk afdeling, KU kach@biostat.ku.dk, 35327491 9. Chi-i-anden test, case-control data, logistisk regression. http://biostat.ku.dk/~kach/css2014/

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model Epidemiologi og biostatistik. Uge 5, torsdag. marts 1 Morten Frydenberg, Institut for Biostatistik. 1 Analyse af overlevelsesdata (ventetidsdata) Censurering (højre + andet) Kaplan-Meyer kurver Det statistiske

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere Epidemiologi og biostatistik. Uge 5, torsdag 5. september 003 Morten Frydenberg, Institut for Biostatistik. 1 Analyse af overlevelsesdata (ventetidsdata) Censurering (højre + andet) Kaplan-Meyer kurver

Læs mere

Morten Frydenberg 14. marts 2006

Morten Frydenberg 14. marts 2006 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik 1 RESUME: 2 2. gang: 2006 Institut for Biostatistik, Århus Universitet MPH 1. studieår Specialmodul 4 Cand. San. uddannelsen

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Morten Frydenberg Biostatistik version dato:

Morten Frydenberg Biostatistik version dato: Tye og Tye 2 fejl Statistisk styrke Biostatistik uge 2 mandag Morten Frydenberg, Afdeling for Biostatistik Styrkeovervejelser i lanlægning af et studie Logistisk regression Præterm fødsel, rygning, alder,

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Estimation Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev herefter

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Morten Frydenberg 26. april 2004

Morten Frydenberg 26. april 2004 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik RESUME: 2 2. gang: 2002 Institut for Biostatistik, Århus Universitet MPH. studieår Specialmodul 4 Cand. San. uddannelsen.

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Århus 6. februar 2014 Morten Frydenberg Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Til disse øvelser har I brug for fishoil1.dta, der indeholder data fra det fiskeolie forsøg vi så på ved

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl Reeksamen 2018 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 13-08-2018 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion . februar 00 Ikke parametrisk statistiske test : Ideen bag Epidemiologi og biostatistik. Uge, mandag. februar 00 Morten Frydenberg, Institut for Biostatistik. To grupper: Mann-Whitney / Wilcoxon testet

Læs mere

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: ekstrom@life.ku.dk Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Uafhængighedstestet Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærere: Esben Budtz-Jørgensen Jørgen Holm Petersen Øvelseslærere: Berivan+Kathrine, Amalie+Annabell Databehandling: SPSS

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Institut for Folkesundhed Afdeling for Biostatistik Afdeling for Epidemiologi. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Opgave 1 Udgangspunktet for de følgende spørgsmål er artiklen:

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ ) 3. februar 003 Epidemiologi og biostatistik. Uge, torag d. 3. februar 003 Morte Frydeberg, Istitut for Biostatistik. Type og type fejl Nogle specielle metoder: Test i RxC tabeller Test i x tabeller Fishers

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Institut for Epidemiologi og Socialmedicin Institut for Biostatistik. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Opgave 1 Læs afsnit.1 i An Introduction to Medical Statistics, specielt

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Morten Frydenberg Biostatistik version dato:

Morten Frydenberg Biostatistik version dato: Caerphilly studiet Design og Data Biostatistik uge 14 mandag Morten Frydenberg, Afdeling for Biostatistik Poisson regression En primær tidsakse og ikke stykkevise konstante rater Cox proportional hazard

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts Århus 27. februar 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts Epibasic er nu opdateret til version 2.02 (obs. der er ikke ændret ved arket C-risk) Start med

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Lineær og logistisk regression

Lineær og logistisk regression Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Dagens program Lineær regression

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Epidemiologiske associationsmål

Epidemiologiske associationsmål Epidemiologiske associationsmål Mads Kamper-Jørgensen, lektor, maka@sund.ku.dk Afdeling for Social Medicin, Institut for Folkesundhedsvidenskab It og sundhed l 16. april 2015 l Dias nummer 1 Sidste gang

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Statistik kommandoer i Stata opdateret 22/ Erik Parner

Statistik kommandoer i Stata opdateret 22/ Erik Parner Statistik kommandoer i Stata opdateret 22/4 2008 Erik Parner Indledning... 1 Simple beskrivelser... 1 Data manipulation... 1 Estimation af proportioner... 2 Estimation af rater... 2 Estimation af Relativ

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Mantel-Haenszel analyser Mantel-Haenszel analyser Sidst lærte vi om stratificerede analyser. I dag kigger vi på et specialtilfælde: både exposure

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 15. december 2008 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

En teoretisk årsagsmodel: Operationalisering: Vurdering af epidemiologiske undersøgelser. 1. Informationsproblemer Darts et eksempel på målefejl

En teoretisk årsagsmodel: Operationalisering: Vurdering af epidemiologiske undersøgelser. 1. Informationsproblemer Darts et eksempel på målefejl Vurdering af epidemiologiske undersøgelser Jørn Attermann. februar 00 I denne forelæsning vil vi se på fejl, som kan have betydning for fortolkningen af resultater fra epidemiologiske undersøgelser. Traditionelt

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 30. maj 2006 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik ... september 1 Epidemiologi og biostatistik. Uge, mandag. september Michael Væth, Institut for Biostatistik. Ikke parametrisk statistiske test : Analyse af overlevelsesdata (ventetidsdata) Censurering

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Postoperative komplikationer

Postoperative komplikationer Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.

Læs mere

Besvarelse af opgavesættet ved Reeksamen forår 2008

Besvarelse af opgavesættet ved Reeksamen forår 2008 Besvarelse af opgavesættet ved Reeksamen forår 2008 10. marts 2008 1. Angiv formål med undersøgelsen. Beskriv kort hvordan cases og kontroller er udvalgt. Vurder om kontrolgruppen i det aktuelle studie

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner

Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner Indledning... 1 Hukommelse... 1 Simple beskrivelser... 1 Data manipulation... 2 Estimation af proportioner... 2 Estimation af rater... 2 Estimation

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærer: Jørgen Holm Petersen Øvelseslærere: Amalie og Marie Databehandling: SPSS Eksamen: Ugeopgave efterfulgt af mundtlig

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 21 sider. Skriftlig prøve: 27. maj 2010 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren Faculty of Life Sciences Program Sammenligning af grupper Ensidet ANOVA Claus Ekstrøm E-mail: ekstrom@life.ku.dk Sammenligning af to grupper: tre eksempler Sammenligning af mere end to grupper: ensidet

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere