Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

Størrelse: px
Starte visningen fra side:

Download "Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik."

Transkript

1 Epidemiologi og biostatistik. Uge, tirsdag. Erik Parner, Institut for Biostatistik. Generelt om statistik Dataanalysen - Deskriptiv statistik - Statistisk inferens Sammenligning af to grupper med kontinuerte data - Gennemsnit og spredning - Parametre - Estimater - Sikkerhedsintervaller Deskriptiv statistik Eksempel: PEFR Sammenligning af to grupper med kontinuerte data Udgangspunkt: Vi ønsker at sammenligne lungefunktion for mænd og kvinder. Indsamling af data (stikprøve): PEFR-målinger for - tilfældigt udvalgte kvinder - tilfældigt udvalgte mænd Data: - Kvinder: 5, 383, 8,, 5, 58, 5, 75, 5, 75, 5, 7, 85, 8 - Mænd: 58, 5,,,, 55, 55,, 55,, 5, 57, 5, 57, 3, 575 Hvorfor er der brug for statistik? Data/observationer er underlagt tilfældig variation. Behov for at kvantificere hvor meget skyldes tilfældig og hvor meget skyldes systematisk variation. Behov for at resumere mange enkelte observationer i nogle få tal. Kvantificere at konklusioner baseret på meget data er mere præcise end konklusioner baseret på få data. 3 Formålet med den statistiske analyse er ofte at estimere en ukendt konstant (parameter), som fx.: Middel PEFR Middel PEFR for en 3 årig kvinde Forskel i (middel) PEFR mellem mænd og kvinder Den relative risiko for SIDS forbundet med maveleje Bemærk: disse parametre omhandler ikke kun vores stikprøve, men hele den population vi betragter. Det kan være en større opgave, at beslutte sig til hvilken størrelse man ønsker at estimere: Hvordan beskriver man sammenhængen mellem kost og kræft? Hvorfor stikprøver (samples)? hurtigere billigere umuligt at undersøge alle mere præcist (indsamling af data/ homogenitet) statistiske metoder kan bruges til at vurdere usikkerhed Dataanalysen kan opdeles i deskriptiv statistik statistisk inferens Dataanalyse: deskriptiv statistik Beskrivelse af data fra stikprøven: Data summary : - gennemsnit / median / percentiler - hyppigheder / relativ risiko / oddsratio - varians / spredning - korrelationer Tegninger/figurer: Vigtig! 5

2 Dataanalyse: statistisk inferens Fra stikprøve til population: Eksempel - deskriptiv statistik PEFR Model / Antagelser angående variationen i data. Estimation af relevante parametre i populationen (f.eks. middelværdi eller forskel mellem to grupper) ud fra stikprøven med tilhørende sikkerhedsintervaller. Opstilling af statistiske hypoteser, statistiske test Statistiske konklusioner Faglig konklusioner PEFR (l/min) Kvinder (n=) Mænd (n=) Figuren er god, men kan man beskrive disse data med få tal? 7 8 PEFR (l/min) PEFR Gennemsnittet for hver grupper er markeret med Kvinder: 85. l/min Mænd: 55.9 l/min PEFR (l/min) PEFR Kvinder: sd=. l/min Mænd: sd=55. l/min Jo mere data varierer jo større sd. På figuren er vist gennemsnit +/- sd. Kvinder (n=) Mænd (n=) Kvinder (n=) Mænd (n=) n Gennemsnit = x = x = ( x + x + + x )/ n i n i = (Summen af tallene divideret med antallet) Gennemsnittet beskriver midten / det generelle niveau / 9 den centrale tendens af data. n n sd = ( xi x) n i= Som et mål for variationen bruges ofte spredningen (standard afvigelsen / standard deviation / sd) PEFR (l/min) % 8% % PEFR Kvinder (n=).5% 95%.5% Hvad siger spredningen? Hvis data er fordelt rimeligt symmetrisk omkring gennemsnittet (normalfordelt), da vil intervallet gennemsnit ± sd dække ca. 8% af data, og gennemsnit ±.9*sd dække ca. 95% af (kommende) data. Vi vender tilbage disse intervaller (prædiktionsintervaller) næste gang. Parametre: vi har lavet et gæt på parametrene µ = middelværdi = gennemsnittet for hele populationen σ = spredning = sd udregnet for hele populationen Normalfordelingen er beskrevet ved de to parametre: middelværdi og spredning. Der kommer mere om normalfordelingen næste gang. Estimation: Kvinder: µ = gennemsnit = 85. l/min ˆK ˆ σ = sd =. l/min K Mænd : ˆ µ = gennemsnit = 55.9 l/min M ˆ σ = sd = 55. l/min M ^: Dette er et estimat, dvs. et gæt beregnet på basis af data.

3 Hvor godt passer de observerede gennemsnit med de sande værdier? Hvis vi havde taget andre mænd og målt deres PEFR ville vi ikke få et gennemsnit på 55.9 l/min For at beskrive usikkerheden på estimatet bruger man ofte et (sikkerheds-) interval omkring estimatet. Sikkerhedsintervallet er de parameter-værdier der er forenelige (i en eller anden forstand) med data. 3 Sikkerhedsinterval For et givet estimat (f.eks. gennemsnittet) kan man beregne en tilhørende usikkerhed / spredning (se). Hvis antallet af data, n, er stor da vil intervallet Estimat ±.9 se(estimat) være (approximativt) et 95% sikkerheds- / konfidensinterval for estimatet. Usikkerheden på gennemsnittet er: sd se( ˆ µ ) = sem = n sem: Standard error of the mean Fortolkningen af et 95% sikkerhedsinterval: Hvis vi udtager mange stikprøver og beregner et sikkerheds- eller konfidensinterval for hver stikprøve da vil den sande værdi ligge i 95% af disse intervaller. Sagt på en anden måde: Sikkerhedsintervallet indeholder den sande værdi med 95% sandsynlighed. Kvinder: Eksempel beregning af sikkerhedsinterval n =, ˆ µ = 85. l/min, ˆ σ =. l/min. se ( ˆ µ K ) = =. K CI( µ ): 85. ±.9. K d vs. (.; 5.) l/min CI: Confidence Interval K Mænd: se( ˆ µ ) = 3.7 l/min M CI( µ ) = ( 5.; 579.9) l/m in M 5 Den estimerede forskel mellem mænd og kvinder: ˆ µ ˆ M µ K = = 7. l/min Usikkerheden på forskellen i gennemsnittene: se( ˆ µ ˆ µ ) = se( ˆ µ ) + se( ˆ µ ) M K M K = = 8.5 l/min Sikkerhedsintervallet for forskellen bliver Statistisk test En anden måde at undersøge om der er forskel i PEFR mellem mænd og kvinder er vha et statistisk test. Mere om dette næste gang. Estimat ±.9 se(estimat) CI( µ µ ): 7. ± M K dvs. ( 3.; 3.7) l/min Der er altså statistisk signifikant forskel i PEFR mellem mænd og kvinder! 7 8

4 Eksempel - resultater PEFR niveau: Kvinder: ˆ µ = gennemsnit = 8 l/min K CI( µ ) = ( ; 5) l/min K Mænd : ˆ µ = gennemsnit = 553 l/min M CI( µ ) = ( 5; 58) l/min M Konklusion: Mænd har (statistisk signifikant) højere PEFR niveauet end kvinder! Forskellen i PEFR er mellem 3 og l/min. Vores bedste bud på forskellen er 7 l/min. Variation i PEFR: Kvinder: σ = sd = 7 l/min ˆK Mænd : ˆ σ = sd = 55 l/min M Bemærk: konklusionen vedrører hele populationen, og ikke kun den stikprøve vi har undersøgt. Forskel i PEFR niveau: Forskel = ˆ µ ˆ µ = 7 l/min M CI( µ µ ) = ( 3; ) l/min M K K 9 Sammenligning af to grupper med kontinuerte data generelt Statistisk model: Antag at variationen i hver gruppe er symmetrisk (data er normalfordelt) observationerne indenfor hver gruppe er uafhængige (ingen søskene indenfor grupperne) de to sæt af observationer er uafhængige (ingen søskene, ikke par af målinger i de to grupper) Estimation: ˆ µ i = gennemsnit (beskriver niveauet i gruppen) ˆ σ = sd (beskriver variationen i gruppen) i ( i =, svarende til gruppenummer) Sikkerhedsinterval for middelværdien: ˆ σ i se( ˆi µ ) = n CI ( µ ): ˆ µ ±. 9 se( ˆ µ ) i i i Sikkerhedsinterval på forskellen: se( ˆ µ ˆ µ ) = se( ˆ µ ) + se( ˆ µ ) CI ( µ µ ): ˆ µ ˆ µ ±. 9 se( ˆ µ ˆ µ ) Bemærk: Formlen for se gælder generelt for alle parametre forudsat de to grupper er uafhængige. i Et nyt, større studie Dataanalysen: deskriptiv statistik Et større studie for den samme population gav følgende resultat: Til sammenligning fik vi tidligere: Kvinder Mænd Forskel Kvinder Mænd Forskel n 3 58 n Gennemsnit Gennemsnit CI (59;89) (55;58) (7;) CI (;5) (5;58) (3;) Numeriske metoder til beskrivelse af kontinuerte data: Hvor ligger typiske data (det generelle niveau): Gennemsnit (aritmetrisk): data skal være rimelig symmetrisk fordelt Gennemsnit (geometrisk): logaritme-transformerede (f.eks koncentrationer) data skal være rimelig symmetrisk fordelt Sikkerhedsintervallerne bliver mindre jo større studiet er! Median (5 percentil): skæve fordelinger (Vi bliver klogere jo mere data vi samler ind...) 3

5 Numeriske metoder til beskrivelse af kontinuerte data: Hvor meget afviger de fra hinanden (variation)? Percentiler: 5 percentilen er der hvor der er 5% af data der er mindre (og 95% større) Spredning/varians: Variationskoefficient (f.eks koncentrationer) data skal være rimelig symmetrisk fordelt logaritme-transformerede data skal være rimelig symmetrisk fordelt 5 percentilen er lig. kvartile 5 percentilen er lig. kvartil der er lig medianen 95 percentilen er der hvor der er 95% af data der er mindre (og 5% større) Percentiler / kvartiler: Range/ max / min skæve fordelinger 5 og generelt X percentilen er der hvor der er X% af data der er mindre (og -X% større) Kvartiler: Præsentation af numeriske data: scatterplot. kvartil er lig det mindste tal. kvartil = 5 percentilen. kvartil = 5 percentilen = medianen 3. kvartil = 75 percentilen. kvartil er lig det største tal PEFR (l/min) PEFR Kvinder (n=) Mænd (n=) 7 8 Præsentation af numeriske data: boxplot Præsentation af numeriske data: histogram maximum* 3. kvartil median. kvartil minimum* Kvinder Kvinder Mænd * det varierer lidt hvordan man definerer den øvre én observation mellem 35- to observationer mellem og nedre grænse. Antal 3 5

6 Typer af data Histogrammet beskriver stikprøvens fordeling. Vi vil senere bruge histogrammet til at undersøge om data er normalfordelt. 3 Vi skal i dette kursus kigge på statistiske analyser af kontinuerte [ PEFR ] to kategorier (dichotom) [ Syg/rask ] flere kategorier [ Hvilket amt man bor ] ventetidsdata [ Tid til død eller tilbagefald af sygdom ] Den statistiske analyse afhænger af typen af data og hvordan data er indsamlet. Vi vil også kigge på statistiske analyser som kan besvare spørgsmål som: Kan forskellen i mænd og kvinder s PEFR værdi forklares ved at mænd er højre end kvinder? 3 Resumé Dataanalysen Sammenligning af to grupper med kontinuerte data: Gennemsnit og spredning Estimater Sikkerhedsintervaller Deskriptiv statistik 33

7 . februar 3 Epidemiologi og biostatistik Uge, torsdag. februar 3 Morten Frydenberg, Institut for Biostatistik. Bronkitis og hoste estimation sikkerhedsintervaller antagelser Normalfordelingen Prædiktion Statistisk test (udfra estimat og standard error) Sikkerhedsintervaller og statistiske tests Køn Kvinder Mænd Lungefunktions data fra tirsdags Gennemsnit l/min se l/min Udfra dette kunne vi beregne sikkerhedsintervaller for: Middelværdien for hvert køn Differensen mellem middel PEFR for mænd og kvinder 95% sikkerhedsinterval : CI: Estimat ±.9 se(estimat) Bronkitis og hoste Har bronkitis i den tidlige barndom betydning senere i livet? Observeret! Bronkitis som 5-årig Ja ( + B) Nej ( B) Hoster om natten som -årig Ja Nej 7 Lad os først se på de, der ikke har haft bronkitis. π B = Estimat: Sandsynlighed for at hoste om natten givet man ikke har haft bronkitis ˆ π B = =.7 Total 73 Ukendt! Bedste bud:.% af de, der ikke har haft bronkitis, hoster om natten. 3 Hoster om natten som -årig Bronkitis Ja Nej Total Ja 7 73 Nej Hvad er usikkerheden, se, på estimatet? se( ˆ π ) = ˆ π ( ˆ π ) n B B B B =.7(.7) =. ( π ) = ˆ π ±.9 se( ˆ π ) CI B B B =.7 ±.9. = (.99;.53) ˆ π =.7 B Risiko for hoste om natten 5 Risiko for hoste om natten Bronkitis Estimate se CI Bronkitis Estimate se CI Ja Nej ;.3.3;.5 Ja Nej ;.3.3;.5 Konklusion (På basis af disse data ): Risiko for at et barn, der ikke har haft bronkitis, hoster ligger et sted mellem 3.% og 5.% - bedste bud er.%. Risiko for at et barn, der har haft bronkitis hoster, ligger et sted mellem.% og 3.% - bedste bud er 9.5%. Noget tyder på større risiko for at hoste om natten, når man har haft bronkitis. Risikodifferens: RD = π + B π B RD = ˆ π ˆ π = = B B se( RD) = se ( ˆ π + B ) + se( ˆ π B ) = =. 88 CI( RD ) =.537 ± = (.;. 9)

8 . februar 3 Bronkitis Ja Nej Estimate.95.7 Risiko for hoste om natten se.777. CI.;.3.3;.5 7 Hvilke antagelser ligger bag beregningerne? Antagelse : Antagelse : Uafhængighed mellem grupper Data i hver gruppe er binomial-fordelt 8 Risiko Differens ;.9 Uafhængighed mellem grupper: Konklusion: Risikoen for hoste om natten er et sted mellem. og 9. procentpoint højere, hvis man har haft bronkitis som 5-årig. Bemærk se er mindst for Nej gruppen, da der er langt flere børn i denne gruppe. Usikkerheden på differensen er større end den største usikkerhed for de to grupper. Denne antagelse er nødvendig for at man kan bruge formlen: se RD = se ˆ π + se ˆ π ( ) ( + B ) ( B ) Er den rimelig i bronkitis eksemplet? Ja, data stammer for to forskellige grupper børn. Et muligt problem kunne være hvis der var to søskende i hver sin gruppe. Så vil der pga. arv/miljø være en sammenhæng mellem hvorvidt de to børn hoster. Data i hver af grupperne er binomial-fordelt: Denne antagelse er nødvendig for, at man kan bruge formlen: se( ˆ π ) = ˆ π ( ˆ π ) n Data er binomialfordelt hvis: Uafhængige delforsøg. Præcist to mulige udfald (hoster/ikke hoster, død/levende). 3 Sandsynligheden for succes, π, er den samme for alle delforsøg. Antal, n, delforsøg man betragter afhænger ikke af udfaldene. Opfyldt? Ingen søskende i samme gruppe. Klar definition af hoste. Grupperne kan betragtes som homogene. Der er ikke snydt under data indsamlingen. 9 Normalfordelingen En vigtig fordeling af to forskellige grunde: Mange slags data er normalfordelte næsten normalfordelte (muligvis efter en transformation). Mange estimater er normalfordelte, næsten normalfordelte, hvis de er baseret på mange observationer (muligvis efter en transformation). Ingenting er helt normalfordelt, men mange gange er det en rigtig god approksimation! Relative størrelser som Odds Ratio, Relative Risiko og Rate Ratio skal analyseres på log-skala (ln). 3 8 barnets vægt Fødselsvægt for 3 børn P 3.5kg < fødselsvægt <.kg ( ) Normalfordeling: en god approksimation 3 5 Fødselsvægt i kg

9 . februar Tæthedsfunktion: Sandsynlighed for en observation i et interval = areal under kurven. Areal under kurven=. Høj værdi for en given x-værdi Mange observationer tæt ved denne værdi. Lille værdi for en given x-værdi Få observationer tæt ved denne værdi Forskellige normalfordelinger: Middelværdi= Spredning= Middelværdi= Spredning= Middelværdi= Spredning= Standard normalfordelingen 5 µ = σ = Middelværdi Spredning 8.3% µ = σ = Middelværdi Spredning 95.5% 5.9% 5.9%.8%.8% µ σ µ µ + σ µ σ µ µ + σ Bland side 9 Bland side 9 µ = Middelværdi σ = Spredning µ.9 σ µ 95.%.5%.5% Bland side µ +.9 σ 7 Tabel over standardnormalfordelingen 8 Bland side 9 z P( Z < z) z P( Z < z) z P( Z < z) -3..% %. 8.% -.9.% %. 8.% -.8.3% -.8.%. 88.5% -.7.3% -.7.%.3 9.3% -..5% -. 7.%. 9.9% -.5.% % % -..8% %. 9.5% -.3.% % % -..% -..%.8 9.% -..8% -..%.9 97.% -..3%. 5.%. 97.7% -.9.9%. 5.%. 98.% %. 57.9%. 98.% -.7.5%.3.8% % %. 5.5%. 99.% -.5.7%.5 9.%.5 99.% -. 8.%. 7.%. 99.5% % % % -..5% % % -. 3.%.9 8.% % %. 8.% % 3

10 . februar 3 9 Sandsynlighed for mere end.9 spredninger fra middelværdi: i en normalfordeling! 5% ud af observationer: Mere end.9sd fra middelværdi standard deviation (spredning) 95% af observationerne fra en normalfordeling : middelværdi.9 sd observation middelværd i+.9 sd Dvs. der er 95% chance for: observation -middelværdi.9.9 sd Middelværdi ukendt, men sd kendt 95% sikkerhedsinterval for middelværdien: observation.9 sd middelværdi observatio n+.9 sd Baseret på én observation! Baseres det på basis af n observationer fås: gennemsnit.9 sem middelværdi gennemsn it+.9 sem 95% prædiktionsinterval for en observation sd sem = Standard error of the mean n Tilbage til fødselsvægtene: 3 Godt beskrevet ved en normalfordeling! Statistisk test Risikodifferensen for hoste blandt børn, der har/ikke har haft bronkitis n = 3 x = 3558g sd = g Et 95% prædiktionsinterval for fødselsvægten: 3558g ±.9 g = ( 83; 3) g Konklusion: 95% af børn fra en tilsvarende population vil have en fødselsvægt mellem.7 og. kg. Risikodifferensen, RD, er ukendt! Men vi har et estimat : RD =.537 se RD =.88 ( ) Spørgsmål: Er disse data forenelige med at RD=.? Dvs. ingen sammenhæng med bronkitis. Der gælder at estimatet, RD, er (næsten) normalfordelt Med spredning=se=.88 middelværdi RD Under hypotesen er RD = Normalfordeling med: middelværdi spredning=se=.88 Vi har observeret.53!.3%!! Vi har godt nok været uheldige!.53 Det tror jeg ikke vi har! =.39 Så må hypotesen være forkert! Hypotesen! Det afviger (noget) fra det forventede! Hvor stor er sandsynligheden for at observere en lige så stor eller større afvigelse? Vi forkaster hypotesen : Risikodifferensen er.5%.3% Hvad var nu det? Vi sammenlignede vores estimat (.53) med hypotesen. Som målestok brugte vi usikkerheden på estimatet: se=.88 Estimat Hypotese RD RD = =.83 se RD.88 ( ).53 Usikkerheden på estimatet Dvs. estimatet ligger.83 se er fra det forventede! Hvor ofte vil dette ske? Svar : Tabelopslag giver.% =.3% Fra forrige side

11 . februar 3 Estimat: RD =.537 Hypotese: RD= Teststørelse: z =.83 P-værdi:.% Konklusion: Hvis hypotesen er sand, så er der kun.% chance for at få et estimat, der ligger så lige så langt eller længere væk fra hypotesen end det vi har observeret. Det er med andre ord næsten usandsynligt at observere det vi har set hvis hypotesen er sand. Men vi har jo observeret det vi har observeret ergo må hypotesen være falsk. Husk CI: (.;.9) ligger ikke i intervallet! Overensstemmelse mellem test og sikkerhedsinterval! 5 Estimat: RD =.537 Hypotese: RD=.5 Teststørelse: z =.7 P-værdi: 8% = 3% Konklusion: z = (.53.5).88 =.7 Hvis hypotesen var sand, så er der 8% chance for at få estimatet, der ligger så lige så langt eller længere væk fra hypotesen end det vi har observeret. Data strider således ikke mod hypotesen. Hypotesen kan akcepteres. På basis af disse data kan vi ikke afvise at risikoen for hoste er 5% højere for børn, der har haft bronkitis! Husk CI: (.;.9).5 ligger i intervallet! Overensstemmelse mellem test og sikkerhedsinterval! Generelt 7 Generelt 8 Lad θ betegne den ukendte størrelse man ønsker at kende. Hvis man er interesseret i differensen mellem to parametre: Den relevante statistiske analyse bør bestå af beregning af to tal : ˆ θ og se ˆ θ : se( ˆ θ ): ( ˆ θ ) Et estimat af (gæt på) θ Et estimat af (gæt på) usikkerheden af estimatet Et approksimativt 95% sikkerhedsinterval : ˆ θ ±.9 se( ˆ θ ) δ = θ θ så er estimatet: ˆ δ = ˆ θ ˆ θ Hvis to estimater ˆ θ og ˆ θ er uafhængige så er: ( ˆ δ ) = ( ˆ θ ) + e( θ ) se se s ˆ Formlerne for estimatet og se afhænger af den statistiske model og kan være meget komplicerede. I langt de fleste tilfælde bruges computer programmer. HUSK! Relative størrelser som Odds Ratio, Relative Risiko og Rate Ratio skal analyseres på log-skala (LN). Hoster om natten 9 Generelt: Et statistisk test 3 Bronkitis Ja Nej Total Ja 7 73 Data/estimat: ˆ θ med se( ˆ θ ) Nej Hypotese: θ = θ ˆ θ θ Associationsmål relativ risiko Beregn: z = ( B RR π + = ˆ B.95 RR π se ˆ θ ) + = = =.385 π p-værdi = P B ˆ π B.7 ( Z < z ) i standard normalfordeling ln ( RR ) = ln (.385) =.877 Approksimativ Konklusion: Hvis p-værdien er lille er data ikke forenelig med hypotesen og hypotesen må forkastes. se( ln ( RR )) = + = Oftes sættes grænsen til 5% 95% CI(ln ( RR )):.877 ± = (.3589;.83) Bemærk: Man kan bruge en anden se, når man tester, end 95% CI( RR ): ( exp (.3589) ;exp(.83) ) = (.; 3. ) den man bruger til beregning af CI (se Bland afsnit 8.). Formlerne kan findes på de sidste sider. Dette vil vi ikke gøre i dette kursus. 5

12 . februar 3 Få data dårlige approksimationer 3 Sikkerhedsintervaller og test. 3 Eksempel, Streptomycin, Bland Table personer deraf har 3 fået det bedre Data kan antages at være binomial-fordelt. 3 ˆ π = =.87, se( πˆ ) =. 87 (.87) 5 = Approks. 95% CI:.87 ± = (.95,.39) Dårlig approksimation! Ups! Eksakt/korrekt 95% CI (findes vha. af tabel eller computer) (.59,.983) Morale: Hvis der er få eller mange hændelser, så er approksimationerne ikke gode! Men: For nogle modeller findes der eksakte metoder. 95%-sikkerhedsintervallet indeholder hypotesen hvis og kun hvis p-værdien er større end 5%. Ved sammenligning af to parametre baseret på to uafhængige data sæt, tre situationer: A: Intet overlap: B: Et estimat i det andet CI: Hverken A eller B: så p-værdi < 5% så p-værdi >5% så: p-værdi =? Bronkitis Ja Nej Risiko for hoste om natten Estimate se CI ; ;.5 33 Associationsmål i tabeller: Risiko differenser Status Population Sandsynlighed a b n π 3 Risiko Differens ;.9 c d n π Sammenligning af de to grupper: ikke med i CI p=.% < 5%.5 med i CI p= 8% > 5% De to sikkerhedsintervaller overlapper ikke p=.% < 5% Risiko Differens: ˆ π a c = ˆ se( ˆi ) ˆi ( ˆi ) / ni n π = n π = π π RD = π π a c = = n n RD ˆ π ˆ π a b c d se( RD) = se( ˆ π) + se( ˆ π ) = n n Bland p 3 Eksempel: Bland side 3 Hoster som årig Bronkitis som 5 årig Ja Nej Total Obs. Risk Ja Nej.7 35 Associationsmål i tabeller: Relativ risiko Status Population Sandsynlighed a b n π c d n π 3 RD =.95.7 =.537 se( ˆ π ) =.95 (.95 ) / 73 =.777 se( ˆ π ) =.7 (.7 ) / =. se RD = =.88 ( ) 7 = + = % CI( RD ):.537 ±.9.88 = (.8;.9) Relativ Risiko: RR = π π ˆ π a n RR = = ˆ π n c se( ln ( RR) ) = + a n c n Bland p 3

13 . februar 3 Eksempel: Bland side 3 Hoster som årig Bronkitis som 5 årig Ja Nej Total Obs. Risk Ja Nej.7 RR =.95.7 =.385 ln ( RR) = ln (.385) =.877 se( ln ( RR )) = + = % CI(ln ( RR )):.877 ± = (.3589;.83 ) 95% CI( RR ): ( exp (.3589 );exp(.83) ) = (.;3.) 37 Associationsmål i tabeller: Odds ratio Status Population Odds Ratio: π π π ( π ) OR = = π π ( π ) π ˆ π ˆ π a d OR = = ˆ π ˆ π b c se( ln ( OR) ) = a b c d Sandsynlighed a b n π c d n π Bland p 38 Eksempel: Bland side - 39 Sikkerhedsinterval for en enkelt rate Hoster som årig Bronkitis som 5 årig Ja Nej Total Odds Ja Events Risikotid Rate Y T IR Nej.39 OR = = ln OR = ln.3978 =.879 ( ) ( ) se( ln ( OR )) = = IR = Y T se ( ln ( IR) ) = Y 95% CI(ln ( OR )):.879 ± = (.398;.3787) 95% CI( OR ): ( exp (.398 );exp(.3787) ) = (.5;3.97 ) Eksempel: Analytisk epidemiologi side 8 Sammenligning af to rater: Rate ratio Emigrations Antal nye Risikotid Rate alder tilfælde (år) (antal per år) <5 år Population Events Risikotid Rate Y T IR IR = =.7533 / 53999år år ln ( IR ) = ln (.7533) =.833 se( ln ( IR )) = =.5 95% CI(ln ( IR )): ±.9.5 = (.33;.97) 95% CI( IR): ( exp(.33 );exp(.97) ) = (.8;. ) / år Y T IR Incidence Rate Ratio IR IRR = IR IR Y T IRR = = IR T Y se( ln ( IRR) ) = Y + Y 7

14 . februar 3 Eksempel: Analytisk epidemiologi side 8 3 Sammenligning af to rater: Rate differens Emigrations Antal nye Risikotid Rate alder tilfælde (år) (antal per år) <5 år Population Events Risikotid Rate Y T IR 5-9 år Y T IR IRR = = = ln IRR = ln.755 =.58 ( ) ( ) se( ln ( IRR )) = + = Incidens Rate Differens IRD = IR IR Y Y IRD = IR IR = T T 95% CI(ln ( IRR ) ):.58 ± = (.597;.593) 95% CI( IRR ): ( exp (.597 );exp(.593) ) = (.5;3.) Y Y se( IRD) = + T T Eksempel: Analytisk epidemiologi side 8 5 Emigrations Antal nye Risikotid Rate alder tilfælde (år) (antal per år) <5 år år år år IRD = ( ) / =.79/ 8 se( IRD ) = år 79år 8 = + / =.785 / år år 95% CI( IRD ):.79± = (.8;.3 ) / år 8

15 3. februar 3 Epidemiologi og biostatistik. Uge, torsdag d. 3. februar 3 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle specielle metoder: Test i RxC tabeller Test i x tabeller Fishers eksakte test Normalfordelte data : t-test eksakte sikkerhedsintervaller Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ ) for den ukendte størrelse, θ,som man er interesseret i. Et approksimativt 95% sikkerhedsinterval : ( θ ) ˆ θ ±.9 se ˆ En specifik hypotese om at = kan testes ved ˆ θ θ ˆ θ θ z = eller z = se( ˆ θ ) se ( ˆ θ ) Store værdier af z (eller z ) er kritiske! p-værdi via standard normalfordeling eller () -fordeling Approksimation Den vender vi tilbage til! Nogle statistiske begreber Type fejl: At forkaste hypotesen, selvom den er sand. Type fejl: At acceptere hypotesen, selvom den er falsk. Signifikansniveau: Den grænse man sætter for den største p-værdi, der leder til, at man forkaster hypotesen. Som regel sættes signifikansniveauet til 5%. Hvis hypotesen er sand: Sandsynligheden for type fejl =sandsynligheden for forkaste hypotesen =signifikansniveauet M.a.o. sandsynligheden for type fejl er kendt og lig signifikansniveauet (=5%). 3 Type fejl: At acceptere hypotesen, selvom den er falsk. Hvad er sandsynligheden for type fejl? Afhænger af: Hvad der så er sandt! Informationsmængden! Sandheden langt fra hypotesen Sandheden tæt på hypotesen Meget information/data Lidt information/data Statistisk styrke ikke forkaste lille ss. for type fejl stor ss. for type fejl lille ss. for type fejl stor ss. for type fejl = - sandsynlighed for type fejl = sandsynlighed for at forkaste den falske hypotese Planlægning af et follow-up studie: Antagelser: Styrkeovervejelser i forbindelse med planlægning af et studie. KIP blandt ikke eksponerede = %. 5 Øges deltagerantallet til *3 bliver chancen for type fejl reduceret til %, dvs. styrken er 89%. Styrken som funktion af gruppestørrelsen : χ!!"# $# Sand relativ risiko =.. 5 eksponerede og 5 ikke eksponerede. Når data er indsamlet vil man teste hypotese RR=. Sandsynligheden for at få data, der leder til accept af dette (Type fejl) = 39%, dvs. en styrke på %. M.a.o. lille chance for at få bekræftet, at der en sammenhæng. Ikke besværet værd!

16 3. februar 3 Afhænger af designet. Statistisk styrke Nogle kommentarer Afhænger af statistisk metode. Relevant i planlægningsfasen. Når data er indsamlet er bredden af sikkerhedsintervaller udtryk for informationsmængden. 7 Test i RxC tabeller Bland table 3.. Boligform og for tidlig fødsel : Housing tenure Preterm Term Total Owner-occupier Council tenant Private tenant 75 Lives with parents 7 Other Total Hypotese: Ingen sammenhæng. Hvis denne er sand bliver det forventede antal preterm fødsler blandt de, der bor i egen bolig: = Test i RxC tabeller 9 Forventet under hvis hypotesen er sand: Vi har fået X =.5 Housing tenure Preterm Term Total Owner-occupier Council tenant Private tenant Lives with parents Other Total Et mål for forskel mellem observeret og forventet: X = alle celler ( observeret forventet) forventet Er stor ved dårlig overensstemmelse! X = Hvor ofte vil man få noget større? Slå op i en -fordeling! Med (5-)(-)= frihedsgrader. % < p < 5% Computer giver p=3% 5% Hypotesen forkastes! 3% % Bland side Test for ingen association i R C tabeller Generelt Hypotese: Ingen sammenhæng melllem de to inddelingskriterier X rækkesum søjlesum forventet = total = alle celler En stor værdi af X er kritisk. ( observeret forventet) forventet p-værdi findes i en - fordeling med (R-)(C-) frihedsgrader. Test for ingen association i tabeller Svangerskabs- Køn længde Dreng Pige Total Total Hypotese: Ingen sammenhæng mellem køn og svangerskabslængde Teststørrelsen kan let beregnes i hånden som: ( ) X = =. <

17 3. februar % Vi har fået X =. Hvor ofte vil man få noget større? Slå op i en -fordeling med frihedsgrad! p >% % Computer giver p=% 5% 8 3 Hypotesen kan ikke afvises! tabeller Status Population a b n c d n s s N Hypotese: Ingen association Test: ( ) a d b c N X = n n s s Slåes op i en -fordeling med frihedsgrad tabeller : Fishers eksakte test Amning og tandstilling: Hypotese: Ingen sammenhæng Problemer med tandstilling Amning Nej Ja Sum Bryst Flaske Sum 5 37 For få data til at approksimationer kan bruges! Løsning: Fishers eksakte test (computer). Resultat (kun) en p-værdi! Her: p-værdi=9% Konklusion: Data strider ikke mod : Ingen sammenhæng 5 Kommentarer til test for ingen association i tabeller Hvis der er 5 eller mindre i en af cellerne, så bør man bruge Fisher s eksakte test. Nogle anvender et kontinuitets (eller Yates ) korrigeret version af X - testet: ( ) a d b c N N X C = n n s s Det giver lidt større p-værdier. Der er mange argumenter for og imod dette valg. Brug jeres tid på noget mere fornuftigt!!! Lungefunktions data fra i tirsdag i uge : Køn Kvinder Mænd Eksakt analyse af normalfordelte data n Gennemsnit l/min Under antagelse af normalfordeling : sd l/min. 55. sem l/min Approksimativt CI( µ ) : 85. ±.9.5 = ( ; 5 K ) Eksakt 95% CI for µ K : 85. ±..5 = ( 59; 53) Fra t-fordelingen!! Hvor kommer de. fra? Stort set det samme 7 Tabel over tosidige halesandsynligheder i t-fordelingen Bland side 58 df % 5% %.% df % 5% %.% Uendelig %=(-5)% n = =3 frihedsgrader (degrees of freedom) t=. Uendelig mange frihedsgrader = Standard normalfordeling 8 3

18 3. februar 3 Eksakt analyse af normalfordelte data Sikkerhedsinterval 9 Eksakt analyse af normalfordelte data One sample t-test Model/antagelse: Data er n uafhængige observationer fra en normalfordeling med ukendt middelværdi, µ, og spredning, σ Estimaterne for disse er : n n ˆ µ = x = x ˆ sd ( ) i σ = = i n n x x i= i= Hypotese : µ = µ Test : x µ z = sem p-værdi: Slå op i en t-fordeling med n- frihedsgrader PEFR-eksemplet : (ikke i en standard normalfordeling) sem = se( ˆ µ ) = se( x ) = ˆ σ n = sd Et eksakt CI for µ x ± sem tn t n- findes i en tabel over t-fordelingen n Hypotese: Middel PEFR hos kvinder er 5 l/min z = =. Eksakt p-værdi >%.5 (computer p=.8%) Konklusion: Data strider ikke mod hypotesen. Eksakt analyse af to sæt (uafhængige) normalfordelte data Køn Kvinder Mænd Estimat for spredningen blandt mænd Et fælles estimat for spredningen : sd F n = Gennemsnit ( n ) sd + ( n ) sd n + n K K K M K ( ). + ( ) 55. = + = 5.3l/min M sd. 55. Estimat for spredningen blandt kvinder se Estimat for fælles spredning: Nyt bud på sem erne: Køn Kvinder Mænd n sem sem Gennemsnit se ( ˆ µ ˆ µ ) = sem + sem = = 8.8l/min F M K M K sdf = 5.3 = sd n = 5.3 = 3.7l/min K F K = sd n = 5.3 =.8l/min M F M sem % eksakt CI for forskel i middel PEFR, µ µ : ( ˆ µ M ˆ µ K ) ± t se( ˆ µ M ˆ µ K ) = ( ) ± = ( 9; ) l/min sd. 55. sem(fælles) Fra t-fordeling med n M +n K =8 frihedsgrader Analyse af to sæt (uafhængige) normalfordelte data 3 Two sample t-test Hypotese: µ µ δ ( ˆ µ M ˆ µ K ) δ z = se ( ˆ µ ˆ µ ) F M p-værdi: Slå op i en t-fordeling med n M +n K frihedsgrader (ikke i en standard normalfordeling) PEFR-eksemplet : Hypotese: Forskel i middel PEFR er l/min. ( ) 7.3 z = = = 3.59 Eksakt p-værdi=.% Konklusion: Data strider mod hypotesen. K Kommentarer Hvis antagelsen om normalfordeling er rimelige : Fordelingen kan beskrives ved blot to tal : Middelværdi og spredning! Eksakte CI og p-værdier - ingen approksimationer! Også mulighed for at sammenligne spredninger (dækkes ikke på dette kursus) Mere komplicerede modeller og analyse metoder : Variansanalyse (ANOVA) Lineær regressionsmodeller Ikke-lineær regressionsmodeller Faktoranalyse +meget mere

19 3. februar 3 Flere kommentarer Metoderne til analyse af en stikprøve fra en normalfordeling bruges ofte hvis man har parrede data: To målinger per patient, før/efter behandling. Beregn efter-før=obs. Behandlingseffekt. Hvis disse kan antages at være normalfordelte, så analyse som en stikprøve fra en normalfordeling. Dette kaldes Parret t-test. Hvordan checker man antagelsen om normalfordeling? Plot data - histogrammer, normal plots (Q-Q plots). Hvad siger erfaringen om tilsvarende data? 5 En sidste kommentar til analyse vha. af t-fordelingen Det er kun hvis man har små stikprøver at denne metode giver noget væsentligt andet end den sædvanlige/approksimative metode. Metoden er meget udbredt, men vi vil kun undtagelsesvis bruge den i dette kursus! Komponenter i middelværdi og variation Altid mindst to komponenter i middelværdi og variation: Disse skyldes egenskaber ved populationen målemetoden Middelværdi = Middelværdi i populationen + Systematisk målefejl Variation = Variation i populationen + Tilfældig målefejl 7 5

20 Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser bruges til Beskrive sammenhængen mellem to variable. Eks: Kvantificere sammenhængen mellem blodtryk og alder. Prædiktere værdien af en variabel hvis værdien af én eller flere andre variable er kendt (referencemodel). Eks: Forudsige blodtrykket for en 5 årig person. Korrektion for potentielle confoundere. Eks: Hvad er alderseffekten på blodtrykket korrigeret for BMI? Den lineære regressionsanalyse kan anvendes når responsen er kontinuert. Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Data: Systolisk blodtryk-målinger and andre baggrundsvariable for 8 personer. i yi xi Syst. Obs. no. blodtryk Alder Frekvens Systolisk blodtryk (mmhg) Prædiktionsinterval y = 9.9, sd Total = 5.5 ( n = 8) Hvis vi antager blodtryk er normalfordelt fås PI: 9.9 ± =(99.;.) mmhg Fortolkning: Personernes systoliske blodtryk er mellem 99. og. mmhg. Bemærk: Vores bedste bud på en persons systoliske blodtryk er altså intervallet (99.;.) mmhg. Der er dog relativt stor variation i det systoliske blodtryk! Vil vores bud på personens systoliske blodtryk afhænge af persones alder? Systolisk blodtryk (mmhg) Alder Ja, yngre personer har et lavere blodtryk end ældre personer! Vi kan lave et mere præcist prædiktionsinterval, hvis vi bruger oplysningen om personens alder. 5 Systolisk blodtryk (mmhg) Én løsning er, at inddele i aldersgrupper og beregne prædiktionsintervaller indenfor hver aldersgrupper. En anden løsning er en regressionsanalyse, hvor personens præcise alder inddrages Alder En regressionsmodel er en model for sammenhængen mellem blodtryk og alder. Der ser ud til at være en lineær sammenhæng mellem blodtryk og alder.

21 y = α + β x + E i i i Formlen for en ret linie! Simpel lineær regression En simpel lineær afhængighed mellem y i og x i : Beskriver afvigelsen fra linien. Variablen E i beskriver den tilfældige/uforklarede variation omkring linien, og antages at have middelværdi og spredning σ Res (Res=Residual). En simpel lineær regressionsmodel har tre parametre: α = afskæringen med y-aksen (intercept) β = hældningen (regressionskoefficient) σ Res = et mål for variationen omkring linien. 7 Terminologi: y = responsvariabel = afhængige variabel = Systolisk blodtryk x = uafhængig variabel=forklarende variabel = Alder Fortolkning af parametrene: β er forskellen i middel systolisk blodtryk mellem to personer med en aldersforskel på år. (Fortolkningen er ikke den forventede stigning i det systoliske blodtryk når man bliver et år ældre!) α har i denne situation ingen fornuftig fortolkning. (Middel blodtrykket for en år gammel person?) σ Res et mål for variationen omkring linien. 8 Estimation af α, β og σ Res : Systolisk blodtryk (mmhg) Alder r = y ( ˆ α ˆ β x ) i i i Residual = afvigelsen af observationen fra linien. Regressionslinien bestemmes ved mindste kvadrates metode, der minimerer (kvadratet på) afstandene fra observationerne til linien. σ Res estimeres ved standard deviationen af residualerne. 9 Estimation af α, β og σ og se er m.v. er kompliceret, men kan laves af de fleste statistikprogrampakker. Resultat: Intercept Estimat.3 se. CI (3.3;8.) Regression.5.3 (.;.) sd Res. Regressionsanalysen beskriver sammenhængen mellem (systolisk) Blodtryk og Alder som middel Blodtryk =.3+.5 Alder (mmhg) (mmhg/år) (mmhg) Eksempel : Middelblodtrykket for 5 årige personer er = 35. mmhg. CI kan vi ikke udregne på basis af ovenstående tal! Eksempel : Forskellen i middelblodtryk for årige personer og 5 årige personer er Forskel = ( ˆ α + ˆ β 5) - ( ˆ α + ˆ β ) = ˆ β ( 5 ) =. 5 =. 9 mmhg se( ˆ β) = se( ˆ β) =. =. mmhg CI(Forskel) :.9 ±.9. = ( 9.9;.) mmhg Middelforskellen mellem to personer med en aldersforskel på år er mellem 9.9 og. mmhg. Eksempel 3: Hvad er vores bedste bud på en 5 årig persons systoliske blodtryk? Prædiktionsinterval= regressionslinie ±.9 sd Res Systolisk blodtryk (mmhg) Generelt: Forskellen i middelblodtryk mellem personer med en aldersforskel på år er Fo rskel = ˆ β, se( ˆ β) = s e( ˆ β ) Alder PI( x) = ( ˆ α + ˆ β x) ±.9 sd Res

22 Prædiktionsinterval for de 5 årige personer bliver således Middelblodtryk: ˆ α + ˆ β 5 = 35. mmhg sd Res =. mmhg PI(5 årige): 35. ±.9. = (.; 59.8) mmhg Det generelle prædiktionsinterval (uden hensyntagen til alder) var PI: (99.;.) mmhg. Systolisk blodtryk (mmhg) PI PI(5 årig) 3 Andel forklaret variation Prædiktionsintervallet fra regressionsanalysen er smallere end det generelle prædiktionsinterval (sd Res er mindre end sd Total ). Vi har forklaret noget af variationen i Blodtryk ved variationen i Alder. Men hvor meget? Den relative reduktion i variationen er ( ) R = =.3 = 3% Vi har således forklaret 3% af variationen i blodtryk ved variationen i alderen. R = andel forklaret variation af den totale variation (coefficient of determination). Antagelser bag den simple lineære regressionsanalyse Den statistiske model bygger på følgende antagelser: Uafhængige par af observationer (x,y ),...,(x n,y n ). Lineær sammenhæng mellem x i og y i : y i = α + β x i + E i Variationen omkring linien, E i, er normalfordel med middelværdi og spredning σ Res. Systolisk blodtryk (mmhg) Modelkontrol: lineær sammenhæng Variationen omkring linien afhænger ikke af den forklarende variabel x i Alder Det ser ud til, at den lineære sammenhæng er en rimelig beskrivelse! Modelkontrol: konstant variation Modelkontrol: normalfordeling Residualer Alder Frekvens Residualer Residualerne kan antages at være normalfordelt! Residualerne viser symmetri omkring og konstant variation uafhængig af Alder. 7 Antagelserne bag den lineære regressionsanalyse synes at være opfyldt! 8

23 Eksempel på en ikke-lineær sammenhæng Nyrefunktion 8 Glumerular filtrationsrate (GFR) 5 5 Residualer (Creatinin) Cr 8 9 Residualer efter lineær regression: - mangel på symmetri / systematisk afvigelser fra. - ikke konstant variation. Cr Ln-transformation af nyrefunktion: Hypoteser omkring β ln(gfr) 5 3 Foregår som sædvanlig! Hvis vi f.eks. ønsker at teste Hypotese: β = (ingen sammenhæng mellem Blodtryk og Alder) ˆ β. z = = = 5., p<. s( e ˆ β ) ln(cr) Her er antagelserne bag regressionsanlysen opfyldt. Multipel lineær regression Effektmodifikator? Effekten af alder er beskrevet ved hældningen (fra tidligere) ˆ β =.5 mmhg/år ( CI:.. ) Alder Blodtryk Hældningen beskriver middelforskellen i systolisk blodtryk mellem to personer med en aldersforskel på år. BMI Blodtrykket afhænger også af BMI. Afhænger alderseffekten af personens BMI? Mao. er BMI en effektmodifikator for alderseffekten? Confounder? Hvis BMI ikke er en effektmodifikator for alderseffekten: Er BMI en confounder for alderseffekten? Alder Blodtryk BMI 3

24 Data: Samme data fra før, nu suppleret med BMI oplysninger. En regressionsanalyse for hver BMI gruppe: Obs. no. 3 8 Syst. blodtryk BMI er inddelt i 3 grupper: Alder BMI gruppe = hvis BMI 5 = hvis 5 < BMI 3 = 3 hvis 3 < BMI BMI BMI gruppe 3 5 Systolisk blodtryk (mmhg) BMI<5 5<BMI<3 3<BMI Alder Er effekten af alderen den samme i de 3 BMI grupper? Strata Er BMI en effektmodifikator? BMI <5 5-3 <3 Estimaterne er noget usikre! Hældning.5..8 CI (-.;.) (.;.) (-.;.8) En multipel regressionsanalyse med samme alderseffekt (hældning) i de 3 BMI-grupper: Hypotese: Samme alderseffekt i de 3 BMI grupper (BMI er ikke en effektmodifikator) BMI<5 Hypotesen testes vha. en multipel regressionsanalyse, p=.. 5<BMI<3 3<BMI Vi accepterer dermed hypotesen om den samme alderseffekt i de 3 BMI-grupper. Alder Vi kan antage, at BMI er ikke en effektmodifikator. Modelkontrol: Som i den simple lineære regressionsanslyse, 7 dog her noget mere kompliceret. 8 Systolisk blodtryk (mmhg) Resultat: Estimat se CI p Intercept (5.;93.3). Alder.. (.7;.). BMI 5 5<BMI (-.;5.7).95 BMI>3.7. (8.7;.). sd Res. Hvordan skal vi fortolke dette resultat? middel Blodtryk = Alder -. BMI +.7 BMI Eksempel : beregning af det forventede blodtryk Betragt en person med følgende data: BMI 5-3 = Alder=5 år, BMI=7 kg/m BMI 3+ = Middelblodtrykket udregnes til Middelblodtryk = Alder -. BMI +.7 BMI = = 3. mmhg Et prædiktionsinterval kan udregnes som tidligere PI(5 årige, 5<BMI 3): 3. ±.9. = ( 9.; 5. ) mmhg 3

25 Betragt to personer: Eksempel 5: effekten af Alder Person : Alder = år, BMI =3 kg/m Persen : Alder =5 år, BMI =3 kg/m Forskellen i middelblodtrykket er Middelblodtryk Middelblodtryk = ( ) =. ( Alder Alder) =. =.8 mmhg Alder BMI BMI Alder- BMI BMI BMI 5-3 = BMI 3+ = ( ) Eksempel : effekten af BMI Betragt to personer: Person : Alder = år, BMI = kg/m Persen : Alder = år, BMI =7 kg/m Forskellen i middelblodtrykket er Middelblodtryk Middelblodtryk ˆ 5-3 = β5-3 BMI =. CI(Forskel): (-.; 5.7) CI(Forskel): (.7;. 5) = ( 7.;5. ) mmhg 3 3 Betragt to nye personer: Er BMI en confounder for alderseffekten? Person : Alder = år, BMI =7 kg/m Fra den simple lineære regressionsanalyse fik vi Persen : Alder = år, BMI =3 kg/m ˆCrude β =.5 CI( β Crude ): (.,. 99) mmhg/år Forskellen i middel blodtrykket er Middel blodtryk Middel blodtryk Fra den multiple lineære regressionsanalyse hvor også BMI-gruppe indgik i modellen fik vi = ˆ β ˆ 3+ β5-3 =.7 (.) ˆAdjusted β =.8 CI( β Adjusted ): (.7,. 5) mmhg/år = 7. Hvis βcrude βadjusted så er BMI en confounder. CI(Forskel) kan vi ikke udregne fra på basis af denne analyse. Sikkerhedsintervallet kan findes ved at lave en ny Det tyder således på, at BMI er en confounder for regressionsanalyse med BMI gruppe nr. som alderseffekten. referencegruppe. 33 3

26 7-3-3 Epidemiologi og biostatistik. Uge, torsdag Erik Parner, Institut for Biostatistik. Logistisk regressionsanalyse - Generelt om logistisk regressionsanalyse - Eksempel Kliniske målinger - Kliniske målinger og variationskilder - Estimation af størrelsen af de tilfældige variationskilder (eksempel ) - Sammenligning af to målemetoder/målinger: - kontinuerte målinger (eksempel 3) - kategoriske målinger (eksempel ) Logistisk regressionsanalyse Responsen (y) er en dichotom variabel, f.eks. - operation for diskusprolaps: sucess/ikke-sucess. - i live efter mdr: ja/nej. - fødselsvægt < 5 gram: ja/nej. Den logistiske regressionsmodel beskriver hvordan sandsynligheden for hændelsen (p) afhænger af forklarende variable x,,x m via logaritmen til odds for hændelsen (o) p logit( p) = ln( ) = ln( o) p ved ln( o) = α + β x βm xm (Bland Kapitel 7.8) Korrelation Lineær- versus logistisk regressionsanalyse Eksempel (Bland side 3-33) Lineær regressionsanalyse: Prædiktion af sandsynligheden for kejsersnit. Responsen (y) er en kontinuert variabel, f.eks. blodtryk, PEFR eller FEV. Responsen afhænger af forklarende variable x,,x m ved y = α + β x + + β x +"tilfældig variation"... m m Logistisk regressionsanalyse: Responsen (y) er en dichotom variabel og logaritmen til odds for begivenheden (o) afhænger af de forklarende variable x,,x m ved p ln( o) = ln( ) = α + β x β p m x m 3 Responsvariabel: kejsersnit: ja/nej (p = sandsynligheden for kejsersnit) Forklarende variable: BMI: kontinuert variabel Induction: ja/nej (ja=, nej=) Prev. vag. del.: ja/nej (ja=, nej=) Preliminære analyser viser: - BMI associeret med kejsersnit - Induction associeret med kejsersnit - Prev. vag. del. associeret med kejsersnit Formål med regressionsanalysen i eksemplet: Er der stadig en associationen mellem BMI og kejsersnit når vi korrigerer for Induction og Prev. vag. del. (PVD)? Eksempel: sandsynligheden for kejsersnit l n( ô ) = BMI+.7 Induction -.79 PVD Betragt en kvinde med: Resultat: BMI Induction PVD Intercept Coef Std. Err p-value <..3 <. <. Hvordan skal vi fortolke dette resultat? 95% CI.9 to.8.8 to to to -.53 l n( ô ) = BMI+.7 Induction-.79 PVD z 5 BMI=5 kg/m, Induction=, PVD= Indsættes dette i regressionsligningen fås: ln( o ˆ) = =.93 o ˆ = exp(.93) =.5 oˆ pˆ = =.8 CI kan I ikke udregne! + oˆ Hvis Induction=: ln( oˆ ) = oˆ =.9 pˆ =.3

27 7-3-3 Eksempel: effekten af Induction Betragt to kvinder: Kvinde : BMI =5 kg/m, Induction =, PVD = Kvinde : BMI =5 kg/m, Induction =, PVD = OR kan estimeres ud fra de to odd s fra før: oˆ.9 OR = = =.9 CI? o ˆ.5 Kvinde har altså dobbelt så stor risiko (odds) for kejsersnit i forhold til kvinde. Hypotese: Kunne OR være? Odds ratioen kan også udregnes som: oˆ OR = o ˆ exp( BMI +.7 Induction-.79 PVD) = exp( BMI+.7 Induction-.79 PVD) exp(.7 Induction) = exp(.7 Induction ) exp(.7 ) = exp(.7 ) = exp(.7) =.9 Samme OR som før! CI( OR ): (exp(.8),exp(.7) ) = (. 3,. 9) Vi får udregnet CI! 7 8 Der gælder altså: β = ln( OR)!!! Resultatet bliver det samme uanset hvad BMI og PVD er! Der er med andre ord i regressionsligningen l n( ô ) = BMI+.7 Induction -.79 PVD antaget ingen effektmodifikation mellem BMI, Induction og PVD! Eksempel: effekten af BMI Betragt to kvinder: Kvinde : BMI =5 kg/m Kvinde : BMI =7 kg/m hvor alt andet er lige exp(7.88 OR = ) = exp((7 5).88) = exp(.88) =. exp( 5.88) CI ( OR ) : ( exp(.9),exp(.8)) = (.,. 3) Betragt to andre kvinder: Kvinde 3: BMI 3 =8 kg/m Kvinde : BMI = kg/m hvor alt andet er lige 9 OR = exp(.88) =. dvs. samme OR!!! Vi har i regressionsmodellen antaget, at effekten af en BMI forskel på kg/m er uafhængig af størrelsen på BMI. Er det rimeligt? BMI Induction PVD Tabel for OR Odds ratio p-value.9 < <. 95% CI.5 to.3.5 to.9.9 to.98 OR en for BMI svarer til en BMI forskel på kg/m. Ofte vil det være tabellen for OR, som er angivet i en artikel. OR en svarende til en BMI forskel på kg/m fås ved OR =.9 =. CI ( OR ): (.5,.3 ) = (.,.3) Mere generelt gælder OR = OR OR OR BMI Induction PVD CI kan I ikke udregne!

28 7-3-3 Kommentarer til logistisk regressionsanalyse Estimationaf α, β,, β m og se er m.v. er kompliceret, men kan laves af de fleste statistikprogrampakker. Den logistiske regressionsanalyse bør kun anvendes hvis antallet af observationer er rimeligt stort. En tommelfingerregel er: - der bør være MINDST ja er og nej er for responsen (men helst af hver), for hver forklarende variabel i modellen (Bland side 33). En variant, betinget logistisk regressionsanalyse, anvendes for matchede data. Analysen anvendes ofte i case-control studier hvor cases og kontroller er matchede mht. potentielle risikofaktorer. 3 Kliniske målinger Hvad influerer på en (klinisk) måling? Metode-relateret: Individ-relateret: målemetode person apparat helbredstilstand kalibrering af apparat tidspunkt (sæson, døgn) observatør??? hospital??? variationskilder (Bland Kapitel ) Klinisk måling: vi forestiller os, at der er en underliggende/ukendt sand værdi, som vi forsøger at måle. (for en given person, med en given helbredstilstand, til et givet tidspunkt etc) Mange målemetoder vil ud fra metodens underliggende fysiske og/eller kemiske principper være gode (lille systematisk og tilfældig fejl) lungefunktion: måling af rumfang kemiske analyse: kromatografisk metode Ved gentagen måling med samme metode: en lidt anden værdi (som regel), fordi: metoden har en indbygget usikkerhed (tilfældig fejl) Kan ofte beskrives ved en normalfordeling målefejl 5 Måling på noget biologisk introducerer en række nye og måske ukendte variationskilder, f.eks. : fastende intra i hvile instruktion af patienten før målingen patienterne er forskellige inter Variationskomponenter Inter-individuelle variation: Hver person har et underlæggende niveau (sande værdi). Den interindividuelle variation beskriver variationen i personernes niveau. Også kaldet den biologiske variation. Eks: personens niveau kunne være gennemsnittet af målingerne over mange dage. Intra-individuelle variation: Personens sande værdi afhænger af under hvilken omstændighed den bliver målt. Variationen i de sande værdier indenfor personen kaldes for den intra-individuelle variation. Eks: den intra-individuelle variation kunne være dag-til-dag variationen i de sande værdier. Målefejl: Variationen af målingerne hvis vi måler flere gange lige efter hinanden. 7 Klinisk måling intra-individuel variation interindividuel variation Dag 3 5 personens niveau personens (sande) værdi den pågældende dag observation 8 3

29 7-3-3 Eksempel Estimation af størrelsen af de tilfældige variationskilder En stikprøve af PEFR målinger, målt med Wright. PEFR (l/min) Mean=5 SD= PI: -78 Hvor meget af variationen i PEFR (målt med Wright) skyldes variation mellem personer (inter-individuel) variation indenfor person (intra-individuel+målefejl)? 9 Nyt forsøg: PEFR (l/min) målt med Wright meter Person 3 : 5 7. måling : måling : (Bland Table 5., side 7) målt forskellige dage Ingen systematisk forskel mellem de målinger PEFR (l/min) Variationskilderne PEFR Gennemsnit Dette design kan ikke adskille 8 8 intra-individuel Person no. variation og Inter-individuel variation målefejl = variationen af gennemsnittene usikkerhed på gennemsnittene Intra-individuel+målefejl En Variansanalyse kan kvantificere de systematiske og tilfældige kilder til variation: s b = spredningen mellem personer (between) =. l/min s w = spredningen indenfor person (within) = 5.3 l/ min seen måling = sb + sw = 3. l/ min Resultaterne kan bruges til at besvare spørgsmål som: A. Hvor stor en andel udgør den biologiske variation? Andel =. 3. = 98% = variationen omkring gennemsnittene B. Prædiktionsinterval for forskel mellem målinger på samme person på forskellige dage: ± + =± 7 =± l/min.9 sw sw.7 sw..9 C. Teste hypotesen: σ b = Ensidet variansanalyse (kommer til øvelserne!) Eksempel 3 Sammenligning af to kontinuerte målinger Eksempler på metodeforskelle: Systematisk forskel: Tilfældig variation: generelt niveau forskellige måleusikkerhed kun ved små/store værdier større ved store værdier Analysen afhænger af den forskel man vil beskrive. (Hvad man måler på - standardiseret prøve, raske personer eller patienter - afhænger hvad/hvem man ønsker at generalisere til) 3

4. september 2003. π B = Lungefunktions data fra tirsdags Gennemsnit l/min

4. september 2003. π B = Lungefunktions data fra tirsdags Gennemsnit l/min Epidemiologi og biostatistik Uge, torsdag 28. august 2003 Morten Frydenberg, Institut for Biostatistik. og hoste estimation sikkerhedsintervaller antagelr Normalfordelingen Prædiktion Statistisk test (udfra

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

9. Chi-i-anden test, case-control data, logistisk regression.

9. Chi-i-anden test, case-control data, logistisk regression. Biostatistik - Cand.Scient.San. 2. semester Karl Bang Christensen Biostatististisk afdeling, KU kach@biostat.ku.dk, 35327491 9. Chi-i-anden test, case-control data, logistisk regression. http://biostat.ku.dk/~kach/css2014/

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Århus 6. februar 2014 Morten Frydenberg Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Til disse øvelser har I brug for fishoil1.dta, der indeholder data fra det fiskeolie forsøg vi så på ved

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: ekstrom@life.ku.dk Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration

Læs mere

Besvarelse af opgavesættet ved Reeksamen forår 2008

Besvarelse af opgavesættet ved Reeksamen forår 2008 Besvarelse af opgavesættet ved Reeksamen forår 2008 10. marts 2008 1. Angiv formål med undersøgelsen. Beskriv kort hvordan cases og kontroller er udvalgt. Vurder om kontrolgruppen i det aktuelle studie

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts Århus 27. februar 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts Epibasic er nu opdateret til version 2.02 (obs. der er ikke ændret ved arket C-risk) Start med

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

En teoretisk årsagsmodel: Operationalisering: Vurdering af epidemiologiske undersøgelser. 1. Informationsproblemer Darts et eksempel på målefejl

En teoretisk årsagsmodel: Operationalisering: Vurdering af epidemiologiske undersøgelser. 1. Informationsproblemer Darts et eksempel på målefejl Vurdering af epidemiologiske undersøgelser Jørn Attermann. februar 00 I denne forelæsning vil vi se på fejl, som kan have betydning for fortolkningen af resultater fra epidemiologiske undersøgelser. Traditionelt

Læs mere

Epidemiologiske associationsmål

Epidemiologiske associationsmål Epidemiologiske associationsmål Mads Kamper-Jørgensen, lektor, maka@sund.ku.dk Afdeling for Social Medicin, Institut for Folkesundhedsvidenskab It og sundhed l 16. april 2015 l Dias nummer 1 Sidste gang

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 15. december 2008 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner

Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner Indledning... 1 Hukommelse... 1 Simple beskrivelser... 1 Data manipulation... 2 Estimation af proportioner... 2 Estimation af rater... 2 Estimation

Læs mere

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren Faculty of Life Sciences Program Sammenligning af grupper Ensidet ANOVA Claus Ekstrøm E-mail: ekstrom@life.ku.dk Sammenligning af to grupper: tre eksempler Sammenligning af mere end to grupper: ensidet

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Skriftlig eksamen Science statistik- ST501

Skriftlig eksamen Science statistik- ST501 SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks

Læs mere

Basal statistik. 30. januar 2007

Basal statistik. 30. januar 2007 Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet

Læs mere

Forelæsning 9: Inferens for andele (kapitel 10)

Forelæsning 9: Inferens for andele (kapitel 10) Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende

Læs mere

Logistisk regression

Logistisk regression Logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside: www.biostat.ku.dk/~sr/forskningsaar/regression2012/

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Statistik viden eller tilfældighed

Statistik viden eller tilfældighed MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Introduktion til overlevelsesanalyse

Introduktion til overlevelsesanalyse Faculty of Health Sciences Introduktion til overlevelsesanalyse Kaplan-Meier estimatoren Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk

Læs mere

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Statistik og Sandsynlighedsregning 1 Indledning til statistik, kap 2 i STAT Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 5. undervisningsuge, onsdag

Læs mere

To-sidet varians analyse

To-sidet varians analyse To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

for gymnasiet og hf 2016 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen

Læs mere

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

02402 Løsning til testquiz02402f (Test VI)

02402 Løsning til testquiz02402f (Test VI) 02402 Løsning til testquiz02402f (Test VI) Spørgsmål 4. En ejendomsmægler ønsker at undersøge om hans kunder får mindre end hvad de har forlangt, når de sælger deres bolig. Han har regisreret følgende:

Læs mere

Note til styrkefunktionen

Note til styrkefunktionen Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H

Læs mere

Analyse af binære responsvariable

Analyse af binære responsvariable Analyse af binære responsvariable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet 23. november 2012 Har mænd lettere ved at komme ind på Berkeley? UC Berkeley

Læs mere

Sommereksamen 2015. Bacheloruddannelsen i Medicin/Medicin med industriel specialisering

Sommereksamen 2015. Bacheloruddannelsen i Medicin/Medicin med industriel specialisering Sommereksamen 2015 Titel på kursus: Uddannelse: Semester: Statistik og evidensbaseret medicin Bacheloruddannelsen i Medicin/Medicin med industriel specialisering 2. semester Eksamensdato: 16-06-2015 Tid:

Læs mere

Preben Blæsild og Jens Ledet Jensen

Preben Blæsild og Jens Ledet Jensen χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Forskningsenheden for Statistik IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er tilladt.

Læs mere

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl? Module 6: Exercises 6.1 To laboranter....................... 2 6.2 Nicotamid i piller..................... 3 6.3 Karakterer......................... 5 6.4 Blodtryk hos kvinder................... 6 6.5

Læs mere

Seniorkursus i Biostatistik og Stata, Dag 2

Seniorkursus i Biostatistik og Stata, Dag 2 SENIORKURSUS STATA OG BIOSTATISTIK Aarhus Universitet juni DAGENS TEMA: SAMMENLIGNINGER FORMIDDAG: KONTINUERTE DATA EFTERMIDDAG: KATEGORISKE DATA STATISTISK ANALYSE AF TO UAFHÆNGIGE STIKPRØVER FRA NORMALFORDELTE

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Den endelige besvarelse af opgaverne gøres ved at udfylde nedenstående skema. Aflever KUN skemaet!

Den endelige besvarelse af opgaverne gøres ved at udfylde nedenstående skema. Aflever KUN skemaet! Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 2. juni 2008 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Kapitel 7 Introduktion til statistik Organisering af data Diskrete variabler Kontinuerte variabler Beskrivende statistik Fraktiler Gennemsnit Empirisk varians og spredning Empirisk korrelationkoe

Læs mere

Følgende tabel (fra Fisher) giver forøgelsen af sovetiden i timer fra et eksperiment med 10 patienter vedrørende 2 sovemidler A og B.

Følgende tabel (fra Fisher) giver forøgelsen af sovetiden i timer fra et eksperiment med 10 patienter vedrørende 2 sovemidler A og B. Modul 7: Exercises 7.1 Sovemidler......................... 1 7.2 Egetræer.......................... 2 7.3 Stofs trækstyrke..................... 3 7.4 Laboranters titreringsusikkerhed............ 5 7.5

Læs mere

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary 1 Kontingenstabeller Betinget fordeling Uafhængighed 2 Chi-kvadrat test for uafhængighed Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

Læs mere

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt

Læs mere

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og Model M 0 : X hi N(α h + β h t hi,σ 2 h ), h = 1,...,m, i = 1,...,n h. m separate regressionslinjer. Behandles som i afsnit 3.3. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister)

Læs mere

SENIORKURSUS STATA OG BIOSTATISTIK

SENIORKURSUS STATA OG BIOSTATISTIK SENIORKURSUS STATA OG BIOSTATISTIK Aarhus Universitet juni 011 Genopfriskning af statistik Basale tankegange og begreber (i dag) Sammenligninger (i morgen) Sammenhænge (i overmorgen) Brug af programpakken

Læs mere

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Kapitel 8 Chi-i-anden (χ 2 ) prøven Kapitel 8 Chi-i-anden (χ 2 ) prøven Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 19 Indledning Forskelle mellem stikprøver undersøges med z-test eller t-test for data målt på

Læs mere

Opgave I II III IV V VI Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar 5 4 4 2 3 1 1 5 4 1

Opgave I II III IV V VI Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar 5 4 4 2 3 1 1 5 4 1 Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 1. juni 2005 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle sædvanlige Dette sæt er besvaret af (navn)

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

Effektmålsmodifikation

Effektmålsmodifikation Effektmålsmodifikation Mads Kamper-Jørgensen, lektor, maka@sund.ku.dk Afdeling for Social Medicin, Institut for Folkesundhedsvidenskab It og sundhed l 21. april 2015 l Dias nummer 1 Sidste gang Vi snakkede

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 7: Eksempler 7.1 Beskrivende dataanalyse............................... 1 7.1.1 Diagrammer.................................

Læs mere

ORDINÆR EKSAMEN I EPIDEMIOLOGISKE METODER IT & Sundhed, 2. semester

ORDINÆR EKSAMEN I EPIDEMIOLOGISKE METODER IT & Sundhed, 2. semester D E T S U N D H E D S V I D E N S K A B E L I G E F A K U L T E T K Ø B E N H A V N S U N I V E R S I T E T B l e g d a m s v e j 3 B 2 2 0 0 K ø b e n h a v n N ORDINÆR EKSAMEN I EPIDEMIOLOGISKE METODER

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning Intro til statistik Rasmus F. Brøndum, Institut 17 (Matematik) Hjemmeside: people.math.aau.dk/~froberg 22 forelæsninger (hvor af jeg afholder de første 13) + det samme antal øvelsesgange. Hjælpelærer:

Læs mere

Modul 5: Test for én stikprøve

Modul 5: Test for én stikprøve Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 5: Test for én stikprøve 5.1 Test for middelværdi................................. 1 5.1.1 t-fordelingen.................................

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

K.U. 29-03-2006 Metode Skriveøvelse 1 Af Marie Hammer og Steffen Tiedemann Christensen. Indholdsfortegnelse... 1. Opgave 1... 2. Opgave 2...

K.U. 29-03-2006 Metode Skriveøvelse 1 Af Marie Hammer og Steffen Tiedemann Christensen. Indholdsfortegnelse... 1. Opgave 1... 2. Opgave 2... Indholdsfortegnelse Indholdsfortegnelse... 1 Opgave 1... 2 Opgave 2... 2 Forforståelse:...2 Deskriptiv statistik:...3 Overvejelser:...12 Opgave 3... 13 Opgave 4... 15 Opgave 5... 16 Opgave 6... 17 Konklusion:...20

Læs mere

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 Indledning 2 Sandsynlighed i binomialfordelingen 3 Normalfordelingen 4 Modelkontrol

Læs mere

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen Kursus 02402/02323 Introducerende Statistik Forelæsning 10: Envejs variansanalyse, ANOVA Oversigt 1 Intro: Regneeksempel og TV-data fra B&O 2 Model og hypotese Per Bruun Brockhoff DTU Compute, Statistik

Læs mere

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller Chi-i-anden Test Repetition Goodness of Fit Uafhængighed i Kontingenstabeller Chi-i-anden Test Chi-i-anden test omhandler data, der har form af antal eller frekvenser. Antag, at n observationer kan inddeles

Læs mere

Fagplan for statistik, efteråret 2015

Fagplan for statistik, efteråret 2015 Side 1 af 7 M Fagplan for statistik, efteråret 20 Litteratur Kenneth Hansen & Charlotte Koldsø (HK): Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave, ISBN 9788741256047 HypoStat

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger

1 enote 1: Simple plots og deskriptive statistik. 2 enote2: Diskrete fordelinger. 3 enote 2: Kontinuerte fordelinger Kursus 02402/02323 Introduktion til statistik Forelæsning 13: Et overblik over kursets indhold Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Building 324, Room 220 Danish Technical University

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X.

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X. Opgave I I en undersøgelse af et potentielt antibiotikum har man dyrket en kultur af en bestemt mikroorganisme og tilført prøver af organismen til 20 prøverør med et vækstmedium og samtidig har man tilført

Læs mere

Kvadratisk regression

Kvadratisk regression Kvadratisk regression Helle Sørensen Institut for Matematiske Fag Københavns Universitet Juli 2011 I kapitlet om lineær regression blev det vist hvordan man kan modellere en lineær sammenhæng mellem to

Læs mere

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x k uafhængige variable

Læs mere

MPH Introduktionsmodul: Epidemiologi og Biostatistik 23.09.2003

MPH Introduktionsmodul: Epidemiologi og Biostatistik 23.09.2003 Opgave 1 (mandag) Figuren nedenfor viser tilfælde af mononukleose i en lille population bestående af 20 personer. Start og slut på en sygdoms periode er angivet med. 20 15 person number 10 5 1 July 1970

Læs mere

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Indholdsfortegnelse 1 INDLEDNING OG PROBLEMSTILLING... 2 1.1 OVERVÆGT SOM CASE... 2 2 ANALYSEFORBEREDELSER... 4 2.1 HEPRO-UNDERSØGELSEN... 4 2.2 DEN AFHÆNGIGE VARIABEL VIGTIGHED AF ÆNDRINGEN AF VÆGT...

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 Parret sammenligning, målemetoder med logaritmer Tosidet variansanalyse

Læs mere

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015 Faculty of Health Sciences Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 1 / 84 Logaritmer og kovariansanalyse Parret sammenligning, målemetoder med logaritmer Tosidet

Læs mere

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper Program Forsøgsplanlægning og tosidet variansanalyse Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Forsøgstyper og forsøgsplanlægning Analyse af data fra fuldstændigt randomiseret blokforsøg: tosidet

Læs mere

2 0.9245. Multiple choice opgaver

2 0.9245. Multiple choice opgaver Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere