Simpel og multipel logistisk regression

Save this PDF as:
 WORD  PNG  TXT  JPG

Størrelse: px
Starte visningen fra side:

Download "Simpel og multipel logistisk regression"

Transkript

1 Faculty of Health Sciences Logistisk regression Simpel og multipel logistisk regression 16. Maj 2012 Analyse af en binær responsvariabel. syg/rask, død/levende, ja/nej... Ud fra en eller flere forklarende variable (covariater). alder, vægt, rygning, behandling,... Julie Forman Biostatistisk Afdeling, Københavns Universitet y x 1, x 2,..., x k respons forklarende variable Simpel logistisk regression: En forklarende variabel. : Flere forklarende variable. 2 / 60 Anvendelser Paralleller til lineær regression Udforskning Hvad afhænger responsen af? Beskrivelse af sammenhænge og tendenser. Identifikation af potentielle risikofaktorer. Test Validering af risikofaktorer. Effekten af en variabel korrigeret for andre. Prædiktion Forudsigelse af fremtidig respons. Diagnosticering. Essentielt samme interesser og problematikker fx: Multipel regression. Interaktioner. Confounding. MEN: Anderledes matematisk beskrivelse af data fordi responsen er binær. Ingen normalfordelinger her! 3 / 60 4 / 60

2 Outline Sandsynligheder og odds Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt For at forstå den logistiske regressions model er det vigtigt at man kan regne med sandsynligheder og odds. Hvis P betegner en sandsynlighed, så er de tilsvarende odds givet ved Odds = P 1 P Nogle gange har vi brug for regne tilbage fra odds til sandsynlighed, det gør man med P = Odds 1 + Odds 5 / 60 6 / 60 Fortolkning af odds Det kan være nyttigt at tænke på odds som forholdet mellem antallet af cases til antallet af non-cases i populationen, fx Odds = antal syge antal raske mens sandsynligheden er den overordnede proportion af cases 7 / 60 P = antal syge antal i alt Fordeling (cases - non-cases) P(case) Odds(case) % 5/5= % 4/6= % 3/7= % 1/4= % 1/9= Odds ratio For at sammenligne sandsynligheder eller risici to grupper imellem, benyttes odds ratio ofte. Blandt singletonbørn født ved kunstig befrugtning (ART) bliver 1.70% født meget præmaturt, mens det samme kun gælder 0.82% af børn født ved naturlig koncipering. De tilsvarende odds er 1.73% hhv. 0.83% og ratio mellem dem er svarende til dobbelt så høje odds. OR = OR approksimerer den relative risiko (begge ssh er <0.1) RR = / ART- vs kontrol-børn født i Skandinavien

3 Odds ratio generelt Outline Sammenligning af risiko/sandsynlighed for to grupper. Gruppe 1: fx ueksponerede med risiko P 1. Gruppe 2: eksponerede med risiko P 2. Odds-ratio (1 vs 2) er defineret ved: OR = P ( ) 1 P2 /. 1 P 1 1 P 2 Odds og odds ratio er er umiddelbart sværere at forstå end simple sandsynligheder, men fra et matematisk synspunkt er de nemme at arbejde med. Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt 9 / / 60 Eksempel: Menarke og alder Data fra skoleundersøgelser af 520 piger, Formål: Beskrive sandsynligheden for at menarke er indtruffet for piger mellem 8 og 20 år. Respons: menarke (ja/nej). Forklarende variabel: alder. age menarche Data fra Dalgaard: Introductory Statistics with R (2008) 11 / / 60

4 Den simple logistiske regressionsmodel Sammenhængen mellem sandsynlighed og forklarende variabel er: log(odds) = α + βx Fortolkning af interceptet α Når kovariaten er x = 0, så er log(odds) = α + β 0 = α. Altså er Odds = exp(α) for x = 0. α er interceptet. β er regressionskoefficienten. x er den forklarende variabel. Eksempel: Vi finder den estimerede relation Eksempel exp(ˆα) "Odds for menarke for en nul-årig". Det er slet og ret meningsløst! Men vi kunne flytte nulpunktet for alder... x = alder-14 giver intercept svarende til odds for en 14-årig. 13 / 60 log(odds(menarke)) = alder OBS: I case-control studier har interceptet absolut ingen fortolkning. 14 / 60 Fortolkning af regressionskoefficienten β Når kovariaten øges med en, så ændres log(odds) fra fra log(odds(x)) = α + β x til log(odds(x + 1)) = α + β (x + 1) Træk den anden ligning fra den første: β = log(odds(x + 1)) log(odds(x)) ( ) Odds(x + 1) = log Odds(x) = log(or) Eksempel: når alderen øges med et år stiger odds for at en pige har oplevet menarke med en faktor OR = exp( ˆβ) / 60 Generel sammenligning af odds Hvor meget ændres odds for hvis alderen ændres med k år? log(odds 1 ) = α + β(x + k). log(odds 2 ) = α + βx. Vi finder et udtryk for log(or): log(or) = log(odds 1 ) log(odds 2 ) = α + β(x + k) (α + βx) = β k Altså OR = exp{kβ)} (gælder også negative k er). 16 / 60

5 Logit-transformationen Sammensætningen af log- og odds-transformationerne kaldes logit: ( ) P logit(p) = log 1 P Den logistisk regression modellerer sandsynlighed/risiko for et udfald på logit-skala: logit(p) = β 0 + β 1 x Logistisk regression er en såkaldt generaliseret lineær model med link-funktion logit (kan analyseres med proc genmod i SAS). Logit bruges også som transformation af kontinuerte respons med værdier mellem 0 og 1 (eksempelvis %-tal). Outline Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt 17 / / 60 Eksempel: Menarke ift alder SAS: proc logistic output Model Information PROC LOGISTIC DATA=mdata DESCENDING; MODEL menarche = age; RUN; Model-formel i stil med proc glm. Husk argumentet DESCENDING, ellers modellerer SAS sandsynligheden for at menarche=0! Data Set WORK.MDATA Response Variable menarche Number of Response Levels 2 Model binary logit Optimization Technique Fisher s scoring Number of Observations Read 520 Number of Observations Used 520 Response Profile Ordered Total Value menarche Frequency / / 60 Probability modeled is menarche=1.

6 SAS output: Overordnet goodness of fit SAS output: parameterestimater og test Model Convergence Status Convergence criterion (GCONV=1E-8) satisfied. Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC SC Log L Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio <.0001 Score <.0001 Wald < / 60 Check altid Model convengence status. 22 / 60 The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 age <.0001 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits age SAS output: evaluering af prædiktionsevne Test af alderseffekten Forklares til forelæsningen om logistisk regression og prædiktion (efter frokost). The LOGISTIC Procedure Association of Predicted Probabilities and Observed Responses Percent Concordant 97.7 Somers D Percent Discordant 2.3 Gamma Percent Tied 0.0 Tau-a Pairs c Vores nulhypotese er at sandsynligheden for menarke ikke afhænger af alder, H 0 : β = 0. Man kan benytte Wald test: z = estimat s.e. N (0, 1). Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 age <.0001 Som forventet stærkt signifikant effekt af alder. 23 / / 60

7 Konfidensintervaller Outline Find et 95% konfidensinterval for odds ratio associeret med et års aldersstigning. Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits age Kunne også findes ved at transformere konfidensintervallet for β = log(or), altså ved at udregne exp( ˆβ ± 1.96 s.e.). Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt 25 / / 60 Eksempel: Hypertension Sammenhængen med de forklarende variable er givet ved: log(odds) = α + β 1 x β k x k Forskellen mellem to odds, log(or) = log(odds 1 ) log(odds 2 ) er en lineær funktion af β erne og forskellene i x erne. 27 / 60 DG 28 / 60 Altman: Practical Statistics for Medical Research, (2nd edition, 1999)

8 Multipel logistisk model for hypertension Respons: Hypertension (ja eller nej). Risiko-faktorer: Rygning, fedme og snorken (ja eller nej). Model for risiko: log(odds) = α + β 1 x 1 + β 2 x 2 + β 3 x 3 x 1 = 1 for rygning=ja og x 1 = 0 for rygning=nej. x 2 = 1 for fedme=ja og x 2 = 0 for fedme=nej. x 3 = 1 for snorken=ja og x 3 = 0 for snorken=nej. Analyse af tabellerede data i SAS Bemærk: særlig syntaks for tabelleret datasæt: smoking obesity snoring n count PROC LOGISTIC DATA=hyper DESCENDING; MODEL count/n = snoring obesity smoking; RUN; 29 / / 60 Parameterestimater Fortolkning af interceptet Parameterestimater (og Wald test for hypoteserne H : β = 0): Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 snoring obesity smoking Test af interceptet (H : α = 0 svarer til Odds= exp(0) = 1) er sjældent interessant. Interceptet er log-odds hos en person med 0 på alle forklarende variable. I.e. hvis x 1 = x 2 = x 3 = 0, så er: log(odds) = α + β β β 3 0 = α Hypertension eksempel: log-odds for hypertension for en ikke-snorkende, ikke-fed, ikke-ryger: Baseline odds exp(ˆα) exp( 2.38) = 0.09, hvilket svarer til en risiko på ca 8.5%. 31 / / 60

9 Fortolkning af regressionskoefficienterne Ryger (1) mod ikke-ryger (2) med samme status på fedme og snorken: med odds-ratio, 33 / 60 log(odds 1 ) = α + β β 2 x 2 + β 3 x 3 log(odds 2 ) = α + β β 2 x 2 + β 3 x 3. log(or) = log(odds 1 ) log(odds 2 ) = β 1 1 OR = exp(β 1 ) exp( 0.07) = Hvis β 1 > 0 er der øget risiko for rygere: OR > 1. Hvis β 1 < 0 er der lavere risiko: OR < 1. Hvis β 1 = 0 er der ingen forskel: OR = 1. Konfidensintervaller 34 / 60 Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits snoring obesity smoking Odds-ratio for rygning 1 ( ). Omtrent fordobling af risiko ved snorken eller fedme. MEN: stor statistisk usikkerhed. Outline Sandsynligheder i logistisk regression Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt tilbage-transformeret log(odds) Odds P: P(Y = 1) = P = exp(α + β 1x β k x k ) 1 + exp(α + β 1 x β k x k ) P(Y = 0) = 1 P = exp(α + β 1 x β k x k ) Sammenfattet formel (gælder både når y = 0 og y = 1): P(Y = y) = P y (1 P) 1 y = exp(α + β 1x β k x k ) y 1 + exp(α + β 1 x β k x k ) 35 / / 60

10 Maximum likelihood estimation Estimationsprincip: Vælg de parameterværdier der giver de observerede udfald størst sandsynlighed. Teoretisk sandsynlighed for de n uafhængige observationer er: L n (β) = n i=1 exp(α + β 1 x i1 + + β k x ik ) y i exp(α + β 1 x i1 + + β k x ik ). Denne funktion af observationerne og modelparametrene kaldes for Likelihood funktionen. Maximum likelihood estimatorerne er det sæt af parametre der maksimerer likelihood funktionen: (ˆα, ˆβ 1,..., ˆβ k ). Deviance Maksimumsværdien for likelihood funktionen er: Jo større jo bedre. 0 < L n ( ˆβ) 1. Måles oftest som deviance på log-skala: Jo mindre jo bedre. deviance = 2 log L n ( ˆβ) 0. Deviance bruges til at teste hypoteser i analogi med Sums of Squares i variansanalyse. 37 / / 60 Likelihood-ratio-test Eksempel: Hypertension For at reducere en kompleks model til en simpelere ser vi på ændring i deviance når en eller flere forklarende variable udelades. Likelihood-ratio testet er baseret på: deviance) χ 2 ( df) df er forskellen mellem modellernes frihedsgader. deviance er forskellen mellem modellernes deviances. Kaldes for likelihood-ratio test fordi deviance) = 2 log(likelihood-ratio) hvor likelihood-ratio er forholdet mellem likelihoodfunktionernes maximum i den ureducerede og reducerede model. Overordnet test af covariaterne H : β 1 = β 2 = β 3 = 0: Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC SC Log L Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio Score Wald Bemærk at deviance = = / / 60

11 Outline Sandsynlighed, odds og odds ratio (OR) Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt Er observationerne i data er indbyrdes uafhængige? Er sandsynligheden tilfredsstillende beskrevet som logit-lineær funktion af de forklarende variable? Er der kontinuerte forklarende variable en ikke-lineær effekt? Er væsentlige interaktioner udeladt? Det er ikke nødvendigt at checke yderligere antagelser om fordelingen af data fordi responsen er binær. 41 / / 60 Ikke-linearitet Menarke vs alder: Ikke-linearitet? Kunne være: Risiko / sandsynlighed der accelererer eller stagnerer. Risiko / sandsynlighed der ikke er monoton Eksempelvis: BMI: over- og undervægtige har øget risiko for sygdom. Alder: øget risik for uheld hos de yngste/ældste bilister. Hvad kan man gøre ved det? Gruppering (e.g. BMI-grupper) Splines (som I lærer om på et senere kursus). Kunne teste mode en polynomial-effekt (men splines er bedre): DATA mdata; SET mdata; age1 = age ; age2 = age1**2; age3 = age1**3; RUN; PROC LOGISTIC DATA=mdata DESCENDING; MODEL menarke = age1 age2 age3; RUN; deviance = χ 2 2, P= / / 60

12 Hypertension: Interaktioner? Test af interaktionsled Som udgangspunkt så vi på en model uden interaktioner. Effekten (OR) af rygning er den samme uanset om man er fed eller normalvægtig og om man snorker eller ej. Effekten (OR) af fedme er den samme uanset om man er ryger eller ikke-ryger og om man snorker eller ej. Effekten af snorken (OR) er den samme uanset om man er fed eller normalvægtig og om man ryger eller ej. Stemmer det med hvad vi ser i data? PROC LOGISTIC DATA=hyper DESCENDING; WEIGHT number; MODEL hypertens = snoring obesity smoking snoring*obesity; RUN; Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 snoring obesity snoring*obesity Osv... Vi finder ingen signifikante interaktioner i modellen. 45 / / 60 Outline Lægekontakt i almen praksis Sandsynlighed, odds og odds ratio (OR) I 1991 gennemførte institut for social medicin en undersøgelse af danskernes lægeforbrug personer indgik i undersøgelsen. Simpel logistisk regression Logistisk regression i SAS Teorien bag estimation og test (teknisk) Case study: Lægekontakt 47 / / 60

13 Eksplorativ dataanalyse Kategoriske forklarende variable Lægekontakt: 646 eller 37.5% ud af 1723 personer har været i kontakt med egen læge i 1. kvartal af Hvem bruger egentlig de praktiserende læger? Går kvinder mere til lægen end mænd? Går pensionister og arbejdsløse mere til lægen? Går man oftere til lægen hvis man har mange bekymringer? Går man sjældnere til lægen hvis der er lang vej? Antal (%) Mangler (%) Køn = Mand 856 (50%) 4 (0.02%) Bor med partner 1383 (80%) 0 (0.00%) Bor med børn 509 (30%) 4 (0.02%) Arbejdsløs 83 (5%) 0 (0.00%) Pensioneret 71 (4%) 4 (0.02%) Medlem af Danmark 535 (31%) 13 (0.08%) Det bliver måske svært at sige noget om pensionister og arbejdsløse / / 60 Kontinuerte forklarende variable Logistisk regression Median (IQR) Mangler (%) Husstandsindkomst ( er) 3.5 ( ) 209 (12.1%) Afstand til lægen (minutter) 5 (5 10) 137 (8.0%) Kroniske sygdomme (0 23) 1 (0 2) 4 (0.2%) Nedsat funktionsevne (0-10 point) 0 (0 1) 28 (1.6%) Mentale symptomer (0-100 point) 21 (19 25) 44 (2.6%) Dårligt alment helbred (0-25 point) 5 (4 9) 48 (2.8%) Bekymringer (0-10 point) 5 (4 7) 17 (1.0%) Sociale kontakter (0-25 point) 12 (10 14) 48 (2.8%) Bemærk: Manglende værdier... Simpel regression Multipel regression OR (95% CI) OR (95% CI) Køn=mand 0.58 ( ) 0.64 ( ) Bor med partner 0.76 ( ) 0.90 ( ) Bor med børn 0.96 ( ) 1.18 ( ) Arbejdsløs 1.43 ( ) 1.29 ( ) Pensionist 3.66 ( ) 0.64 ( ) Medlem af Danmark 1.15 ( ) 1.15 ( ) Indkomst 1.00 ( ) 1.00 ( ) Afstand til lægen 1.01 ( ) 0.99 ( ) Kroniske sygdomme 1.34 ( ) 1.13 ( ) Neds.funktionsevne 1.19 ( ) 1.08 ( ) Mentale symptomer 1.07 ( ) 1.03 ( ) Dårligt helbred 1.13 ( ) 1.04 ( ) Bekymringer 1.11 ( ) 1.06 ( ) Sociale kontakter 1.00 ( ) 1.02 ( ) 51 / / 60 Multipel regression baseret på 1309 complete cases (414 incomplete).

14 Kommentarer Ikke overraskende signifikant effekt af helbredsrelaterede variable, men effekten af de individuelle faktorer moderes ved indbyrdes korrektion (kollinearitet). Mænd går væsentligt mindre til lægen end kvinder! Stor usikkerhed omkring arbejdsløse der er kun få af dem i data. Pensionister går mere til lægen p.gr.a. dårligere helbred. Indkomst, socialt netværk og afstand til lægen har meget lille effekt, men bidrager med mange manglende værdier. Flere complete cases Ser bort fra indkomst, afstand til lægen og sociale kontakter. OR (95% CI) p-værdi Køn = Mand 0.62 ( ) < Bor med partner 0.93 ( ) 0.60 Bor med børn 1.10 ( ) 0.42 Arbejdsløs 1.10 ( ) 0.71 Pensionist 1.00 ( ) 0.99 Medlem af Danmark 1.16 ( ) 0.21 Kroniske sygdomme 1.14 ( ) Neds.funktionsevne 1.05 ( ) 0.06 Mentale symptomer 1.03 ( ) Dårligt helbred 1.05 ( ) Bekymringer 1.06 ( ) Multipel regression baseret på 1614 complete cases (109 incomplete). 53 / / 60 Kommentarer Mænd og kvinder separat Signifikant effekt af sygdomsrelaterede variable, (kroniske sygdomme, mentale sygdomme, dårligt alment helbred). Borderline signifikans af bekymringer og nedsat funktionsevne. Tendens til at arbejdsløse, børnefamilier og medlemmer af sygeforsikring Danmark går mere til lægen, men stadig stor usikkerhed omkring disse. Pensionister går ikke mere til lægen end andre, når man tager højde for deres helbredstilstand. Mænd går mindre til lægen end kvinder (P < ) / 60 Går mænd og kvinder til lægen af samme årsager? Mænd Kvinder OR (95% CI) OR (95% CI) Bor med partner 1.13 ( ) 0.80 ( ) Bor med børn 1.45 ( ) 0.83 ( ) Arbejdsløs 1.07 ( ) 1.20 ( ) Pensionist 0.92 ( ) 1.16 ( ) Medlem af Danmark 0.91 ( ) 1.39 ( ) Kroniske sygdomme 1.12 ( ) 1.15 ( ) Neds.funktionsevne 1.05 ( ) 1.06 ( ) Mentale symptomer 1.03 ( ) 1.03 ( ) Dårligt helbred 1.07 ( ) 1.02 ( ) Bekymringer 1.07 ( ) 1.04 ( ) Multipel regression baseret på 807 mænd hhv. 805 kvinder. 56 / 60

15 Kommentarer Større statistisk usikkerhed når data halveres. Stort set samme effekter hos mænd og kvinder... Bortset fra: Mænd med børn går oftere til lægen. Konklusion Interaktionsled mellem køn og bor med barn tilføjet. OR (95% CI) p-værdi Køn = mand 0.52 ( ) < Bor med partner 0.91 ( ) 0.53 Bor med barn (K) 0.82 ( ) 0.26 Bor med barn (M) 1.45 ( ) Arbejdsløs 1.12 ( ) 0.66 Pensionist 1.00 ( ) 0.99 Medlem af Danmark 1.15 ( ) 0.22 Kroniske sygdomme 1.14 ( ) Neds.funktionsevne 1.05 ( ) 0.06 Mentale symptomer 1.03 ( ) Dårligt helbred 1.05 ( ) Bekymringer 1.06 ( ) / 60 Multipel regression baseret på 1614 complete cases (109 incomplete). 58 / 60 Multiple testing Mange variable Vi har lavet mange test og burde måske korrigere for det: Bonferroni korrektion (gang p-værdierne med antal test) er desværre tilbøjelig til at overkorrigere. Andre metoder er svære at bruge (ikke med i proc logistic). Løsninger: Planlæg på forhånd præcis hvilke effekter du vil teste og hvilke du vil korrigere for, så antal test begrænses. Det er ok at fiske i en eksplorativ analyse. Efterfølgende studier må be- eller afkræfte de effekter vi fandt... Få hjælp af en statistiker. Husk tommelfingereglen. Minimum 5-10 events/nonevents for hver kovariat. 59 / / 60

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Løsning til opgave i logistisk regression

Løsning til opgave i logistisk regression Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator

Læs mere

Logistisk regression og prædiktion

Logistisk regression og prædiktion Faculty of Health Sciences Introduktion Logistisk regression og prædiktion 16. Maj 2012 Julie Forman Biostatistisk Afdeling, Københavns Universitet Hvad er en god diagnostisk model? En model med god overensstemmelse

Læs mere

9. Chi-i-anden test, case-control data, logistisk regression.

9. Chi-i-anden test, case-control data, logistisk regression. Biostatistik - Cand.Scient.San. 2. semester Karl Bang Christensen Biostatististisk afdeling, KU kach@biostat.ku.dk, 35327491 9. Chi-i-anden test, case-control data, logistisk regression. http://biostat.ku.dk/~kach/css2014/

Læs mere

Basal Statistik for medicinske PhD-studerende November 2008

Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Logistisk regression

Logistisk regression Logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside: www.biostat.ku.dk/~sr/forskningsaar/regression2012/

Læs mere

Projekt Osiris Fattigdom i Danmark: En socioøkonomisk fattigdomsgrænse Iulian Vlad Serban

Projekt Osiris Fattigdom i Danmark: En socioøkonomisk fattigdomsgrænse Iulian Vlad Serban Appendikset Om appendikset Appendikset indeholder overordnet fire afsnit: - Teoretisk udledning og definition af modeller, - Supplerende statistiske resultater - Deskriptiv statistik - Udeladte undermodeller

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Logistisk regression

Logistisk regression Logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk 21. marts 2013 Dagens program Chi-i-anden (χ 2 )-testet Sandsynligheder,

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Sammenhæng

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1 Basal Statistik Logistisk Regression Judith L. Jacobsen, PhD. Lene Theil Skovgaard http://staff.pubhealth.ku.dk/~lts/basal13_ jlj@statcon.dk Dagens Tekst Logistisk regression Binære data Logit transformation

Læs mere

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistiske Modeller 1: Kontingenstabeller i SAS Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.

Læs mere

Postoperative komplikationer

Postoperative komplikationer Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

Analyse af binære responsvariable

Analyse af binære responsvariable Analyse af binære responsvariable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet 23. november 2012 Har mænd lettere ved at komme ind på Berkeley? UC Berkeley

Læs mere

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Formål med Øvelsen: Formålet med øvelsen er at analysere om risikoen for død er forbundet med to forskellige vacciner BCG (mod

Læs mere

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A) Økonometri 1 Forår 2003 Ugeseddel 13 Program for øvelserne: Gruppearbejde Opsamling af gruppearbejdet og introduktion af SAS SAS-øvelser i computerkælderen Øvelsesopgave 6: Hvem består første årsprøve

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Eksamensopgave E05 Socialklasse og kronisk sygdom Data: Tværsnitsundersøgelse fra 1986 Datamaterialet indeholder: Køn, alder, Højest opnåede

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: 1 IHD-Lexis 1.1 Spørgsmål 1 Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: data ihdfreq; input eksp alder pyrs cases; lpyrs=log(pyrs); cards; 0 2 346.87 2 0 1 979.34 12 0 0 699.14

Læs mere

Besvarelse af opgavesættet ved Reeksamen forår 2008

Besvarelse af opgavesættet ved Reeksamen forår 2008 Besvarelse af opgavesættet ved Reeksamen forår 2008 10. marts 2008 1. Angiv formål med undersøgelsen. Beskriv kort hvordan cases og kontroller er udvalgt. Vurder om kontrolgruppen i det aktuelle studie

Læs mere

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser Mantel-Haensel analyser Stratificerede epidemiologiske analyser 1 Den epidemiologiske synsvinkel: 1) Oftest asymmetriske (kausale) sammenhænge (Eksposition Sygdom/død) 2) Risikoen vurderes bedst ved hjælp

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Uge 13 referat hold 4

Uge 13 referat hold 4 Uge 13 referat hold 4 Gruppearbejde 1a: Er variablen kvotient inkluderet på en hensigtsmæssig måde? Der er to problemer med kvotient: 1) Den er trunkeret ved 6.9 og 10.0, løsningen er at indføre dummyer

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Morten Frydenberg 14. marts 2006

Morten Frydenberg 14. marts 2006 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik 1 RESUME: 2 2. gang: 2006 Institut for Biostatistik, Århus Universitet MPH 1. studieår Specialmodul 4 Cand. San. uddannelsen

Læs mere

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif). Vi vil formulere en model for et kvalitativ variabel y i med to udfald, at bestå og ikke at bestå første årsprøve. Derefter modeller vi respons-sandsynligheden: Specifikation af sandsynligheden for at

Læs mere

Morten Frydenberg Biostatistik version dato:

Morten Frydenberg Biostatistik version dato: Caerphilly studiet Design og Data Biostatistik uge 14 mandag Morten Frydenberg, Afdeling for Biostatistik Poisson regression En primær tidsakse og ikke stykkevise konstante rater Cox proportional hazard

Læs mere

Basal statistik. 30. januar 2007

Basal statistik. 30. januar 2007 Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Logistisk regression

Logistisk regression Logistisk regression http://biostat.ku.dk/ kach/css2 Thomas A Gerds & Karl B Christensen 1 / 18 Logistisk regression I dag 1 Binær outcome variable død : i live syg : rask gravid : ikke gravid etc 1 prædiktor

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Tabel 1. BMI, kropsvægt, overvægt og fedme for voksne og børn fordelt på køn. BMI gennemsnit Kropsvægt Normalvægtig Overvægtig Fed Totalt % (N) Alle voksne 25,60 50 35 15 100% (1746) Kvinder 25,54 52 33

Læs mere

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/?? Dagens Temaer k normalfordelte obs. rækker i proc glm. Test for lineær regression Test for lineær regression - via proc glm p. 1/?? Proc glm Vi indlæser data i datasættet stress, der har to variable: areal,

Læs mere

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller Chi-i-anden Test Repetition Goodness of Fit Uafhængighed i Kontingenstabeller Chi-i-anden Test Chi-i-anden test omhandler data, der har form af antal eller frekvenser. Antag, at n observationer kan inddeles

Læs mere

Morten Frydenberg 26. april 2004

Morten Frydenberg 26. april 2004 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik RESUME: 2 2. gang: 2002 Institut for Biostatistik, Århus Universitet MPH. studieår Specialmodul 4 Cand. San. uddannelsen.

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008

Test og sammenligning af udvalgte regressionsmodeller Berit Christina Olsen forår 2008 Indholdsfortegnelse 1 INDLEDNING OG PROBLEMSTILLING... 2 1.1 OVERVÆGT SOM CASE... 2 2 ANALYSEFORBEREDELSER... 4 2.1 HEPRO-UNDERSØGELSEN... 4 2.2 DEN AFHÆNGIGE VARIABEL VIGTIGHED AF ÆNDRINGEN AF VÆGT...

Læs mere

Træningsaktiviteter dag 3

Træningsaktiviteter dag 3 Træningsaktiviteter dag 3 I træningsaktiviteterne skal I arbejde videre med Framingham data og risikoen for hjertesygdom. I skal dels lave MH-analyser som vi gjorde i timerne og dels lave en multipel logistisk

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable Faculty of Health Sciences Logistisk regression: Interaktion Kvantitative responsvariable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks

Læs mere

Overlevelsesanalyse. Faculty of Health Sciences

Overlevelsesanalyse. Faculty of Health Sciences Faculty of Health Sciences Overlevelsesanalyse Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Program Overlevelsesdata Kaplan-Meier estimatoren

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Uafhængighedstestet Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev

Læs mere

Multipel regression 22. Maj, 2012

Multipel regression 22. Maj, 2012 Data: Det færøske kviksølv-studie Simpel linær regression Confounding Multipel lineær regression Fortolkning af parametre Vekselvirkning Kollinearitet Modelkontrol Multipel regression 22. Maj, 2012 Esben

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

4. september 2003. π B = Lungefunktions data fra tirsdags Gennemsnit l/min

4. september 2003. π B = Lungefunktions data fra tirsdags Gennemsnit l/min Epidemiologi og biostatistik Uge, torsdag 28. august 2003 Morten Frydenberg, Institut for Biostatistik. og hoste estimation sikkerhedsintervaller antagelr Normalfordelingen Prædiktion Statistisk test (udfra

Læs mere

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere. Overlevelse efter AMI Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Diabetes VF (Venticular fibrillation) WMI (Wall motion index) CHF (Cardiac Heart Failure) Køn og alder betragtes

Læs mere

Introduktion til GLIMMIX

Introduktion til GLIMMIX Introduktion til GLIMMIX Af Jens Dick-Nielsen jens.dick-nielsen@haxholdt-company.com 21.08.2008 Proc GLIMMIX GLIMMIX kan bruges til modeller, hvor de enkelte observationer ikke nødvendigvis er uafhængige.

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Stratificerede analyser

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Stratificerede analyser Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Stratificerede analyser Dødsstraf-eksempel Betyder morderens farve noget for risikoen for dødsstraf? 1 Dødsstraf-eksempel: data Variable: Dødsstraf

Læs mere

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 1 Ensidet variansanalyse Bartlett s test Tukey s test PROC

Læs mere

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Log-lineære modeller Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Kontingenstabel Contingency: mulighed/tilfælde Kontingenstabel: antal observationer (frekvenser)

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Epidemiologiske associationsmål

Epidemiologiske associationsmål Epidemiologiske associationsmål Mads Kamper-Jørgensen, lektor, maka@sund.ku.dk Afdeling for Social Medicin, Institut for Folkesundhedsvidenskab It og sundhed l 16. april 2015 l Dias nummer 1 Sidste gang

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts Århus 27. februar 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts Epibasic er nu opdateret til version 2.02 (obs. der er ikke ændret ved arket C-risk) Start med

Læs mere

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25. Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.-27 marts) Garvey et al. interesserer sig for sammenhængen mellem

Læs mere

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion Dagens program Økonometri 1 Dummy variable 4. marts 003 Emnet for denne forelæsning er kvalitative variable i den multiple regressionsmodel (Wooldridge kap. 7.5-7.6+8.1)! Husk at udfylde spørgeskema 3!

Læs mere

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

ORDINÆR EKSAMEN I EPIDEMIOLOGISKE METODER IT & Sundhed, 2. semester

ORDINÆR EKSAMEN I EPIDEMIOLOGISKE METODER IT & Sundhed, 2. semester D E T S U N D H E D S V I D E N S K A B E L I G E F A K U L T E T K Ø B E N H A V N S U N I V E R S I T E T B l e g d a m s v e j 3 B 2 2 0 0 K ø b e n h a v n N ORDINÆR EKSAMEN I EPIDEMIOLOGISKE METODER

Læs mere

Morten Frydenberg Biostatistik version dato:

Morten Frydenberg Biostatistik version dato: Tye og Tye 2 fejl Statistisk styrke Biostatistik uge 2 mandag Morten Frydenberg, Afdeling for Biostatistik Styrkeovervejelser i lanlægning af et studie Logistisk regression Præterm fødsel, rygning, alder,

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Statistik og Sandsynlighedsregning 1 Indledning til statistik, kap 2 i STAT Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 5. undervisningsuge, onsdag

Læs mere

Statistik og skalavalidering. Opgave 1

Statistik og skalavalidering. Opgave 1 Statistik og skalavalidering Opgave 1 Opgavens formål: Denne opgave har, ligesom det vil være tilfældet for de fleste andre øvelsesopgaver på dette kursus, flere forskellige formål. For det første et praktisk/teknisk

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Basal Statistik - SPSS Den generelle lineære model. Lene Theil Skovgaard 24. oktober 2017 Biokemisk iltforbrug,

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

Krydstabeller Forventede under nulhypotesen Ki-kvadrat test Residualanalyse Eksakt test

Krydstabeller Forventede under nulhypotesen Ki-kvadrat test Residualanalyse Eksakt test 1 Kontingenstabeller Krydstabeller Forventede under nulhypotesen Ki-kvadrat test Residualanalyse Eksakt test 2 Logaritme- og eksponentialfunktion 3 Logistisk regression Sammenligning af odds for 2 grupper

Læs mere

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer Program Simpel og multipel lineær regression Helle Sørensen E-mail: helle@math.ku.dk Simpel LR: repetition, konfidensintervaller, test, prædiktionsintervaller, mm. Multipel LR: estimation, valg af model,

Læs mere

En teoretisk årsagsmodel: Operationalisering: Vurdering af epidemiologiske undersøgelser. 1. Informationsproblemer Darts et eksempel på målefejl

En teoretisk årsagsmodel: Operationalisering: Vurdering af epidemiologiske undersøgelser. 1. Informationsproblemer Darts et eksempel på målefejl Vurdering af epidemiologiske undersøgelser Jørn Attermann. februar 00 I denne forelæsning vil vi se på fejl, som kan have betydning for fortolkningen af resultater fra epidemiologiske undersøgelser. Traditionelt

Læs mere