Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Størrelse: px
Starte visningen fra side:

Download "Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1"

Transkript

1 Basal Statistik Logistisk Regression Judith L. Jacobsen, PhD. Lene Theil Skovgaard Dagens Tekst Logistisk regression Binære data Logit transformation Prædiktion af sandsynligheder Odds ratio Case Control studier Lineær regression Helt de samme muligheder Nu bare på binære data Sædvanlig Linear Regression (Repetition) yi = b0 + b1 x1 i + b xi + ei, ei ~ N(0, σ ) eller: y ~ N( b + b x + b x i i i σ EKSEMPEL (DGA, s. 336): E(PE max ) = vægt højde, ) 3 Basal Statistik - Logistisk regression 1

2 Fortolkning Lineær Regression For en givet højde, vokser PE max med 1.04 cm H O pr kg kropsvægt For en given vægt, vokser PE max med cm H O pr cm højde Effekten af de enkelte forklarende variable er betinget af de øvrige variables tilstedeværelse i modellen Effekten af de forklarende variable er lineær 4 Andre Typer Udfald 0 1 variable Antal/Frekvens disse er heltal, fejlleddet kan ikke være normalfordelt se i stedet på middelværdien: E( y) = b0 + b1 x1 i + b xi Vi har stadig et problem: Middelværdi for 0-1 variable Middelværdi for antal 0, + [ ] p [ 0,1] 5 Sandsynligheder og Odds P = sandsynligheden for at noget forekommer p Odds = 1 p p = Odds = = = 1:1 P = 0.5 P = Odds = = Odds = = = 1: 3 = 19 :1 6 Basal Statistik - Logistisk regression

3 Sandss kan beregnes fra Odds p Odds = 1 p Odds (1- p) = p Odds - Odds p = p Odds = p + Odds p = (1+ Odds) p 10 Odds = 10 p = = Logits Et tredje mål for en chance for at noget forekommer: Logit = Ln(Odds) Odds er en funktion af logits Odds=exp logit Sandsynligheder er derfor også fkt af logit exp p = 1+ exp logit logit 8 Sandsynligheder, odds og logits p odds logits 0,00 0,000 0,10 0,111 -,197 0,0 0,50-1,386 0,30 0,49-0,847 0,40 0,667-0,406 0,50 1,000 0,000 0,75 3,000 1,099 0,95 19,000,944 1,00 9 Basal Statistik - Logistisk regression 3

4 Stratificerede Tabeller Sygdom Confounder Exposure Nej Ja Risiko (Z) Sandss for sygdom Z=1 nej a 1 b 1 P 1,nej ja c 1 d 1 P 1,ja Z= nej a B P,nej ja c d P,ja 10 Logistisk Model Når y er et dikotomt udfald, kan alm lineær regression ikke bruges, da den afhængige variabel kun har to niveauer e.g.: inficeret/ikke inficeret Logit transformation: logit( p) = ln p p ( 1 ) 11 Transformation Respons, y: Infektion(1) /ingen infektion(0) logit(p) = log(p/(1 - p)) = a + bx 1 0 Y I princippet plottet kan ikke laves x logit(p) b 1 a x 1 Basal Statistik - Logistisk regression 4

5 Chi-square Test En x tabel kan analyseres med Chi-sq test En stratificeret x tabel med Mantel Haenzel test En logistisk regression kan det samme og meget, meget mere 13 Eksempel Risikoen for at få en sår infektion, som funktion af alder og hvor lang tid operationen tager 0-1 respons variabel: Sår infektion (afhængig af alder og operations tid?) Obs inf optime age Obs inf optime age Basal Statistik - Logistisk regression 5

6 Analyse af en 0-1 respons variabel Responsvariabel binær ( 0 / 1 ) hvordan udtrykkes afhængighed af operationstid (optid) og alder (age) Model for p = P{Sårinfektion} ( [0,1])? Kan ikke bruge p = a + b x + b x! 1 1 da man går ud over [0,1] 16 Logistisk Regressions Model Binære udfald (f.x. 1 for succes ) Y { 0,1} Sandsynlighed for succes : { 1} [ 0,1] p = P Y = Odds for succes : Odds ratio ( grupper): OR p ω = [ 0, + ] 1 p ω p = 1 + ω p p 1 p 1 p [ 0, ] = Modellen (fortsat) Log-odds: logit( logit er link funktionen p p) = ln, 1 p [ + ] Linear prediktor: Prædikteret odds: logit( p) = b0 + b1 x1 + bx =η ω = exp( η) Prædikteret sandsynlighed: ω exp( η) p = = 1+ ω 1+ exp( η) 18 Basal Statistik - Logistisk regression 6

7 Logistisk Regression - Fortolkning To grupper, med sandsynligheder p 1 og p : p 1 p logit( p = 1) logit( p) ln ln 1 p1 1 p p p 1 = ln 1 p1 1 p = ln( OR) Lineære modeller for logit(p) giver sammenligninger via odds-ratios 19 Logistisk Regression i sårinfektion 0 Y = 1 ~ postoperativ sårinfektion ~ ingen postoperativ sårinfektion p = P{postoperativ sårinfektion} x 1 = operationstid i minutter x = alder i år Endelig model: logit( p) = x x exp( x x) p = 1+ exp( x x ) 1 0 Fortolkning Logistisk Regression Samme operationstid (T) Aldersforskel på 10 år (A + 10 vs. A) logit( p ) = T ( A + 10) 1 logit( p ) = T A ln( OR OR A+ 10, A A+ 10, A ) = = exp(0.353) = Basal Statistik - Logistisk regression 7

8 Hvad Betyder Det? OR A+ A 10, = exp(0.353) = 1.43 Når alderen øges med 10 år, stiger forholdet mellem patienter der får hhv. ikke får en sår infektion med en faktor 1.43, dvs. med 4.3% Odds-ratio refererer til forskel i odds for sygdom mellem to niveauer af en baggrundsvariabel. Udregning af Sandsynligheder p logit( p) = ln = b + b x + b x 1 p c p 0 1 1i i exp( b + b x + b x ) 0 1 1i i = 1 + exp( b0 + b1 x1 i + b xi ) c 1 1 p = 1 + exp( b + b x + b x ) 0 1 1i i 3 logit Eksemplet Giver ( P{ optime = 00 min, age = 60 years} ) = = = e p = 1+ e = 0.54 = Basal Statistik - Logistisk regression 8

9 Afhængighed af p på alder for forskellige operations tider 5 Afhængighed af p på operations tider for forskellige aldre 6 Hvad Betyder Interceptet? p logit( p) = ln = b + b x + b x 1 p 0 1 1i i Intercept er log-odds for sygdom hos en person med 0 på alle kovariater I sårinfektions tilfældet er det en person på 0 år som er opereret i 0 minutter ikke specielt meningsfuldt p x = x = 0 ln = b 1 p 1i i 0 7 Basal Statistik - Logistisk regression 9

10 Hypotese Testning H 0 : Ingen association mellem risiko faktor (optid) og udfald (infektion eller ikke) Hvordan evalueres denne hypotese?? Hældning Ho: b = 0 H1: b 0 Wald test: b Test værdi = SE( b) hvor χ (1) 0.95 = 3.84 χ (1) fordeling 8 Odds Ratio og Logistisk Regression Logistisk regressions model logit(p) = a + bx OR = exp(b(x x 1 )) for en ændring i (x x 1 ) enheder 9 Midtvejs Opsummering Vurder hvilken der er den afhængige variable og hvilken der er den uafhængige (forklarende) variabel Estimer skæring og hældning m. logistisk regression Etabler den logistiske regressionsformel Beregn OR for signifikante risiko faktorer Beregn sandsynlighed 30 Basal Statistik - Logistisk regression 10

11 Generalisering Vi kan mere end blot have én forklarende variabel, på to (evt. 3) niveauer Generalisering Den logistiske regressionsmodel kan generaliseres på følgende måder: X behøver ikke at være binær kan være Kategori variable med mere end to kategorier kvantitative interval- eller ratioskala variable. Der kan være mere end 1 uafhængig variabel 3 Programmering Af logistisk regression Flere procedurer i SAS Lidt forskelligt output Basal Statistik - Logistisk regression 11

12 Sårinfektions data (SAS) Direkte input af data: Kan naturligvis også indlæses fra en fil Infile "E:\Undervisning\Biostat\Basal\ opgaver\brem.txt" firstobs=; input inf optime age; Data brem; input inf optime age; Datalines; : ; Run; 34 Proc Genmod proc genmod data = brem descending; model inf = optime age / dist = binomial link = logit; estimate Operation optime 1 / exp; estimate Age age 1 / exp; Run; Descending dvs. 0 bliver referencen Estimate: Estimer forskellen på 1 min for optime Giv variablen en label Operation Exp: Ønsker en tilbage transformering vi opererer jo i logit er ln(odds) 35 SAS Output The GENMOD Procedure Model Information Data Set WORK.BREM Distribution Binomial Link Function Logit Dependent Variable inf Response Profile Ordered Value inf Total Frequency PROC GENMOD is modeling the probability that inf='1'. Criteria For Assessing Goodness Of Fit Criterion Value Log Likelihood Full Log Likelihood AIC (smaller is better) AICC (smaller is better) BIC (smaller is better) Basal Statistik - Logistisk regression 1

13 Analysis Of Maximum Likelihood Parameter Estimates Standard Wald 95% Confidence Wald Parameter DF Estimate Error Limits Chi-Sq Pr > ChiSq Intercept <.0001 optime age Scale Contrast Estimate Results Label Estimate SE Confidence Limits ChiSq Pr > ChiSq Operation Exp(Operation) Age Exp(Age) Konfidens Intervaller (1 α) c.i. = estimat ± z 1 α/ x std. error 95% konfidens interval for OR knyttet til en forskel på 1 år i alder ved operation: For ln(or): ± 1.96 x = ( ; ) For OR: exp[( ; )] = ( ; ) eller: e e = ( ; ) 38 Andre forskelle i Intervaller estimate Operation optime 60 / exp; estimate Age age 10 / exp; Output: Estimate SE Confidence Limits Chi-Sq Pr > ChiSq Op Exp(Op60) A Exp(A10) Basal Statistik - Logistisk regression 13

14 Proc Logistic Proc logistic data = brem descend; model inf = optime age; Run; Ingen class variabel, da optime & age er kontinuerte Hvis klasse-variabel Benyt et class-statement før model Husk option / param=ref og outc(param= 1 ) 40 SAS Output The LOGISTIC Procedure Model Information Data Set WORK.BREM Response Variable inf Number of Response Levels Model binary logit Optimization Technique Fisher's scoring Response Profile Ordered Value inf Total Frequency Probability modeled is inf='1'. Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC SC Log L Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 optime age Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits optime age Basal Statistik - Logistisk regression 14

15 Effekt af Skalering og Centrering af Kovariater Program: Data brem set brem; a50 = (age - 50) /10; op1 = (optime 60) / 60; Run; Proc logistic data = brem descend; model inf = op1 a50; * model inf(event=1) = op1 a50; Run; 43 Output: Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 op a Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits op a Intercept refererer til log(odds) for en person der har 0 på alle kovariater, men det er nu en person på 50 år, som er opereret i 1 time 44 Skalering Hvis kovariaterne divideres med en faktor: multipliceres estimaterne med faktoren multipliceres standardafvigelsen med faktoren Wald s test og p-værdi forbliver den samme 45 Basal Statistik - Logistisk regression 15

16 Centrering Hvis kovariaterne centreres omkring en værdi: estimaterne ændres ikke standardafvigelsen ændres ikke Wald s test og p-værdi forbliver den samme Interceptet kommer til at referere til log odds for den værdi af kovariaterne man centrerer omkring 46 Interceptet refererer til log odds for en person med kovariat værdier = dem, der er brugt til centrering ôdds pˆ 50,60 50,60 c.i.(odds c.i.(p 50,60 50,60 ) ) = = = = exp(.896) /( ) exp(.896± ) ( 0.041/(1.041),0.165/(1.165) ) = = = (0.041;0.1650) = (0.0355; 0.119) Sandsynligheden for infektion for en 0-person (50 år gl, opereret i 60 min) er 0.05, med 95% c.i. på (0.04, 0.11). 47 Centrering og Skalering i SAS data brem; set brem ; a50 = ( alder - 50 ) / 10 ; op1 = ( optid - 60 ) / 60 ; run ; proc genmod data = brem descending ; model inf = op1 a50 / dist = binomial ; ods output Estimates = est ; run ; data est ; set est; Odds = exp( Estimate ) ; Odds_l = exp( LowerCL ) ; Odds_u = exp( UpperCL ) ; if ( Parameter eq "Intercept" ) then do ; prob = Odds / (1 + Odds ) ; prob_l = OR_l / (1 + OR_l ) ; prob_u = OR_u / (1 + OR_u); end ; run ; 48 Basal Statistik - Logistisk regression 16

17 ODS output Alle procedurer i SAS har forskelligt ODS (dataset med output) output. Ods trace on off Kør proceduren Nu står alle de mulige ODS output, denne procedure kan lave, i loggen: Output Added: Name: ParameterEstimates Label: Analysis Of Parameter Estimates Template: stat.genmod.parameterestimates Path: Genmod.ParameterEstimates 49 Resultater Obs Parameter Estimate StdErr prob prob_l 1 Intercept -,8963 0,48 0,0533 0,0354 op1 0,4518 0,1896 1, , a50 0,3533 0,1454 1,4369 1,07066 Infektions-sandsynligheden for en 0-person (50-årig opereret 1 time) er 0.05 med et 95% c.i. på [0.03; 0.11] 50 Procedurer Samme analyse lidt forskelligt output Logistic Kun logistisk regression Giver OR estimates direkte Genmod Generaliseret lineær model Tillader brug af Estimates 51 Basal Statistik - Logistisk regression 17

18 Model Reduktion Wald test: Til at teste vigtigheden af en enkelt kovariat, f.x. H 0 : β k = 0. Under H 0, har vi tilnærmelsesvis: eller: estimate std. err. estimate std. err. ~ N ( 0,1) ~ X Dette er hvad SAS pr. default udregner, for hver parameter for sig. Ikke egnet til flere parametre ad gangen 1 5 Model Reduction II Likelihood-ratio-test: ln(likelihood-ratio) ~ X df Likelihood-ratio er forholdet mellem likelihood funktionens maksimum under to forskellige modeller, som kun adskiller sig ved at den mindste mangler en eller flere parametre er en sand undermodel LogQ er likelihood-ratio testet mod modellen med en parameter pr. observation 53 Model Reduktion III Hvilke variable og hvilke interaktioner skal inkluderes i regressionsmodellerne? Hierarkisk princip for interaktioner Hvis en model indeholder interaktionen mellem et vist antal variable, skal den også indeholde interaktionsparametre svarende til hver delmængde af disse variable inklusiv parametre for hovedvirkningen for disse variable og det såkaldte konstantled 54 Basal Statistik - Logistisk regression 18

19 SAS Output LogQ findes i SAS-output sammen med DF (frihedsgrader) som er antallet af observationer i datasættet minus antal parametre Forskellen LogQ mellem to modeller svarer til likelihood-ratio testet mellem to modeller. Skal vurderes i en χ -fordeling med df = forskel i frihedsgader 55 Vores Eksempel Vi har 194 obs. og 3 parametre (intercept, optid, alder) LogQ med df = 191 LogQ i sig selv er ikke meningsfyldt! Forskellen i LogQ mellem to (nestede) modeller svarer til likelihood-ratio test mellem de to modeller Vurderes i en X fordeling med df = forskellen i antallet af parametre i de to modeller Test af model med både optid og alder vs. kun optid: (191) vs (19): x = = 17.4, df = 1, p < (Lidt forskelligt fra Wald testet ) 56 Ordnede variable Kan modelleres linært eller som kategorier Basal Statistik - Logistisk regression 19

20 k tabel ordnede kategorier Data fra DGA: Sko størrelse CS < Total N Y Total Husk (kategoriske data): Test:x test for uafhængighed: 9.34 med 5 df; P = Opdeling af χ testet i test for linearitet og test for trend: χ total 9.9 (5) Logistisk regression: = χ (4) + χ = lin 1.7 trend 8.0 Model Difference df p logit(p i ) = β i 0 - Test for linearitet 1,78 4 0,776 logit(p i ) = α + β + S i 1,78 4 0,776 Test for trend 7,56 1 0,006 logit(p i ) = µ i 9,34 5 0,096 + (1) 59 Analyse af sko str. Data: Data sko; input cs $ skonr antal; cards; Y Y Y Y Y Y N N N N N N ; run; 60 Basal Statistik - Logistisk regression 0

21 Proc Logistic sko eks. proc logistic data = sko; weight antal; class skonr; model cs = skonr; run; Skonr: class numerisk Proc logistic data = sko; weight antal ; model cs = skonr; run ; 61 Proc Genmod sko eks. proc genmod data = sko ; class skonr ; model cs = skonr / dist = binomial link = logit weight antal ; run ; proc genmod data = sko ; model cs = skonr / dist = binomial link = logit ; weight antal ; run ; proc genmod data = sko ; model cs = / dist = binomial link = logit ; weight antal ; run ; Skonr: class numerisk Til Trend test 6 Fuld model (sko str.: class variable) Response Profile Ordered Total Total Value cs Frequency Weight 1 N Y Probability modeled is cs= N Class Value Design Variables Class Level Information skonr Model fit Statistics Intercept Intercept & Criterion Only Covariates AIC SC Log L Basal Statistik - Logistisk regression 1

22 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio Score Wald Type 3 Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq skonr Analysis of Maximum Likelihood Estimates Wald Parameter DF Estimate SE Chi-Square Pr > ChiSq Intercept <.0001 skonr skonr skonr skonr skonr Model: Class effekt af sko str. 64 Analysis of Maximum Likelihood Estimates Wald Parameter DF Estimate SE Chi-Square Pr > ChiSq Intercept <.0001 skonr skonr skonr skonr skonr Sandsynlighed for CS med sko str 3.5: estimerede log-odds: = 1.37 estimeret p: exp( 1.37)/(1+exp( 1.37)) = Linear Model Fit Intercept Intercept & Criterion Only Covariates AIC SC Log L Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio Score Wald Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept skonr Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits skonr Model: lineær effekt af sko str. 66 Basal Statistik - Logistisk regression

23 Model uden Sko nr. Kun Intercept Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Log L Log L Analysis Of Parameter Estimates Std Wald 95% Conf. Chi- Parameter DF Estimat Error Limits Square Intercept Pr>Chi <.0001 Scale Model Sammenligning Model - LogQ df Diff df p full 51,7 6 1, ,7753 linear 53, , ,0060 Intercept only 61,07 11 Testet i sidste linje er et trend test 68 TYPE 1 Hele molevitten kan faktisk klares med en Type 1 option i Proc Genmod proc genmod data = sko ; class skonr ; model cs = sko_lin skonr / dist = binomial link = logit type1; weight antal ; run ; Sko_lin = skonr 69 Basal Statistik - Logistisk regression 3

24 Resultat Type 1 LR Statistics For Type 1 Analysis Chi- Source Deviance DF Square Pr > ChiSq Intercept sko_lin skonr Trend test Test for linearitet 70 Øvelse Brug output til at udregne de prædikterede værdier for sandsynligheden for kejsersnit for kvinder med skonummer hhv. 4, 5 og 6, fra modellen med lineær effekt af skonummer 71 SPSS Analyze Regression Binary Logistic Outcome i Dependent Sko i enten Categorical eller Covariate Hvis Categorical kan en Contrast defineres Samt reference category ( Last eller First ) Options CL for exp(β) e.g. [95] % 7 Basal Statistik - Logistisk regression 4

25 SPSS HUSK først 73 Definer Kategorisk 74 Option 75 Basal Statistik - Logistisk regression 5

26 Resultat SPSS Wald test 95% C.I.for EXP(B) B S.E. Wald df Sig. Exp(B) Lower Upper Step 1 a Skostr 8,637 5,14 Skostr(1) 1,415,605 5,473 1,019 4,118 1,5813,477 Skostr() 1,53,535 5,493 1,019 3,500 1,8 9,978 Skostr(3),847,549,380 1,13,333,795 6,846 Skostr(4),871,54,767 1,096,390,856 6,673 Skostr(5),890,504 3,119 1,077,435,907 6,537 Constant -,639,3765,003 1,000,071 a. Variable(s) entered on step 1: Skostr. Bemærk: Referencekategorien vises ikke B kolonnen = logitværdierne Exp(B) = odds-ratio værdierne 76 Wald Test To typer af nul-hypoteser H 0 : Risikoen er den samme i alle grupper β 1 = β =..= β k = β H0 ab : Risikoen er den samme i to forskellige grupper β a =β b = β ab 77 Wald Parvis Definer den ene gruppe som reference estimer logitforskellen (β b -β a ) og beregn SE på estimatet Z=(β b -β a )/SE ~ en std normalfordeling Wald = Z ~ chi-i-anden fordeling med 1 frihedsgrad (df) 78 Basal Statistik - Logistisk regression 6

27 Wald Mere end Grupper Wald testet for hypotesen: β 1 = β =..= β k = β Risikoen er den samme i alle grupper En generalisering af testet for to grupper, ~ chi-i-anden fordeling med antal df = antal grupper minus 1 79 Case Control Studier Psykologer Case-kontrol studies I et case-kontrol-studie udvælges: cases (sygdomstilfælde) som er verificeret fra et register eller lignende kontroller, som er personer der repræsenterer den population hvorfra cases stammer Personer i case-kontrol-studier udvælges altså på baggrund af udfaldet. Typisk fastsættes forholdet mellem antallet af cases og kontroller på forhånd 81 Basal Statistik - Logistisk regression 7

28 Hvis en variabel har betydning for sygdommens udvikling: Forskellig fordeling af variablen mellem cases og kontroller. Sandsynligheden for at være en case (i populationen), p{sygdom} kan ikke estimeres ud fra et case-kontrol studie. Men effekten af kovariaterne på sygdomssandsynligheden kan! 8 Case-kontrol Studier Prevalens i populationen: p p = P{ case} = odds(case) 1 p Udvælgelsesbrøker, dvs. inklusionssandsynligheder π 0 ogπ 1 : P {inklusion i studiet case } = π 1 P {inklusion i studiet control } = π 0 83 Case Kontrol I et case-kontrol studie observerer man antallet af cases og antallet af kontroller, betinget af at disse faktisk er med i studiet Afhænger af diverse kovariater (det er det man interesseret i) og inklusionssandsynlighederne (som man ikke er interesseret i) 84 Basal Statistik - Logistisk regression 8

29 85 Logistisk Regression Model for populationen: p ln = b0 + b1 x1 + b x 1 p Model for det observerede: ln = [ odds( case incl. )] p 1 ln ln 1 p + π = π 0 π 1 = ln b b1 x1 + b x π 0 86 Analyse af P{case inklusion} dvs. binære observationer: 1 Y = 0 case control Effekt af kovariater estimeres korrekt Intercept uden mening afhænger af π 0 og π 1 der sædvanligvis er ukendte 87 Basal Statistik - Logistisk regression 9

30 Strategi I multipel Regression Logistisk eller Almindelig Psykologer Prioritering af Variable 1. De primære variable er de uafhængige variable, som har særlig faglig interesse Sammenhængene mellem de primære variable og den afhængige variabel er de primære sammenhænge. De sekundære variable er dem, hvis eneste funktion er at optræde som kontrolvariable Sammenhængene mellem den afhængige variabel og de sekundære variable omtales som sekundære sammenhænge 89 Analyse Strategi 1. Modellens primære struktur drejer sig om alt det, der har direkte reference til de faglige problemer, der skal belyses.. Modellens sekundære struktur er alt det ved modellen, der ikke henviser til disse problemer. Kan på omfatte alt fra modelegenskaber, der kan motiveres ud fra a) den teoretiske referenceramme, b) helt åbne spørgsmål, c) antagelser, der er motiveret af ønsket om at komme til at arbejde med enkle modeller, fungerer i praksis 90 Basal Statistik - Logistisk regression 30

31 To Faser Foretag analysen i to faser, hvor den første fase tager sig af modellens sekundære struktur, mens den anden fase indeholder analysen af de primære problemer 91 1) Indledende Modelkonstruktion Definition af startmodel. Startmodellen bør indeholde hele den primære modelstruktur og så meget af den sekundære struktur, som det i praksis er muligt at arbejde med Modelsøgning. Trinvis søgning efter en model med en mere enkel sekundær struktur Modelkontrol. Kontrol af, at der ikke er åbenlyse tegn på at modellen er udtryk for overforenkling 9 ) Analyse af primære problemstillinger Test af primære hypoteser. NB.: disse test kan resultere i at nogle af de primære variable skal fjernes fra modellen Modelkontrol Estimation og tolkning af primære parametre. I praksis sker dette sammen med beregningerne af teststørrelserne for de primære hypoteser. De har dog først interesse, hvis modelkontrollen har vist, at der ikke ser ud til at være problemer med modellen 93 Basal Statistik - Logistisk regression 31

32 Variabel reduktion Hvis vi har en kategorisk variabel på e.g. 4 niveauer Det kan være smart at sammenlægge niveauer (fra 4 til fx) Måske er de lettere sammenfaldende eller der er få i én af grupperne For detaljeret opdeling kan give en variation, der overskygger evt. signifikanser Rækkefølgen af reduktion kan også have betydning 94 Oversigt over Teknikker Respons Kovariater Dikotome Kategoriske Kontinuerte Kategoriske og Kontinuerte Dikotome x -tabeller χ test Logistisk regression Kategoriske Kontingens tabeller / χ test Gen. Logistisk regression Ordinale Vanskeligt, e.g. proportional odds models Kontinuerte Mann Whitney Wilcon sign rank Kruskal - Wallis - Friedman Robust multipel regression Normal Fordeling T-test Parret / uparret Varians Analyse En- / to-sidet Kovarians analyse Multipel regression Censorede data Log-rank test Cox regression Korrelerede Normalt ford. Varians komponent Modeller Modeller for gentagne målinger 95 Tips & tricks Hvis vi vil bestemme hvad der er vores success model inf(event=1) = op1 a50 96 Basal Statistik - Logistisk regression 3

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Løsning til opgave i logistisk regression

Løsning til opgave i logistisk regression Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator

Læs mere

Lineær og logistisk regression

Lineær og logistisk regression Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Dagens program Lineær regression

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

Logistisk regression

Logistisk regression Logistisk regression Test af antagelsen om lineære effekter Modelkonstruktion og modelsøgning Hvilke variable og hvilke interaktioner skal inkluderes i regressionsmodellerne? 1 Logistiske regressionsmodeller

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018 Faculty of Health Sciences Basal Statistik Logistisk regression mm. Lene Theil Skovgaard 5. marts 2018 1 / 22 APPENDIX vedr. SPSS svarende til diverse slides: To-gange-to tabeller, s. 3 Plot af binære

Læs mere

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistiske Modeller 1: Kontingenstabeller i SAS Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.

Læs mere

Basal Statistik for medicinske PhD-studerende November 2008

Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Simpel og multipel logistisk regression

Simpel og multipel logistisk regression Faculty of Health Sciences Logistisk regression Simpel og multipel logistisk regression 16. Maj 2012 Analyse af en binær responsvariabel. syg/rask, død/levende, ja/nej... Ud fra en eller flere forklarende

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

Postoperative komplikationer

Postoperative komplikationer Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Eksamensopgave E05 Socialklasse og kronisk sygdom Data: Tværsnitsundersøgelse fra 1986 Datamaterialet indeholder: Køn, alder, Højest opnåede

Læs mere

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Sammenhæng

Læs mere

Opgavebesvarelse, logistisk regression

Opgavebesvarelse, logistisk regression Opgavebesvarelse, logistisk regression Data ligger i rop.xls på kursushjemmesiden: http://staff.pubhealth.ku.dk/ jufo/courses/logistic/ Når du har gemt data på din computer, kan det indlæses i SAS med

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab Logistis regression Statisti Kandidatuddannelsen i Folesundhedsvidensab Multipel logistis regression Antagelser: Binære observationer (Y i, i=,.,n) f.es Ja/Nej Høj/Lav Død/Levende Kodet: / 0 Y i uafhængige

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

Basal Statistik Kategoriske Data

Basal Statistik Kategoriske Data Basal Statistik Kategoriske Data 8 oktober 2013 E 2013 Basal Statistik - Kategoriske data Michael Gamborg Institut for sygdomsforebyggelse Københavns Universitetshospital michael.orland.gamborg@regionh.dk

Læs mere

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere. Overlevelse efter AMI Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Diabetes VF (Venticular fibrillation) WMI (Wall motion index) CHF (Cardiac Heart Failure) Køn og alder betragtes

Læs mere

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer. Regressionsanalyser Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer. Hvilke faglige problemer kan man løse vha. regressionsanalyser? 1 Regressionsanalyser Det primære problem

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Morten Frydenberg 26. april 2004

Morten Frydenberg 26. april 2004 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik RESUME: 2 2. gang: 2002 Institut for Biostatistik, Århus Universitet MPH. studieår Specialmodul 4 Cand. San. uddannelsen.

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:

Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: 1 IHD-Lexis 1.1 Spørgsmål 1 Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: data ihdfreq; input eksp alder pyrs cases; lpyrs=log(pyrs); cards; 0 2 346.87 2 0 1 979.34 12 0 0 699.14

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Log-lineære modeller Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Kontingenstabel Contingency: mulighed/tilfælde Kontingenstabel: antal observationer (frekvenser)

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser Mantel-Haensel analyser Stratificerede epidemiologiske analyser 1 Den epidemiologiske synsvinkel: 1) Oftest asymmetriske (kausale) sammenhænge (Eksposition Sygdom/død) 2) Risikoen vurderes bedst ved hjælp

Læs mere

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Formål med Øvelsen: Formålet med øvelsen er at analysere om risikoen for død er forbundet med to forskellige vacciner BCG (mod

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Mantel-Haenszel analyser Mantel-Haenszel analyser Sidst lærte vi om stratificerede analyser. I dag kigger vi på et specialtilfælde: både exposure

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Logistisk regression

Logistisk regression Logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside: www.biostat.ku.dk/~sr/forskningsaar/regression2012/

Læs mere

Uge 13 referat hold 4

Uge 13 referat hold 4 Uge 13 referat hold 4 Gruppearbejde 1a: Er variablen kvotient inkluderet på en hensigtsmæssig måde? Der er to problemer med kvotient: 1) Den er trunkeret ved 6.9 og 10.0, løsningen er at indføre dummyer

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Introduktion til GLIMMIX

Introduktion til GLIMMIX Introduktion til GLIMMIX Af Jens Dick-Nielsen jens.dick-nielsen@haxholdt-company.com 21.08.2008 Proc GLIMMIX GLIMMIX kan bruges til modeller, hvor de enkelte observationer ikke nødvendigvis er uafhængige.

Læs mere

Logistisk regression

Logistisk regression Logistisk regression http://biostat.ku.dk/ kach/css2 Thomas A Gerds & Karl B Christensen 1 / 18 Logistisk regression I dag 1 Binær outcome variable død : i live syg : rask gravid : ikke gravid etc 1 prædiktor

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Logistisk regression

Logistisk regression Logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk 21. marts 2013 Dagens program Chi-i-anden (χ 2 )-testet Sandsynligheder,

Læs mere

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineær regression i SAS. Lineær regression i SAS p.1/20 Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression

Læs mere

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten. Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,

Læs mere

Ikke-parametriske tests

Ikke-parametriske tests Ikke-parametriske tests 2 Dagens menu t testen Hvordan var det nu lige det var? Wilcoxson Mann Whitney U Kruskall Wallis Friedman Kendalls og Spearmans correlation 3 t-testen Patient Drug Placebo difference

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl Eksamen 2018 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 20-02-2018 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,,

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Dag 6: Interaktion. Overlevelsesanalyse

Dag 6: Interaktion. Overlevelsesanalyse Dag 6: Interaktion. Overlevelsesanalyse How does CHD depend on gender and hypertension? Males: hypertension chd01 Females: Frequency Row Pct 0 1 Total ---------+--------+--------+ 0 352 95 447 78.75 21.25

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Besvarelse af vitcap -opgaven

Besvarelse af vitcap -opgaven Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.

Læs mere

Statistiske principper

Statistiske principper Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

9. Chi-i-anden test, case-control data, logistisk regression.

9. Chi-i-anden test, case-control data, logistisk regression. Biostatistik - Cand.Scient.San. 2. semester Karl Bang Christensen Biostatististisk afdeling, KU kach@biostat.ku.dk, 35327491 9. Chi-i-anden test, case-control data, logistisk regression. http://biostat.ku.dk/~kach/css2014/

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018 Faculty of Health Sciences Basal Statistik Overlevelsesanalyse Lene Theil Skovgaard 12. marts 2018 1 / 12 APPENDIX vedr. SPSS svarende til diverse slides: Kaplan-Meier kurver, s. 3 Kumulerede incidenser

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Træningsaktiviteter dag 3

Træningsaktiviteter dag 3 Træningsaktiviteter dag 3 I træningsaktiviteterne skal I arbejde videre med Framingham data og risikoen for hjertesygdom. I skal dels lave MH-analyser som vi gjorde i timerne og dels lave en multipel logistisk

Læs mere

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk

Læs mere

Morten Frydenberg Biostatistik version dato:

Morten Frydenberg Biostatistik version dato: Caerphilly studiet Design og Data Biostatistik uge 14 mandag Morten Frydenberg, Afdeling for Biostatistik Poisson regression En primær tidsakse og ikke stykkevise konstante rater Cox proportional hazard

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model Epidemiologi og biostatistik. Uge 5, torsdag. marts 1 Morten Frydenberg, Institut for Biostatistik. 1 Analyse af overlevelsesdata (ventetidsdata) Censurering (højre + andet) Kaplan-Meyer kurver Det statistiske

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala 3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere