Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1

Størrelse: px
Starte visningen fra side:

Download "Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1"

Transkript

1 Basal Statistik Logistisk Regression Judith L. Jacobsen, PhD. Lene Theil Skovgaard Dagens Tekst Logistisk regression Binære data Logit transformation Prædiktion af sandsynligheder Odds ratio Case Control studier Lineær regression Helt de samme muligheder Nu bare på binære data Sædvanlig Linear Regression (Repetition) yi = b0 + b1 x1 i + b xi + ei, ei ~ N(0, σ ) eller: y ~ N( b + b x + b x i i i σ EKSEMPEL (DGA, s. 336): E(PE max ) = vægt højde, ) 3 Basal Statistik - Logistisk regression 1

2 Fortolkning Lineær Regression For en givet højde, vokser PE max med 1.04 cm H O pr kg kropsvægt For en given vægt, vokser PE max med cm H O pr cm højde Effekten af de enkelte forklarende variable er betinget af de øvrige variables tilstedeværelse i modellen Effekten af de forklarende variable er lineær 4 Andre Typer Udfald 0 1 variable Antal/Frekvens disse er heltal, fejlleddet kan ikke være normalfordelt se i stedet på middelværdien: E( y) = b0 + b1 x1 i + b xi Vi har stadig et problem: Middelværdi for 0-1 variable Middelværdi for antal 0, + [ ] p [ 0,1] 5 Sandsynligheder og Odds P = sandsynligheden for at noget forekommer p Odds = 1 p p = Odds = = = 1:1 P = 0.5 P = Odds = = Odds = = = 1: 3 = 19 :1 6 Basal Statistik - Logistisk regression

3 Sandss kan beregnes fra Odds p Odds = 1 p Odds (1- p) = p Odds - Odds p = p Odds = p + Odds p = (1+ Odds) p 10 Odds = 10 p = = Logits Et tredje mål for en chance for at noget forekommer: Logit = Ln(Odds) Odds er en funktion af logits Odds=exp logit Sandsynligheder er derfor også fkt af logit exp p = 1+ exp logit logit 8 Sandsynligheder, odds og logits p odds logits 0,00 0,000 0,10 0,111 -,197 0,0 0,50-1,386 0,30 0,49-0,847 0,40 0,667-0,406 0,50 1,000 0,000 0,75 3,000 1,099 0,95 19,000,944 1,00 9 Basal Statistik - Logistisk regression 3

4 Stratificerede Tabeller Sygdom Confounder Exposure Nej Ja Risiko (Z) Sandss for sygdom Z=1 nej a 1 b 1 P 1,nej ja c 1 d 1 P 1,ja Z= nej a B P,nej ja c d P,ja 10 Logistisk Model Når y er et dikotomt udfald, kan alm lineær regression ikke bruges, da den afhængige variabel kun har to niveauer e.g.: inficeret/ikke inficeret Logit transformation: logit( p) = ln p p ( 1 ) 11 Transformation Respons, y: Infektion(1) /ingen infektion(0) logit(p) = log(p/(1 - p)) = a + bx 1 0 Y I princippet plottet kan ikke laves x logit(p) b 1 a x 1 Basal Statistik - Logistisk regression 4

5 Chi-square Test En x tabel kan analyseres med Chi-sq test En stratificeret x tabel med Mantel Haenzel test En logistisk regression kan det samme og meget, meget mere 13 Eksempel Risikoen for at få en sår infektion, som funktion af alder og hvor lang tid operationen tager 0-1 respons variabel: Sår infektion (afhængig af alder og operations tid?) Obs inf optime age Obs inf optime age Basal Statistik - Logistisk regression 5

6 Analyse af en 0-1 respons variabel Responsvariabel binær ( 0 / 1 ) hvordan udtrykkes afhængighed af operationstid (optid) og alder (age) Model for p = P{Sårinfektion} ( [0,1])? Kan ikke bruge p = a + b x + b x! 1 1 da man går ud over [0,1] 16 Logistisk Regressions Model Binære udfald (f.x. 1 for succes ) Y { 0,1} Sandsynlighed for succes : { 1} [ 0,1] p = P Y = Odds for succes : Odds ratio ( grupper): OR p ω = [ 0, + ] 1 p ω p = 1 + ω p p 1 p 1 p [ 0, ] = Modellen (fortsat) Log-odds: logit( logit er link funktionen p p) = ln, 1 p [ + ] Linear prediktor: Prædikteret odds: logit( p) = b0 + b1 x1 + bx =η ω = exp( η) Prædikteret sandsynlighed: ω exp( η) p = = 1+ ω 1+ exp( η) 18 Basal Statistik - Logistisk regression 6

7 Logistisk Regression - Fortolkning To grupper, med sandsynligheder p 1 og p : p 1 p logit( p = 1) logit( p) ln ln 1 p1 1 p p p 1 = ln 1 p1 1 p = ln( OR) Lineære modeller for logit(p) giver sammenligninger via odds-ratios 19 Logistisk Regression i sårinfektion 0 Y = 1 ~ postoperativ sårinfektion ~ ingen postoperativ sårinfektion p = P{postoperativ sårinfektion} x 1 = operationstid i minutter x = alder i år Endelig model: logit( p) = x x exp( x x) p = 1+ exp( x x ) 1 0 Fortolkning Logistisk Regression Samme operationstid (T) Aldersforskel på 10 år (A + 10 vs. A) logit( p ) = T ( A + 10) 1 logit( p ) = T A ln( OR OR A+ 10, A A+ 10, A ) = = exp(0.353) = Basal Statistik - Logistisk regression 7

8 Hvad Betyder Det? OR A+ A 10, = exp(0.353) = 1.43 Når alderen øges med 10 år, stiger forholdet mellem patienter der får hhv. ikke får en sår infektion med en faktor 1.43, dvs. med 4.3% Odds-ratio refererer til forskel i odds for sygdom mellem to niveauer af en baggrundsvariabel. Udregning af Sandsynligheder p logit( p) = ln = b + b x + b x 1 p c p 0 1 1i i exp( b + b x + b x ) 0 1 1i i = 1 + exp( b0 + b1 x1 i + b xi ) c 1 1 p = 1 + exp( b + b x + b x ) 0 1 1i i 3 logit Eksemplet Giver ( P{ optime = 00 min, age = 60 years} ) = = = e p = 1+ e = 0.54 = Basal Statistik - Logistisk regression 8

9 Afhængighed af p på alder for forskellige operations tider 5 Afhængighed af p på operations tider for forskellige aldre 6 Hvad Betyder Interceptet? p logit( p) = ln = b + b x + b x 1 p 0 1 1i i Intercept er log-odds for sygdom hos en person med 0 på alle kovariater I sårinfektions tilfældet er det en person på 0 år som er opereret i 0 minutter ikke specielt meningsfuldt p x = x = 0 ln = b 1 p 1i i 0 7 Basal Statistik - Logistisk regression 9

10 Hypotese Testning H 0 : Ingen association mellem risiko faktor (optid) og udfald (infektion eller ikke) Hvordan evalueres denne hypotese?? Hældning Ho: b = 0 H1: b 0 Wald test: b Test værdi = SE( b) hvor χ (1) 0.95 = 3.84 χ (1) fordeling 8 Odds Ratio og Logistisk Regression Logistisk regressions model logit(p) = a + bx OR = exp(b(x x 1 )) for en ændring i (x x 1 ) enheder 9 Midtvejs Opsummering Vurder hvilken der er den afhængige variable og hvilken der er den uafhængige (forklarende) variabel Estimer skæring og hældning m. logistisk regression Etabler den logistiske regressionsformel Beregn OR for signifikante risiko faktorer Beregn sandsynlighed 30 Basal Statistik - Logistisk regression 10

11 Generalisering Vi kan mere end blot have én forklarende variabel, på to (evt. 3) niveauer Generalisering Den logistiske regressionsmodel kan generaliseres på følgende måder: X behøver ikke at være binær kan være Kategori variable med mere end to kategorier kvantitative interval- eller ratioskala variable. Der kan være mere end 1 uafhængig variabel 3 Programmering Af logistisk regression Flere procedurer i SAS Lidt forskelligt output Basal Statistik - Logistisk regression 11

12 Sårinfektions data (SAS) Direkte input af data: Kan naturligvis også indlæses fra en fil Infile "E:\Undervisning\Biostat\Basal\ opgaver\brem.txt" firstobs=; input inf optime age; Data brem; input inf optime age; Datalines; : ; Run; 34 Proc Genmod proc genmod data = brem descending; model inf = optime age / dist = binomial link = logit; estimate Operation optime 1 / exp; estimate Age age 1 / exp; Run; Descending dvs. 0 bliver referencen Estimate: Estimer forskellen på 1 min for optime Giv variablen en label Operation Exp: Ønsker en tilbage transformering vi opererer jo i logit er ln(odds) 35 SAS Output The GENMOD Procedure Model Information Data Set WORK.BREM Distribution Binomial Link Function Logit Dependent Variable inf Response Profile Ordered Value inf Total Frequency PROC GENMOD is modeling the probability that inf='1'. Criteria For Assessing Goodness Of Fit Criterion Value Log Likelihood Full Log Likelihood AIC (smaller is better) AICC (smaller is better) BIC (smaller is better) Basal Statistik - Logistisk regression 1

13 Analysis Of Maximum Likelihood Parameter Estimates Standard Wald 95% Confidence Wald Parameter DF Estimate Error Limits Chi-Sq Pr > ChiSq Intercept <.0001 optime age Scale Contrast Estimate Results Label Estimate SE Confidence Limits ChiSq Pr > ChiSq Operation Exp(Operation) Age Exp(Age) Konfidens Intervaller (1 α) c.i. = estimat ± z 1 α/ x std. error 95% konfidens interval for OR knyttet til en forskel på 1 år i alder ved operation: For ln(or): ± 1.96 x = ( ; ) For OR: exp[( ; )] = ( ; ) eller: e e = ( ; ) 38 Andre forskelle i Intervaller estimate Operation optime 60 / exp; estimate Age age 10 / exp; Output: Estimate SE Confidence Limits Chi-Sq Pr > ChiSq Op Exp(Op60) A Exp(A10) Basal Statistik - Logistisk regression 13

14 Proc Logistic Proc logistic data = brem descend; model inf = optime age; Run; Ingen class variabel, da optime & age er kontinuerte Hvis klasse-variabel Benyt et class-statement før model Husk option / param=ref og outc(param= 1 ) 40 SAS Output The LOGISTIC Procedure Model Information Data Set WORK.BREM Response Variable inf Number of Response Levels Model binary logit Optimization Technique Fisher's scoring Response Profile Ordered Value inf Total Frequency Probability modeled is inf='1'. Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC SC Log L Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 optime age Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits optime age Basal Statistik - Logistisk regression 14

15 Effekt af Skalering og Centrering af Kovariater Program: Data brem set brem; a50 = (age - 50) /10; op1 = (optime 60) / 60; Run; Proc logistic data = brem descend; model inf = op1 a50; * model inf(event=1) = op1 a50; Run; 43 Output: Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept <.0001 op a Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits op a Intercept refererer til log(odds) for en person der har 0 på alle kovariater, men det er nu en person på 50 år, som er opereret i 1 time 44 Skalering Hvis kovariaterne divideres med en faktor: multipliceres estimaterne med faktoren multipliceres standardafvigelsen med faktoren Wald s test og p-værdi forbliver den samme 45 Basal Statistik - Logistisk regression 15

16 Centrering Hvis kovariaterne centreres omkring en værdi: estimaterne ændres ikke standardafvigelsen ændres ikke Wald s test og p-værdi forbliver den samme Interceptet kommer til at referere til log odds for den værdi af kovariaterne man centrerer omkring 46 Interceptet refererer til log odds for en person med kovariat værdier = dem, der er brugt til centrering ôdds pˆ 50,60 50,60 c.i.(odds c.i.(p 50,60 50,60 ) ) = = = = exp(.896) /( ) exp(.896± ) ( 0.041/(1.041),0.165/(1.165) ) = = = (0.041;0.1650) = (0.0355; 0.119) Sandsynligheden for infektion for en 0-person (50 år gl, opereret i 60 min) er 0.05, med 95% c.i. på (0.04, 0.11). 47 Centrering og Skalering i SAS data brem; set brem ; a50 = ( alder - 50 ) / 10 ; op1 = ( optid - 60 ) / 60 ; run ; proc genmod data = brem descending ; model inf = op1 a50 / dist = binomial ; ods output Estimates = est ; run ; data est ; set est; Odds = exp( Estimate ) ; Odds_l = exp( LowerCL ) ; Odds_u = exp( UpperCL ) ; if ( Parameter eq "Intercept" ) then do ; prob = Odds / (1 + Odds ) ; prob_l = OR_l / (1 + OR_l ) ; prob_u = OR_u / (1 + OR_u); end ; run ; 48 Basal Statistik - Logistisk regression 16

17 ODS output Alle procedurer i SAS har forskelligt ODS (dataset med output) output. Ods trace on off Kør proceduren Nu står alle de mulige ODS output, denne procedure kan lave, i loggen: Output Added: Name: ParameterEstimates Label: Analysis Of Parameter Estimates Template: stat.genmod.parameterestimates Path: Genmod.ParameterEstimates 49 Resultater Obs Parameter Estimate StdErr prob prob_l 1 Intercept -,8963 0,48 0,0533 0,0354 op1 0,4518 0,1896 1, , a50 0,3533 0,1454 1,4369 1,07066 Infektions-sandsynligheden for en 0-person (50-årig opereret 1 time) er 0.05 med et 95% c.i. på [0.03; 0.11] 50 Procedurer Samme analyse lidt forskelligt output Logistic Kun logistisk regression Giver OR estimates direkte Genmod Generaliseret lineær model Tillader brug af Estimates 51 Basal Statistik - Logistisk regression 17

18 Model Reduktion Wald test: Til at teste vigtigheden af en enkelt kovariat, f.x. H 0 : β k = 0. Under H 0, har vi tilnærmelsesvis: eller: estimate std. err. estimate std. err. ~ N ( 0,1) ~ X Dette er hvad SAS pr. default udregner, for hver parameter for sig. Ikke egnet til flere parametre ad gangen 1 5 Model Reduction II Likelihood-ratio-test: ln(likelihood-ratio) ~ X df Likelihood-ratio er forholdet mellem likelihood funktionens maksimum under to forskellige modeller, som kun adskiller sig ved at den mindste mangler en eller flere parametre er en sand undermodel LogQ er likelihood-ratio testet mod modellen med en parameter pr. observation 53 Model Reduktion III Hvilke variable og hvilke interaktioner skal inkluderes i regressionsmodellerne? Hierarkisk princip for interaktioner Hvis en model indeholder interaktionen mellem et vist antal variable, skal den også indeholde interaktionsparametre svarende til hver delmængde af disse variable inklusiv parametre for hovedvirkningen for disse variable og det såkaldte konstantled 54 Basal Statistik - Logistisk regression 18

19 SAS Output LogQ findes i SAS-output sammen med DF (frihedsgrader) som er antallet af observationer i datasættet minus antal parametre Forskellen LogQ mellem to modeller svarer til likelihood-ratio testet mellem to modeller. Skal vurderes i en χ -fordeling med df = forskel i frihedsgader 55 Vores Eksempel Vi har 194 obs. og 3 parametre (intercept, optid, alder) LogQ med df = 191 LogQ i sig selv er ikke meningsfyldt! Forskellen i LogQ mellem to (nestede) modeller svarer til likelihood-ratio test mellem de to modeller Vurderes i en X fordeling med df = forskellen i antallet af parametre i de to modeller Test af model med både optid og alder vs. kun optid: (191) vs (19): x = = 17.4, df = 1, p < (Lidt forskelligt fra Wald testet ) 56 Ordnede variable Kan modelleres linært eller som kategorier Basal Statistik - Logistisk regression 19

20 k tabel ordnede kategorier Data fra DGA: Sko størrelse CS < Total N Y Total Husk (kategoriske data): Test:x test for uafhængighed: 9.34 med 5 df; P = Opdeling af χ testet i test for linearitet og test for trend: χ total 9.9 (5) Logistisk regression: = χ (4) + χ = lin 1.7 trend 8.0 Model Difference df p logit(p i ) = β i 0 - Test for linearitet 1,78 4 0,776 logit(p i ) = α + β + S i 1,78 4 0,776 Test for trend 7,56 1 0,006 logit(p i ) = µ i 9,34 5 0,096 + (1) 59 Analyse af sko str. Data: Data sko; input cs $ skonr antal; cards; Y Y Y Y Y Y N N N N N N ; run; 60 Basal Statistik - Logistisk regression 0

21 Proc Logistic sko eks. proc logistic data = sko; weight antal; class skonr; model cs = skonr; run; Skonr: class numerisk Proc logistic data = sko; weight antal ; model cs = skonr; run ; 61 Proc Genmod sko eks. proc genmod data = sko ; class skonr ; model cs = skonr / dist = binomial link = logit weight antal ; run ; proc genmod data = sko ; model cs = skonr / dist = binomial link = logit ; weight antal ; run ; proc genmod data = sko ; model cs = / dist = binomial link = logit ; weight antal ; run ; Skonr: class numerisk Til Trend test 6 Fuld model (sko str.: class variable) Response Profile Ordered Total Total Value cs Frequency Weight 1 N Y Probability modeled is cs= N Class Value Design Variables Class Level Information skonr Model fit Statistics Intercept Intercept & Criterion Only Covariates AIC SC Log L Basal Statistik - Logistisk regression 1

22 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio Score Wald Type 3 Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq skonr Analysis of Maximum Likelihood Estimates Wald Parameter DF Estimate SE Chi-Square Pr > ChiSq Intercept <.0001 skonr skonr skonr skonr skonr Model: Class effekt af sko str. 64 Analysis of Maximum Likelihood Estimates Wald Parameter DF Estimate SE Chi-Square Pr > ChiSq Intercept <.0001 skonr skonr skonr skonr skonr Sandsynlighed for CS med sko str 3.5: estimerede log-odds: = 1.37 estimeret p: exp( 1.37)/(1+exp( 1.37)) = Linear Model Fit Intercept Intercept & Criterion Only Covariates AIC SC Log L Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio Score Wald Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr > ChiSq Intercept skonr Odds Ratio Estimates Point 95% Wald Effect Estimate Confidence Limits skonr Model: lineær effekt af sko str. 66 Basal Statistik - Logistisk regression

23 Model uden Sko nr. Kun Intercept Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Log L Log L Analysis Of Parameter Estimates Std Wald 95% Conf. Chi- Parameter DF Estimat Error Limits Square Intercept Pr>Chi <.0001 Scale Model Sammenligning Model - LogQ df Diff df p full 51,7 6 1, ,7753 linear 53, , ,0060 Intercept only 61,07 11 Testet i sidste linje er et trend test 68 TYPE 1 Hele molevitten kan faktisk klares med en Type 1 option i Proc Genmod proc genmod data = sko ; class skonr ; model cs = sko_lin skonr / dist = binomial link = logit type1; weight antal ; run ; Sko_lin = skonr 69 Basal Statistik - Logistisk regression 3

24 Resultat Type 1 LR Statistics For Type 1 Analysis Chi- Source Deviance DF Square Pr > ChiSq Intercept sko_lin skonr Trend test Test for linearitet 70 Øvelse Brug output til at udregne de prædikterede værdier for sandsynligheden for kejsersnit for kvinder med skonummer hhv. 4, 5 og 6, fra modellen med lineær effekt af skonummer 71 SPSS Analyze Regression Binary Logistic Outcome i Dependent Sko i enten Categorical eller Covariate Hvis Categorical kan en Contrast defineres Samt reference category ( Last eller First ) Options CL for exp(β) e.g. [95] % 7 Basal Statistik - Logistisk regression 4

25 SPSS HUSK først 73 Definer Kategorisk 74 Option 75 Basal Statistik - Logistisk regression 5

26 Resultat SPSS Wald test 95% C.I.for EXP(B) B S.E. Wald df Sig. Exp(B) Lower Upper Step 1 a Skostr 8,637 5,14 Skostr(1) 1,415,605 5,473 1,019 4,118 1,5813,477 Skostr() 1,53,535 5,493 1,019 3,500 1,8 9,978 Skostr(3),847,549,380 1,13,333,795 6,846 Skostr(4),871,54,767 1,096,390,856 6,673 Skostr(5),890,504 3,119 1,077,435,907 6,537 Constant -,639,3765,003 1,000,071 a. Variable(s) entered on step 1: Skostr. Bemærk: Referencekategorien vises ikke B kolonnen = logitværdierne Exp(B) = odds-ratio værdierne 76 Wald Test To typer af nul-hypoteser H 0 : Risikoen er den samme i alle grupper β 1 = β =..= β k = β H0 ab : Risikoen er den samme i to forskellige grupper β a =β b = β ab 77 Wald Parvis Definer den ene gruppe som reference estimer logitforskellen (β b -β a ) og beregn SE på estimatet Z=(β b -β a )/SE ~ en std normalfordeling Wald = Z ~ chi-i-anden fordeling med 1 frihedsgrad (df) 78 Basal Statistik - Logistisk regression 6

27 Wald Mere end Grupper Wald testet for hypotesen: β 1 = β =..= β k = β Risikoen er den samme i alle grupper En generalisering af testet for to grupper, ~ chi-i-anden fordeling med antal df = antal grupper minus 1 79 Case Control Studier Psykologer Case-kontrol studies I et case-kontrol-studie udvælges: cases (sygdomstilfælde) som er verificeret fra et register eller lignende kontroller, som er personer der repræsenterer den population hvorfra cases stammer Personer i case-kontrol-studier udvælges altså på baggrund af udfaldet. Typisk fastsættes forholdet mellem antallet af cases og kontroller på forhånd 81 Basal Statistik - Logistisk regression 7

28 Hvis en variabel har betydning for sygdommens udvikling: Forskellig fordeling af variablen mellem cases og kontroller. Sandsynligheden for at være en case (i populationen), p{sygdom} kan ikke estimeres ud fra et case-kontrol studie. Men effekten af kovariaterne på sygdomssandsynligheden kan! 8 Case-kontrol Studier Prevalens i populationen: p p = P{ case} = odds(case) 1 p Udvælgelsesbrøker, dvs. inklusionssandsynligheder π 0 ogπ 1 : P {inklusion i studiet case } = π 1 P {inklusion i studiet control } = π 0 83 Case Kontrol I et case-kontrol studie observerer man antallet af cases og antallet af kontroller, betinget af at disse faktisk er med i studiet Afhænger af diverse kovariater (det er det man interesseret i) og inklusionssandsynlighederne (som man ikke er interesseret i) 84 Basal Statistik - Logistisk regression 8

29 85 Logistisk Regression Model for populationen: p ln = b0 + b1 x1 + b x 1 p Model for det observerede: ln = [ odds( case incl. )] p 1 ln ln 1 p + π = π 0 π 1 = ln b b1 x1 + b x π 0 86 Analyse af P{case inklusion} dvs. binære observationer: 1 Y = 0 case control Effekt af kovariater estimeres korrekt Intercept uden mening afhænger af π 0 og π 1 der sædvanligvis er ukendte 87 Basal Statistik - Logistisk regression 9

30 Strategi I multipel Regression Logistisk eller Almindelig Psykologer Prioritering af Variable 1. De primære variable er de uafhængige variable, som har særlig faglig interesse Sammenhængene mellem de primære variable og den afhængige variabel er de primære sammenhænge. De sekundære variable er dem, hvis eneste funktion er at optræde som kontrolvariable Sammenhængene mellem den afhængige variabel og de sekundære variable omtales som sekundære sammenhænge 89 Analyse Strategi 1. Modellens primære struktur drejer sig om alt det, der har direkte reference til de faglige problemer, der skal belyses.. Modellens sekundære struktur er alt det ved modellen, der ikke henviser til disse problemer. Kan på omfatte alt fra modelegenskaber, der kan motiveres ud fra a) den teoretiske referenceramme, b) helt åbne spørgsmål, c) antagelser, der er motiveret af ønsket om at komme til at arbejde med enkle modeller, fungerer i praksis 90 Basal Statistik - Logistisk regression 30

31 To Faser Foretag analysen i to faser, hvor den første fase tager sig af modellens sekundære struktur, mens den anden fase indeholder analysen af de primære problemer 91 1) Indledende Modelkonstruktion Definition af startmodel. Startmodellen bør indeholde hele den primære modelstruktur og så meget af den sekundære struktur, som det i praksis er muligt at arbejde med Modelsøgning. Trinvis søgning efter en model med en mere enkel sekundær struktur Modelkontrol. Kontrol af, at der ikke er åbenlyse tegn på at modellen er udtryk for overforenkling 9 ) Analyse af primære problemstillinger Test af primære hypoteser. NB.: disse test kan resultere i at nogle af de primære variable skal fjernes fra modellen Modelkontrol Estimation og tolkning af primære parametre. I praksis sker dette sammen med beregningerne af teststørrelserne for de primære hypoteser. De har dog først interesse, hvis modelkontrollen har vist, at der ikke ser ud til at være problemer med modellen 93 Basal Statistik - Logistisk regression 31

32 Variabel reduktion Hvis vi har en kategorisk variabel på e.g. 4 niveauer Det kan være smart at sammenlægge niveauer (fra 4 til fx) Måske er de lettere sammenfaldende eller der er få i én af grupperne For detaljeret opdeling kan give en variation, der overskygger evt. signifikanser Rækkefølgen af reduktion kan også have betydning 94 Oversigt over Teknikker Respons Kovariater Dikotome Kategoriske Kontinuerte Kategoriske og Kontinuerte Dikotome x -tabeller χ test Logistisk regression Kategoriske Kontingens tabeller / χ test Gen. Logistisk regression Ordinale Vanskeligt, e.g. proportional odds models Kontinuerte Mann Whitney Wilcon sign rank Kruskal - Wallis - Friedman Robust multipel regression Normal Fordeling T-test Parret / uparret Varians Analyse En- / to-sidet Kovarians analyse Multipel regression Censorede data Log-rank test Cox regression Korrelerede Normalt ford. Varians komponent Modeller Modeller for gentagne målinger 95 Tips & tricks Hvis vi vil bestemme hvad der er vores success model inf(event=1) = op1 a50 96 Basal Statistik - Logistisk regression 3

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

Basal Statistik for medicinske PhD-studerende November 2008

Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Logistisk regression

Logistisk regression Logistisk regression Test af antagelsen om lineære effekter Modelkonstruktion og modelsøgning Hvilke variable og hvilke interaktioner skal inkluderes i regressionsmodellerne? 1 Logistiske regressionsmodeller

Læs mere

Simpel og multipel logistisk regression

Simpel og multipel logistisk regression Faculty of Health Sciences Logistisk regression Simpel og multipel logistisk regression 16. Maj 2012 Analyse af en binær responsvariabel. syg/rask, død/levende, ja/nej... Ud fra en eller flere forklarende

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Sammenhæng

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Morten Frydenberg 26. april 2004

Morten Frydenberg 26. april 2004 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik RESUME: 2 2. gang: 2002 Institut for Biostatistik, Århus Universitet MPH. studieår Specialmodul 4 Cand. San. uddannelsen.

Læs mere

Logistisk regression

Logistisk regression Logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Kursushjemmeside: www.biostat.ku.dk/~sr/forskningsaar/regression2012/

Læs mere

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Log-lineære modeller Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Kontingenstabel Contingency: mulighed/tilfælde Kontingenstabel: antal observationer (frekvenser)

Læs mere

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Formål med Øvelsen: Formålet med øvelsen er at analysere om risikoen for død er forbundet med to forskellige vacciner BCG (mod

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

Introduktion til GLIMMIX

Introduktion til GLIMMIX Introduktion til GLIMMIX Af Jens Dick-Nielsen jens.dick-nielsen@haxholdt-company.com 21.08.2008 Proc GLIMMIX GLIMMIX kan bruges til modeller, hvor de enkelte observationer ikke nødvendigvis er uafhængige.

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Uge 13 referat hold 4

Uge 13 referat hold 4 Uge 13 referat hold 4 Gruppearbejde 1a: Er variablen kvotient inkluderet på en hensigtsmæssig måde? Der er to problemer med kvotient: 1) Den er trunkeret ved 6.9 og 10.0, løsningen er at indføre dummyer

Læs mere

Logistisk regression

Logistisk regression Logistisk regression http://biostat.ku.dk/ kach/css2 Thomas A Gerds & Karl B Christensen 1 / 18 Logistisk regression I dag 1 Binær outcome variable død : i live syg : rask gravid : ikke gravid etc 1 prædiktor

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Ikke-parametriske tests

Ikke-parametriske tests Ikke-parametriske tests 2 Dagens menu t testen Hvordan var det nu lige det var? Wilcoxson Mann Whitney U Kruskall Wallis Friedman Kendalls og Spearmans correlation 3 t-testen Patient Drug Placebo difference

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Statistiske principper

Statistiske principper Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

9. Chi-i-anden test, case-control data, logistisk regression.

9. Chi-i-anden test, case-control data, logistisk regression. Biostatistik - Cand.Scient.San. 2. semester Karl Bang Christensen Biostatististisk afdeling, KU kach@biostat.ku.dk, 35327491 9. Chi-i-anden test, case-control data, logistisk regression. http://biostat.ku.dk/~kach/css2014/

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Morten Frydenberg Biostatistik version dato:

Morten Frydenberg Biostatistik version dato: Caerphilly studiet Design og Data Biostatistik uge 14 mandag Morten Frydenberg, Afdeling for Biostatistik Poisson regression En primær tidsakse og ikke stykkevise konstante rater Cox proportional hazard

Læs mere

Basal statistik. 30. januar 2007

Basal statistik. 30. januar 2007 Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk

Læs mere

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller Statistik II 1. Lektion Sandsynlighedsregning Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende

Læs mere

Statistik og skalavalidering. Opgave 1

Statistik og skalavalidering. Opgave 1 Statistik og skalavalidering Opgave 1 Opgavens formål: Denne opgave har, ligesom det vil være tilfældet for de fleste andre øvelsesopgaver på dette kursus, flere forskellige formål. For det første et praktisk/teknisk

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik ... september 1 Epidemiologi og biostatistik. Uge, mandag. september Michael Væth, Institut for Biostatistik. Ikke parametrisk statistiske test : Analyse af overlevelsesdata (ventetidsdata) Censurering

Læs mere

25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes

25. april Probability of Developing Coronary Heart Disease in 6 years. Women (Aged 35-70) 160 No Yes 25. april 2. gang: Introduktion til Logistisk Regression Morten Frydenberg 22 Institut for Biostatistik, Århus Universitet MPH. studieår specialmodul Cand. San. uddannelsen. studieår Hvorfor logistisk

Læs mere

Morten Frydenberg Biostatistik version dato:

Morten Frydenberg Biostatistik version dato: Tye og Tye 2 fejl Statistisk styrke Biostatistik uge 2 mandag Morten Frydenberg, Afdeling for Biostatistik Styrkeovervejelser i lanlægning af et studie Logistisk regression Præterm fødsel, rygning, alder,

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab

Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab D E T S U N D H E D S V I D E N S K A B E L I G E F A K U L T E T K Ø B E N H A V N S U N I V E R S I T E T Eksamen i statistik 2010 Kandidatuddannelsen i folkesundhedsvidenskab Eksamensnummer: 16, 23

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik Lektion 4. Variansanalyse Modelkontrol Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

To-sidet varians analyse

To-sidet varians analyse To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),

Læs mere

Flerniveau modeller. Individuelt studieforløb. Efterårssemesteret 2002. Folkesundhedsvidenskab ved Københavns Universitet

Flerniveau modeller. Individuelt studieforløb. Efterårssemesteret 2002. Folkesundhedsvidenskab ved Københavns Universitet Individuelt studieforløb Efterårssemesteret 2002 Flerniveau modeller Folkesundhedsvidenskab ved Københavns Universitet Vejleder: Jørgen Holm Petersen Eksamensnummer 20 Indholdsfortegnelse 1. Indledning...3

Læs mere

Morten Frydenberg 25. april 2006

Morten Frydenberg 25. april 2006 . gang: Introduktion til Logistisk Regression Morten Frydenberg 26 Afdeling for Biostatistik, Århus Universitet MPH. studieår specialmodul 4 Cand. San. uddannelsen. studieår Hvorfor logistisk regression

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Projekt Osiris Fattigdom i Danmark: En socioøkonomisk fattigdomsgrænse Iulian Vlad Serban

Projekt Osiris Fattigdom i Danmark: En socioøkonomisk fattigdomsgrænse Iulian Vlad Serban Appendikset Om appendikset Appendikset indeholder overordnet fire afsnit: - Teoretisk udledning og definition af modeller, - Supplerende statistiske resultater - Deskriptiv statistik - Udeladte undermodeller

Læs mere

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Demo af PROC GLIMMIX: Analyse af gentagne observationer Demo af PROC GLIMMIX: Analyse af gentagne observationer Kristina Birch, seniorkonsulent, PS Banking Agenda Uafhængige vs. afhængige observationer Analyse af uafhængige vs. afhængige observationer Lille

Læs mere

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/?? Dagens Temaer k normalfordelte obs. rækker i proc glm. Test for lineær regression Test for lineær regression - via proc glm p. 1/?? Proc glm Vi indlæser data i datasættet stress, der har to variable: areal,

Læs mere

Deskriptiv Statitik. Judith L. Jacobsen, PhD. http://staff.pubhealth.ku.dk/~lts/basal09_1/ jlj@statcon.dk

Deskriptiv Statitik. Judith L. Jacobsen, PhD. http://staff.pubhealth.ku.dk/~lts/basal09_1/ jlj@statcon.dk Deskriptiv Statitik Judith L. Jacobsen, PhD. http://staff.pubhealth.ku.dk/~lts/basal09_1/ jlj@statcon.dk Kursus formål Planlægning af studier selve indsamlingen af data, opstilling af statistiske hypoteser

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1 Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006 Økonometri 1: F8 1 Dagens program Opsamling om asymptotiske egenskaber: Asymptotisk normalitet Asymptotisk efficiens Test af flere lineære

Læs mere

Program. Longitudinale data. Vægtudvikling af geder. Individuelle profiler og gennemsnitsprofiler

Program. Longitudinale data. Vægtudvikling af geder. Individuelle profiler og gennemsnitsprofiler Program Longitudinale data eller gentagne målinger Helle Sørensen Anvendt Statistik, 4. marts 2009 Intro om data og tegninger: vægtudvikling for 28 afrikanske geder Lidt generelt om longitudinala data

Læs mere

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt, Statistik noter Indhold Datatyper... 2 Middelværdi og standardafvigelse... 2 Normalfordelingen og en stikprøve... 2 prædiktionsinteval... 3 Beregne andel mellem 2 værdier, eller over og unden en værdi

Læs mere

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion . februar 00 Ikke parametrisk statistiske test : Ideen bag Epidemiologi og biostatistik. Uge, mandag. februar 00 Morten Frydenberg, Institut for Biostatistik. To grupper: Mann-Whitney / Wilcoxon testet

Læs mere

1 Multipel lineær regression

1 Multipel lineær regression 1 Multipel lineær regression Regression med 2 eksponeringsvariable Fortolkning og estimation AnovaTabel og multipel R 2 Ensidet variansanalyse: Dummy kodning Kovariansanalyse og effektmodifikation Tosidet

Læs mere

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 30. maj 2006 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

1 Multipel lineær regression

1 Multipel lineær regression Indhold 1 Multipel lineær regression 2 1.1 Regression med 2 eksponeringsvariable......................... 2 1.2 Fortolkning og estimation................................ 3 1.3 AnovaTabel og multipel R

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif). Vi vil formulere en model for et kvalitativ variabel y i med to udfald, at bestå og ikke at bestå første årsprøve. Derefter modeller vi respons-sandsynligheden: Specifikation af sandsynligheden for at

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Statistik Formelsamling. HA Almen, 1. semester

Statistik Formelsamling. HA Almen, 1. semester Statistik Formelsamling HA Almen, 1. semester Statistik - Formelsamling Indholdsfortegnelse Hvordan kan formelsamlingen bruges?... 5 Værd at vide... 5 Oversigt Mest brugte symboler... 5 Disclaimer... 5

Læs mere

Reeksamen i Statistik for biokemikere. Blok 3 2007.

Reeksamen i Statistik for biokemikere. Blok 3 2007. Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet

Læs mere