Basal Statistik. Simpel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences
|
|
- Caspar Jensen
- 6 år siden
- Visninger:
Transkript
1 Faculty of Health Sciences Simpel lineær regression Basal Statistik Multipel regressionsanalyse. Lene Theil Skovgaard 10. oktober 2017 Multipel regression Regression med to kvantitative kovariater: Eksempel om ultralyd Eksempel om fedme hos børn Selektion, modelvalg Modelkontrol Diagnostics Hjemmesider: : Siden er lidt teknisk 1 / 83 2 / 83 Multipel regression Problemstillinger ved multipel regression Ét outcome, mange forklarende variable Vi har allerede set eksempler på dette: Sammenligning af vægt for mænd og kvinder, korrigeret for højde Vurdering af skuldersmerter efter to behandlinger, korrigeret for baseline smerter Effekt af P-piller på hormon-niveauet, med korrektion for alder I begge disse situationer havde vi netop to kovariater: Én kvantitativ (højde, baseline smerter) Én kategorisk kovariat (køn, behandling) Prediktion: Konstruktion af normalområde til diagnostisk brug (som i eksemplet om ultralyds scanning, s. 5) Udredning af årsagssammenhænge, til brug for interventioner (mere som eksemplet s. 36ff) Videnskabelig indsigt, f.eks. eksemplet om P-pillers indvirkning på hormoner, fra sidste forelæsning 3 / 83 4 / 83
2 Eksempel med to kvantitative kovariater 107 kvinder er blevet ultralyds scannet få dage inden fødslen, og der ønskes etableret en prediktion af fostervægt/fødselsvægt ud fra BPD (hoved-diameter) og AD (maveomfang). Data er: OBS VAEGT BPD AD Kilde: Secher, N.J., Århus Kommunehospital 5 / 83 Multipel regression DATA: n personer, dvs. n sæt af sammenhørende observationer: person x 1... x p y 1 x x 1p y 1 2 x x 2p y 2 3 x x 3p y n x n1... x np y n Den lineære regressionsmodel med p forklarende variable skrives: Parametre: β 0 β 1,, β p 6 / 83 y = β 0 + β 1 x β p x p + ε afskæring, intercept regressionskoefficienter Grafik er lidt vanskelig, her et forsøg på 3-dimensionalt plot: proc g3d; scatter bpd*ad=vaegt / shape= pillar size=0.5; Middelværdistruktur β 0 + β 1 x β p x p SPSS, se separat appendix, s. 3 Mindste kvadraters metode: Minimer størrelsen S(β 0, β 1,, β p ) = (y i β 0 β 1 x i1 β p x ip ) 2 7 / 83 8 / 83
3 Multipel regression uden transformation Fortolkning af output proc reg data=secher; model vaegt=ad bpd / clb; med output: Dependent Variable: vaegt Root MSE R-Square Dependent Mean Adj R-Sq Coeff Var Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept <.0001 bpd <.0001 ad <.0001 med fortolkning på næste side 9 / 83 SPSS, se separat appendix, s. 4 Stærk signifikant effekt af begge kovariater (P < ) Hvis vi sammenligner to fostre med samme AD, men hvor foster A har en BPD, der er 1mm større end foster B, så vil vi forvente, at A vejer 37.1g mere end B Hvis vi sammenligner to fostre med samme BPD, men hvor foster A har en AD, der er 1mm større end foster B, så vil vi forvente, at A vejer 39.8g mere end B Root MSE=306.57, så usikkerheden på prediktionen af fødselsvægt er ± g, altså ganske betragtelig (næsten til lagkage) Variationskoefficienten er 11.2% / 83 Modelkontrol Grafisk modelkontrol: residualer Hvilke antagelser skal vi checke? Uafhængighed: Tænk: Er der flere observationer på hvert individ? Søskende el.lign? Linearitet i begge kovariater Varianshomogenitet (residualer har samme spredning) Normalfordelte residualer Obs: Intet krav om normalfordeling på kovariaterne!! Der er 4 typer residualer at vælge imellem: 1. De sædvanlige (r=) = observeret - fittet værdi: ˆε i = y i ŷ i 2. student: de sædvanlige, normeret med spredning 3. press: observeret minus predikteret, men i en model, hvor den aktuelle observation har været udeladt i estimationsprocessen 4. rstudent: normerede Press-residualer Alle disse kan fås i nyt datasæt ved at skrive (se også s. 77): output out=ny p=yhat cookd=cook r=resid student=stresid press=press rstudent=uresid; SPSS, se separat appendix, s / / 83
4 Hvilke residualer skal man benytte? Residualplots til modelkontrol Fordele og ulemper Rart med residualer, der bevarer enhederne (type 1 og 3) Lettest at finde outliers, når observationerne udelades en ad gangen (type 3 og 4) Bedst at normere, når observationen selv er med og man ikke kan tegne rådata, dvs. for multipel regression bør man nok foretrække type 2 for type 1 (eller se på begge) Residualer (af passende type) plottes mod 1. den forklarende variabel x i for at checke linearitet (se efter krumninger, buer) 2. de fittede værdier ŷ i for at checke varianshomogenitet (se efter trompeter) 3. fraktildiagram eller histogram for at checke normalfordelingsantagelsen (se efter afvigelse fra en ret linie) Disse plots ses på s. 16 og 17, og kommenteres s / / 83 Residualplots i praksis Residualplots: Diagnostics Panel En del modelkontroltegninger (faktisk alle de nævnte fra forrige side) fås automatisk i SAS ved at benytte ods graphics: proc glm PLOTS=(DIAGNOSTICS RESIDUALS(smooth)) data=secher; Et bedre check af varianshomogeniteten er dog et plot af kvadratroden af den numeriske værdi af normerede residualer, mod de predikterede værdier, eller mod de forklarende variable (se noterne til den simple regression fra tidligere, s. 54): Disse specialplots ses på side 18 SPSS, se separat appendix, s / / 83
5 Residualplots mod kovariater, med indlagte udglattede kurver (Loess-kurver): Specialplots til vurdering af konstant spredning som beskrevet s. 15 SPSS, se separat appendix, s / / 83 Vurdering af modellen Analyse af logaritmerede data Normalfordelingen halter en anelse, med nogle enkelte ret store positive afvigelser, hvilket kunne tale for at logaritmetransformere vægten. Måske lidt trompetfacon i plot af residualer mod predikterede værdier, men husk på, at observationerne ikke er ligeligt fordelt over x-aksen. Figuren s. 18 viser ingen oplagte tendenser. Linearitet er ikke helt god, men det skyldes hovedsageligt de tidligst fødte børn. Teoretiske argumenter fra den faglige ekspertice foreslår en samtidig logaritmetransformation af såvel outcome som kovariater 19 / 83 Vi benytter forskellige logaritmer til outcome og kovariater: logvaegt=log(vaegt); logbpd=log(bpd/90)/log(1.1); /* 1 enhed er 10% */ logad=log(ad/100)/log(1.1); /* mere om dette s. 22 og 25 */ Koden svarende til s. 9 (se også s. 78) giver outputtet: Dependent Variable: logvaegt Root MSE R-Square Dependent Mean Adj R-Sq Coeff Var Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept <.0001 logad <.0001 logbpd <.0001 Variable DF 95% Confidence Limits Intercept logad logbpd SPSS, se separat appendix, s / 83
6 Fortolkning af resultater Fortolkning af resultater, fortsat Stærkt signifikant effekt af begge kovariater (P < ) Hvis vi sammenligner to fostre med samme AD, men hvor foster A har en BPD, der er 10% større end foster B, så vil vi forvente, at A vejer exp( ) = 1.16 gange så meget som B, dvs. 16% mere. Hvis vi sammenligner to fostre med samme BPD, men hvor foster A har en AD, der er der er 10% større end foster B, så vil vi forvente, at A vejer exp( ) = 1.15 gange så meget som B, dvs. 15% mere. Root MSE= , så usikkerheden på prediktionen af log(fødselsvægt) er ± = , svarende til faktorerne (exp( ), exp( )) = (0.808, 1.238), altså en variation gående fra -19.2% op til +23.8%, igen en ganske betragtelig biologisk variation. Bemærk asymmetrien i denne kvantificering! Bemærk, at vi i denne model har konstant relativ usikkerhed. Variationskoefficienten kan faktisk nu aflæses som Root MSE, fordi vi arbejder med naturlige logaritmer. Vi finder tallet (se s. 20), svarende til CV=10.7% 21 / / 83 Residualplots for transformerede data Residualplots for transformerede data, II Her ses ikke de store ændringer fra s , så vi skipper de sidste modelkontroltegninger 23 / / 83
7 Sammenligning af modeller nemlig de to marginale modeller (hver med sin kovariat) og den multiple regressionsmodel: Estimaterne for disse modeller (med tilhørende standard errors (se) i parentes): Intercept β 1 (logbpd) β 2 (logad) s R (0.019) (0.011) (0.022) (0.014) Bemærk fortolkningen af interceptet: På grund af konstruktionen af logbpd og logad på s. 20, svarer interceptet til den forventede fødselsvægt for et barn med bpd=90 og ad= / 83 Fortolkning af koefficienter f.eks. effekten af bpd: Marginal model: Ændringen i logvaegt, når kovariaten logbpd ændres 1 enhed, dvs. når bpd øges med 10% Multipel regressionsmodel Ændringen i logvaegt, når kovariaten logbpd ændres 1 enhed, men hvor alle andre kovariater (her kun ad) holdes fast 26 / 83 I sidstnævnte situation siger vi, at vi har korrigeret for effekten af de andre kovariater i modellen. Forskellen kan være markant, fordi kovariaterne typisk er relaterede: Når en af dem ændres, ændres de andre også Goodness-of-fit mål: R-i-anden Fittede = predikterede værdier R 2 = Sum Sq(Model) Sum Sq(Total) Hvor stor en del af variationen kan forklares af modellen? Her finder vi , dvs % (se s. 20) Dette mål har Fortolkningsproblemer når kovariaterne er styret (ganske som for korrelationskoefficienten) R 2 stiger med antallet af kovariater selv hvis disse er uden betydning! Derfor ser man ofte i stedet på Adjusted R 2 : R adj 2 Mean Sq(Residual) = 1 Mean Sq(Total), (her , se s. 20) kan udregnes som (se s. 20) log(vaegt) = logad logbpd vaegt = ad 1.47 bpd 1.55 I praksis vil man dog benytte en output-sætning: output out=ny p=yhat cookd=cook r=resid student=stresid press=press rstudent=uresid; således at de predikterede værdier bliver lagt som variablen yhat i datasættet ny (SPSS: se app. s. 5) 27 / / 83
8 Prediktioner til brug for illustrationer Predikterede værdier Tilføj de fiktive personer, man gerne vil prediktere outcome for Angiv deres kovariatværdier, med tilhørende missing value for outcome Predikter outcome i nyt datasæt Tilbagetransformer til original skala Tegn De fiktive personer har ingen indflydelse på estimation i modellen, da de mangler outcome-værdier Se eksempelvis kode s , der danner figurerne s. 30 SPSS, se separat appendix, s På logaritmisk skala: Tilbagetransformeret til oprindelig skala: 29 / / 83 Regression diagnostics Regression diagnostics, fortsat Understøttes konklusionerne af hele materialet? Eller er der observationer med meget stor indflydelse på resultaterne? Leverage = potentiel indflydelse (hat-matrix, i SAS kaldet Hat Diag eller H) Hvis der kun er én kovariat er det simpelt: h ii = 1 n + (x i x) 2 S xx Observationer med ekstreme x-værdier kan have stor indflydelse på resultaterne, men de har det ikke nødvendigvis! ikke hvis de ligger pænt i forhold til regressionslinien, dvs. har et lille residual, så derfor...--> 31 / 83 Udelad den i te person og find nye estimater for regressionskoefficienterne Udregn Cook s afstand, et samlet mål for ændringen i parameterestimaterne Spalt Cooks afstand ud i koordinater og angiv: Hvor mange se er ændres f.eks. ˆβ1, når den i te person udelades? Se kode s. 81 SPSS, se separat appendix, s. 11 Hvad gør vi ved indflydelsesrige observationer? udelader dem? anfører et mål for deres indflydelse? 32 / 83
9 Cooks afstand som mål for indflydelse Outliers Observationer, der ikke passer ind i sammenhængen de er ikke nødvendigvis indflydelsesrige de har ikke nødvendigvis et stort residual Hvad gør vi ved outliers? ser nærmere på dem, de er tit ganske interessante Hvornår kan vi udelade dem? hvis de ligger meget yderligt, dvs. har høj leverage De mest indflydelsesrige observationer er dem med en usædvanlig kombination af kovariater. Indviklet kode s / 83 husk at afgrænse konklusionerne tilsvarende! hvis man kan finde årsagen 34 / 83 og da skal alle sådanne udelades! Interaktion mellem kvantitative kovariater Nyt eksempel: Fedme i skolealderen er lidt svært... Hvis modellen ikke beskrives ved en plan, hvad gør man så? Hvis man blot inkluderer et produktled mellem x 1 og x 2, svarer det til, at antage, at effekten af x 1 ændrer sig lineært med værdien af x 2 : Effekten af x 1 er β 1 + γx 2 µ = β 0 + β 1 x 1 + β 2 x 2 + γx 1 x 2 = β 0 + (β 1 + γx 2 )x 1 + β 2 x 2, dvs. Alternativt må man opdele den ene variabel i grupper... Spørgsmål: Hvordan hænger fedmegraden i skolealderen sammen med højde og vægt i 1-årsalderen? For 197 børn har vi sammenhørende registreringer af Højde og vægt i 1-års alderen Fedmescore i skolealderen, dvs. en score, der udtrykker barnets vægt i forhold til alder og højde Det er en normeret størrelse, der typisk vil ligge mellem -2 og 2 Da fedmescoren kan ses som et slags bmi-mål, er det rimeligt at forestille sig, at det hænger sammen med bmi i 1-års alderen. 35 / / 83
10 Fedme i skolealderen Fedme i skolealderen vs. body mass index, evt. logaritmeret: Hvis vi logaritmerer bmi, får vi log(bmi) = log(vaegt) - 2 log(hoejde) så en oplagt mulighed ville være at forsøge en multipel regression, med log(vaegt) og log(hoejde) som kovariater, dvs. med multiplikative effekter af højde og vægt i 1-årsalderen. Vi bruger igen 1.1-logaritmen: Det ser nogenlunde pænt lineært ud, omend der er et par observationer, der ser for store ud... Måske skal vi bruge en anden kombination af højde og vægt end lige body mass index? (som ikke plejer at virke så godt for børn...) loghoejde=log(hoejde/0.75)/log(1.1); logvaegt=log(vaegt/10)/log(1.1); og har også normeret, således at interceptet kommer til at svare til et 1-årigt barn på 75 cm, der vejer 10 kg. 37 / / 83 Fedme i skolealderen Fortolkning af resultater proc reg plots=(diagnostics residuals(smooth)) data=fedme; model fedmescore=logvaegt loghoejde / clb; output out=check rstudent=norm_u_resid; med output Dependent Variable: fedmescore Number of Observations Used 197 Root MSE R-Square Dependent Mean Adj R-Sq Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept logvaegt <.0001 loghoejde Variable DF 95% Confidence Limits Intercept logvaegt loghoejde Stærkt signifikant effekt af begge kovariater (P < hhv. P = ) Hvis vi sammenligner to børn med samme højde, men hvor barn A vejer 10% mere end barn B ved 1-års alderen, så vil vi forvente, at A s fedmescore er større end B s. Hvis vi sammenligner to børn med samme vægt, men hvor barn A er 10% højere end barn B ved 1-års alderen, så vil vi forvente, at A s fedmescore er lavere end B s. 39 / / 83
11 Fortolkning af resultater, fortsat Sammenligning af modeller Hvis det var bmi, der var den relevante kovariat, skulle vi have haft ca. ˆβ 2 = 2 ˆβ 1 men det har vi ikke Vi har snarere ˆβ 2 = ˆβ 1, således at samme procentvise stigning i højde og vægt giver uforandret fedmescore i skolealderen. 41 / 83 nemlig de to marginale modeller (med hver sin kovariat) og den multiple regressionsmodel: Estimaterne for disse modeller (med tilhørende standard errors (se) i parentes): Intercept β 1 (loghoejde) β 2 (logvaegt) s R (0.1107) (0.0435) (0.1567) (0.0671) Bemærk: Koefficienterne ændres ved overgang til multipel regression specielt den for højde, som ligefrem skifter fortegn! Usikkerhederne på estimaterne bliver større, selvom residualspredningen s bliver mindre. 42 / 83 VIGTIGT Fortolkning af estimater Koefficienten β 1 til loghoejde: Hvordan kan man forstå så forskellige estimater for loghoejde som og ? Fordi: Den biologiske fortolkning af parameterestimaterne er helt forskellig Det videnskabelige spørgsmål, der besvares, er ikke det samme spørgsmål! Simpel/univariat regressionsmodel: Forventet øgning i fedmescore er 0.36 for 1 enheds øgning af kovariaten loghoejde, dvs. for en 10% forøgelse af 1-års højden. Multipel regressionsmodel: Forventet fald i fedmescore er 0.46 for en 10% forøgelse af 1-års højden for to individer, hvor alle andre kovariater (her kun logvaegt) er identiske ( holdes fast ). Det kaldes, at vi har korrigeret ( adjusted ) for effekten af de andre kovariater. Forskellen er her meget markant, fordi kovariaterne er stærkt relaterede: Når en af dem ændres, ændres den anden typisk også 43 / / 83
12 Fortolkning af højde i marginal model Fortolkning af højde i multipel regressionsmodel Når højden er den eneste kovariat, er den et udtryk for, hvor stort barnet er, så det videnskabelige spørgsmål, der belyses, er, Er børn, der er store i 1-årsalderen, i gennemsnit federe i skolealderen? Den positive koefficient til højden betyder, at fedmegraden i skolealderen vokser signifikant med størrelsen i 1-års alderen. Biologisk mekanisme: Overernæring i barnealderen bruges til at vokse, så barnet bliver stort af sin alder, men det kan øjensynligt øge risikoen for fedme senere. Heldigvis er det ikke en stærkt deterministisk sammenhæng (residualspredningen er relativt stor). Når vægten i 1-års alderen fastholdes, ved vi noget mere om det højeste af de to 1-årige børn: Det højeste barn må også være det slankeste barn! Så det nye videnskabelige spørgsmål, der belyses, er, Er børn, der er slanke i 1-årsalderen, i gennemsnit slankere i skolealderen? Den negative koefficient til højden betyder, at slanke småbørn generelt er slankere i skolealderen. 45 / / 83 Fortolkning af højde i multipel regressionsmodel, II Eksempel: Lungefunktion og cystisk fibrose Koefficienterne til de logaritme-transformerede højde og vægt er lige store og med modsat fortegn. Et lille studie, af 25 patienter, hvor outcome er pemax (et udtryk for lungefunktion) og hvor vi har hele 9 potentielle kovariater: Det betyder, 1. at vægt/højde (altså ikke BMI=vægt/højde 2 ) i 1-års alderen er prædiktivt for fedme i skolealderen 2. at to småbørn med samme vægt/højde-ratio har samme forventede fedmegrad i skolealderen Ex. O Neill et.al. (Am Rev Respir Dis, 1983) 47 / / 83
13 Univariate analyser også kaldet marginale analyser, hvor man ser på en enkelt kovariat ad gangen: Valg af model kommer helt og holdent an på, hvad spørgsmålet er! De univariate analyser kan være stærkt misvisende pga korrelationer mellem de enkelte variable, f.eks. de 5 signifikante variable: Age, Height, Weight, FEV 1 og FRC: Pearson Correlation Coefficients, N = 25 Prob > r under H0: Rho=0 age height weight fev1 frc age <.0001 < height < weight Her er der 5 signifikante variable Er det så disse variable, der skal med i modellen? 49 / 83 fev Bemærk især korrelationerne mellem alder, højde og vægt. 50 / 83 Videnskabelig variabelselektion Automatisk variabelselektion Endnu en gang: Gennemtænk præcis hvilket videnskabeligt spørgsmål, man ønsker besvaret det præcise spørgsmål bestemmer hvilke variable, der skal inkluderes i modellen. Det er svært men den eneste måde at opnå egentlig videnskabelig indsigt! (og så bliver det i øvrigt lettere bagefter at skrive en god artikel og lettere at svare på reviewernes kommentarer... ) Undgå så vidt muligt dette! Der findes forskellige fremgangsmåder (se kode s. 82): SPSS, se separat appendix, s. 12 Forlæns selektion: Medtag hver gang den mest signifikante Slutmodel: Weight BMP FEV1 Baglæns elimination: Start med alle, udelad hver gang den mindst signifikante Slutmodel: Weight BMP FEV1 Forskellige hybrid-metoder Det ser da meget stabilt ud!? 51 / / 83
14 men men men... Advarsel ved variabelselektion Hvis nu observation nr. 25 tilfældigvis ikke havde været med? Så ville forlæns selektion have taget højde ind som den første, og baglæns elimination ville have smidt højde ud som den første! Tommelfingerregel (vedrører kun stabiliteten) Antallet af observationer skal være mindst 10 gange så stort som antallet af undersøgte parametre! Massesignifikans! Enhver variabelselektion baseret på signifikansvurderinger (dvs. også når I selv fjerner enkelte variable pga. statistisk insignifikans) vil give følgende effekt: Signifikanserne overvurderes! Regressionsparametrene er for store, dvs. for langt væk fra 0. Automatisk variabelselektion: Hvad kan vi sige om vinderne? Var de hele tiden signifikante, eller blev de det lige pludselig? I sidstnævnte tilfælde kunne de jo være blevet smidt ud, mens de var insignifikante / / 83 Model med alle 9 kovariater Model med alle 9 kovariater, II Dependent Variable: pemax Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T intercept age sex height weight bmp fev rv frc tlc Bemærk på outputtet s. 55: Alle kovariater er enkeltvis non-signifikante Overall F-test giver signifikans (P=0.032) Og hvad kan vi overhovedet bruge modellen til...? 55 / / 83
15 Baglæns elimination P-værdier ved baglæns elimination Tabel over successive p-værdier [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] age sex height weight bmp fev rv frc tlc Altman stopper ved skridt nr. 7, se figur næste side Ingen kode til denne figur 57 / / 83 Krydsvalidering = Cross validation Sammenligning af modeller Hvis man har en tilstrækkelig stor mængde data, er det en god fremgangsmåde at: Foretage modelfittet på en del af data, f.eks. to trediedele Afprøve modellen på resten bagefter, og måske blive lidt chokeret Hvis modellen predikterer dårligt på den sidste trediedel, predikterer den nok også dårligt i nye situationer. Hvad sker der ved udeladelse af en forklarende variabel? Fittet bliver dårligere, dvs. residualkvadratsummen bliver større. Antallet af frihedsgrader (for residualkvadratsummen) stiger. Estimatet s 2 for residualvariansen σ 2 kan både stige og falde (fordi vi dividerer med frihedsgraderne) %-delen af variation, som forklares af modellen, R 2, falder. Dette kompenseres der for i den justerede determinationskoefficient R 2 adj Som kriterium for, om modellen er god kan vi altså bruge s 2 eller R 2 adj 59 / / 83
16 Sammenligning af modeller nemlig de to marginale modeller for height og weight, samt den multiple regressionsmodel med disse: β 0 β 1 (height) β 2 (weight) s R 2 Adj. R (0.260) (0.301) (0.655) 1.024(0.787) Hver af de to forklarende variable har betydning, vurderet ud fra de marginale modeller. I den multiple regressionsmodel ser ingen af dem ud til at have nogen betydning. Mindst en af dem har en betydning, men det er svært at sige hvilken. (Det ser dog mest ud til at være vægten.) 61 / 83 Sammenligning af modeller, II Flere kommentarer til sammenligningen på forrige side: Størrelsen R 2 stiger næsten ikke fra den marginale model med kun weight som kovariat, til den multiple regressionsmodel (fra til , dvs. uændret med 2 decimaler). Den justerede R 2 favoriserer derfor den simpleste af disse to modeller, hvor usikkerheden på parameterestimatet også er betydeligt lavere. Intercepterne i de 3 modeller kan ikke sammenlignes, da de refererer til helt forskellige individer, som i øvrigt alle er meget uinteressante: hhv. height=0, weight=0 og height=weight=0 Modelkontrol: giver ikke frygtelig meget mening med den ratio af observationer/kovariater: 62 / 83 Sammenligning af kovariat-effekter Kollinearitet: Kovariaterne er lineært relaterede er vanskelig, bare at formulere: Er effekten af vægt større end effekten af alder? Øh... Sammenligner vi P-værdier? Det har kun noget med evidensen for en effekt at gøre, ikke med selve størrelsen af effekten. Man kan udregne såkaldte standardiserede koefficienter, som angiver effekten af 1 SD svarende til denne kovariat. Er dette fornuftigt? Næppe: Den biologiske effekt er nok ligeglad med, hvordan resten af personerne ser ud... En sådan standardiseret koefficient vil afhænge af det aktuelle sample - ligesom en korrelation. 63 / 83 Det vil de altid til en vis grad være, undtagen i designede forsøg (f.eks. landbrugsforsøg) Symptomer på kollinearitet: Visse af kovariaterne er stærkt korrelerede Nogle parameterestimater har meget store standard errors Alle kovariater i den multiple regressionsanalyse er insignifikante, men R 2 er alligevel stor Der sker store forskydninger i estimaterne, når en kovariat udelades af modellen Der sker store forskydninger i estimaterne, når en observation udelades af modellen Resultaterne er anderledes end forventet 64 / 83
17 Ekstra udskrifter fra regressionsanalysen Kollinearitet i praksis Variance Inflation Factor (vif): Den faktor, som variansen af regressionskoefficienten er blevet ganget op med, på grund af kollineariteten mellem kovariaterne. Tolerance (tol): Blot den reciprokke af VIF, altså 1/VIF. Standardiserede koefficienter (stb): som forklaret s. 63. Ud fra koden s. 83: Parameter Estimates Standardized Variance Variable DF Estimate Tolerance Inflation Intercept age sex height weight bmp fev rv frc tlc SPSS, se separat appendix, s. 12 Tommelfingerregel: vif større end 5-10 stykker (dvs. tol mindre end ) er kriminelt / / 83 Bemærk Vigtige pointer Hvad gør man så, når der er kollinearitet? 1. Gennemtænk grundigt, hvad den enkelte variabel står for afhængigt af hvilke af de andre mulige variable, der fastholdes (= er med i modellen) Overvej også, om responsvariablen ændrer fortolkning 2. Lav analyser af fokusvariablen med og uden justering for forskellige grupper af de andre variable og prøv at forstå forskellene i resultaterne Præsenter gerne begge/alle analyser i artiklen med fortolkning af forskellene 3. Spar eventuelt på antallet af variable for grupper af variable, der hænger sammen: Drejer det sig om ét fælles aspekt af interesse, så kan man måske nøjes med én af variablene og begrunde, hvorfor man vælger netop den 4. Fortolk med stor forsigtighed 67 / 83 Man må ikke nøjes med at præsentere univariate analyser for alle variablene! Problemet med fortolkningen forsvinder nemlig ikke af, at man tillægger hver enkelt variabel al forklaringsevnen en ad gangen. Man må ikke tro, at det er ligemeget hvilke effekter, man justerer for - for det videnskabelige spørgsmål ændrer sig jo. 68 / 83
18 Bemærk Bemærk Den statistiske model bestemmes af det videnskabelige spørgsmål. Eneste undtagelse fra denne regel er fordelingsantagelserne, der bestemmes af data. Nogle kilder til forkerte modelvalg Forsimple virkeligheden for meget, eksempelvis tro, at frasen alt andet lige giver mening (og ikke bare er en bekvem undskyldning for ikke at tænke det ordentligt igennem) tro, at det giver mening at tale om sammenhængen mellem exposure og respons, som om der kun kan eksistere ét eneste videnskabeligt spørgsmål, der involverer denne exposure og dette respons tro, at confounderne er givet ud fra exposure og respons, så man kan vælge sine kovariater uden at overveje konsekvenserne for fortolkningen 69 / / 83 Et par falske påstande Et par falske påstande, II Påstand: Når man skal vurdere effekten af en forklarende variabel ( exposure ) på et bestemt outcome, så skal man så vidt muligt justere for alle confoundere. Sandhed: Nej! Man skal kun justere for de variable, som man gerne ville have kunnet holde fast og man skal kunne gennemskue, hvilken konsekvens justering for hver eneste af de inkluderede confoundere har for fortolkningen af den estimerede effekt af exposure på outcome! Påstand: Man må ikke inkludere mediator variable, dvs. variable, der er en del af virkningsmekanismen. Sandhed: Mediator variable er ligesom alle andre variable: Hvis man inkluderer dem, ændrer man det videnskabelige spørgsmål, der besvares ved analysen! Når man inkluderer en eller flere mediator variable, undersøger man størrelsen af den del af effekten, der ikke går via effekten på disse mediator variable, altså styrken af eventuelle andre virkningsmekanismer. NB: Pas på med at justere for variable, der ligger før i årsagskæden for den interessante exposure-variabel. At fokusere på effekten justeret for sådanne variable betyder, at man tror, det giver mening, at betydningen af en høj exposure afhænger af, hvorfor exposure er høj. 71 / / 83
19 Bemærk APPENDIX Påstand: Signifikansen for den enkelte variabel bliver altid svagere, når de andre tages med. Sandhed: Ofte, men ikke altid. Nogle gange bliver signifikanserne væsentligt stærkere. Vi så dette ved forelæsningen om kovariansanalyse, hvor effekten af P-piller først kom frem, da vi justerede for alderen. med SAS-programbidder svarende til nogle af slides Figurer: s. 75, 77, 80, 81 Regressionsanalyse: s. 76, 78, Modelkontrol: s. 77 Prediktion: s Diagnostics: s. 81 SPSS: se separat appendix 73 / / 83 Tredimensionalt plot Regressionsanalyse Slide 7 Slide 9 Den minimale kode: proc g3d; scatter bpd*ad=vaegt / shape= pillar size=0.5; Option shape styrer faconen på figuren på toppen af søjlen, og option size angiver dennes størrelse. Denne procedure kan også anvendes til Surface plots, altså plots af flader i rummet. proc reg data=secher; model vaegt=ad bpd / clb; Adskillige ekstra options og statements kan tilføjes, f.eks: clb: konfidensgrænser for estimater corrb: korrelation mellem estimater stb: standardiserede koefficienter: effekt af ændring på 1 SD for kovariat Se desuden s. 77 og / / 83
20 Modelkontrol Slide proc reg plots=(diagnostics residuals(smooth)) data=secher; model vaegt=ad bpd / clb; output out=check student=stresid rstudent=norm_u_resid p=pred; data tegn; set check; sqrtres=sqrt(abs(stresid)); proc sgplot data=tegn; loess Y=sqrtres X=pred; proc sgplot data=tegn; loess Y=sqrtres X=bpd; Regressionsanalyse på logaritmer Slide 20 data secher; set secher; logvaegt=log(vaegt); logbpd=log(bpd/90)/log(1.1); logad=log(ad)/log(1.1); proc reg plots=(diagnostics residuals(smooth)) data=secher; model logvaegt=logad logbpd / clb; output out=check rstudent=norm_u_resid p=pred; proc sgplot data=tegn; loess Y=sqrtres X=ad; 77 / / 83 Prediktioner til brug for illustrationer Slide 29 og 30 Tilføj de fiktive personer, man gerne vil prediktere outcome for, ved at angive deres kovariatværdier, med tilhørende missing value for outcome data ekstra; ekstra=1; do bpd=80 to 100 by 10; do ad=70 to 135 by 1; logbpd=log(bpd/90)/log(1.1); logad=log(ad)/log(1.1); output; end; end; data udbygget; set secher ekstra; Predikter outcome, og gem i nyt datasæt (næste side) Tegn 79 / 83 Prediktioner til brug for illustrationer, II Slide 29 og 30 proc reg plots=(diagnostics residuals(smooth)) data=udbygget; model logvaegt=logad logbpd / clb; output out=check p=pred LCL=predlow LCLM=meanlow UCL=predup UCLM=meanup; proc sgplot data=check; where ekstra=1; series Y=pred X=logad / group=bpd lineattrs=(thickness=2 pattern=solid); data pred; set check; if ekstra=1; predikteret=exp(pred); type= P ; output; type= L ; predikteret=exp(predlow); output; type= U ; predikteret=exp(predup); output; proc sgplot data=pred; where type= P ; series Y=predikteret X=ad / group=bpd lineattrs=(thickness=2 pattern=solid); 80 / 83
21 Diagnostics Variabelselektion, option selection i REG Slide Slide 52, 57 proc reg plots=(diagnostics residuals(smooth)) data=secher; model logvaegt=logad logbpd / clb influence; output out=check rstudent=norm_u_resid p=pred cookd=cook; data tegn; set check; farve="magenta"; /* bare for at faa navnet langt nok */ farve="black"; if norm_u_resid>0.5 then farve="pink"; if norm_u_resid>1.2 then farve="magenta"; if norm_u_resid<-0.5 then farve="olive"; if norm_u_resid<-1.2 then farve="green"; proc g3d data=tegn; scatter bpd*ad=cook / color=farve shape="pyramid"; SELECTION=name specifies the method used to select the model, where name can be FORWARD (or F), BACKWARD (or B), STEPWISE, MAXR, MINR, RSQUARE, ADJRSQ, CP, or NONE (use the full model). The default method is NONE. See the section Model-Selection Methods for a description of each method. proc reg data=pemax; model pemax=age sex height weight bmp fev1 rv frc tlc / selection=backward; 81 / / 83 Ekstra størrelser fra regressionsanalyse Slide 66 proc reg data=pemax; model pemax=age sex height weight bmp fev1 rv frc tlc / selection=backward p r influence vif collin stb clb corrb tol; Options: collin: kollinearitets diagnostics vif: variance inflation factor: variansøgning grundet kollinearitet tol: tolerance factor: 1-R 2 for regression af en kovariat på de øvrige 83 / 83
Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse. Lene Theil Skovgaard. 8. oktober 2018
Faculty of Health Sciences Basal Statistik Multipel regressionsanalyse. Lene Theil Skovgaard 8. oktober 2018 1 / 84 Multipel lineær regression Regression med to kvantitative kovariater: Eksempel om ultralyd
Læs mereFaculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse i R. Lene Theil Skovgaard. 11. marts 2019
Faculty of Health Sciences Basal Statistik Multipel regressionsanalyse i R. Lene Theil Skovgaard 11. marts 2019 1 / 86 Multipel lineær regression Regression med to kvantitative kovariater: Eksempel om
Læs mereBasal Statistik. Multipel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences
Faculty of Health Sciences Multipel lineær regression Basal Statistik Multipel regressionsanalyse i R. Lene Theil Skovgaard 11. marts 2019 Regression med to kvantitative kovariater: Eksempel om ultralyd
Læs mereBasal Statistik - SPSS
Faculty of Health Sciences Basal Statistik - SPSS Multipel regression. Lene Theil Skovgaard 10. oktober 2017 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Figurer: s.
Læs mereBasal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences
Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger
Læs mereFaculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017
Faculty of Health Sciences Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 26. september 2017 1 / 85 Simpel lineær regression Regression og korrelation Simpel lineær regression Todimensionale
Læs mereMultipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden)
Multipel regression: Et outcome, mange forklarende variable Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) OBS VAEGT BPD AD 1 2350 88 92 2 2450 91 98 3 3300 94 110............
Læs mereVi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.
Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,
Læs mereFilen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.
Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.
Læs mereKursus i basal statistik: Multipel regression
Multipel regression: Princip 2 Multipel regression: Et outcome, mange forklarende variable Problemstillingen kan eksempelvis være: Kursus i basal statistik: Multipel regression Birthe Lykke Thomsen Det
Læs mereKursus i basal statistik: Multipel regression. Birthe Lykke Thomsen Det Nationale Forskningscenter for Arbejdsmiljø
Kursus i basal statistik: Multipel regression Birthe Lykke Thomsen Det Nationale Forskningscenter for Arbejdsmiljø Multipel regression: Princip 2 Multipel regression: Et outcome, mange forklarende variable
Læs mereMultipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden)
Multipel regression: Et outcome, mange forklarende variable Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) Repetition af simpel lineær regression Først ser vi på en enkelt kovariat,
Læs mereBasal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences
Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 21. februar 2017 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger
Læs mereBesvarelse af juul2 -opgaven
Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium
Læs mereMultipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model
Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ
Læs mereOpgavebesvarelse, brain weight
Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12
Læs mereLineær regression i SAS. Lineær regression i SAS p.1/20
Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression
Læs mereLineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Læs mereOpgavebesvarelse, brain weight
Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med
Læs mereLøsning til øvelsesopgaver dag 4 spg 5-9
Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for
Læs mereMultipel regression. Birthe Lykke Thomsen H. Lundbeck A/S
Multipel regression Birthe Lykke Thomsen H. Lundbeck A/S 1 Multipel regression: Et outcome, mange forklarende variable Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) OBS VAEGT
Læs mereBasal Statistik - SPSS
Faculty of Health Sciences Basal Statistik - SPSS Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Indlæsning og
Læs mereMultipel Lineær Regression
Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer
Læs mereModul 11: Simpel lineær regression
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................
Læs mereRegressionsanalyse i SAS
Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse
Læs mereBasal statistik. 25. september 2007
Basal statistik 25. september 2007 Korrelation og regression Simpel lineær regression Todimensionale normalfordelinger Korrelation vs. regression Modelkontrol Diagnostics Lene Theil Skovgaard, Biostatistisk
Læs mereBasal statistik. 30. oktober 2007
Basal statistik 30. oktober 2007 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Kovariansanalyse Parametriseringer Lene Theil Skovgaard, Biostatistisk Afdeling
Læs mereStatistik Lektion 17 Multipel Lineær Regression
Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x
Læs mereBesvarelse af vitcap -opgaven
Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.
Læs mereBasal statistik. 30. oktober Den generelle lineære model
Basal statistik 30. oktober 2007 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Kovariansanalyse Parametriseringer Lene Theil Skovgaard, Biostatistisk Afdeling
Læs mere12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse
. september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression
Læs mereFilen indeholder variablenavne i første linie, og de ligger i rækkefølgen
Opgavebesvarelse, Resting metabolic rate I filen T:\Basalstatistik\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991
Læs mereReeksamen i Statistik for Biokemikere 6. april 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på
Læs mereProgram: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Læs mereGenerelle lineære modeller
Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal
Læs mereEpidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse
Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser
Læs mere1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
Læs mereKursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S
Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed
Læs mereAnvendt Statistik Lektion 8. Multipel Lineær Regression
Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke
Læs mereLineær og logistisk regression
Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Dagens program Lineær regression
Læs mereModule 3: Statistiske modeller
Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med
Læs mereOpgavebesvarelse, brain weight
Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 musekuld er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12 mus
Læs mereEpidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk
Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.
Læs mereAnvendt Statistik Lektion 7. Simpel Lineær Regression
Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot
Læs mereTo samhørende variable
To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen
Læs mereBesvarelse af opgave om Vital Capacity
Besvarelse af opgave om Vital Capacity hentet fra P. Armitage & G. Berry: Statistical methods in medical research. 2nd ed. Blackwell, 1987. Spørgsmål 1: Indlæs data og konstruer en faktor (klassevariabel)
Læs mereVejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013
Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.
Læs mereStatistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge
Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2
Læs meremen nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Læs mereBasal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences
Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse i R. Lene Theil Skovgaard 23. september 2019 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger
Læs mereFaculty of Health Sciences. Basal Statistik. Regressionsanalyse i R. Lene Theil Skovgaard. 25. februar 2019
Faculty of Health Sciences Basal Statistik Regressionsanalyse i R. Lene Theil Skovgaard 25. februar 2019 1 / 85 Simpel lineær regression Regression og korrelation Simpel lineær regression Todimensionale
Læs mereFaculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling
Faculty of Health Sciences Regressionsanalyse Simpel lineær regression, 28-2-2013 Lene Theil Skovgaard Biostatistisk Afdeling 1 / 67 Simpel lineær regression Regression og korrelation Simpel lineær regression
Læs mereDet kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.
1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;
Læs mereAfdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier
Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik Januar 2007 2 Regressionsanalyse med GLM Sammenligning af regressionslinier
Læs mereMultipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).
Program 1. multipel regression 2. polynomiel regression (og andre kurver) 3. kategoriske variable 4. Determinationkoefficient og justeret determinationskoefficient 5. ANOVA-tabel 1/13 Multipel regression
Læs mereBasal Statistik - SPSS
Faculty of Health Sciences APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Basal Statistik - SPSS Den generelle lineære model. Lene Theil Skovgaard 24. oktober 2017 Biokemisk iltforbrug,
Læs mereBasal Statistik - SPSS
Faculty of Health Sciences Basal Statistik - SPSS Den generelle lineære model. Lene Theil Skovgaard 26. februar 2018 1 / 28 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Biokemisk
Læs mereVejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014
Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke
Læs mere1 Regressionsproblemet 2
Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation
Læs mereBasal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder
Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 Parret sammenligning, målemetoder med logaritmer Tosidet variansanalyse
Læs mereFaculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015
Faculty of Health Sciences Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 1 / 84 Logaritmer og kovariansanalyse Parret sammenligning, målemetoder med logaritmer Tosidet
Læs mereMindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning
1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3
Læs mereEksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning
1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion
Læs mereFaculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018
Faculty of Health Sciences Basal Statistik Logistisk regression mm. Lene Theil Skovgaard 5. marts 2018 1 / 22 APPENDIX vedr. SPSS svarende til diverse slides: To-gange-to tabeller, s. 3 Plot af binære
Læs mereLøsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)
Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up
Læs mereForelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Læs mereMultipel regression 22. Maj, 2012
Data: Det færøske kviksølv-studie Simpel linær regression Confounding Multipel lineær regression Fortolkning af parametre Vekselvirkning Kollinearitet Modelkontrol Multipel regression 22. Maj, 2012 Esben
Læs mereAnalysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Læs mereVejledende besvarelse af hjemmeopgave, forår 2019
Vejledende besvarelse af hjemmeopgave, forår 2019 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (26. marts.-28. marts). På hjemmesiden http://staff.pubhealth.ku.dk/~lts/basal19_1/hjemmeopgave.html
Læs mereBasal statistik. 21. oktober 2008
Basal statistik 21. oktober 2008 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Parametriseringer Kovariansanalyse Esben Budtz-Jørgensen, Biostatistisk Afdeling
Læs mereModul 6: Regression og kalibrering
Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................
Læs mere1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ
Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen
Læs mereβ = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1
Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)
Læs mereInstitut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6
Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået
Læs mereAnvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Læs mereVariansanalyse i SAS. Institut for Matematiske Fag December 2007
Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse
Læs mereReeksamen i Statistik for biokemikere. Blok
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er
Læs mereBasal Statistik - SPSS
Faculty of Health Sciences Basal Statistik - SPSS Kovariansanalyse. Lene Theil Skovgaard 3. oktober 2017 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Bland-Altman plot,
Læs mereBesvarelse af opgave om Vital Capacity
Besvarelse af opgave om Vital Capacity I filen cadmium.txt ligger observationer fra et eksempel omhandlende lungefunktionen hos arbejdere i cadmium industrien (hentet fra P. Armitage & G. Berry: Statistical
Læs mereBasal Statistik - SPSS
Faculty of Health Sciences Basal Statistik - SPSS Kovariansanalyse. Lene Theil Skovgaard 1. oktober 2018 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Bland-Altman plot,
Læs meregrupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
Læs mere1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.
Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller
Læs mereAnvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Læs mereVejledende besvarelse af hjemmeopgave, efterår 2016
Vejledende besvarelse af hjemmeopgave, efterår 2016 Udleveret 4. oktober, afleveres senest ved øvelserne i uge 44 (1.-4. november) Normal aktivitet af enzymet plasma kolinesterase er en forudsætning for
Læs mereStatistik Lektion 16 Multipel Lineær Regression
Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk
Læs mereStatistisk modellering og regressionsanalyse
Statistisk modellering og regressionsanalyse Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Oktober 25, 2018 Slides @ biostatistics.dk/talks/ 1 2 Hvad er statistik? Statistics is a science, not
Læs mereVejledende besvarelse af hjemmeopgave, forår 2018
Vejledende besvarelse af hjemmeopgave, forår 2018 Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.marts) I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige
Læs mereOversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Læs mereMultipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression
Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende
Læs mereOpgavebesvarelse, brain weight
Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12
Læs mereØkonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol
Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price
Læs merek normalfordelte observationsrækker (ensidet variansanalyse)
k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er
Læs mereVejledende besvarelse af hjemmeopgave, forår 2016
Vejledende besvarelse af hjemmeopgave, forår 2016 Udleveret 1. marts, afleveres senest ved øvelserne i uge 13 (29. marts-1. april) Denne opgave fokuserer på at beskrive niveauet af hormonet AMH (højt niveau
Læs mere(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i
Da er r i = e i ˆσ ei t(n 3) (tæt på N(0,1) hvis n ikke alt for lille). Program 1. lineær regression: opgave 3 og 13 (sukker-temperatur). 2. studentiserede residualer, multipel regression. Tommelfinger-regel:
Læs mereBasal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences
Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer, Repetition, Kovariansanalyse, Interaktion Lene Theil Skovgaard 1. oktober 2018 Parret sammenligning af målemetoder,
Læs mereUge 43 I Teoretisk Statistik, 21. oktober Forudsigelser
Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier
Læs mereFaculty of Health Sciences. Basal statistik. Logaritmer, Repetition, Kovariansanalyse, Interaktion. Lene Theil Skovgaard. 1.
Faculty of Health Sciences Basal statistik Logaritmer, Repetition, Kovariansanalyse, Interaktion Lene Theil Skovgaard 1. oktober 2018 1 / 92 Logaritmer og kovariansanalyse Parret sammenligning af målemetoder,
Læs mereEpidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april
Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et
Læs mereEpidemiologi og Biostatistik
Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag
Læs mereVejledende besvarelse af hjemmeopgave, forår 2018
Vejledende besvarelse af hjemmeopgave, forår 2018 Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.marts) I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige
Læs mere