Basal statistik. 23. september 2008



Relaterede dokumenter
Basal statistik. 25. september 2007

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Opgavebesvarelse, brain weight

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

En Introduktion til SAS. Kapitel 6.

Basal Statistik - SPSS

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse i R. Lene Theil Skovgaard. 25. februar 2019

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Regressionsanalyse i SAS

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

To samhørende variable

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Modul 5: Test for én stikprøve

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Modul 11: Simpel lineær regression

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Lineær regression i SAS. Lineær regression i SAS p.1/20

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Statistik Lektion 17 Multipel Lineær Regression

Opgavebesvarelse, brain weight

Module 12: Mere om variansanalyse

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Besvarelse af opgave om Vital Capacity

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Besvarelse af vitcap -opgaven

Ensidet variansanalyse

Reeksamen i Statistik for Biokemikere 6. april 2009

Forelæsning 8: Inferens for varianser (kap 9)

Løsning til øvelsesopgaver dag 4 spg 5-9

Konfidensinterval for µ (σ kendt)

Basal statistik. 30. januar 2007

Kvantitative Metoder 1 - Forår 2007

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Epidemiologi og Biostatistik

Anvendt Statistik Lektion 7. Simpel Lineær Regression

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden)

Modul 6: Regression og kalibrering

k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen

Forelæsning 11: Kapitel 11: Regressionsanalyse

Besvarelse af juul2 -opgaven

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

INTRODUKTION TIL dele af SAS

Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004

Basal Statistik - SPSS

Module 2: Beskrivende Statistik

Multipel Lineær Regression

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Basal Statistik Variansanalyse. 24 september 2013

Opgavebesvarelse, brain weight

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

En Introduktion til SAS. Kapitel 5.

Privatansatte mænd bliver desuden noget hurtigere chef end kvinderne og forholdsvis flere ender i en chefstilling.

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Opgavebesvarelse, korrelerede målinger

Generelle lineære modeller

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Basal statistik. 30. oktober 2007

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Basal statistik. 30. oktober Den generelle lineære model

Multipel regression 22. Maj, 2012

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Opgavebesvarelse, Basalkursus, uge 2

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Basal statistik. 30. september 2008

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse. Lene Theil Skovgaard. 8. oktober 2018

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Basal Statistik. Simpel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences

Reeksamen i Statistik for biokemikere. Blok

Basal statistik. 2. oktober Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Modelkontrol i Faktor Modeller

k normalfordelte observationsrækker (ensidet variansanalyse)

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Kapitel 11 Lineær regression

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

To-sidet variansanalyse

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium?

1 Hb SS Hb Sβ Hb SC = , (s = )

Basal statistik 3. oktober Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium?

Basal statistik. 21. oktober 2008

Transkript:

Basal statistik 23. september 2008

Korrelation og regression Simpel lineær regression Todimensionale normalfordelinger Korrelation vs. regression Modelkontrol Diagnostics

Thomas Scheike, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet Slides af Lene T. Skovgaard findes på http://staff.pubhealth.ku.dk/~ebj/basal08_2

Korrelation og regression, september 2008 1 Simpel lineær regression Retningsbestemt relation (men ikke nødvendigvis kausal) mellem to kontinuerte variable: Y: Respons eller outcome, afhængig (dependent) variabel X: Forklarende variabel, kovariat (somme tider Independent/uafhængig - meget uheldigt!)

Korrelation og regression, september 2008 2 Data: Sammenhørende registreringer (x i,y i ), for en række individer eller units, i = 1,,n: Bemærk: x i erne kan vælges på forhånd! Det er smart, fordi man kan designe sig til mere præcise estimater Det er farligt, hvis man har tænkt sig at benytte korrelationer (mere om det senere)

Korrelation og regression, september 2008 3 Eksempel: Sammenhæng mellem kolinesteraseaktivitet (KE) og tid til opvågnen (TID) Outcome: TID Forklarende variabel: KE Konklusioner: Hvor lang tid forventer vi til opvågnen, baseret på en måling af KE? Hvor stor er usikkerheden på denne prediktion?

Korrelation og regression, september 2008 4 Eksempel: Sammenligning af lungekapacitet (FEV 1 ) for rygere og ikke-rygere Problem: FEV 1 afhænger også af f.eks. højde Outcome: FEV 1 Forklarende variable: højde, rygevaner Konklusioner: Hvor meget dårligere er lungefunktionen hos rygere?

Korrelation og regression, september 2008 5 Kan der påvises en sammenhæng mellem fastende blodsukkerniveau og sammentrækningsevne for venstre hjertekammer hos diabetikere? (n=23) OBS BLODSUK VCF Outcome: Y=vcf, %/sec. Kovariat: X=blodsuk, mmol/l 1 15.3 1.76 2 10.8 1.34 3 8.1 1.27......... 21 4.9 1.03 22 8.8 1.12

Korrelation og regression, september 2008 6 Scatter plot Graphs/Scatter Plot /Two-Dimensional eller proc gplot data=sasuser.bp; plot vcf*blodsuk; run;

Korrelation og regression, september 2008 7 Ligningen for en ret linie: Y = α + βx

Korrelation og regression, september 2008 8 Fortolkning: α: intercept, afskæring (skæring med Y-akse) Sammentrækningsevnen for en diabetiker med en blodsukkerværdi på 0. Som regel en utilladelig ekstrapolation! β: hældning, regressionskoefficient Forskellen i sammentrækningsevne hos 2 diabetikere, der afviger i blodsukkerværdi med 1 mmol/l. Ofte parameteren med størst interesse.

Korrelation og regression, september 2008 9 Statistisk model: Y i = α + βx i + ε i, ε i N(0,σ 2 ) uafh. Estimation foretages v.hj.a mindste kvadraters metode

Korrelation og regression, september 2008 10 Mindste kvadraters metode: Bestem α og β, så kvadratafvigelsessummen n n (y i (α + βx i )) 2 = bliver mindst mulig i=1 i=1 ε 2 i ˆβ = S xy S xx = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2, ˆα = ȳ ˆβ x

Korrelation og regression, september 2008 11 Regressionsanalyse i ANALYST: Statistics/Regression/Simple eller Linear vcf Dependent, blodsuk Explanatory Statistics afkryds Confidence limits for estimates samt evt. Correlation matrix of estimates Og ved direkte programmering: proc reg data=sasuser.bp; model vcf = blodsuk / clb corrb; run;

Korrelation og regression, september 2008 12 Dependent Variable: vcf Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 0.20727 0.20727 4.41 0.0479 Error 21 0.98610 0.04696 Corrected Total 22 1.19337 Root MSE 0.21670 R-Square 0.1737 Dependent Mean 1.32565 Adj R-Sq 0.1343 Coeff Var 16.34634 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t 95% Confidence Limits Intercept 1 1.09781 0.11748 9.34 <.0001 0.85350 1.34213 blodsuk 1 0.02196 0.01045 2.10 0.0479 0.00022311 0.04370 Correlation of Estimates Variable Intercept blodsuk Intercept 1.0000-0.9231 blodsuk -0.9231 1.0000

Korrelation og regression, september 2008 13 Vigtige informationer fra output: hældning (slope, vises i output under betegnelsen blodsuk, fordi det er koefficienten til denne), ˆβ = 0.02196 0.022, med tilhørende spredning (standard error) spredningen omkring linien (Root MSE), s = ˆσ = 0.21670 0.217 Denne størrelse benyttes til konstruktion af prediktionsgrænser (kommer senere), som er normalområder for given blodsukkerværdi.

Korrelation og regression, september 2008 14 Tegning med linie: I regressionsopsætningen klikkes Plots, og der afkrydses i Plot observed vs. independent Estimeret regressionslinie: vcf=1.10 + 0.0220 blodsuk

Korrelation og regression, september 2008 15 Fortolkning af ˆα er ofte håbløs, men den er nødvendig for at lave prediktioner. Fittede (predikterede, forventede) værdier: ŷ i = ˆα + ˆβx i Forventet værdi af vcf for en diabetiker med blodsukker 10mmol/l: 1.10 + 0.0220 10 = 1.32

Korrelation og regression, september 2008 16 Omparametrisering, f.eks. v.hj.a. ny forklarende variabel: Z = X 10 Der gælder så α = α + 10β, dvs. liniens y-værdi i x=10. Fortolkning af α 10 : Sammentrækningsevne for en diabetiker med blodsukkerværdi 10 mmol/l.

Korrelation og regression, september 2008 17 Data/Transform/Compute, definer sukker10 som blodsuk-10 Gentag nu regressionen med blodsuk erstattet af sukker10. Vi får så Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t 95% Confidence Limits Intercept 1 1.31744 0.04535 29.05 <.0001 1.22312 1.41176 sukker10 1 0.02196 0.01045 2.10 0.0479 0.00022311 0.04370 Correlation of Estimates Variable Intercept sukker10 Intercept 1.0000-0.0862 sukker10-0.0862 1.0000

Korrelation og regression, september 2008 18 Regressionsanalysen indeholder 3 parametre: 2 hørende til linien (intercept og hældning) 1, som er spredningen omkring linien (σ): den biologiske variation af vcf for folk med samme blodsukker-værdi Vi estimerer σ 2, variansen omkring regressionslinien ved s 2 = 1 n 2 n (y i ˆα ˆβx i ) 2 i=1 ca. gennemsnitlig kvadratisk afstand, blot er n (antallet af observationer) erstattet af n 2 (antallet af frihedsgrader), her 21

Korrelation og regression, september 2008 19 Man kan ikke forstå eller fortolke varianser direkte, så vi tager straks kvadratrod: s = s 2 som er estimat for spredningen omkring regressionslinien kaldes i SAS (lidt uheldigt) for Root Mean Square Error her 0.2167, med de samme enheder som vcf

Korrelation og regression, september 2008 20 Hvor gode er skønnene over de ukendte parametre α og β? Hvor meget anderledes resultater kunne vi forvente at finde ved en ny undersøgelse? Det kan vises, at ˆβ N(β, σ2 S xx ) dvs. hældningen er præcist bestemt, hvis observationerne ligger tæt på linien (σ 2 lille) variationen i x-værdier (S xx ) er stor

Korrelation og regression, september 2008 21 Estimeret usikkerhed på ˆβ: se(ˆβ) = s Sxx Dette estimat kaldes standard error for ˆβ, eler generelt standard error of the estimate (s.e.e) Vi bruger det til at konstruere et 95% konfidensinterval ˆβ ± t 97.5% (n 2) se(ˆβ) = ˆβ ± ca.2 se(ˆβ) = 0.0220 ± 2.080 0.0105 = (0.0002, 0.0438)

Korrelation og regression, september 2008 22 Vi kan også teste, typisk H 0 : β = 0 ved t-testet t = ˆβ se(ˆβ) t(n 2) som her giver t = 0.0220 =2.10 t(21), P=0.048 0.0105 dvs. lige på grænsen af det signifikante

Korrelation og regression, september 2008 23 Tilsvarende kan vi teste f.eks. H 0 : α = α 0 ved t-testet t = ˆα α 0 se(ˆα) t(n 2) eller udregne et 95% konfidensinterval for α: 1.098 ± 2.080 0.1175 = (0.854, 1.342) Dette er ikke særlig interessant. I stedet kan vi erstatte blodsuk af blodsuk-10, hvorved det nye intercept -estimat bliver 1.317(0.045) med 95% konfidensinterval 1.317 ± 2.080 0.045 = (1.223, 1.411). Dette kan fortolkes.

Korrelation og regression, september 2008 24 Vi kan altså teste hypoteser om såvel α som β, men: Estimaterne for intercept og hældning er (negativt) korrelerede (her -0.92, jv. s. 12) Accepter ikke to sideordnede test Selv om vi kan acceptere test vedr. både α (f.eks. intercept=0) og β (f.eks. hældning 1) hver for sig, kan vi ikke nødvendigvis acceptere begge samtidig

Korrelation og regression, september 2008 25

Korrelation og regression, september 2008 26 Variationsopspaltning SS total = n (y i ȳ) 2 = SS model + SS resid i=1 Total variation = variation, som kan forklares + variation, som ikke kan forklares x er en god forklarende variable, hvis SS resid er lille i forhold til SS model

Korrelation og regression, september 2008 27 Alternativ teststørrelse for effekt af x F-teststørrelse for hypotesen H 0 : β = 0: SS model /1 SS resid /(n 2) F(1,n 2) Bemærk, at der her gælder, at det nye F-test giver det samme som det gamle t-test, fordi t = ˆβ se(ˆβ) = F

Korrelation og regression, september 2008 28 Ækvivalensen mellem t og F-tests gælder kun for simpel lineær regression Generelt tester F-testet mere end 1 frihedsgrad væk: flere niveauer af en kategorisk kovariat testes ens (anova) flere kvantitative forklarende variable testes væk på samme tid (multipel regression)

Korrelation og regression, september 2008 29 Determinationskoefficient, R 2 : Den andel af variationen (i y), der kan forklares ved modellen: R 2 = SS model SS total Her finder vi determinationskoefficienten: R 2 = 0.17, dvs. vi kan forklare 17% af variationen i vcf v.hj.a. variablen blodsuk. Determinationskoefficienten er kvadratet på korrelationskoefficienten mellem vcf og blodsuk (som dermed er r = 0.17 = 0.42)

Korrelation og regression, september 2008 30 Korrelationen r mellem to variable måler: I hvor høj grad ligner scatter plottet en ret linie? Ikke: Hvor nær ligger punkterne ved den rette linie? Korrelationskoefficienten estimeres ved: S n xy i=1 r = r xy = = (x i x)(y i ȳ) Sxx S n yy i=1 (x i x) 2 n i=1 (y i ȳ) 2 antager værdier mellem -1 og 1 (0 = uafhængighed) +1 og -1 svarer til perfekt lineær sammenhæng, hhv. positiv og negativ

Korrelation og regression, september 2008 31 Todimensional normalfordelingstæthed med korrelation 0 Alle lodrette snit giver normalfordelinger med samme middelværdi og samme varians

Korrelation og regression, september 2008 32 Todimensional normalfordelingstæthed Korrelation 0.9 Udpræget retning i figuren

Korrelation og regression, september 2008 33 Konturkurver for en normalfordeling

Korrelation og regression, september 2008 34 Regression kontra korrelation Antagelserne til brug for fortolkning af en korrelation er skrappere end for regressionsanalysen, fordi: En todimensional normalfordeling for (X,Y) medfører: De betingede fordelinger af Y givet X=x er igen normalfordelinger De betingede middelværdier ligger på en ret linie De betingede varianser er ens (uafhængig af x)

Korrelation og regression, september 2008 35 Betingninger i den todimensionale normalfordeling giver altså en lineær regressionsmodel: men ved udregning af korrelationen antager man tillige, at X erne følger en normalfordeling.

Korrelation og regression, september 2008 36 De to estimater (for korrelation og hældning) ligner hinanden ˆβ = S xy S xx ˆβ = r xy Syy S xx r xy = S xy Sxx S yy r xy = ˆβ Sxx S yy Men korrelationen er dimensionsløs og svær at fortolke

Korrelation og regression, september 2008 37 Test af uafhængighed (ingen korrelation), H 0 : ρ xy = 0 T = r xy 1 r 2 xy n 2 t(n 2) Test for β = 0 er identisk med test for ρ xy = 0

Korrelation og regression, september 2008 38 Men pas på: 1 r 2 xy = s 2 s 2 +ˆβ 2 Sxx n 2 Hold ˆβ og s 2 fast: S xx stor 1-r 2 xy tæt på 0 r 2 xy tæt på 1 r 2 xy kan gøres vilkårlig tæt på 1 ved at sprede x erne f.eks. ved at udelade de midterste

Korrelation og regression, september 2008 39 Korrelationskoefficienten udtrykker sammenhæng, ikke overensstemmelse (der er f.eks. en sammenhæng mellem alder og blodtryk, men der er naturligvis ikke overensstemmelse) Man skal derfor ikke bruge korrelationskoefficienten til at sammenligne målemetoder Pearson korrelationen måler graden af lineær sammenhæng. For krumme sammenhænge bør man benytte rangkorrelationer (Spearman).

Korrelation og regression, september 2008 40 Fittede (predikterede, forventede) værdier: ŷ i = ˆα + ˆβx i Konfidensgrænser for selve linien (smalle grænser) benyttes til sammenligning med andre grupper af personer man benytter spredningen s 1 + (x i x) 2 n S xx Disse grænser bliver vilkårligt snævre, når antallet af observationer øges. De er ofte irrelevante!

Korrelation og regression, september 2008 41 Konfidensgrænser (fås under Plots i regressionsopsætningen) eller ved at skrive symbol=rlclm95 i symbol-sætningen

Korrelation og regression, september 2008 42 Fittede (predikterede, forventede) værdier: ŷ i = ˆα + ˆβx i Prediktionsgrænser (normalområde) for enkeltobservationer (brede grænser) De benyttes til at afgøre, om en ny person er atypisk i forhold til normen (diagnostik), idet de omslutter ca. 95% af fremtidige observationer, også for store n. man benytter spredningen s 1 + 1 n + (x i x) 2 S xx Disse grænser bliver ikke nævneværdigt snævrere, når antallet af observationer øges.

Korrelation og regression, september 2008 43 Prediktionsgrænser Afkryds Prediction limits i stedet for Confidence limits eller ved at skrive symbol=rlcli95 i symbol-sætningen

Korrelation og regression, september 2008 44 Modellens konklusioner er kun rimelige, hvis modellen selv er rimelig. Modelkontrol: Passer modellen rimeligt til data? Diagnostics: Passer data til modellen? Eller er der indflydelsesrige observationer eller outliers? Check af disse to forhold burde foretages fra begyndelsen, men da de kræver fit af modellen, kan de først foretages efterfølgende

Korrelation og regression, september 2008 45 Modelkontrol: Den statistiske model var Y i = α + βx i + ε i, ε i N(0,σ 2 ) uafhængige Hvilke antagelser skal vi checke her? linearitet varianshomogenitet (ε i erne har samme varians) normalfordelte afvigelser (ε i erne) Obs: Intet krav om normalfordeling på x i erne!! eller y i erne!!

Korrelation og regression, september 2008 46 Til grafisk modelkontrol skal vi bruge residualerne = modelafvigelserne = observeret - fittet værdi: eller en modifikation af disse (se senere) ˆε i = y i ŷ i

Korrelation og regression, september 2008 47 Residualplots: Residualer (af passende type) plottes mod den forklarende variabel x i for at checke linearitet (se efter krumninger) de fittede værdier ŷ i for at checke varianshomogenitet (se efter trompeter) fraktildiagram eller histogram for at checke normalfordelingsantagelsen De to førstnævnte figurer skal give indtryk af uorden dvs. der må ikke være nogen systematik Fraktildiagrammet skal ligne en ret linie

Korrelation og regression, september 2008 48 Linearitet, eller.. Tendens til buer? Hvis lineariteten ikke holder i rimelig grad, bliver modellen ufortolkelig.

Korrelation og regression, september 2008 49 Numerisk check af linearitet: Tilføj kvadratleddet blodsuk 2 vcf=α+β 1 blodsuk+β 2 blodsuk 2 Test af linearitet: β 2 =0 Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 1.27901 0.06149 20.80 <.0001 sukker10 1 0.01520 0.01277 1.19 0.2480 blodsuk_i_anden 1 0.00218 0.00234 0.93 0.3640 Test af β = 0 giver t = 0.93 og P = 0.36. Lineariteten ser rimelig ud

Korrelation og regression, september 2008 50 Afhjælpning af non-linearitet: tilføj flere kovariater, f.eks. alder, køn, medicin etc. transformer variablene med logaritmer kvadratrod, invers Lad være med at gøre noget: ikke-lineær regression

Korrelation og regression, september 2008 51 Problemer med varianshomogeniteten? Kaos? eller trompetfacon? symmetri om 0-linien? Hvis varianshomogeniteten ikke holder i rimelig grad, mister vi styrke, og prediktionsgrænser bliver upålidelige!

Korrelation og regression, september 2008 52 Trompetfacon kan fortolkes som konstant relativ spredning = konstant variationskoefficient Variationskoefficient = spredning middelværdi ofte konstant, når man måler på små positive størrelser, f.eks. koncentrationer transformer outcome med logaritme

Korrelation og regression, september 2008 53 Problemer med normalfordelingsantagelsen? Er histogrammet passende symmetrisk? Ser fraktildiagrammet lineært ud?

Korrelation og regression, september 2008 54 Hvis normalfordelingen ikke holder i rimelig grad, mister vi (lidt) styrke og prediktionsgrænser bliver upålidelige! Afhjælpning af problemer med normalfordelingsantagelsen: transformation med logaritmer i tilfælde af fordelinger med haler mod højre non-parametriske metoder men så får vi ingen kvantificeringer

Korrelation og regression, september 2008 55 Antagelsen om normalfordeling (og varianshomogenitet) er ikke så kritisk for selve fittet, fordi: t-fordelingen bygger på normalfordelingen, men kun på en normalfordelingsantagelse for estimatet ˆβ, og dette passer ofte, når der er rimeligt mange observationer, på grund af Den centrale grænseværdisætning, der siger at summer og andre funktioner af mange observationer bliver mere og mere normalfordelt. Men prediktionsgrænserne bliver misvisende og ufortolkelige!!

Korrelation og regression, september 2008 56 Transformation med logaritmer men hvilken logaritme? Alle logaritmer er proportionale, så resultaterne bliver ens (efter tilbagetransformation), men der er visse fif: Den forklarende variabel transformeres for at opnå linearitet, dvs. når det er successive fordoblinger, der har konstant effekt. Brug gerne 2-tals logaritmer!

Korrelation og regression, september 2008 57 Outcome transformeres enten for at opnå linearitet for at opnå varianshomogenitet Var(log(y)) Var(y) y 2 = CV 2 dvs. en konstant variationskoefficient (CV) på Y betyder konstant varians på log(y ), den naturlige logaritme (den som tidligere har heddet ln, men som altså hedder log i computersprog)

Korrelation og regression, september 2008 58 Regression diagnostics: Understøttes konklusionerne af hele materialet? Eller er der observationer med meget stor indflydelse på resultaterne? Udelad den i te person og bestem nye estimater for samtlige parametre. Udregn Cook s afstand, et mål for ændringen i parameterestimater. Spalt Cook s afstand ud i koordinater, som måler f.eks: Hvor mange s.e. ændrer ˆβ 1 sig, hvis den i te person udelades?

Korrelation og regression, september 2008 59 En enkelt observation skiller sig ud i forhold til de øvrige

Korrelation og regression, september 2008 60 Spalt Cooks afstand ud i koordinater og angiv: Hvor mange se er ændres f.eks. ˆβ, når den i te person udelades? Dependent Variable: vcf Output Statistics -------DFBETAS------- Obs Intercept blodsuk 1-0.2421 0.4134 2 0.0014 0.0005 3-0.0049 0.0030 4 0.1082-0.1461 5 0.0150-0.0104 6 0.4436-0.3547 7 0.0048-0.0019 8-0.0588-0.0430 9-0.0829 0.0552 10 0.0008-0.0617 11 0.0060-0.0043 12-0.0345 0.0277 13-0.8744 1.1973 <--------------------- 14 0.0982-0.1718 15 0.3409-0.2478 16.. 17-0.1295 0.1086 18 0.0181-0.0008 19 0.0128-0.0907 20 0.3978-0.6287 21 0.0169-0.0476 22-0.2938 0.2395 23-0.1237 0.0625 24 0.2419-0.0856

Korrelation og regression, september 2008 61 Estimeret linie: y = 1.098 + 0.022x ˆβ = 0.02196(0.01045), t = 0.02196 0.01045 = 2.1,P = 0.048 Regressionsanalyse uden observation nr. 13 Estimeret linie: y = 1.189 + 0.011x ˆβ = 0.01082(0.01029), t = 0.01082 0.01029 = 1.05,P = 0.31

Korrelation og regression, september 2008 62 Outliers Observationer, der ikke passer ind i sammenhængen de er ikke nødvendigvis indflydelsesrige de har ikke nødvendigvis et stort residual Press-residualer Residualer, der fremkommer efter at den pågældende observation har været udelukket fra estimationen. (residualer without current observation)

Korrelation og regression, september 2008 63 Hvad gør vi ved indflydelsesrige observationer og outliers? ser nærmere på dem, de er tit ganske interessante anfører et mål for deres indflydelse Hvornår kan vi udelade dem? hvis de ligger meget yderligt husk at afgrænse konklusionerne tilsvarende! hvis man kan finde årsagen og da skal alle sådanne udelades!

Korrelation og regression, september 2008 64 Modelkontrol og Diagnostics i ANALYST Visse af plottene kan konstrueres direkte ved i regressionsopsætningen at klikke Plots/Residual hvor der vælges f.eks. Residual mod Predicted

Korrelation og regression, september 2008 65 Der findes 4 forskellige typer af residualer normeret? med alle obs. uden current obs. nej Residual Press ja Student Rstudent

Korrelation og regression, september 2008 66 Fuld kontrol over tegninger til modelkontrol fås ved i regressionsopsætningen at benytte Save Data, afkryds Create and save diagnostics data overflyt (klik Add) de størrelser, der skal gemmes (typisk Predicted, Residual, Student, Rstudent,Cookd,Press). Dobbeltklik på Diagnostics Table i projekttræet Gem det ved at klikke File/Save as By SAS Name og åbn det i ANALYST, når der skal laves tegninger mv.

Korrelation og regression, september 2008 67 Falsk korrelation (spurious correlation) Korrelationen er: positiv for mænd positivt for kvinder negativt for mennesker Eks: Kolesterol vs. chokoladeindtag

Korrelation og regression, september 2008 68 Korrelationen er: tilsyneladende positiv 0 for hver aldersgruppe X og Y vokser begge med alderen

Korrelation og regression, september 2008 69 Et delvist program kunne se ud som: data a1; infile vcf.tal ; input glucose vcf; sukker10=glucose-10; glucose_i_anden=(glucose-10)**2; run; proc print data=a1; var glucose vcf; run; proc corr pearson spearman data=a1; var vcf glucose; run;

Korrelation og regression, september 2008 70 proc reg data=a1; model vcf=sukker10 glucose_i_anden / clb; run; proc reg data=a1; model vcf=glucose / corrb clb r p influence; output out=ny p=yhat r=resid student=stresid cookd=cook h=h rstudent=uresid press=press; run; proc print data=ny; var glucose vcf yhat resid stresid h cook uresid press; run; proc univariate normal data=ny; var resid; histogram / cfill=gray height=3 normal; probplot / height=3 normal(mu=est sigma=est l=33); inset mean std skewness / header= descriptive ; run;

Korrelation og regression, september 2008 71 proc gplot gout=plotud data=a1; plot vcf*glucose / haxis=axis1 vaxis=axis2 frame; axis1 order=(0 to 20 by 5) value=(h=3) offset=(3,3) minor=none label=(h=3 blood glucose (mmol/l) ); axis2 order=(0.6 to 2.0 by 0.2) value=(h=3) offset=(3,3) minor=none label=(a=90 R=0 H=3 Vcf (%/sec) ); symbol1 v=circle i=rlcli95 c=black h=3 l=1 w=2; run;