Basal statistik. 23. september 2008

Transkript

1 Basal statistik 23. september 2008

2 Korrelation og regression Simpel lineær regression Todimensionale normalfordelinger Korrelation vs. regression Modelkontrol Diagnostics

3 Thomas Scheike, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet Slides af Lene T. Skovgaard findes på

4 Korrelation og regression, september Simpel lineær regression Retningsbestemt relation (men ikke nødvendigvis kausal) mellem to kontinuerte variable: Y: Respons eller outcome, afhængig (dependent) variabel X: Forklarende variabel, kovariat (somme tider Independent/uafhængig - meget uheldigt!)

5 Korrelation og regression, september Data: Sammenhørende registreringer (x i,y i ), for en række individer eller units, i = 1,,n: Bemærk: x i erne kan vælges på forhånd! Det er smart, fordi man kan designe sig til mere præcise estimater Det er farligt, hvis man har tænkt sig at benytte korrelationer (mere om det senere)

6 Korrelation og regression, september Eksempel: Sammenhæng mellem kolinesteraseaktivitet (KE) og tid til opvågnen (TID) Outcome: TID Forklarende variabel: KE Konklusioner: Hvor lang tid forventer vi til opvågnen, baseret på en måling af KE? Hvor stor er usikkerheden på denne prediktion?

7 Korrelation og regression, september Eksempel: Sammenligning af lungekapacitet (FEV 1 ) for rygere og ikke-rygere Problem: FEV 1 afhænger også af f.eks. højde Outcome: FEV 1 Forklarende variable: højde, rygevaner Konklusioner: Hvor meget dårligere er lungefunktionen hos rygere?

8 Korrelation og regression, september Kan der påvises en sammenhæng mellem fastende blodsukkerniveau og sammentrækningsevne for venstre hjertekammer hos diabetikere? (n=23) OBS BLODSUK VCF Outcome: Y=vcf, %/sec. Kovariat: X=blodsuk, mmol/l

9 Korrelation og regression, september Scatter plot Graphs/Scatter Plot /Two-Dimensional eller proc gplot data=sasuser.bp; plot vcf*blodsuk; run;

10 Korrelation og regression, september Ligningen for en ret linie: Y = α + βx

11 Korrelation og regression, september Fortolkning: α: intercept, afskæring (skæring med Y-akse) Sammentrækningsevnen for en diabetiker med en blodsukkerværdi på 0. Som regel en utilladelig ekstrapolation! β: hældning, regressionskoefficient Forskellen i sammentrækningsevne hos 2 diabetikere, der afviger i blodsukkerværdi med 1 mmol/l. Ofte parameteren med størst interesse.

12 Korrelation og regression, september Statistisk model: Y i = α + βx i + ε i, ε i N(0,σ 2 ) uafh. Estimation foretages v.hj.a mindste kvadraters metode

13 Korrelation og regression, september Mindste kvadraters metode: Bestem α og β, så kvadratafvigelsessummen n n (y i (α + βx i )) 2 = bliver mindst mulig i=1 i=1 ε 2 i ˆβ = S xy S xx = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2, ˆα = ȳ ˆβ x

14 Korrelation og regression, september Regressionsanalyse i ANALYST: Statistics/Regression/Simple eller Linear vcf Dependent, blodsuk Explanatory Statistics afkryds Confidence limits for estimates samt evt. Correlation matrix of estimates Og ved direkte programmering: proc reg data=sasuser.bp; model vcf = blodsuk / clb corrb; run;

15 Korrelation og regression, september Dependent Variable: vcf Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model Error Corrected Total Root MSE R-Square Dependent Mean Adj R-Sq Coeff Var Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t 95% Confidence Limits Intercept < blodsuk Correlation of Estimates Variable Intercept blodsuk Intercept blodsuk

16 Korrelation og regression, september Vigtige informationer fra output: hældning (slope, vises i output under betegnelsen blodsuk, fordi det er koefficienten til denne), ˆβ = , med tilhørende spredning (standard error) spredningen omkring linien (Root MSE), s = ˆσ = Denne størrelse benyttes til konstruktion af prediktionsgrænser (kommer senere), som er normalområder for given blodsukkerværdi.

17 Korrelation og regression, september Tegning med linie: I regressionsopsætningen klikkes Plots, og der afkrydses i Plot observed vs. independent Estimeret regressionslinie: vcf= blodsuk

18 Korrelation og regression, september Fortolkning af ˆα er ofte håbløs, men den er nødvendig for at lave prediktioner. Fittede (predikterede, forventede) værdier: ŷ i = ˆα + ˆβx i Forventet værdi af vcf for en diabetiker med blodsukker 10mmol/l: = 1.32

19 Korrelation og regression, september Omparametrisering, f.eks. v.hj.a. ny forklarende variabel: Z = X 10 Der gælder så α = α + 10β, dvs. liniens y-værdi i x=10. Fortolkning af α 10 : Sammentrækningsevne for en diabetiker med blodsukkerværdi 10 mmol/l.

20 Korrelation og regression, september Data/Transform/Compute, definer sukker10 som blodsuk-10 Gentag nu regressionen med blodsuk erstattet af sukker10. Vi får så Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t 95% Confidence Limits Intercept < sukker Correlation of Estimates Variable Intercept sukker10 Intercept sukker

21 Korrelation og regression, september Regressionsanalysen indeholder 3 parametre: 2 hørende til linien (intercept og hældning) 1, som er spredningen omkring linien (σ): den biologiske variation af vcf for folk med samme blodsukker-værdi Vi estimerer σ 2, variansen omkring regressionslinien ved s 2 = 1 n 2 n (y i ˆα ˆβx i ) 2 i=1 ca. gennemsnitlig kvadratisk afstand, blot er n (antallet af observationer) erstattet af n 2 (antallet af frihedsgrader), her 21

22 Korrelation og regression, september Man kan ikke forstå eller fortolke varianser direkte, så vi tager straks kvadratrod: s = s 2 som er estimat for spredningen omkring regressionslinien kaldes i SAS (lidt uheldigt) for Root Mean Square Error her , med de samme enheder som vcf

23 Korrelation og regression, september Hvor gode er skønnene over de ukendte parametre α og β? Hvor meget anderledes resultater kunne vi forvente at finde ved en ny undersøgelse? Det kan vises, at ˆβ N(β, σ2 S xx ) dvs. hældningen er præcist bestemt, hvis observationerne ligger tæt på linien (σ 2 lille) variationen i x-værdier (S xx ) er stor

24 Korrelation og regression, september Estimeret usikkerhed på ˆβ: se(ˆβ) = s Sxx Dette estimat kaldes standard error for ˆβ, eler generelt standard error of the estimate (s.e.e) Vi bruger det til at konstruere et 95% konfidensinterval ˆβ ± t 97.5% (n 2) se(ˆβ) = ˆβ ± ca.2 se(ˆβ) = ± = (0.0002, )

25 Korrelation og regression, september Vi kan også teste, typisk H 0 : β = 0 ved t-testet t = ˆβ se(ˆβ) t(n 2) som her giver t = =2.10 t(21), P= dvs. lige på grænsen af det signifikante

26 Korrelation og regression, september Tilsvarende kan vi teste f.eks. H 0 : α = α 0 ved t-testet t = ˆα α 0 se(ˆα) t(n 2) eller udregne et 95% konfidensinterval for α: ± = (0.854, 1.342) Dette er ikke særlig interessant. I stedet kan vi erstatte blodsuk af blodsuk-10, hvorved det nye intercept -estimat bliver 1.317(0.045) med 95% konfidensinterval ± = (1.223, 1.411). Dette kan fortolkes.

27 Korrelation og regression, september Vi kan altså teste hypoteser om såvel α som β, men: Estimaterne for intercept og hældning er (negativt) korrelerede (her -0.92, jv. s. 12) Accepter ikke to sideordnede test Selv om vi kan acceptere test vedr. både α (f.eks. intercept=0) og β (f.eks. hældning 1) hver for sig, kan vi ikke nødvendigvis acceptere begge samtidig

28 Korrelation og regression, september

29 Korrelation og regression, september Variationsopspaltning SS total = n (y i ȳ) 2 = SS model + SS resid i=1 Total variation = variation, som kan forklares + variation, som ikke kan forklares x er en god forklarende variable, hvis SS resid er lille i forhold til SS model

30 Korrelation og regression, september Alternativ teststørrelse for effekt af x F-teststørrelse for hypotesen H 0 : β = 0: SS model /1 SS resid /(n 2) F(1,n 2) Bemærk, at der her gælder, at det nye F-test giver det samme som det gamle t-test, fordi t = ˆβ se(ˆβ) = F

31 Korrelation og regression, september Ækvivalensen mellem t og F-tests gælder kun for simpel lineær regression Generelt tester F-testet mere end 1 frihedsgrad væk: flere niveauer af en kategorisk kovariat testes ens (anova) flere kvantitative forklarende variable testes væk på samme tid (multipel regression)

32 Korrelation og regression, september Determinationskoefficient, R 2 : Den andel af variationen (i y), der kan forklares ved modellen: R 2 = SS model SS total Her finder vi determinationskoefficienten: R 2 = 0.17, dvs. vi kan forklare 17% af variationen i vcf v.hj.a. variablen blodsuk. Determinationskoefficienten er kvadratet på korrelationskoefficienten mellem vcf og blodsuk (som dermed er r = 0.17 = 0.42)

33 Korrelation og regression, september Korrelationen r mellem to variable måler: I hvor høj grad ligner scatter plottet en ret linie? Ikke: Hvor nær ligger punkterne ved den rette linie? Korrelationskoefficienten estimeres ved: S n xy i=1 r = r xy = = (x i x)(y i ȳ) Sxx S n yy i=1 (x i x) 2 n i=1 (y i ȳ) 2 antager værdier mellem -1 og 1 (0 = uafhængighed) +1 og -1 svarer til perfekt lineær sammenhæng, hhv. positiv og negativ

34 Korrelation og regression, september Todimensional normalfordelingstæthed med korrelation 0 Alle lodrette snit giver normalfordelinger med samme middelværdi og samme varians

35 Korrelation og regression, september Todimensional normalfordelingstæthed Korrelation 0.9 Udpræget retning i figuren

36 Korrelation og regression, september Konturkurver for en normalfordeling

37 Korrelation og regression, september Regression kontra korrelation Antagelserne til brug for fortolkning af en korrelation er skrappere end for regressionsanalysen, fordi: En todimensional normalfordeling for (X,Y) medfører: De betingede fordelinger af Y givet X=x er igen normalfordelinger De betingede middelværdier ligger på en ret linie De betingede varianser er ens (uafhængig af x)

38 Korrelation og regression, september Betingninger i den todimensionale normalfordeling giver altså en lineær regressionsmodel: men ved udregning af korrelationen antager man tillige, at X erne følger en normalfordeling.

39 Korrelation og regression, september De to estimater (for korrelation og hældning) ligner hinanden ˆβ = S xy S xx ˆβ = r xy Syy S xx r xy = S xy Sxx S yy r xy = ˆβ Sxx S yy Men korrelationen er dimensionsløs og svær at fortolke

40 Korrelation og regression, september Test af uafhængighed (ingen korrelation), H 0 : ρ xy = 0 T = r xy 1 r 2 xy n 2 t(n 2) Test for β = 0 er identisk med test for ρ xy = 0

41 Korrelation og regression, september Men pas på: 1 r 2 xy = s 2 s 2 +ˆβ 2 Sxx n 2 Hold ˆβ og s 2 fast: S xx stor 1-r 2 xy tæt på 0 r 2 xy tæt på 1 r 2 xy kan gøres vilkårlig tæt på 1 ved at sprede x erne f.eks. ved at udelade de midterste

42 Korrelation og regression, september Korrelationskoefficienten udtrykker sammenhæng, ikke overensstemmelse (der er f.eks. en sammenhæng mellem alder og blodtryk, men der er naturligvis ikke overensstemmelse) Man skal derfor ikke bruge korrelationskoefficienten til at sammenligne målemetoder Pearson korrelationen måler graden af lineær sammenhæng. For krumme sammenhænge bør man benytte rangkorrelationer (Spearman).

43 Korrelation og regression, september Fittede (predikterede, forventede) værdier: ŷ i = ˆα + ˆβx i Konfidensgrænser for selve linien (smalle grænser) benyttes til sammenligning med andre grupper af personer man benytter spredningen s 1 + (x i x) 2 n S xx Disse grænser bliver vilkårligt snævre, når antallet af observationer øges. De er ofte irrelevante!

44 Korrelation og regression, september Konfidensgrænser (fås under Plots i regressionsopsætningen) eller ved at skrive symbol=rlclm95 i symbol-sætningen

45 Korrelation og regression, september Fittede (predikterede, forventede) værdier: ŷ i = ˆα + ˆβx i Prediktionsgrænser (normalområde) for enkeltobservationer (brede grænser) De benyttes til at afgøre, om en ny person er atypisk i forhold til normen (diagnostik), idet de omslutter ca. 95% af fremtidige observationer, også for store n. man benytter spredningen s n + (x i x) 2 S xx Disse grænser bliver ikke nævneværdigt snævrere, når antallet af observationer øges.

46 Korrelation og regression, september Prediktionsgrænser Afkryds Prediction limits i stedet for Confidence limits eller ved at skrive symbol=rlcli95 i symbol-sætningen

47 Korrelation og regression, september Modellens konklusioner er kun rimelige, hvis modellen selv er rimelig. Modelkontrol: Passer modellen rimeligt til data? Diagnostics: Passer data til modellen? Eller er der indflydelsesrige observationer eller outliers? Check af disse to forhold burde foretages fra begyndelsen, men da de kræver fit af modellen, kan de først foretages efterfølgende

48 Korrelation og regression, september Modelkontrol: Den statistiske model var Y i = α + βx i + ε i, ε i N(0,σ 2 ) uafhængige Hvilke antagelser skal vi checke her? linearitet varianshomogenitet (ε i erne har samme varians) normalfordelte afvigelser (ε i erne) Obs: Intet krav om normalfordeling på x i erne!! eller y i erne!!

49 Korrelation og regression, september Til grafisk modelkontrol skal vi bruge residualerne = modelafvigelserne = observeret - fittet værdi: eller en modifikation af disse (se senere) ˆε i = y i ŷ i

50 Korrelation og regression, september Residualplots: Residualer (af passende type) plottes mod den forklarende variabel x i for at checke linearitet (se efter krumninger) de fittede værdier ŷ i for at checke varianshomogenitet (se efter trompeter) fraktildiagram eller histogram for at checke normalfordelingsantagelsen De to førstnævnte figurer skal give indtryk af uorden dvs. der må ikke være nogen systematik Fraktildiagrammet skal ligne en ret linie

51 Korrelation og regression, september Linearitet, eller.. Tendens til buer? Hvis lineariteten ikke holder i rimelig grad, bliver modellen ufortolkelig.

52 Korrelation og regression, september Numerisk check af linearitet: Tilføj kvadratleddet blodsuk 2 vcf=α+β 1 blodsuk+β 2 blodsuk 2 Test af linearitet: β 2 =0 Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept <.0001 sukker blodsuk_i_anden Test af β = 0 giver t = 0.93 og P = Lineariteten ser rimelig ud

53 Korrelation og regression, september Afhjælpning af non-linearitet: tilføj flere kovariater, f.eks. alder, køn, medicin etc. transformer variablene med logaritmer kvadratrod, invers Lad være med at gøre noget: ikke-lineær regression

54 Korrelation og regression, september Problemer med varianshomogeniteten? Kaos? eller trompetfacon? symmetri om 0-linien? Hvis varianshomogeniteten ikke holder i rimelig grad, mister vi styrke, og prediktionsgrænser bliver upålidelige!

55 Korrelation og regression, september Trompetfacon kan fortolkes som konstant relativ spredning = konstant variationskoefficient Variationskoefficient = spredning middelværdi ofte konstant, når man måler på små positive størrelser, f.eks. koncentrationer transformer outcome med logaritme

56 Korrelation og regression, september Problemer med normalfordelingsantagelsen? Er histogrammet passende symmetrisk? Ser fraktildiagrammet lineært ud?

57 Korrelation og regression, september Hvis normalfordelingen ikke holder i rimelig grad, mister vi (lidt) styrke og prediktionsgrænser bliver upålidelige! Afhjælpning af problemer med normalfordelingsantagelsen: transformation med logaritmer i tilfælde af fordelinger med haler mod højre non-parametriske metoder men så får vi ingen kvantificeringer

58 Korrelation og regression, september Antagelsen om normalfordeling (og varianshomogenitet) er ikke så kritisk for selve fittet, fordi: t-fordelingen bygger på normalfordelingen, men kun på en normalfordelingsantagelse for estimatet ˆβ, og dette passer ofte, når der er rimeligt mange observationer, på grund af Den centrale grænseværdisætning, der siger at summer og andre funktioner af mange observationer bliver mere og mere normalfordelt. Men prediktionsgrænserne bliver misvisende og ufortolkelige!!

59 Korrelation og regression, september Transformation med logaritmer men hvilken logaritme? Alle logaritmer er proportionale, så resultaterne bliver ens (efter tilbagetransformation), men der er visse fif: Den forklarende variabel transformeres for at opnå linearitet, dvs. når det er successive fordoblinger, der har konstant effekt. Brug gerne 2-tals logaritmer!

60 Korrelation og regression, september Outcome transformeres enten for at opnå linearitet for at opnå varianshomogenitet Var(log(y)) Var(y) y 2 = CV 2 dvs. en konstant variationskoefficient (CV) på Y betyder konstant varians på log(y ), den naturlige logaritme (den som tidligere har heddet ln, men som altså hedder log i computersprog)

61 Korrelation og regression, september Regression diagnostics: Understøttes konklusionerne af hele materialet? Eller er der observationer med meget stor indflydelse på resultaterne? Udelad den i te person og bestem nye estimater for samtlige parametre. Udregn Cook s afstand, et mål for ændringen i parameterestimater. Spalt Cook s afstand ud i koordinater, som måler f.eks: Hvor mange s.e. ændrer ˆβ 1 sig, hvis den i te person udelades?

62 Korrelation og regression, september En enkelt observation skiller sig ud i forhold til de øvrige

63 Korrelation og regression, september Spalt Cooks afstand ud i koordinater og angiv: Hvor mange se er ændres f.eks. ˆβ, når den i te person udelades? Dependent Variable: vcf Output Statistics DFBETAS Obs Intercept blodsuk <

64 Korrelation og regression, september Estimeret linie: y = x ˆβ = ( ), t = = 2.1,P = Regressionsanalyse uden observation nr. 13 Estimeret linie: y = x ˆβ = ( ), t = = 1.05,P = 0.31

65 Korrelation og regression, september Outliers Observationer, der ikke passer ind i sammenhængen de er ikke nødvendigvis indflydelsesrige de har ikke nødvendigvis et stort residual Press-residualer Residualer, der fremkommer efter at den pågældende observation har været udelukket fra estimationen. (residualer without current observation)

66 Korrelation og regression, september Hvad gør vi ved indflydelsesrige observationer og outliers? ser nærmere på dem, de er tit ganske interessante anfører et mål for deres indflydelse Hvornår kan vi udelade dem? hvis de ligger meget yderligt husk at afgrænse konklusionerne tilsvarende! hvis man kan finde årsagen og da skal alle sådanne udelades!

67 Korrelation og regression, september Modelkontrol og Diagnostics i ANALYST Visse af plottene kan konstrueres direkte ved i regressionsopsætningen at klikke Plots/Residual hvor der vælges f.eks. Residual mod Predicted

68 Korrelation og regression, september Der findes 4 forskellige typer af residualer normeret? med alle obs. uden current obs. nej Residual Press ja Student Rstudent

69 Korrelation og regression, september Fuld kontrol over tegninger til modelkontrol fås ved i regressionsopsætningen at benytte Save Data, afkryds Create and save diagnostics data overflyt (klik Add) de størrelser, der skal gemmes (typisk Predicted, Residual, Student, Rstudent,Cookd,Press). Dobbeltklik på Diagnostics Table i projekttræet Gem det ved at klikke File/Save as By SAS Name og åbn det i ANALYST, når der skal laves tegninger mv.

70 Korrelation og regression, september Falsk korrelation (spurious correlation) Korrelationen er: positiv for mænd positivt for kvinder negativt for mennesker Eks: Kolesterol vs. chokoladeindtag

71 Korrelation og regression, september Korrelationen er: tilsyneladende positiv 0 for hver aldersgruppe X og Y vokser begge med alderen

72 Korrelation og regression, september Et delvist program kunne se ud som: data a1; infile vcf.tal ; input glucose vcf; sukker10=glucose-10; glucose_i_anden=(glucose-10)**2; run; proc print data=a1; var glucose vcf; run; proc corr pearson spearman data=a1; var vcf glucose; run;

73 Korrelation og regression, september proc reg data=a1; model vcf=sukker10 glucose_i_anden / clb; run; proc reg data=a1; model vcf=glucose / corrb clb r p influence; output out=ny p=yhat r=resid student=stresid cookd=cook h=h rstudent=uresid press=press; run; proc print data=ny; var glucose vcf yhat resid stresid h cook uresid press; run; proc univariate normal data=ny; var resid; histogram / cfill=gray height=3 normal; probplot / height=3 normal(mu=est sigma=est l=33); inset mean std skewness / header= descriptive ; run;

74 Korrelation og regression, september proc gplot gout=plotud data=a1; plot vcf*glucose / haxis=axis1 vaxis=axis2 frame; axis1 order=(0 to 20 by 5) value=(h=3) offset=(3,3) minor=none label=(h=3 blood glucose (mmol/l) ); axis2 order=(0.6 to 2.0 by 0.2) value=(h=3) offset=(3,3) minor=none label=(a=90 R=0 H=3 Vcf (%/sec) ); symbol1 v=circle i=rlcli95 c=black h=3 l=1 w=2; run;