Modul 12: Regression og korrelation

Relaterede dokumenter
Modul 11: Simpel lineær regression

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Kapitel 11 Lineær regression

Forelæsning 11: Kapitel 11: Regressionsanalyse

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Kapitel 10 Simpel korrelation

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Eksamen i Statistik for biokemikere. Blok

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Modul 6: Regression og kalibrering

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Module 4: Ensidig variansanalyse

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Kapitel 12 Variansanalyse

Module 3: Statistiske modeller

Løsning til eksamen d.27 Maj 2010

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

1 Hb SS Hb Sβ Hb SC = , (s = )

Kapitel 12 Variansanalyse

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl

Løsninger til kapitel 14

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kapitel 7 Forskelle mellem centraltendenser

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Kvantitative metoder 2

Tema. Dagens tema: Indfør centrale statistiske begreber.

Simpel Lineær Regression: Model

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Module 12: Mere om variansanalyse

Modul 5: Test for én stikprøve

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Statistik i GeoGebra

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Statistik II 4. Lektion. Logistisk regression

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Lineære normale modeller (4) udkast

To samhørende variable

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Løsning eksamen d. 15. december 2008

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Konfidensintervaller og Hypotesetest

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Perspektiver i Matematik-Økonomi: Linær regression

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Nanostatistik: Lineær regression

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Løsning til eksaminen d. 14. december 2009

Vejledende besvarelser til opgaver i kapitel 14

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Transkript:

Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................ 2 12.1.2 Test for ens niveau, givet fælles hældning................. 4 12.1.3 Test for fælles skæringspunkt........................ 5 12.2 Test af korrelationskoefficient............................ 6 12.2.1 Test baseret på Pearson s korrelation.................... 6 12.2.2 Test baseret på Spearman s rangkorrelation................ 8 12.1 Sammenligning af to regressionslinier Bemærk: i modulerne om regression og korrelation kalder vi signifikansiveauet for δ, f.eks. δ = 5%. I det følgende betragtes sammenligning af to uafhængige regressioner. Fodtegnene i dette afsnit refererer til de to populationer/stikprøver. F.eks. er de to liniers ligninger og de to fittede linier er EY = α 1 + β 1 X EY = α 2 + β 2 X Ŷ Ŷ = a 1 + b 1 X = a 2 + b 2 X Lad os betegne kvadratsummerne for X som følger: n 1 n 2 SSX 1 = x 2 i SSX 2 = Bemærk: de to sæt af X i -værdier behøver ikke at være ens. Det er altså forskellige x i -er som indgår i de to ovenstående summer. x 2 i

12.1 Sammenligning af to regressionslinier 2 På tilsvarende måde defineres for Y : og n 1 n 2 SSY 1 = yi 2 SSY 2 = n 1 n 2 SXY 1 = x i y i SXY 2 = x i y i y 2 i 12.1.1 Test for ens hældning Forudsætninger: Forudsætningerne for at udføre regressionerne skal være opfyldt for begge de to stikprøver. De to stikprøver skal være uafhængige. σ1 2 = σ2 2, dvs. de to residualvarianser skal være ens. Kan testes med metoden i afsnit 6.3 2-sidet F-test ved at udregne s 2 Y X F = s 2 Y X max s 2 Y X er den største af de to residualvariansestimater etc. Zar anfører at max denne test sjældent udføres, hvilket jeg mener er forkert - testen bør gennemføres. Det poolede variansskøn under forudsætning af varianshomogenitet er min s 2 Y X p = SSE 1 + SSE 2 ν ν er det poolede antal frihedsgrader, dvs. Nulhypotese H 0 : ν = n 1 2 + n 2 2 = n 1 + n 2 4 a β 1 = β 2 b β 1 β 2 c β 1 β 2 Alternativ hypotese H A : a β 1 β 2 b β 1 < β 2 c β 1 > β 2

12.1 Sammenligning af to regressionslinier 3 Teststørrelse T = b 1 b 2 s b1 b 2 s b1 b 2 = s Y X p 1 SSX 1 + 1 SSX 2 Fordeling: T er t-fordelt med ν frihedsgrader. p-værdi: Lad t obs være den observerede værdi af T, så er a p = 2 PT > t obs b p = PT < t obs c p = PT > t obs udregnet under t-fordelingen med ν frihedsgrader. Beslutningsregel: Forkast H 0, hvis p < δ eller a T t δ2,ν b T t δ1,ν c T t δ1,ν Generalisering: Testen kan generaliseres ved at have H 0 : β 1 β 2 = β 0, β 0 er en konstant. Teststørrelsen bliver da T = b 1 b 2 β 0 s b1 b 2 Det øvrige forløb er som beskrevet ovenfor. Konfidensinterval for β 1 β 2 er givet ved endepunkterne: b 1 b 2 ± t δ2,ν s b1 b 2 Kommentar: Rækkefølgen af test for ens α og test for ens β er vigtig. Man bør normalt ikke starte med at teste for ens α, fordi det vedrører liniernes skæringspunkter med Y -aksen, som ofte ligger langt fra range af X for de to stikprøver. Derfor starter vi med at teste om hældningerne ens.

12.1 Sammenligning af to regressionslinier 4 Hvis hældningerne er forskellige Antag at H 0 : β 1 = β 2 blev forkastet. I dette tilfælde skærer linierne hinanden i punktet og den fælles værdi af Ŷ i dette punkt er X I = a 2 a 1 b 1 b 2 Ŷ I = a 1 + b 1 X I = a 2 + b 2 X I Hvis hældningerne er ens Antag at H 0 : β 1 = β 2 blev accepteret. Lad β = β 1 = β 2 betegne den fælles hældning. Udregn estimat for den fælles hældning: Udregn nyt variansestimat som har ν = n 1 + n 2 3 frihedsgrader. b c = SSX 1b 1 + SSX 2 b 2 SSX 1 + SSX 2 s 2 Y X c = SSY 1 + SSY 2 SXY 2 1+SXY 2 SSX 1 +SSX 2 n 1 + n 2 3 Variansen på b c estimeres ved s 2 b c = s 2 Y X c SSX 1 + SSX 2 Konfidensinterval for β er givet ved endepunkterne: b c ± t δ2,ν s bc 12.1.2 Test for ens niveau, givet fælles hældning Forudsætning: β 1 = β 2 Nulhypotese H 0 : α 1 = α 2 fælles skæringspunkt, dvs. sammenfaldende linier Alternativ hypotese H A : α 1 α 2 Der kan også laves ensidede tests

12.1 Sammenligning af to regressionslinier 5 Teststørrelse T = Y 1 Y 2 bc X 1 X 2 s a s a = s Y X 1 c + 1 2 X1 X 2 + n 1 n 2 SSX 1 + SSX 2 Fordeling: T er t-fordelt med ν frihedsgrader. p-værdi: p = 2 PT > t obs udregnet under t-fordelingen med ν frihedsgrader. Beslutningsregel: Forkast H 0, hvis p < δ eller T > t δ2,ν Bemærkning: Når β 1 = β 2 er α 1 α 2 den lodrette afstand mellem linierne, som er den samme for alle X. Når hældningerne er antaget ens giver det derfor mening at teste for ens niveau. Hvis niveauerne er forskellige Konfidensinterval for α 1 α 2 er givet ved endepunkterne Y 1 Y 2 bc X 1 X 2 ± tδ2,ν s a Hvis niveauerne er ens Så er de to linier sammenfaldende, og har en fælles ligning: Den tilsvarende fittede linie er EY = α + βx Ŷ = a c + b c X a c = Y p b c X p og de poolede gennemsnit kan udregnes som X p = n 1X 1 + n 2 X 2 n 1 + n 2 Y p = n 1Y 1 + n 2 Y 2 n 1 + n 2

12.2 Test af korrelationskoefficient 6 12.1.3 Test for fælles skæringspunkt Som sagt er det normalt ikke tilrådeligt at direkte teste for fælles skæringspunt niveau, da det ofte indebærer en høj grad af ekstrapolation. Hvis man alligevel har brug for dette test, f.eks. fordi 0 ligger i range for X for begge stikprøver, kan det udføres som følger. Forudsætning: Samme som for test for ens hældning Nulhypotese H 0 : α 1 = α 2 fælles skæringspunkt Alternativ hypotese H A : α 1 α 2 Der kan også laves ensidede tests Teststørrelse T = a 1 a 2 s a1 a 2 s a1 a 2 = s Y X p 1 + 1 + X2 1 + X2 2 n 1 n 2 SSX 1 SSX 2 Fordeling: T er t-fordelt med ν frihedsgrader. p-værdi: p = 2 PT > t obs udregnet under t-fordelingen med ν frihedsgrader. Beslutningsregel: Forkast H 0, hvis p < δ eller T > t δ2,ν Bemærkning: Hvis H 0 accepteres kan man bagefter teste hypotesen H 0 : β 1 = β 2. Vi vil ikke gennemgå dette test her, men bemærk at det er forskelligt fra ovenstående test for ens hældninger. 12.2 Test af korrelationskoefficient 12.2.1 Test baseret på Pearson s korrelation Forudsætninger: X og Y er bivariat normalfordelt. Denne forudsætning er f.eks. opfyldt hvis der, foruden at betingelserne for at lave regression af Y på X er opfyldt, også gælder at X er normalfordelt. Dette er ækvivalent med at at betingelserne for at lave regression af X på Y er opfyldt, samtidig med at Y er normalfordelt. Estimation: Populationskorrelationen ρ estimeres ved stikprøvekorrelationen r = SXY SSX SSY Bemærk at r 2 er det samme som determinationskoefficienten fra simpel lineær regression.

12.2 Test af korrelationskoefficient 7 Egenskaber: Der gælder altid 1 r 1 r er dimensionsløs. r tæt ved 1 betyder stærk positiv korrelation mellem X og Y. r tæt ved 1 betyder stærk negativ korrelation mellem X og Y. r måler styrken af sammenhængen mellem X og Y uanset om den er positiv eller negativ, på samme måde som r 2 gør det for lineær regression. Nulhypotese H 0 : a ρ = 0 b ρ 0 c ρ 0 Alternativ hypotese H A : a ρ 0 b ρ < 0 c ρ > 0 Teststørrelse: s r = T = r s r 1 r 2 n 2 Fordeling: T er t-fordelt med ν = n 2 frihedsgrader. p-værdi: Lad t obs være den observerede værdi af T, så er a p = 2 PT > t obs b p = PT < t obs c p = PT > t obs udregnet under en t-fordeling med n 2 frihedsgrader. Beslutningsregel: Forkast H 0, hvis p < δ eller a T t δ2,ν

12.2 Test af korrelationskoefficient 8 b T t δ1,ν c T t δ1,ν Konklusion: Testen kan generaliseres, men i så fald ændres beregningen af teststørrelsen: Nulhypotese H 0 : a ρ = ρ 0 b ρ ρ 0 c ρ ρ 0 Alternativ hypotese H A : a ρ ρ 0 b ρ < ρ 0 c ρ > ρ 0 ρ 0 er en konstant. Teststørrelse: T = Z ζ 0 σ Z 1 + r Z = 0.5 ln 1 r 1 + ρ0 ζ 0 = 0.5 ln 1 ρ 0 1 σ Z = n 3 Bemærk at Z kan variere frit mellem og, og at r = 0 svarer til Z = 0. Fordeling: T N0, 1 approximativt for n stor. p-værdi: Lad t obs være den observerede værdi af T, så er a p = 2 PT > t obs b p = PT < t obs c p = PT > t obs

12.2 Test af korrelationskoefficient 9 udregnet under N0, 1-fordelingen. Beslutningsregel: Forkast H 0, hvis p < δ eller a T Z δ2,ν b T Z δ1,ν c T Z δ1,ν 12.2.2 Test baseret på Spearman s rangkorrelation Forudsætninger: X og Y erstattes af deres range, som i Mann-Whitney testet. Derfor er det ikke nødvendigt at antage at X og Y er bivariat normalfordelt. Bemærk: En anden rangkorrelation, Kendall s τ, kan også benyttes, men er mindre efficient, ifølge Zar, selv om den er interessant i andre sammenhænge. Kendall s τ vil ikke blive gennemgået her. Estimation: Populationsrangkorrelationen ρ s estimeres ved Spearman s rangkorrelation r s, som kan udregnes som r, men baseret på rangene i stedet for X og Y. Dog er det bedre at bruge følgende formel Egenskaber er stort set som for r, r s = 1 6 n d2 i nn 2 1 d i = rangx i rangy i Der gælder altid 1 r s 1 r s er dimensionsløs. r s tæt ved 1 betyder stærk positiv korrelation mellem X og Y. r s tæt ved 1 betyder stærk negativ korrelation mellem X og Y. r s måler styrken af sammenhængen mellem X og Y uanset om den er positiv eller negativ. Da r og r s begge estimerer en korrelation kan de godt have værdier som minder om hinanden for samme stikprøve. Nulhypotese H 0 : a ρ s = 0 b ρ s 0 c ρ s 0

12.2 Test af korrelationskoefficient 10 Alternativ hypotese H A : a ρ s 0 b ρ s < 0 c ρ s > 0 Teststørrelse: r s Fordeling: Brug Zar tabel B.20, tabelværdi w δ1,n og w δ2,n Beslutningsregel: Forkast H 0, hvis a r s w δ2,n b r s w δ1,n c r s w δ1,n Konklusion: Testen kan generaliseres, men i så fald ændres beregningen af teststørrelsen. Forudsætninger: n 10 og r s 0.9 det sidste korrigerer en trykfejl i Zar, p. 398. Nulhypotese H 0 : a ρ s = ρ s0 b ρ s ρ s0 c ρ s ρ s0 Alternativ hypotese H A : a ρ s ρ s0 b ρ s < ρ s0 c ρ s > ρ s0 ρ s0 er en konstant. Teststørrelse: T = Z ζ 0 σ Z 1 + rs Z = 0.5 ln 1 r s 1 + ρs0 ζ 0 = 0.5 ln 1 ρ s0 1.060 σ Z = n 3

12.2 Test af korrelationskoefficient 11 Bemærk faktoren 1.060. Bemærk at Z kan variere frit mellem og, og at r s = 0 svarer til Z = 0. Fordeling: T N0, 1 approximativt for n stor. p-værdi: Lad t obs være den observerede værdi af T, så er a p = 2 PT > t obs b p = PT < t obs c p = PT > t obs udregnet under N0, 1-fordelingen. Beslutningsregel: Forkast H 0, hvis p < δ eller a T > Z δ2,ν b T < Z δ1,ν c T > Z δ1,ν