Kapitel 10 Simpel korrelation

Relaterede dokumenter
Kapitel 7 Forskelle mellem centraltendenser

Kapitel 11 Lineær regression

Modul 12: Regression og korrelation

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Kapitel 1 Statistiske grundbegreber

Betingede sandsynligheder Aase D. Madsen

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Kapitel 3 Centraltendens og spredning

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Forelæsning 11: Kapitel 11: Regressionsanalyse

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Kvantitative Metoder 1 - Forår Dagens program

Kapitel 13 Reliabilitet og enighed

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Kapitel 3 Centraltendens og spredning

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Kvantitative Metoder 1 - Forår Dagens program

Kapitel 4 Sandsynlighed og statistiske modeller

Elementær sandsynlighedsregning

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Modul 6: Regression og kalibrering

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

ca. 5 min. STATISTISKE TEGN

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Kvantitative metoder 2

Kvantitative Metoder 1 - Efterår Dagens program

Kapitel 2 Frekvensfordelinger

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Ikke-parametriske tests

1 Regressionsproblemet 2

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Nanostatistik: Opgavebesvarelser

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Statistik II 1. Lektion. Analyse af kontingenstabeller

Personale i daginstitutioner normering og uddannelse

Løsninger til kapitel 14

Elementær sandsynlighedsregning

Løsning til eksaminen d. 29. maj 2009

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Løsning eksamen d. 15. december 2008

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Kvantitative metoder 2

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Epidemiologi og Biostatistik

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Normalfordelingen og Stikprøvefordelinger

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Kvantitative metoder 2

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Vægte motiverende eksempel. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægtet model. Vægtrelationen

Epidemiologi og Biostatistik

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

(studienummer) (underskrift) (bord nr)

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Kausalitet. Introduktion til samfundsvidenskabelig metode. Samfundsvidenskabelig metode. Hvad er metode? Hvad er kausalitet.

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Undervisningsbeskrivelse

Matematik/Statistik. statistik. Forelæser og ansvarlig for kursets statistikdel: Peter Sunde Afd. f. Populationsbiologi

M1, slide 4 (Introduktion til kurset: praktiske oplysninger) M1, slide 5 (Introduktion til kurset: praktiske oplysninger)

Fejlforplantning. Landmålingens fejlteori - Lektion 5 - Fejlforplantning. Repetition: Varians af linear kombination. Eksempel: Vinkelberegning

Personlig stemmeafgivning

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

Konfidensintervaller og Hypotesetest

Eksamen i Statistik for biokemikere. Blok

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Program dag 2 (11. april 2011)

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Løsning til eksamen d.27 Maj 2010

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Metodenotat FLIS sammenligningskommuner 2016-data

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Modul 11: Simpel lineær regression

Opgavebesvarelse, brain weight

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kapitel 4 Sandsynlighed og statistiske modeller

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Lineære sammenhænge, residualplot og regression

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Indblik i statistik - for samfundsvidenskab

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Transkript:

Kapitel 10 Simpel korrelation Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011

1 Indledning 2 Pearsons r 3 Spearmans ρ

1 Indledning 2 Pearsons r 3 Spearmans ρ

Indledning Korrelation mellem to variable betyder, at en ændring i den ene variabel giver en forudsigelig (mere eller mindre) ændring i den anden variabel En høj grad af korrelation kan ikke bruges til at postulere nogen årsagssammenhæng (kausalitet) Ved beregning af korrelation er det ikke nødvendigt at tage stilling til, hvilken variabel der er afhængig, og hvilken der er uafhængig dette er heller ikke altid helt oplagt... Vi vil se på definition, egenskaber, beregning, fortolkning og signifikanstest for Pearsons korrelationskoefficient r Spearmans rangkorrelationskoefficient ρ

Indledning Korrelation mellem to variable betyder, at en ændring i den ene variabel giver en forudsigelig (mere eller mindre) ændring i den anden variabel En høj grad af korrelation kan ikke bruges til at postulere nogen årsagssammenhæng (kausalitet) Ved beregning af korrelation er det ikke nødvendigt at tage stilling til, hvilken variabel der er afhængig, og hvilken der er uafhængig dette er heller ikke altid helt oplagt... Vi vil se på definition, egenskaber, beregning, fortolkning og signifikanstest for Pearsons korrelationskoefficient r Spearmans rangkorrelationskoefficient ρ

Indledning Korrelation mellem to variable betyder, at en ændring i den ene variabel giver en forudsigelig (mere eller mindre) ændring i den anden variabel En høj grad af korrelation kan ikke bruges til at postulere nogen årsagssammenhæng (kausalitet) Ved beregning af korrelation er det ikke nødvendigt at tage stilling til, hvilken variabel der er afhængig, og hvilken der er uafhængig dette er heller ikke altid helt oplagt... Vi vil se på definition, egenskaber, beregning, fortolkning og signifikanstest for Pearsons korrelationskoefficient r Spearmans rangkorrelationskoefficient ρ

Indledning Korrelation mellem to variable betyder, at en ændring i den ene variabel giver en forudsigelig (mere eller mindre) ændring i den anden variabel En høj grad af korrelation kan ikke bruges til at postulere nogen årsagssammenhæng (kausalitet) Ved beregning af korrelation er det ikke nødvendigt at tage stilling til, hvilken variabel der er afhængig, og hvilken der er uafhængig dette er heller ikke altid helt oplagt... Vi vil se på definition, egenskaber, beregning, fortolkning og signifikanstest for Pearsons korrelationskoefficient r Spearmans rangkorrelationskoefficient ρ

1 Indledning 2 Pearsons r 3 Spearmans ρ

Pearsons r Ved korrelationen mellem x og y er det tit underforstået, at der er tale om Pearsons lineære produktmoment korrelationskoefficient Beskriver den lineære sammenhæng mellem to variabler Pearsons r er et parametrisk mål, der kan anvendes når både x og y er målt på interval- eller ratioskala

Pearsons r (fortsat) Pearsons r varierer mellem 1 og 1 r = 1 betyder perfekt positiv korrelation r = 1 betyder perfekt negativ korrelation r = 0 betyder fuldstændigt ukorreleret Pearsons r er et estimat for korrelationskoefficienten ρ: ˆρ = r Korrelationskoefficienten ρ er defineret som ρ = cov(x, Y ) σ X σ Y

Pearsons r (fortsat) Pearsons r varierer mellem 1 og 1 r = 1 betyder perfekt positiv korrelation r = 1 betyder perfekt negativ korrelation r = 0 betyder fuldstændigt ukorreleret Pearsons r er et estimat for korrelationskoefficienten ρ: ˆρ = r Korrelationskoefficienten ρ er defineret som ρ = cov(x, Y ) σ X σ Y

Pearsons r (fortsat) Pearsons r varierer mellem 1 og 1 r = 1 betyder perfekt positiv korrelation r = 1 betyder perfekt negativ korrelation r = 0 betyder fuldstændigt ukorreleret Pearsons r er et estimat for korrelationskoefficienten ρ: ˆρ = r Korrelationskoefficienten ρ er defineret som ρ = cov(x, Y ) σ X σ Y

Grafisk fortolkning af Pearsons r http://en.wikipedia.org/wiki/file:correlation_examples.png

Beregning af Pearsons r Korrelationen mellem de n datapar (x i, y i ) etimeres ved følgende formel r = ( n i=1 n n x i y i i=1 n ) n n xi 2 ( x i ) (n 2 i=1 n x i y i i=1 i=1 n i=1 y 2 i ( ) n y i ) 2 i=1 Det er ikke så slemt, hvis du starter med at beregne summerne, kvadratsummerne og produktsummen...

Signifikanstest for Pearsons r Tabel G i Appendiks 1 indeholder kritiske værdier for Pearsons r (numerisk værdi), idet df = n 2 Hypoteser formuleres H 0 : r = 0; H 1 : r 0 (to-sidet alternativ) H 0 : r 0; H 1 : r > 0 (hvis vi har r > 0) H 0 : r 0; H 1 : r < 0 (hvis vi har r < 0) Husk altid at lave grafisk kontrol!

Pearsons r for Anscombes data er 0,87 y1 4 6 8 10 12 y2 4 6 8 10 12 4 6 8 10 12 14 16 18 4 6 8 10 12 14 16 18 x1 x2 y3 4 6 8 10 12 y4 4 6 8 10 12 4 6 8 10 12 14 16 18 4 6 8 10 12 14 16 18 x3 x4 Efter http://en.wikipedia.org/wiki/image:anscombe.svg

Eksempel y 0 2 4 6 8 10 Data (x, y): (2, 1) (3, 3) (4, 1) (5, 5) (6, 3) (7, 4) (7, 7) (8, 6) (9, 9) Beregningshjælp: n = 9, x = 51, x 2 = 333, y = 39, y 2 = 227 Som noget nyt skal vi også bruge summen af produkterne 0 2 4 6 8 10 x n x i y i = 264 i=1

Eksempel y 0 2 4 6 8 10 Data (x, y): (2, 1) (3, 3) (4, 1) (5, 5) (6, 3) (7, 4) (7, 7) (8, 6) (9, 9) Beregningshjælp: n = 9, x = 51, x 2 = 333, y = 39, y 2 = 227 Som noget nyt skal vi også bruge summen af produkterne 0 2 4 6 8 10 x n x i y i = 264 i=1

Eksempel y 0 2 4 6 8 10 Data (x, y): (2, 1) (3, 3) (4, 1) (5, 5) (6, 3) (7, 4) (7, 7) (8, 6) (9, 9) Beregningshjælp: n = 9, x = 51, x 2 = 333, y = 39, y 2 = 227 Som noget nyt skal vi også bruge summen af produkterne 0 2 4 6 8 10 x n x i y i = 264 i=1

Eksempel (fortsat) Nu kan vi beregne Pearsons r: r = 9 264 51 39 = 0, 8512 (9 333 51 2 )(9 227 39 2 ) Sættet af hypoteser er H 0 : r 0; H 1 : r > 0 Med df = 9 2 = 7 finder vi 0, 0005 < p < 0, 005 (enhalet), hvilket betyder klar afvisning af H 0

1 Indledning 2 Pearsons r 3 Spearmans ρ

Spearmans ρ Hvis en af variablerne er målt på ordinalskala, eller hvis sammenhængen er ikke-lineær, så kan man ikke anvende Pearsons r I stedet benyttes Spearmans ρ som beregnes af forskellen mellem rangværdierne for x og y som 6 n i=1 d 2 i ρ = 1 n(n 2 1) idet d i = rang(x i ) rang(y i ) beregnes for alle n datapunkter

Spearmans ρ eksempel på ikke-lineær sammenhæng Pausevarighed 0 10 20 30 40 50 Observationer Model 0 20 40 60 80 100 Pauseprocent

Spearmans ρ eksempel (fortsat) n 13 d 2 63 Spearmans ρ 0,8269 Hvis der er mange ties kan man lave en korrektion eller beregne Pearsons r for rangværdierne i stedet Pearsons r (for rangværdier) 0,8257 Pearsons r (for rådata) 0,7749

Spearmans ρ signifikanstest Tabel G (kritiske værdier for Pearsons r) kan benyttes hvis n > 10 (husk at df = n 2) For n < 10 benyttes Tabel H hvor laves opslag efter n I eksemplet er n = 13 og ρ = 0, 827 så vi opstiller en nulhypotese og et alternativ: H 0 : ρ = 0 og H 1 : ρ > 0 og vi finder p < 0, 0005 (énhalet, df = 11) fra Tabel G