Nanostatistik: Lineær regression

Transkript

1 Nanostatistik: Lineær regression JLJ Nanostatistik: Lineær regression p. 1/41

2 Sammenhænge Funktionssammenhæng: y er en funktion af x. Ex: Hvis jeg kender afstanden mellem to galakser så kender jeg også den hastighed hvormed de bevæger sig væk fra hinanden Ex: En målemetode giver et respons der er proportional med koncentrationen af et bestem stof i prøven x kaldes den forklarende variabel y kaldes den afhængige variabel Nanostatistik: Lineær regression p. 2/41

3 Sammenhænge Biologisk samvariation: x og y er korrelerede indenfor en population Ex: Vægt og højde er positivt korrelerede: den gennemsnitlige vægt for en given højde vil vokse med højden De to variable er på lige fod, men i en analyse kan vi vælge at betragte den ene som forklarende og den anden som afhængig Nanostatistik: Lineær regression p. 3/41

4 Sammenhænge Falsk sammenhæng: Et begrænset datasæt kan på grund af andre faktorer vise en sammenhæng mellem to variable der ikke er forbundne Ex: Fra falder antallet af storkepar i Danmark samtidig med at antallet af fødsler går ned Nanostatistik: Lineær regression p. 4/41

5 Er der en linær sammenhæng Plot data! Den fundne lineære sammenhæng gælder kun indenfor dataområdet! (medmindre der er en teori bagved) En etableret sammenhæng bruges ofte til at sige noget om den afhængige variabel givet kendskab til den forklarende variabel: Forklarende variabel: nem at måle Afhængige variabel: svær at måle Ex: kan nemt måle højden på en pige og kan bruge denne til at sige noget om vægten Data fra jer Nanostatistik: Lineær regression p. 5/41

6 Bedste rette linie Hvordan estimerer vi den linære sammenhæng der bedst beskriver data? Lineær sammenhæng?: y-erne ligger ikke på en linie: de spreder sig omkring linien Statistisk model: E(Y i ) = α + βx i α: liniens skæring med y-aksen β: liniens hældning Nanostatistik: Lineær regression p. 6/41

7 Mindste kvadraters metode Data: n punkter (x i,y i ) Model: x i -erne opfattes som faste og y i er en observation fra en stokastisk variabel med en fordeling der afhænger af x i, specielt: E(Y i ) = α + βx i Metode: vælger den linie der minimerer summen af de kvadrerede afstande til linien R(α,β) = n (Y i α βx i ) 2 i=1 Find ˆα og ˆβ ved at minimere R(α,β) Vis R-plot Nanostatistik: Lineær regression p. 7/41

8 Mindste kvadraters metode Løsning: ˆβ = SPD xy ˆα = Ȳ ˆβ x SPD xy = n n (x i x)(y i Ȳ ) = (x i x)y i i=1 i=1 n = (x i x) 2 i=1 Nanostatistik: Lineær regression p. 8/41

9 Bevis R(α, β) = = n (Y i α βx i ) 2 i=1 n {(Y i Ȳ ) + (Ȳ α β x) β(x i x)} 2 i=1 = (Y i Ȳ )2 + n(ȳ α β x)2 + β 2 (x i x) 2 +2(Ȳ α β x) (Y i Ȳ ) 2β (x i x)(y i Ȳ ) 2β(Ȳ α β x) (x i x) = (Y i Ȳ )2 + n(ȳ α β x)2 + β 2 2βSPD xy For fast β skal vi vælge α til ˆα = Ȳ β x. Indsætter vi dette får vi (Yi Ȳ )2 + β 2 2βSPD xy Nanostatistik: Lineær regression p. 9/41

10 Bevis (Yi Ȳ ) 2 + β 2 2βSPD xy Differentierer vi mht β fås 2β 2SPD xy og sætter vi denne lig med 0 får vi ˆβ = SPD xy Nanostatistik: Lineær regression p. 10/41

11 Hubble s law In 1929, Edwin Hubble investigated the relationship between distance of a galaxy from the earth and the velocity with which it appears to be receding Big Bang Hubble s law is as follows: Recession Velocity = Ho*Distance Vis R-plot n = 24, x = , ȳ = , = , SPD xy = ˆβ = , ˆα = β = 75?, negative hastigheder? Nanostatistik: Lineær regression p. 11/41

12 Unbiased estimater SPD xy = (x i x)(y i Ȳ ) = (x i x)y i Ȳ (x i x) = (x i x)y i ( ) SPDxy E(ˆβ) = E = 1 E(SPD xy ) = 1 E{(xi x)y i } 1 = (xi x)(α + βx i ) β = (xi x)x i = β (xi x)(x i x) = β Nanostatistik: Lineær regression p. 12/41

13 Unbiased estimater E(ˆα) = E(Ȳ ˆβ x) = E(Ȳ ) xe(ˆβ) = 1 n E(Yi ) β x = 1 n (α + βxi ) β x = α + β x β x = α Nanostatistik: Lineær regression p. 13/41

14 V (ˆβ) = V = = ( ) SPDxy 1 Varians = 1 SSD 2 V (SPD xy ) = 1 x SSD 2 x (xi x) 2 V (Y i ) SSD 2 x 1 SSD 2 σ 2 = x σ2, hvis V (Y i ) σ 2 V {(xi x)y i } Jo større SSD 2 x jo mindre varians: sørge for at x-værdierne er spredt ud Nanostatistik: Lineær regression p. 14/41

15 ˆα = Ȳ ˆβ x = 1 n Varians Yi x (xi x)y i = Y i ( 1 n x(x ) i x) V (ˆα) = ( 1 n x(x ) i x) 2 V (Y i ) { n = σ 2 n 2 2 x (xi x) + x2 n SSD 2 x { } 1 = σ 2 n + x2, hvis V (Y i ) σ 2 (xi x) 2 } Jo længere x er væk fra nul jo mindre ved vi om skæringen med y-aksen Vis R-eksempler Nanostatistik: Lineær regression p. 15/41

16 Skøn over varians Model: Y 1,...,Y n uafhængige, E(Y i ) = α + βx i V (Y i ) = σ 2 og Skøn over σ 2? σ 2 = E{[Y i E(Y i )] 2 } = E{(Y i α βx i ) 2 } Bruge s 2 = 1 n 2 Bemærk: n 2! n i=1 (Y i ˆα ˆβx i ) 2 Vis plot med linier i afstand 2s Påstand: E(s 2 ) = σ 2 Nanostatistik: Lineær regression p. 16/41

17 Bevis Det i te residual: r i = Y i ˆα ˆβx i, s 2 = 1 n 2 r 2 i Vi skriver Y i som Y i = α + βx i + u i, E(u i ) = 0, V (u i ) = σ 2 Vi har Ȳ = α + β x + ū, og SPD xy = n (x i x)y i = (x i x)(α + βx i + u i ) i=1 = 0 + β + (x i x)u i Nanostatistik: Lineær regression p. 17/41

18 Bevis Indsætter vi i ˆβ får vi Dernæst indsættes i r i : ˆβ = SPD xy = β + 1 (xi x)u i r i = Y i ˆα ˆβx i = {α + βx i + u i } {α + β x + ū} { β + 1 } (xj x)u j (x i x) = u i ū x i x (xj x)u j, Nanostatistik: Lineær regression p. 18/41

19 Bevis Kvadrerer vi disse fås r 2 i = (u i ū) 2 2 (ui ū)(x i x) (xj x)u j + (xi x) 2 SSD 2 x { } 2 (xj x)u j = (u i ū) 2 1 { (xj x)u j } 2, E( r 2 i ) = (n 1)σ 2 1 = (n 1)σ 2 σ2 (xi x) 2 = (n 1)σ 2 σ 2 = (n 2)σ 2 i (x i x)(x j x)e(u i u j ) j Nanostatistik: Lineær regression p. 19/41

20 Lineær normal model Model: Y 1,...,Y n uafhængige, Y i N(α + βx i,σ 2 ) Så er ˆα, ˆβ maximum likelihood estimaterne (mle), og s 2 er næsten mle for σ 2 ˆβ = SSD 1 ) n x 1 Y σ i(x i x) N (β, 2 ˆα = ( ) n 1 Y 1n i x(x i x) N (α,σ ( )) SSD 2 1 x n + SSD x2 x idet sum af uafhængige normalfordelte variable er normalfordelt s 2 σ2 n 2 χ2 [n 2] Nanostatistik: Lineær regression p. 20/41

21 Kontrol af modelantagelser Lineær sammenhæng: Lav plot med punkterne (ˆµ i,r i ), ˆµ i = ˆα, ˆβx i, r i = y i ˆα ˆβx i disse skal sprede sig "symmetrisk" omkring x-aksen: ingen systematiske afvigelser der tyder på en mere kompliceret sammenhæng. (Vis Plot) Konstant varians: ingen trompetform. (Vis Plot) Normalitet: lav qq-plot. (Vis Plot) Nanostatistik: Lineær regression p. 21/41

22 Tørvægt - levende vægt Biomasse = levende vægt FW af smådyr i mulden Måles: tørvægt DM Data: 15 målinger af springhale (Folsomia quadrioculata s.l.) log(dm) log(f W) log(dm) log(f W) Vi vil forvente en sammenhæng på formen FW = c DM eller log(fw) = α + log(dm) Nanostatistik: Lineær regression p. 22/41

23 Teste hældning har givet værdi Model: Y 1,...,Y n uafhængige, Y i N(α + βx i,σ 2 ) Hypotese: β = β 0, Alternativ: β β 0 test på niveau 5% ( ) Benytter: ˆβ N σ β, 2, s 2 n 2 σ2 χ2 [n 2] Teststørrelse: T = ˆβ β 0 s2 / t[n 2] Accept: t < t [n 2] Forkast: t t [n 2] p-værdi: 2F t[n 2] ( t ) 95% [ konfidensinterval: s ˆβ t [n 2], ˆβ + SSDx ] s t [n 2] SSDx Nanostatistik: Lineær regression p. 23/41

24 Tørvægt - levende vægt Estimater: ˆβ = 1.02, ˆα = 0.43 = , s 2 = Test for at β = 1: t = = 0.22, p-værdi = / % [ konfidensinterval for hældning: /1.3684, ] / [0.81, 1.24] = Nanostatistik: Lineær regression p. 24/41

25 Teste at skæringen er kendt Model: Y 1,...,Y n uafhængige, Y i N(α + βx i,σ 2 ) Hypotese: α = α 0, Alternativ: α α 0 test på niveau 5% Benytter: ˆα N (α,σ ( )) 2 1 n + SSD x2 x ˆα α Teststørrelse: T = 0 ( s 2 1 Accept: t < t [n 2] Forkast: t t [n 2] p-værdi: 2F t[n 2] ( t ) 95% konfidensinterval: [ ˆα s 1n + ) t[n 2] + x2 n SSD x2 t x [n 2], ˆα + s 1n + ] SSD x2 t x [n 2] Nanostatistik: Lineær regression p. 25/41

26 Hubble s law Hubble s law is as follows: Recession Velocity = Ho*Distance Teste α = 0 n = 24, x = , s 2 = , = , ˆα = t = ( p-værdi = 0.31 ) = 0.49 Nanostatistik: Lineær regression p. 26/41

27 Hubble s law: nye data The Astrophysical Journal 1990, 1-10 Hubbles lov: v = k H x, hvor x er afstand mellem galakser og v er hastigheden hvormed de bevæger sig væk fra hinanden. De nye data består af afstande x og et mål Z. Hvis Hubbles lov er gældende skal E{log(Z)} = α + βx med β = 0.2 log(10) For at bestemme konstanten k H i Hubbles lov skal man dividere exp(α) med en ny afstand µ 0. Man har skønnet µ 0 til ˆµ 0 = 21.9 hvor den stokastiske variabel ˆµ 0 har spredning 0.9. Vis data, to regressionslinier, kontrolplots Nanostatistik: Lineær regression p. 27/41

28 Hubble s law: nye data Teste β = 0.2 log(10): ˆβ = , = , s 2 = t = = / Estimere α når β er kendt: Y i βx i N(α,σ 2 ) ˆα = Ȳ β x, s2 = n 1 1 n 1 (Y i Ȳ β(x i x)) 2 V (ˆα) = σ2 n Resultat: ˆα = 7.075, spredning = ˆk H = exp(ˆα) ˆµ 0 = 54.0 V (ˆk H ) = ( exp(7.075) 21.9 ) ( exp(7.075) ) = = Nanostatistik: Lineær regression p. 28/41

29 Hubble s law: nye data Tl beregning af varians er brugt: h(α,µ 0 ) = exp(α) µ 0, h α (α,µ 0 ) = exp(α) µ 0, h µ0 (α,µ 0 ) = exp(α) µ 2 0 Approksimativt 95% konfidensinterval: [ , ] = [49.2, 58.8] Nanostatistik: Lineær regression p. 29/41

30 Estimat af β for kendt α Model: Y 1,...,Y n uafhængige, Y i N(α 0 + βx i,σ 2 ), α 0 kendt Finde ˆβ ved at minimere R(β) = n i=1 (Y i α 0 βx i ) 2 Da R (β) = 0 er det samme som 2 n 1 x i(y i α 0 βx i ) = 0 eller n 1 x i(y i α 0 ) = β n 1 x i ) får vi ˆβ = 1 n 1 x2 i n 1 x i(y i α 0 ) N (β, σ 2 n 1 x2 i Nanostatistik: Lineær regression p. 30/41

31 Prediktion Ud fra et datasæt har jeg bestemt ˆβ og ˆα Hvad kan jeg sige om en fremtidig værdi af Y givet at den tilhørende x-værdi er x 0? Vi har at E(Y ) = α + βx 0. Det er derfor naturligt at prediktere Y ved Y pred = ˆα + ˆβx 0 Vi kan skrive Y pred som Y pred = n i=1 { 1 Y i n + (x i x) x } 0 x Det ses herfra at Y pred er normalfordelt og vi får ( 1n Y pred N (α + βx 0,σ 2 + (x 0 x) 2 )) Nanostatistik: Lineær regression p. 31/41

32 Forurening Til undersøgelse af forureningen i en flod har man indsamlet 10 vandprøver forskellige steder i floden. For hver vandprøve bestemmes logaritmen til koncentrationen af colibakterier. I en afstand af 250 yds fra flodens udløb i havet er der indsamlet prøver i afstandene 0 feet, 50 feet, og 100 feet fra flodbredden. Tilsvarende er der i en afstand af 1300 yds fra flodens udløb i havet indsamlet prøver i afstandene 0 feet, 50 feet, og 100 feet fra flodbredden. Plot af logkoncentration som funktion af afstand fra bredden Plot af gennemsnit som funktion af afstand fra bredden qqplot for normalitet Spørgsmål: Er der samme afhængighed af afstanden til bredden de to steder? Er der forskel på de to steder? Nanostatistik: Lineær regression p. 32/41

33 To regressioner: Teste β 1 = β 2 Model: Y 11,...,Y 1n1 uafhængige, Y 1i N(α 1 + β 1 x 1i,σ 2 1 ) Y 21,...,Y 2n2 uafhængige, Y 2i N(α 2 + β 2 x 2i,σ 2 2 ) Hypotese: β 1 = β 2, Alternativ: β 1 β 2 Vi har: ˆβ 1 N ( β 1, ) σ1 2 SSD 1, ˆβ2 N ( β 2, ) σ2 2 SSD 2 s 2 1 σ2 1 n 1 2 χ2 [n 1 2], s 2 2 σ2 2 n 2 2 χ2 [n 2 2] Under hypotesen gælder der: ˆβ 1 ˆβ ( 2 N 0, ) σ1 2 + σ2 2 SSD 1 SSD 2 Hvis σ 2 1 = σ2 2 er s2 = (n 1 2)s 2 1+(n 2 2)s 2 2 n 1 +n 2 4 σ 2 n 1 +n 2 4 χ2 [n 1 +n 2 4] Nanostatistik: Lineær regression p. 33/41

34 To regressioner: Teste β 1 = β 2 σ1 2 = σ2 2 : Test på niveau 5% Teststørrelse: T = s 2 ( ˆβ 1 ˆβ 2 1 SSD SSD 2 Accept: t < t [n 1 + n 2 4] Forkast: t t [n 1 + n 2 4] p-værdi: 2F t[n1 +n 2 4]( t ) ) t[n 1 + n 2 4] Nanostatistik: Lineær regression p. 34/41

35 To regressioner: Teste β 1 = β 2 σ1 2 σ2 2 : Test på niveau 5% ˆβ 1 ˆβ 2 Teststørrelse: T = t[f] s s2 2 SSD 1 SSD 2 Accept: t < t [f] Forkast: t t [f] p-værdi: 2F t[f] ( t ) f = 1 n 1 2 ( s 2 1 ) 2 + s2 2 SSD 1 SSD 2 ( ) s 2 2 ( ) 1 SSD + 1 s n 2 2 SSD 2 Nanostatistik: Lineær regression p. 35/41

36 Forurening Estimater: 250yds: ˆβ = , ˆα = 2.25, s 2 = yds: ˆβ = , ˆα = 2.16, s 2 = Test for lineær sammenhæng (ikke gennegået): 250yds: F = 1.33, p-værdi = yds: F = 0.007, p-værdi = 0.93 Test for hældning lig med nul: 250yds: t = 3.00, p-værdi = yds: t = 1.59, p-værdi = 0.12 Test for ens varianser: F = 0.93, p-værdi = 0.84 Test for ens hældning: t = 0.93, p-værdi = 0.36 Nanostatistik: Lineær regression p. 36/41

37 Arbedsløshed i USA Variable: Year Federal Reserve Board Index of industrial production Unemployment rate Data: Year FRB y Hvordan afhænger Unemployment rate af FRB og year? Nanostatistik: Lineær regression p. 37/41

38 To forklarende variable Fordeling af Y i afhænger både af x i og z i Model: Y 1,...,Y n uafhængige, Y i N(α + βx i + γz i,σ 2 ) Estimater: ˆβ = SPD xyssd z SPD xz SPD zy SSD z SPD 2 xz ˆγ = SPD zy SPD xz SPD xy SSD z SPD 2 xz ˆα = Ȳ ˆβ x ˆγ z N N N ( β, σ 2 SSD z SSD z SPD 2 xz ( β, σ 2 SSD z SPD 2 xz ( β,σ 2 { 1n + x2 SSD z + z 2 x zspd xz SSD z SPD 2 xz ) ) }) s 2 = 1 n 3 n i=1 (Y i ˆα ˆβx i ˆγz i ) 2 σ2 n 3 χ2 [n 3] Nanostatistik: Lineær regression p. 38/41

39 Bevis For fast γ kan vi erstatte Y i med Ỹi = Y i γz i og bruge tidligere estimater: ˆβ = SPD xỹ = SPD xy γ SSD SPD xz x Indsætter vi dette i kvadratsummen skal vi minimere R(α, γ) = = n 1 { Y i α {( Y i SPD xy x i ( SPDxy γ SPD xz ) α γ )x i γz i } 2 ( z i SPD xz x i )} 2 Vi kan nu bruge tidligere resultater med Ỹi = Y i SPD xy x i og med x i = z i SPD xz x i Nanostatistik: Lineær regression p. 39/41

40 Bevis Dette giver: ˆγ = = SPD xỹ SSD x SPD zy SPD xy SPD x SPD ( xz SPD x y SPD ) xy SSD x x SSD z 2 SPD xz SPD SSD zx + SPD2 xz x SSD 2 x = SPD zy SPD xz SPD xy SSD z SPD 2 xz Dette indsættes nu i det tidligere ˆβ hvorved formlen for ˆβ findes. Nanostatistik: Lineær regression p. 40/41

41 Arbedsløshed i USA Regression paa FRB: ˆβ = 0.021, ˆα = 0.035, s 2 = 0.94 Teste β = 0: t = 0.93, p-værdi = 0.38 Regression paa year: ˆβ = 0.208, ˆα = 1.67, s 2 = 0.60 Teste β = 0: t = 2.45, p-værdi = Regression paa (FRB,year): ˆβ = 0.10, ˆγ = 0.65, ˆα = 13.45, s 2 = 0.16 Teste β = 0: t = 4.77, p-værdi = Teste γ = 0: t = 6.32, p-værdi = Nanostatistik: Lineær regression p. 41/41