Nanostatistik: Lineær regression
|
|
|
- Jens Henriksen
- 9 år siden
- Visninger:
Transkript
1 Nanostatistik: Lineær regression JLJ Nanostatistik: Lineær regression p. 1/41
2 Sammenhænge Funktionssammenhæng: y er en funktion af x. Ex: Hvis jeg kender afstanden mellem to galakser så kender jeg også den hastighed hvormed de bevæger sig væk fra hinanden Ex: En målemetode giver et respons der er proportional med koncentrationen af et bestem stof i prøven x kaldes den forklarende variabel y kaldes den afhængige variabel Nanostatistik: Lineær regression p. 2/41
3 Sammenhænge Biologisk samvariation: x og y er korrelerede indenfor en population Ex: Vægt og højde er positivt korrelerede: den gennemsnitlige vægt for en given højde vil vokse med højden De to variable er på lige fod, men i en analyse kan vi vælge at betragte den ene som forklarende og den anden som afhængig Nanostatistik: Lineær regression p. 3/41
4 Sammenhænge Falsk sammenhæng: Et begrænset datasæt kan på grund af andre faktorer vise en sammenhæng mellem to variable der ikke er forbundne Ex: Fra falder antallet af storkepar i Danmark samtidig med at antallet af fødsler går ned Nanostatistik: Lineær regression p. 4/41
5 Er der en linær sammenhæng Plot data! Den fundne lineære sammenhæng gælder kun indenfor dataområdet! (medmindre der er en teori bagved) En etableret sammenhæng bruges ofte til at sige noget om den afhængige variabel givet kendskab til den forklarende variabel: Forklarende variabel: nem at måle Afhængige variabel: svær at måle Ex: kan nemt måle højden på en pige og kan bruge denne til at sige noget om vægten Data fra jer Nanostatistik: Lineær regression p. 5/41
6 Bedste rette linie Hvordan estimerer vi den linære sammenhæng der bedst beskriver data? Lineær sammenhæng?: y-erne ligger ikke på en linie: de spreder sig omkring linien Statistisk model: E(Y i ) = α + βx i α: liniens skæring med y-aksen β: liniens hældning Nanostatistik: Lineær regression p. 6/41
7 Mindste kvadraters metode Data: n punkter (x i,y i ) Model: x i -erne opfattes som faste og y i er en observation fra en stokastisk variabel med en fordeling der afhænger af x i, specielt: E(Y i ) = α + βx i Metode: vælger den linie der minimerer summen af de kvadrerede afstande til linien R(α,β) = n (Y i α βx i ) 2 i=1 Find ˆα og ˆβ ved at minimere R(α,β) Vis R-plot Nanostatistik: Lineær regression p. 7/41
8 Mindste kvadraters metode Løsning: ˆβ = SPD xy ˆα = Ȳ ˆβ x SPD xy = n n (x i x)(y i Ȳ ) = (x i x)y i i=1 i=1 n = (x i x) 2 i=1 Nanostatistik: Lineær regression p. 8/41
9 Bevis R(α, β) = = n (Y i α βx i ) 2 i=1 n {(Y i Ȳ ) + (Ȳ α β x) β(x i x)} 2 i=1 = (Y i Ȳ )2 + n(ȳ α β x)2 + β 2 (x i x) 2 +2(Ȳ α β x) (Y i Ȳ ) 2β (x i x)(y i Ȳ ) 2β(Ȳ α β x) (x i x) = (Y i Ȳ )2 + n(ȳ α β x)2 + β 2 2βSPD xy For fast β skal vi vælge α til ˆα = Ȳ β x. Indsætter vi dette får vi (Yi Ȳ )2 + β 2 2βSPD xy Nanostatistik: Lineær regression p. 9/41
10 Bevis (Yi Ȳ ) 2 + β 2 2βSPD xy Differentierer vi mht β fås 2β 2SPD xy og sætter vi denne lig med 0 får vi ˆβ = SPD xy Nanostatistik: Lineær regression p. 10/41
11 Hubble s law In 1929, Edwin Hubble investigated the relationship between distance of a galaxy from the earth and the velocity with which it appears to be receding Big Bang Hubble s law is as follows: Recession Velocity = Ho*Distance Vis R-plot n = 24, x = , ȳ = , = , SPD xy = ˆβ = , ˆα = β = 75?, negative hastigheder? Nanostatistik: Lineær regression p. 11/41
12 Unbiased estimater SPD xy = (x i x)(y i Ȳ ) = (x i x)y i Ȳ (x i x) = (x i x)y i ( ) SPDxy E(ˆβ) = E = 1 E(SPD xy ) = 1 E{(xi x)y i } 1 = (xi x)(α + βx i ) β = (xi x)x i = β (xi x)(x i x) = β Nanostatistik: Lineær regression p. 12/41
13 Unbiased estimater E(ˆα) = E(Ȳ ˆβ x) = E(Ȳ ) xe(ˆβ) = 1 n E(Yi ) β x = 1 n (α + βxi ) β x = α + β x β x = α Nanostatistik: Lineær regression p. 13/41
14 V (ˆβ) = V = = ( ) SPDxy 1 Varians = 1 SSD 2 V (SPD xy ) = 1 x SSD 2 x (xi x) 2 V (Y i ) SSD 2 x 1 SSD 2 σ 2 = x σ2, hvis V (Y i ) σ 2 V {(xi x)y i } Jo større SSD 2 x jo mindre varians: sørge for at x-værdierne er spredt ud Nanostatistik: Lineær regression p. 14/41
15 ˆα = Ȳ ˆβ x = 1 n Varians Yi x (xi x)y i = Y i ( 1 n x(x ) i x) V (ˆα) = ( 1 n x(x ) i x) 2 V (Y i ) { n = σ 2 n 2 2 x (xi x) + x2 n SSD 2 x { } 1 = σ 2 n + x2, hvis V (Y i ) σ 2 (xi x) 2 } Jo længere x er væk fra nul jo mindre ved vi om skæringen med y-aksen Vis R-eksempler Nanostatistik: Lineær regression p. 15/41
16 Skøn over varians Model: Y 1,...,Y n uafhængige, E(Y i ) = α + βx i V (Y i ) = σ 2 og Skøn over σ 2? σ 2 = E{[Y i E(Y i )] 2 } = E{(Y i α βx i ) 2 } Bruge s 2 = 1 n 2 Bemærk: n 2! n i=1 (Y i ˆα ˆβx i ) 2 Vis plot med linier i afstand 2s Påstand: E(s 2 ) = σ 2 Nanostatistik: Lineær regression p. 16/41
17 Bevis Det i te residual: r i = Y i ˆα ˆβx i, s 2 = 1 n 2 r 2 i Vi skriver Y i som Y i = α + βx i + u i, E(u i ) = 0, V (u i ) = σ 2 Vi har Ȳ = α + β x + ū, og SPD xy = n (x i x)y i = (x i x)(α + βx i + u i ) i=1 = 0 + β + (x i x)u i Nanostatistik: Lineær regression p. 17/41
18 Bevis Indsætter vi i ˆβ får vi Dernæst indsættes i r i : ˆβ = SPD xy = β + 1 (xi x)u i r i = Y i ˆα ˆβx i = {α + βx i + u i } {α + β x + ū} { β + 1 } (xj x)u j (x i x) = u i ū x i x (xj x)u j, Nanostatistik: Lineær regression p. 18/41
19 Bevis Kvadrerer vi disse fås r 2 i = (u i ū) 2 2 (ui ū)(x i x) (xj x)u j + (xi x) 2 SSD 2 x { } 2 (xj x)u j = (u i ū) 2 1 { (xj x)u j } 2, E( r 2 i ) = (n 1)σ 2 1 = (n 1)σ 2 σ2 (xi x) 2 = (n 1)σ 2 σ 2 = (n 2)σ 2 i (x i x)(x j x)e(u i u j ) j Nanostatistik: Lineær regression p. 19/41
20 Lineær normal model Model: Y 1,...,Y n uafhængige, Y i N(α + βx i,σ 2 ) Så er ˆα, ˆβ maximum likelihood estimaterne (mle), og s 2 er næsten mle for σ 2 ˆβ = SSD 1 ) n x 1 Y σ i(x i x) N (β, 2 ˆα = ( ) n 1 Y 1n i x(x i x) N (α,σ ( )) SSD 2 1 x n + SSD x2 x idet sum af uafhængige normalfordelte variable er normalfordelt s 2 σ2 n 2 χ2 [n 2] Nanostatistik: Lineær regression p. 20/41
21 Kontrol af modelantagelser Lineær sammenhæng: Lav plot med punkterne (ˆµ i,r i ), ˆµ i = ˆα, ˆβx i, r i = y i ˆα ˆβx i disse skal sprede sig "symmetrisk" omkring x-aksen: ingen systematiske afvigelser der tyder på en mere kompliceret sammenhæng. (Vis Plot) Konstant varians: ingen trompetform. (Vis Plot) Normalitet: lav qq-plot. (Vis Plot) Nanostatistik: Lineær regression p. 21/41
22 Tørvægt - levende vægt Biomasse = levende vægt FW af smådyr i mulden Måles: tørvægt DM Data: 15 målinger af springhale (Folsomia quadrioculata s.l.) log(dm) log(f W) log(dm) log(f W) Vi vil forvente en sammenhæng på formen FW = c DM eller log(fw) = α + log(dm) Nanostatistik: Lineær regression p. 22/41
23 Teste hældning har givet værdi Model: Y 1,...,Y n uafhængige, Y i N(α + βx i,σ 2 ) Hypotese: β = β 0, Alternativ: β β 0 test på niveau 5% ( ) Benytter: ˆβ N σ β, 2, s 2 n 2 σ2 χ2 [n 2] Teststørrelse: T = ˆβ β 0 s2 / t[n 2] Accept: t < t [n 2] Forkast: t t [n 2] p-værdi: 2F t[n 2] ( t ) 95% [ konfidensinterval: s ˆβ t [n 2], ˆβ + SSDx ] s t [n 2] SSDx Nanostatistik: Lineær regression p. 23/41
24 Tørvægt - levende vægt Estimater: ˆβ = 1.02, ˆα = 0.43 = , s 2 = Test for at β = 1: t = = 0.22, p-værdi = / % [ konfidensinterval for hældning: /1.3684, ] / [0.81, 1.24] = Nanostatistik: Lineær regression p. 24/41
25 Teste at skæringen er kendt Model: Y 1,...,Y n uafhængige, Y i N(α + βx i,σ 2 ) Hypotese: α = α 0, Alternativ: α α 0 test på niveau 5% Benytter: ˆα N (α,σ ( )) 2 1 n + SSD x2 x ˆα α Teststørrelse: T = 0 ( s 2 1 Accept: t < t [n 2] Forkast: t t [n 2] p-værdi: 2F t[n 2] ( t ) 95% konfidensinterval: [ ˆα s 1n + ) t[n 2] + x2 n SSD x2 t x [n 2], ˆα + s 1n + ] SSD x2 t x [n 2] Nanostatistik: Lineær regression p. 25/41
26 Hubble s law Hubble s law is as follows: Recession Velocity = Ho*Distance Teste α = 0 n = 24, x = , s 2 = , = , ˆα = t = ( p-værdi = 0.31 ) = 0.49 Nanostatistik: Lineær regression p. 26/41
27 Hubble s law: nye data The Astrophysical Journal 1990, 1-10 Hubbles lov: v = k H x, hvor x er afstand mellem galakser og v er hastigheden hvormed de bevæger sig væk fra hinanden. De nye data består af afstande x og et mål Z. Hvis Hubbles lov er gældende skal E{log(Z)} = α + βx med β = 0.2 log(10) For at bestemme konstanten k H i Hubbles lov skal man dividere exp(α) med en ny afstand µ 0. Man har skønnet µ 0 til ˆµ 0 = 21.9 hvor den stokastiske variabel ˆµ 0 har spredning 0.9. Vis data, to regressionslinier, kontrolplots Nanostatistik: Lineær regression p. 27/41
28 Hubble s law: nye data Teste β = 0.2 log(10): ˆβ = , = , s 2 = t = = / Estimere α når β er kendt: Y i βx i N(α,σ 2 ) ˆα = Ȳ β x, s2 = n 1 1 n 1 (Y i Ȳ β(x i x)) 2 V (ˆα) = σ2 n Resultat: ˆα = 7.075, spredning = ˆk H = exp(ˆα) ˆµ 0 = 54.0 V (ˆk H ) = ( exp(7.075) 21.9 ) ( exp(7.075) ) = = Nanostatistik: Lineær regression p. 28/41
29 Hubble s law: nye data Tl beregning af varians er brugt: h(α,µ 0 ) = exp(α) µ 0, h α (α,µ 0 ) = exp(α) µ 0, h µ0 (α,µ 0 ) = exp(α) µ 2 0 Approksimativt 95% konfidensinterval: [ , ] = [49.2, 58.8] Nanostatistik: Lineær regression p. 29/41
30 Estimat af β for kendt α Model: Y 1,...,Y n uafhængige, Y i N(α 0 + βx i,σ 2 ), α 0 kendt Finde ˆβ ved at minimere R(β) = n i=1 (Y i α 0 βx i ) 2 Da R (β) = 0 er det samme som 2 n 1 x i(y i α 0 βx i ) = 0 eller n 1 x i(y i α 0 ) = β n 1 x i ) får vi ˆβ = 1 n 1 x2 i n 1 x i(y i α 0 ) N (β, σ 2 n 1 x2 i Nanostatistik: Lineær regression p. 30/41
31 Prediktion Ud fra et datasæt har jeg bestemt ˆβ og ˆα Hvad kan jeg sige om en fremtidig værdi af Y givet at den tilhørende x-værdi er x 0? Vi har at E(Y ) = α + βx 0. Det er derfor naturligt at prediktere Y ved Y pred = ˆα + ˆβx 0 Vi kan skrive Y pred som Y pred = n i=1 { 1 Y i n + (x i x) x } 0 x Det ses herfra at Y pred er normalfordelt og vi får ( 1n Y pred N (α + βx 0,σ 2 + (x 0 x) 2 )) Nanostatistik: Lineær regression p. 31/41
32 Forurening Til undersøgelse af forureningen i en flod har man indsamlet 10 vandprøver forskellige steder i floden. For hver vandprøve bestemmes logaritmen til koncentrationen af colibakterier. I en afstand af 250 yds fra flodens udløb i havet er der indsamlet prøver i afstandene 0 feet, 50 feet, og 100 feet fra flodbredden. Tilsvarende er der i en afstand af 1300 yds fra flodens udløb i havet indsamlet prøver i afstandene 0 feet, 50 feet, og 100 feet fra flodbredden. Plot af logkoncentration som funktion af afstand fra bredden Plot af gennemsnit som funktion af afstand fra bredden qqplot for normalitet Spørgsmål: Er der samme afhængighed af afstanden til bredden de to steder? Er der forskel på de to steder? Nanostatistik: Lineær regression p. 32/41
33 To regressioner: Teste β 1 = β 2 Model: Y 11,...,Y 1n1 uafhængige, Y 1i N(α 1 + β 1 x 1i,σ 2 1 ) Y 21,...,Y 2n2 uafhængige, Y 2i N(α 2 + β 2 x 2i,σ 2 2 ) Hypotese: β 1 = β 2, Alternativ: β 1 β 2 Vi har: ˆβ 1 N ( β 1, ) σ1 2 SSD 1, ˆβ2 N ( β 2, ) σ2 2 SSD 2 s 2 1 σ2 1 n 1 2 χ2 [n 1 2], s 2 2 σ2 2 n 2 2 χ2 [n 2 2] Under hypotesen gælder der: ˆβ 1 ˆβ ( 2 N 0, ) σ1 2 + σ2 2 SSD 1 SSD 2 Hvis σ 2 1 = σ2 2 er s2 = (n 1 2)s 2 1+(n 2 2)s 2 2 n 1 +n 2 4 σ 2 n 1 +n 2 4 χ2 [n 1 +n 2 4] Nanostatistik: Lineær regression p. 33/41
34 To regressioner: Teste β 1 = β 2 σ1 2 = σ2 2 : Test på niveau 5% Teststørrelse: T = s 2 ( ˆβ 1 ˆβ 2 1 SSD SSD 2 Accept: t < t [n 1 + n 2 4] Forkast: t t [n 1 + n 2 4] p-værdi: 2F t[n1 +n 2 4]( t ) ) t[n 1 + n 2 4] Nanostatistik: Lineær regression p. 34/41
35 To regressioner: Teste β 1 = β 2 σ1 2 σ2 2 : Test på niveau 5% ˆβ 1 ˆβ 2 Teststørrelse: T = t[f] s s2 2 SSD 1 SSD 2 Accept: t < t [f] Forkast: t t [f] p-værdi: 2F t[f] ( t ) f = 1 n 1 2 ( s 2 1 ) 2 + s2 2 SSD 1 SSD 2 ( ) s 2 2 ( ) 1 SSD + 1 s n 2 2 SSD 2 Nanostatistik: Lineær regression p. 35/41
36 Forurening Estimater: 250yds: ˆβ = , ˆα = 2.25, s 2 = yds: ˆβ = , ˆα = 2.16, s 2 = Test for lineær sammenhæng (ikke gennegået): 250yds: F = 1.33, p-værdi = yds: F = 0.007, p-værdi = 0.93 Test for hældning lig med nul: 250yds: t = 3.00, p-værdi = yds: t = 1.59, p-værdi = 0.12 Test for ens varianser: F = 0.93, p-værdi = 0.84 Test for ens hældning: t = 0.93, p-værdi = 0.36 Nanostatistik: Lineær regression p. 36/41
37 Arbedsløshed i USA Variable: Year Federal Reserve Board Index of industrial production Unemployment rate Data: Year FRB y Hvordan afhænger Unemployment rate af FRB og year? Nanostatistik: Lineær regression p. 37/41
38 To forklarende variable Fordeling af Y i afhænger både af x i og z i Model: Y 1,...,Y n uafhængige, Y i N(α + βx i + γz i,σ 2 ) Estimater: ˆβ = SPD xyssd z SPD xz SPD zy SSD z SPD 2 xz ˆγ = SPD zy SPD xz SPD xy SSD z SPD 2 xz ˆα = Ȳ ˆβ x ˆγ z N N N ( β, σ 2 SSD z SSD z SPD 2 xz ( β, σ 2 SSD z SPD 2 xz ( β,σ 2 { 1n + x2 SSD z + z 2 x zspd xz SSD z SPD 2 xz ) ) }) s 2 = 1 n 3 n i=1 (Y i ˆα ˆβx i ˆγz i ) 2 σ2 n 3 χ2 [n 3] Nanostatistik: Lineær regression p. 38/41
39 Bevis For fast γ kan vi erstatte Y i med Ỹi = Y i γz i og bruge tidligere estimater: ˆβ = SPD xỹ = SPD xy γ SSD SPD xz x Indsætter vi dette i kvadratsummen skal vi minimere R(α, γ) = = n 1 { Y i α {( Y i SPD xy x i ( SPDxy γ SPD xz ) α γ )x i γz i } 2 ( z i SPD xz x i )} 2 Vi kan nu bruge tidligere resultater med Ỹi = Y i SPD xy x i og med x i = z i SPD xz x i Nanostatistik: Lineær regression p. 39/41
40 Bevis Dette giver: ˆγ = = SPD xỹ SSD x SPD zy SPD xy SPD x SPD ( xz SPD x y SPD ) xy SSD x x SSD z 2 SPD xz SPD SSD zx + SPD2 xz x SSD 2 x = SPD zy SPD xz SPD xy SSD z SPD 2 xz Dette indsættes nu i det tidligere ˆβ hvorved formlen for ˆβ findes. Nanostatistik: Lineær regression p. 40/41
41 Arbedsløshed i USA Regression paa FRB: ˆβ = 0.021, ˆα = 0.035, s 2 = 0.94 Teste β = 0: t = 0.93, p-værdi = 0.38 Regression paa year: ˆβ = 0.208, ˆα = 1.67, s 2 = 0.60 Teste β = 0: t = 2.45, p-værdi = Regression paa (FRB,year): ˆβ = 0.10, ˆγ = 0.65, ˆα = 13.45, s 2 = 0.16 Teste β = 0: t = 4.77, p-værdi = Teste γ = 0: t = 6.32, p-værdi = Nanostatistik: Lineær regression p. 41/41
Perspektiver i Matematik-Økonomi: Linær regression
Perspektiver i Matematik-Økonomi: Linær regression Jens Ledet Jensen H2.21, email: [email protected] Perspektiver i Matematik-Økonomi: Linær regression p. 1/34 Program for i dag 1. Indledning: sammenhæng mellem
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Forelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge
Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2
men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at
Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af
Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge
Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange
Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser
Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier
MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som
MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,
Module 4: Ensidig variansanalyse
Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2
Økonometri Lektion 1 Simpel Lineær Regression 1/31
Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen
Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22
Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som
Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
Kapitel 11 Lineær regression
Kapitel 11 Lineær regression Peter Tibert Stoltze [email protected] Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),
Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Anvendt Statistik Lektion 8. Multipel Lineær Regression
Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke
Modul 6: Regression og kalibrering
Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................
Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning
1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3
1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
Eksamen i Statistik for biokemikere. Blok
Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)
Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)
Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up
Modul 11: Simpel lineær regression
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................
Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).
Program 1. multipel regression 2. polynomiel regression (og andre kurver) 3. kategoriske variable 4. Determinationkoefficient og justeret determinationskoefficient 5. ANOVA-tabel 1/13 Multipel regression
Økonometri: Lektion 2 Multipel Lineær Regression 1/27
Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere
Modul 12: Regression og korrelation
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................
Simpel Lineær Regression
Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse
Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser
Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18
Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)
Simpel Lineær Regression: Model
Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]
Økonometri: Lektion 6 Emne: Heteroskedasticitet
Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 32 Konsekvenser af Heteroskedasticitet Antag her (og i resten) at MLR.1 til MLR.4 er opfyldt. Antag MLR.5 ikke er opfyldt, dvs. vi har heteroskedastiske
Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ
Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ Per Bruun Brockhoff, DTU Compute, Claus Thorn Ekstrøm, KU Biostatistik, Ernst Hansen, KU Matematik January 17, 2017 Abstract
Normalfordelingen. Statistik og Sandsynlighedsregning 2
Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige
Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder
Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π
Tema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Anvendt Statistik Lektion 7. Simpel Lineær Regression
Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot
Økonometri: Lektion 2 Multipel Lineær Regression 1/33
Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,
12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse
. september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression
Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse
Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ
Nanostatistik: Opgaver
Nanostatistik: Opgaver Jens Ledet Jensen, 19/01/05 Opgaver 1 Opgaver fra Indblik i Statistik 5 Eksamensopgaver fra tidligere år 11 i ii NANOSTATISTIK: OPGAVER Opgaver Opgave 1 God opgaveskik: Når I regner
Kvantitative metoder 2
Kvantitative metoder Heteroskedasticitet 11. april 007 KM: F18 1 Oversigt: Heteroskedasticitet OLS estimation under heteroskedasticitet (W.8.1-): Konsekvenser af heteroskedasticitet for OLS Gyldige test
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk
Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.
Løsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet
Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet Antag vi har model: y = β 0 + β 1 x 2 + + β k x k + u. Vi ønsker
Multipel Lineær Regression
Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer
Økonometri: Lektion 6 Emne: Heteroskedasticitet
Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 34 Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Antag vi har model: Vi ønsker at teste hypotesen y = β 0 + β 1 x
Løsning til eksamen d.27 Maj 2010
DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ
Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen
Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05
Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ
Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm
Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik [email protected] Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1 Population og stikprøve 2 Stikprøvevariation
Statistik Lektion 4. Variansanalyse Modelkontrol
Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede
Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot
Program Residualanalyse Flersidet variansanalyse Helle Sørensen Modelkontrol (residualanalyse) i tosidet ANOVA med vekselvirkning. Test og konklusion i tosidet ANOVA (repetition) Tresidet ANOVA: the works
Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese
Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet
Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.
Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)
grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,
Vejledende besvarelse af eksamen i Statistik for biokemikere, blok
Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder
Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved
Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,
! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet
Dagens program Økonometri Den multiple regressionsmodel 4. februar 003 regressionsmodel Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5)! Opsamling fra sidst
Module 1: Lineære modeller og lineær algebra
Module : Lineære modeller og lineær algebra. Lineære normale modeller og lineær algebra......2 Lineær algebra...................... 6.2. Vektorer i R n................... 6.2.2 Regneregler for vektorrum...........
Module 9: Residualanalyse
Mathematical Statistics ST6: Linear Models Bent Jørgensen og Pia Larsen Module 9: Residualanalyse 9 Rå residualer 92 Standardiserede residualer 3 93 Ensidig variansanalyse 4 94 Studentiserede residualer
Løsning til eksaminen d. 14. december 2009
DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Module 3: Statistiske modeller
Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan
Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006
Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af
Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning
1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion
Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.
Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder
Konfidensintervaller og Hypotesetest
Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller
To samhørende variable
To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet
