Nanostatistik: Lineær regression

Størrelse: px
Starte visningen fra side:

Download "Nanostatistik: Lineær regression"

Transkript

1 Nanostatistik: Lineær regression JLJ Nanostatistik: Lineær regression p. 1/69

2 Repetition Model: X 1,...,X n uafhængige, X i N(µ,σ 2 ) X = n 1 n i=1 X i, s 2 = n 1 1 n i=1 (X i X) 2 Teststørrelse: T = n X µ 0 s t[n 1] Accept: t t [n 1] Forkast: t t [n 1] { 95% konfidensinterval µ 0 } n x µ 0 s t [n 1] } {µ 0 x µ 0 t [n 1] n σ = = [ ] x t [n 1] s n, x + t [n 1] s n Nanostatistik: Lineær regression p. 2/69

3 Program for i dag 1. Indledning: sammenhæng mellem to variable 2. Lineær sammenhæng: bedste rette linie 3. Hvor meget sammenhæng er der? 4. Hypoteser om den lineære sammenhæng Nanostatistik: Lineær regression p. 3/69

4 Hvad betyder "sammenhæng"? Eksempel: Iltoptaget i blodet afhænger af pulsen y afhænger af x eller y forklares af x y = funktion(x) Sprogbrug: y er den afhængige variabel og x er den uafhængige variabel Nanostatistik: Lineær regression p. 4/69

5 Iltoptagelse Nanostatistik: Lineær regression p. 5/69

6 Sammenhænge Funktionssammenhæng: y er en funktion af x. Ex: Hvis jeg kender afstanden mellem to galakser så kender jeg også den hastighed hvormed de bevæger sig væk fra hinanden Ex: En målemetode giver et respons der er proportional med koncentrationen af et bestem stof i prøven x kaldes den forklarende (uafhængige) variabel y kaldes den afhængige variabel Nanostatistik: Lineær regression p. 6/69

7 Samvariation Eksempel: Fødselsvægt og scanningsmål y er ikke direkte en funktion af x, men begge er funktioner af én (elller mange) trejde variabel y = f(z), x = g(z) y = f(g 1 (x)) y = f({z : g(z) = x})!! Nanostatistik: Lineær regression p. 7/69

8 Fødselsvægt Nanostatistik: Lineær regression p. 8/69

9 Sammenhænge Biologisk samvariation: x og y er korrelerede indenfor en population Ex: Vægt og højde er positivt korrelerede: den gennemsnitlige vægt for en given højde vil vokse med højden De to variable er på lige fod, men i en analyse kan vi vælge at betragte den ene som forklarende og den anden som afhængig Nanostatistik: Lineær regression p. 9/69

10 Falsk sammenhæng Salget af sololie er højt når salget af ispinde er højt I perioden faldt antallet af fødsler samtidig med at antallet af storkepar i Danmark faldt To eksempler (af hvilken type?): Kosmisk stråling Skatttryk og økonomisk vækst Nanostatistik: Lineær regression p. 10/69

11 Kosmisk stråling Nanostatistik: Lineær regression p. 11/69

12 Skat-vækst Figur 1. Økonomisk vækst og skattetryk for hvert af de 15 EU-lande i Økonomisk vækst (%) y = x Skattetryk (samlede skatter og afgifter i % af BNP) Hver af de 15 prikker viser den økonomiske vækst og skattetryk for et EU-land i Eksempelvis havde Danmark et skattetryk på 49,0% og en vækst på 1,0%. Den rette linie i figuren er lavet ved hjælp af den statistiske metode som hedder simpel lineær regression med mindste kvadraters metode. Denne statistiske metode forsøger at beskrive en række datapunkter bedst muligt ved hjælp af en ret linie. Liniens hældning (-0,1433) kan tolkes som et bud på hvilken påvirkning det havde på den økonomiske vækst for et EU-land i 2001 at have ét procentpoint højere skattetryk i Eksemplet 2001 antyder således, at EU-lande i 2001 tabte 0,1433 procentpoint vækst for hver ekstra procentpoint skattetryk. Som tidligere nævnt kan det forventes, at også tilfældigheder og konjunkturer spiller ind på data. Der er således intet overraskende ved, at punkterne i figur 1 ikke placerer sig nøjagtigt langs den rette linie. For bedst muligt at kunne bedømme betydningen af konjunkturer og tilfældigheder bør man se tallenes udvikling over en længere periode. Ligesom man for 2001 kunne udregne hældningen til 0,1433 kan man lave tilsvarende beregninger for hver af de øvrige 31 år. Jeg har ikke fundet væksttal fra før Nanostatistik: Lineær regression p. 12/69

13 Skat-vækst Figur 2. Ændring i økonomisk vækst pr. procentpoint højere skattetryk for de 15 nuværende EU lande Procentpoint vækst Figur 2 tager hældningen fra den bedste rette linie for hvert år og viser udviklingen over tid. Denne figur viser flere interessante ting: For det første svinger kurven omkring et gennemsnit som er betydeligt lavere end nul. Gennemsnittet for hele perioden har været minus 0,074 procentpoint vækstpåvirkning pr. procentpoint ekstra skattetryk svarende til eksempelvis 1,48 procentpoint tabt vækst om året ved 20 procentpoint højere skattetryk. For det andet har ganske mange af de senere år udvist betydelige negative værdier. Hvert eneste af de seneste seks år har udvist værdier i intervallet minus 0,10 til minus 0,15 svarende til mellem to og tre procentpoint tabt vækst om året pr. 20 procentpoint ekstra skattetryk. 14 af de seneste 15 år viser desuden negative værdier. En logisk forklaring på kurvens lavere niveau de senere år kan være, at den internationale konkurrence er vokset. Vi har fået friere bevægelser af kapital, varer, viden, arbejdskraft og personer, hvilket har givet bedre muligheder til den enkelte for at fravælge høje skatter. Den større internationale konkurrence er et resultatet af både politiske beslutninger og en teknologisk udvikling. For det tredje har der været variationer / konjunkturer over årene. Flere gange har der været perioder på op til 5-7 år med et niveau på den ene eller anden side af gennemsnittet for alle 32 år. Denne observation gør, at estimering af middelværdiens spredning kun giver mening ved at regne på data for en lang årrække hvor konjunkturerne kan antages at have ophævet hinanden. Jeg vurderer, at de 32 års observationer i denne sammenhæng er en acceptabel lang tid til beregning af spredningen. Hvis man forudsætter at de 32 tal er 5 Nanostatistik: Lineær regression p. 13/69

14 Sammenhænge Falsk sammenhæng: Et begrænset datasæt kan på grund af andre faktorer vise en sammenhæng mellem to variable der ikke er forbundne Ex: Fra falder antallet af storkepar i Danmark samtidig med at antallet af fødsler går ned Nanostatistik: Lineær regression p. 14/69

15 Jeres egne eksempler Nanostatistik: Lineær regression p. 15/69

16 Statistik 1) Lave model for sammenhængen hvor der tages hensyn til tilfældig variation 2) Beskrive sammenhængen ved hjælp af parametre 3) Lave skøn over værdien af disse parametre I kurset her: Lineær sammenhæng: y = γ + βx γ: skæring med y-aksen β: hældning Nanostatistik: Lineær regression p. 16/69

17 Hvad skal vi bruge det til? Prediktion: Hvis vi gør sådan og sådan sker der... Hvis vi sænker skatten... Hvis vi sænker dagpengene... Planlægning: Indtægter skal gerne matche udgifter, optimere indtjening Hvor stor skal skatteprocenten være Hvor mange elever skal der være i hver klasse Nanostatistik: Lineær regression p. 17/69

18 Er der en linær sammenhæng Plot data! Den fundne lineære sammenhæng gælder kun indenfor dataområdet! (medmindre der er en teori bagved) En etableret sammenhæng bruges ofte til at sige noget om den afhængige variabel givet kendskab til den forklarende variabel: Forklarende variabel x: nem at måle Afhængige variabel y: svær at måle Ex: kan nemt måle højden på en pige og kan bruge denne til at sige noget om vægten Data fra jer Nanostatistik: Lineær regression p. 18/69

19 Bedste rette linie Hvordan estimerer vi den linære sammenhæng der bedst beskriver data? Lineær sammenhæng?: y-erne ligger ikke på en linie: de spreder sig omkring linien Statistisk model: E(Y i ) = γ + βx i γ: liniens skæring med y-aksen β: liniens hældning Nanostatistik: Lineær regression p. 19/69

20 Mindste kvadraters metode Data: n punkter (x i,y i ) Model: x i -erne opfattes som faste og y i er en observation fra en stokastisk variabel med en fordeling der afhænger af x i, specielt: E(Y i ) = γ + βx i Metode: vælger den linie der minimerer summen af de kvadrerede afstande til linien R(γ,β) = n (Y i γ βx i ) 2 i=1 Find ˆγ og ˆβ ved at minimere R(γ,β) Vis R-plot og minimer R(γ, β) numerisk Nanostatistik: Lineær regression p. 20/69

21 Mindste kvadraters metode x = gennemsnit af x-erne = (x 1 + x x n )/n ȳ = gennemsnit af y-erne = (y 1 + y y n )/n SSD x = Sum of Squared Deviations for x = (x 1 x) 2 + (x 2 x) (x n x) 2 SPD xy = Sum of Product of Deviations for x,y = (x 1 x)(y 1 ȳ) + (x 2 x)(y 2 ȳ) + + (x n x)(y n ȳ) ˆβ = SPD xy SSD x, og ˆγ = ȳ ˆβ x Nanostatistik: Lineær regression p. 21/69

22 Regneregel n SPD xy = (x i x)(y i Ȳ ) i=1 = (x i x)y i Ȳ (x i x) n = (x i x)y i i=1 Nanostatistik: Lineær regression p. 22/69

23 Bevis R(γ, β) = = n (Y i γ βx i ) 2 i=1 n {(Y i Ȳ ) + (Ȳ γ β x) β(x i x)} 2 i=1 = (Y i Ȳ )2 + n(ȳ γ β x)2 + β 2 (x i x) 2 +2(Ȳ γ β x) (Y i Ȳ ) 2β (x i x)(y i Ȳ ) 2β(Ȳ γ β x) (x i x) = (Y i Ȳ )2 + n(ȳ γ β x)2 + β 2 SSD x 2βSPD xy For fast β skal vi vælge γ til ˆγ = Ȳ β x. Indsætter vi dette får vi (Yi Ȳ )2 + β 2 SSD x 2βSPD xy Nanostatistik: Lineær regression p. 23/69

24 Bevis (Yi Ȳ ) 2 + β 2 SSD x 2βSPD xy Differentierer vi mht β fås 2βSSD x 2SPD xy og sætter vi denne lig med 0 får vi ˆβ = SPD xy SSD x Nanostatistik: Lineær regression p. 24/69

25 Prediktion udenfor dataområdet Højde-vægt eksemplet: Højderne er i området cm. Den bedste linie har γ = 124 og β = 1.09 Højden af et nyfødt barn er cirka 50 cm. Vores gæt på fødselsvægten bliver derfor = 69.5 Nanostatistik: Lineær regression p. 25/69

26 Hubble s law In 1929, Edwin Hubble investigated the relationship between distance of a galaxy from the earth and the velocity with which it appears to be receding Big Bang Hubble s law is as follows: Recession Velocity = Ho*Distance Vis R-plot n = 24, x = , ȳ = , SSD x = , SPD xy = ˆβ = , ˆγ = Nogen siger: β = 75 negative hastigheder blandt data? (indirekte målinger) Nanostatistik: Lineær regression p. 26/69

27 Unbiased estimater SPD xy = (x i x)(y i Ȳ ) = (x i x)y i Ȳ (x i x) = (x i x)y i ( ) SPDxy E(ˆβ) = E = 1 E(SPD xy ) = 1 E{(xi x)y i } SSD x SSD x SSD x 1 = (xi x)(γ + βx i ) SSD x β = (xi x)x i = β (xi x)(x i x) = β SSD x SSD x Nanostatistik: Lineær regression p. 27/69

28 Unbiased estimater E(ˆγ) = E(Ȳ ˆβ x) = E(Ȳ ) xe(ˆβ) = 1 n E(Yi ) β x = 1 n (γ + βxi ) β x = γ + β x β x = γ Nanostatistik: Lineær regression p. 28/69

29 V (ˆβ) = V = = ( ) SPDxy 1 Varians = 1 SSD 2 V (SPD xy ) = 1 x SSD 2 x SSD x (xi x) 2 V (Y i ) SSD 2 x 1 SSD 2 SSD x σ 2 = x σ2 SSD x, hvis V (Y i ) σ 2 V {(xi x)y i } Jo større SSD 2 x jo mindre varians: sørge for at x-værdierne er spredt ud Nanostatistik: Lineær regression p. 29/69

30 ˆγ = Ȳ ˆβ x = 1 n Varians Yi x (xi x)y i = Y i SSD x ( 1 n x(x ) i x) SSD x V (ˆγ) = ( 1 n x(x ) i x) 2 V (Y i ) SSD x { n = σ 2 n 2 2 x (xi x) + x2 nssd x SSD 2 x { } 1 = σ 2 n + x2, hvis V (Y i ) σ 2 SSD x (xi x) 2 } Jo længere x er væk fra nul jo mindre ved vi om skæringen med y-aksen Vis R-eksempler Nanostatistik: Lineær regression p. 30/69

31 Skøn over varians Model: Y 1,...,Y n uafhængige, E(Y i ) = γ + βx i V (Y i ) = σ 2 og Skøn over σ 2? σ 2 = E{[Y i E(Y i )] 2 } = E{(Y i γ βx i ) 2 } Bruge s 2 = 1 n 2 Bemærk: n 2! n i=1 (Y i ˆγ ˆβx i ) 2 Nanostatistik: Lineær regression p. 31/69

32 Spredning omkring linien Estimerede varians: s 2 = R(ˆα, ˆβ) n 2 = 1 n 2 n (y i ˆα ˆβx i ) 2 i=1 Estimerede spredning: s = s 2 Fortolkning: cirka 30 procent af punkterne har en lodret afstand til linien der er større end s cirka 5 procent af punkterne har en lodret afstand til linien der er større end 2 s R-eksempler Nanostatistik: Lineær regression p. 32/69

33 E(s 2 ) = σ 2 : Bevis Det i te residual: r i = Y i ˆγ ˆβx i, s 2 = 1 n 2 r 2 i Vi skriver Y i som Y i = γ + βx i + u i, E(u i ) = 0, V (u i ) = σ 2 Vi har Ȳ = γ + β x + ū, og SPD xy = n (x i x)y i = (x i x)(γ + βx i + u i ) i=1 = 0 + β SSD x + (x i x)u i Nanostatistik: Lineær regression p. 33/69

34 Bevis Indsætter vi i ˆβ får vi Dernæst indsættes i r i : ˆβ = SPD xy SSD x = β + 1 SSD x (xi x)u i r i = Y i ˆγ ˆβx i = {γ + βx i + u i } {γ + β x + ū} { β + 1 } (xj x)u j (x i x) SSD x = u i ū x i x SSD x (xj x)u j, Nanostatistik: Lineær regression p. 34/69

35 Bevis Kvadrerer vi disse fås r 2 i = (u i ū) 2 2 (ui ū)(x i x) (xj x)u j + (xi x) 2 SSD 2 x SSD x { } 2 (xj x)u j = (u i ū) 2 1 SSD x { (xj x)u j } 2, E( r 2 i ) = (n 1)σ 2 1 SSD x = (n 1)σ 2 σ2 SSD x (xi x) 2 = (n 1)σ 2 σ 2 = (n 2)σ 2 i (x i x)(x j x)e(u i u j ) j Nanostatistik: Lineær regression p. 35/69

36 Lineær normal model Model: Y 1,...,Y n uafhængige, Y i N(γ + βx i,σ 2 ) Så er ˆγ, ˆβ maximum likelihood estimaterne (mle), og s 2 er næsten mle for σ 2 ˆβ = SSD 1 ) n x 1 Y σ i(x i x) N (β, 2 SSD x ˆγ = ( ) n 1 Y 1n i x(x i x) N (γ,σ ( )) SSD 2 1 x n + SSD x2 x idet sum af uafhængige normalfordelte variable er normalfordelt s 2 σ2 n 2 χ2 [n 2] Nanostatistik: Lineær regression p. 36/69

37 Tegne før regne Modelantagelse: Punkterne spreder sig omkring en ret linie (lineær sammenhæng mellem x og y): ingen systematiske afvigelser Spredningen omkring linien afhænger ikke af x Første plot: Tegne y op mod x R-eksempel Nanostatistik: Lineær regression p. 37/69

38 Residualplot Beregn: ˆγ, ˆβ, og r i = y i ˆγ ˆβx i, i = 1,...,n ˆµ i = ˆγ + ˆβx i (residualer) Andet plot: Tegne r i op mod ˆµ i Afvigelse 1: systematik Afvigelse 2: trompetform R-eksempler Normalitet: lav qq-plot. (Vis Plot) Nanostatistik: Lineær regression p. 38/69

39 Usikkerhed Sande sammenhæng: y = γ + βx Estimerede sammenhæng fra data: y = ˆγ + ˆβx experiment 1 experiment 2 ˆγ 1, ˆβ1 ˆγ 2, ˆβ2 Hvor meget skal vi regne med at ˆγ, ˆβ afviger fra sande værdier γ,β? Nanostatistik: Lineær regression p. 39/69

40 Standardisering af usikkerhed: β Hvor meget afviger ˆβ fra β? σ måler hvor meget punkterne afviger fra linien: jo større σ er jo dårligere er hældningen bestemt: standardiser ved brug af ˆβ β σ SSDx måler hvor meget x-værdierne spreder sig: jo mere spredning jo bedre er hældningen bestemt: standardiser ved brug af Z = ˆβ β σ SSDx Dette er i overensstemmelse med: V (ˆβ) = σ2 SSD x Nanostatistik: Lineær regression p. 40/69

41 Standardisering Hvis Y i N(γ + βx i,σ 2 ) har vi: ˆβ N ( β, σ 2 SSD x ) ˆβ β σ SSDx N(0, 1) Hvis σ 2 er ukendt bruger vi s 2 σ2 n 2 χ2 [n 2] og dermed T = ˆβ β s2 /SSD x t[n 2] Nanostatistik: Lineær regression p. 41/69

42 Test af faglig teori Lad os lave en meget simpel teori for sammenhængen mellem højde og vægt: Alle personer har en omkreds omkring maven på 100cm. Hvis jeg øger højden med 1cm, og denne placeres ved maven øger jeg vægten med (1kg/l)[1 π(100/(2π) 2 ]/1000 = 0.80kg Hypotese: β = 0.8 Statistik: Er data i overensstemmelse med β = 0.8? Svar: har vi fået en typisk værdi: fint har vi fået en atypisk værdi: forkast hypotesen Nanostatistik: Lineær regression p. 42/69

43 Tørvægt - levende vægt Biomasse = levende vægt FW af smådyr i mulden Måles: tørvægt DM Data: 15 målinger af springhale (Folsomia quadrioculata s.l.) log(dm) log(f W) log(dm) log(f W) Vi vil forvente en sammenhæng på formen FW = c DM eller log(fw) = γ + log(dm) Nanostatistik: Lineær regression p. 43/69

44 Teste hældning har givet værdi Model: Y 1,...,Y n uafhængige, Y i N(γ + βx i,σ 2 ) Hypotese: β = β 0, Alternativ: β β 0 test på niveau 5% ( ) Benytter: ˆβ N σ β, 2 SSD x, s 2 n 2 σ2 χ2 [n 2] Teststørrelse: T = ˆβ β 0 s2 /SSD x t[n 2] Accept: t < t [n 2] Forkast: t t [n 2] p-værdi: 2F t[n 2] ( t ) 95% [ konfidensinterval: s ˆβ t [n 2], ˆβ + SSDx ] s t [n 2] SSDx Nanostatistik: Lineær regression p. 44/69

45 Tørvægt - levende vægt Estimater: ˆβ = 1.02, ˆγ = 0.43 SSD x = , s 2 = Test for at β = 1: t = = 0.22, p-værdi = / % [ konfidensinterval for hældning: /1.3684, ] / [0.81, 1.24] = Nanostatistik: Lineær regression p. 45/69

46 Teste at skæringen er kendt Model: Y 1,...,Y n uafhængige, Y i N(γ + βx i,σ 2 ) Hypotese: γ = γ 0, Alternativ: γ γ 0 test på niveau 5% Benytter: ˆγ N (γ,σ ( )) 2 1 n + SSD x2 x Teststørrelse: T = s 2 ( ˆγ γ n Accept: t < t [n 2] Forkast: t t [n 2] p-værdi: 2F t[n 2] ( t ) 95% konfidensinterval: [ ˆγ s 1n + SSD x2 t x [n 2], ˆγ + s ) t[n 2] SSD x2 x 1n + ] SSD x2 t x [n 2] Nanostatistik: Lineær regression p. 46/69

47 Hubble s law Hubble s law is as follows: Recession Velocity = Ho*Distance Teste γ = 0 n = 24, x = , s 2 = , SSD x = , ˆγ = t = ( p-værdi = 0.31 ) = 0.49 Nanostatistik: Lineær regression p. 47/69

48 Hubble s law: nye data The Astrophysical Journal 1990, 1-10 Hubbles lov: v = k H x, hvor x er afstand mellem galakser og v er hastigheden hvormed de bevæger sig væk fra hinanden. De nye data består af afstande x og et mål Z. Hvis Hubbles lov er gældende skal E{log(Z)} = γ + βx med β = 0.2 log(10) For at bestemme konstanten k H i Hubbles lov skal man dividere exp(γ) med en ny afstand µ 0. Man har skønnet µ 0 til ˆµ 0 = 21.9 hvor den stokastiske variabel ˆµ 0 har spredning 0.9. Vis data, to regressionslinier, kontrolplots Nanostatistik: Lineær regression p. 48/69

49 Hubble s law: nye data Teste β = 0.2 log(10): ˆβ = , SSD x = , s 2 = t = = / Estimere γ når β er kendt: Y i βx i N(γ,σ 2 ) ˆγ = Ȳ β x, s2 = n 1 1 n 1 (Y i Ȳ β(x i x)) 2 V (ˆγ) = σ2 n Resultat: ˆγ = 7.075, spredning = ˆk H = exp(ˆγ) ˆµ 0 = 54.0 V (ˆk H ) = ( exp(7.075) 21.9 ) ( exp(7.075) ) = = Nanostatistik: Lineær regression p. 49/69

50 Hubble s law: nye data Tl beregning af varians er brugt: h(γ,µ 0 ) = exp(γ) µ 0, h γ (γ,µ 0 ) = exp(γ) µ 0, h µ0 (γ,µ 0 ) = exp(γ) µ 2 0 Approksimativt 95% konfidensinterval: [ , ] = [49.2, 58.8] Nanostatistik: Lineær regression p. 50/69

51 Estimat af β for kendt γ Model: Y 1,...,Y n uafhængige, Y i N(γ 0 + βx i,σ 2 ), γ 0 kendt Finde ˆβ ved at minimere R(β) = n i=1 (Y i γ 0 βx i ) 2 Da R (β) = 0 er det samme som 2 n 1 x i(y i γ 0 βx i ) = 0 eller n 1 x i(y i γ 0 ) = β n 1 x i ) får vi ˆβ = 1 n 1 x2 i n 1 x i(y i γ 0 ) N (β, σ 2 n 1 x2 i Nanostatistik: Lineær regression p. 51/69

52 Prediktion Ud fra et datasæt har jeg bestemt ˆβ og ˆγ Hvad kan jeg sige om en fremtidig værdi af Y givet at den tilhørende x-værdi er x 0? Vi har at E(Y ) = γ + βx 0. Det er derfor naturligt at prediktere Y ved Y pred = ˆγ + ˆβx 0 Vi kan skrive Y pred som Y pred = n i=1 { 1 Y i n + (x i x) x } 0 x SSD x Det ses herfra at Y pred er normalfordelt og vi får ( 1n Y pred N (γ + βx 0,σ 2 + (x 0 x) 2 )) SSD x Nanostatistik: Lineær regression p. 52/69

53 R 2 -værdien Beregning nedenfor viser at variation i Y = variation omkring linien +variation forklaret ved linien SSD y = {Y i Ȳ }2 = {Y i (ˆγ + ˆβx i ) + (ˆγ + ˆβx i ) Ȳ }2 = {Y i (ˆγ + ˆβx i )} 2 + {(ˆγ + ˆβx i ) Ȳ } 2 +2 {Y i (ˆγ + ˆβx i )}{(ˆγ + ˆβx i ) Ȳ } = {Y i (ˆγ + ˆβx i )} 2 + {(ˆγ + ˆβx i ) Ȳ } 2 Nanostatistik: Lineær regression p. 53/69

54 R 2 -værdien Det sidste led divideret med SSD y er den del af variationen der forklares ved linien, kaldet R 2 : R 2 = {(ˆγ + ˆβxi ) Ȳ }2 SSD y = 1 r 2 i SSD y = 1 (n 2)s2 SSD y. Nanostatistik: Lineær regression p. 54/69

55 R 2 -værdien R 2 = 0: ˆβ = 0 R 2 = 1: r 2 i = 0, dvs alle punkterne ligger på linien Advarsel: R 2 er ikke et udtryk for hvor godt data beskrives ved en lineær sammenhæng R 2 giver mest mening når vi studerer en biologisk samvariation og (X i,y i ) er tilfældige individer fra populationen Nanostatistik: Lineær regression p. 55/69

56 Højde og vægt Vis plot Drenge: ˆγ = 50, ˆβ = 0.69, s 2 = 36.34, SSD x = , R 2 = 0.53 Piger: ˆγ = 176, ˆβ = 1.40, s 2 = 52.84, SSD x = 204, R 2 = 0.44 Test for ens varianser: W = = , p-værdi=0.56 Test for ens hældninger: s 2 = ( )/17 = t = = 1.39, p-værdi= (1/ /204) Nanostatistik: Lineær regression p. 56/69

57 Forurening Til undersøgelse af forureningen i en flod har man indsamlet 10 vandprøver forskellige steder i floden. For hver vandprøve bestemmes logaritmen til koncentrationen af colibakterier. I en afstand af 250 yds fra flodens udløb i havet er der indsamlet prøver i afstandene 0 feet, 50 feet, og 100 feet fra flodbredden. Tilsvarende er der i en afstand af 1300 yds fra flodens udløb i havet indsamlet prøver i afstandene 0 feet, 50 feet, og 100 feet fra flodbredden. Plot af logkoncentration som funktion af afstand fra bredden Plot af gennemsnit som funktion af afstand fra bredden qqplot for normalitet Spørgsmål: Er der samme afhængighed af afstanden til bredden de to steder? Er der forskel på de to steder? Nanostatistik: Lineær regression p. 57/69

58 To regressioner: Teste β 1 = β 2 Model: Y 11,...,Y 1n1 uafhængige, Y 1i N(γ 1 + β 1 x 1i,σ 2 1 ) Y 21,...,Y 2n2 uafhængige, Y 2i N(γ 2 + β 2 x 2i,σ 2 2 ) Hypotese: β 1 = β 2, Alternativ: β 1 β 2 Vi har: ˆβ 1 N ( β 1, ) σ1 2 SSD 1, ˆβ2 N ( β 2, ) σ2 2 SSD 2 s 2 1 σ2 1 n 1 2 χ2 [n 1 2], s 2 2 σ2 2 n 2 2 χ2 [n 2 2] Under hypotesen gælder der: ˆβ 1 ˆβ ( 2 N 0, ) σ1 2 + σ2 2 SSD 1 SSD 2 Hvis σ 2 1 = σ2 2 er s2 = (n 1 2)s 2 1+(n 2 2)s 2 2 n 1 +n 2 4 σ 2 n 1 +n 2 4 χ2 [n 1 +n 2 4] Nanostatistik: Lineær regression p. 58/69

59 To regressioner: Teste β 1 = β 2 σ1 2 = σ2 2 : Test på niveau 5% Teststørrelse: T = s 2 ( ˆβ 1 ˆβ 2 1 SSD SSD 2 Accept: t < t [n 1 + n 2 4] Forkast: t t [n 1 + n 2 4] p-værdi: 2F t[n1 +n 2 4]( t ) ) t[n 1 + n 2 4] Nanostatistik: Lineær regression p. 59/69

60 To regressioner: Teste β 1 = β 2 σ1 2 σ2 2 : Test på niveau 5% ˆβ 1 ˆβ 2 Teststørrelse: T = t[f] s s2 2 SSD 1 SSD 2 Accept: t < t [f] Forkast: t t [f] p-værdi: 2F t[f] ( t ) f = 1 n 1 2 ( s 2 1 ) 2 + s2 2 SSD 1 SSD 2 ( ) s 2 2 ( ) 1 SSD + 1 s n 2 2 SSD 2 Nanostatistik: Lineær regression p. 60/69

61 Forurening Estimater: 250yds: ˆβ = , ˆγ = 2.25, s 2 = yds: ˆβ = , ˆγ = 2.16, s 2 = Test for lineær sammenhæng (ikke gennegået): 250yds: F = 1.33, p-værdi = yds: F = 0.007, p-værdi = 0.93 Test for hældning lig med nul: 250yds: t = 3.00, p-værdi = yds: t = 1.59, p-værdi = 0.12 Test for ens varianser: F = 0.93, p-værdi = 0.84 Test for ens hældning: t = 0.93, p-værdi = 0.36 Nanostatistik: Lineær regression p. 61/69

62 Multipel regression Når man skal vurdere et fosters vægt ud fra ultralydsscanning bruger man typisk to mål: volumen (v) af maven og volumen (w) af hovedet Hvordan skal man kombinere disse i et samlet gæt på vægten? En typisk model vil være på formen y i = α + β 1 v i + β 2 w i + rest Vi har her to forklarende variable istedet for blot én I en generel multipel regressions model har man k forklarende variable, og skriver middelværdien af y i som α + β 1 x 1i + β 2 x 2i + + β k x ki Nanostatistik: Lineær regression p. 62/69

63 Hærdning af klinker Variable: 3CaO Al 2 O 3 indhold = x 1 3CaO SiO 2 indhold = x 2 varmeproduktion under hærdning = y x 1 x 2 y x 1 x 2 y Data: Nanostatistik: Lineær regression p. 63/69

64 To forklarende variable Fordeling af Y i afhænger både af x i og z i Model: Y 1,...,Y n uafhængige, Y i N(γ + βx i + ξz i,σ 2 ) Estimater: ˆβ = SPD xyssd z SPD xz SPD zy SSD x SSD z SPD 2 xz ˆξ = SPD zyssd x SPD xz SPD xy SSD x SSD z SPD 2 xz ˆγ = Ȳ ˆβ x ˆγ z N N N ( β, σ 2 SSD z SSD x SSD z SPD 2 xz ( ξ, σ 2 SSD x SSD x SSD z SPD 2 xz ( γ,σ 2 { 1n + x2 SSD z + z 2 SSD x x zspd xz SSD x SSD z SPD 2 xz ) ) }) s 2 = 1 n 3 n i=1 (Y i ˆγ ˆβx i ˆγz i ) 2 σ2 n 3 χ2 [n 3] Nanostatistik: Lineær regression p. 64/69

65 Bevis For fast ξ kan vi erstatte Y i med Ỹi = Y i ξz i og bruge tidligere estimater: ˆβ(ξ) = SPD xỹ = SPD xy ξ SSD x SSD SPD xz x SSD x Indsætter vi dette i kvadratsummen skal vi minimere R(γ, γ) = = n 1 { Y i γ {( Y i SPD xy SSD x x i ( SPDxy ξ SPD xz SSD x SSD x ) γ ξ ) x i ξz i } 2 ( z i SPD xz SSD x x i )} 2 Vi kan nu bruge tidligere resultater med Ỹi = Y i SPD xy SSD x x i og med x i = z i SPD xz SSD x x i Nanostatistik: Lineær regression p. 65/69

66 Bevis Dette giver: ˆξ = = SPD xỹ SSD x SPD zy SPD xy SPD SSD xx SPD ( xz SPD x SSD xy SPD ) xy SSD x SSD x x SSD z 2 SPD xz SPD SSD zx + SPD2 xz x SSD 2 SSD x x = SPD zyssd x SPD xz SPD xy SSD x SSD z SPD 2 xz Dette indsættes nu i det tidligere ˆβ(ξ) hvorved formlen for ˆβ findes. Nanostatistik: Lineær regression p. 66/69

67 Varmeproduktion Regression paa 3CaO Al 2 O 3 : ˆβ = 1.87, ˆγ = 81.48, s 2 = Teste β = 0: t = 2.62, p-værdi = Regression paa 3CaO SiO 2 : ˆβ = 0.79, ˆγ = 57.42, s 2 = Teste β = 0: t = 3.46, p-værdi = Regression paa (Al,Si): ˆβ = 1.47, ˆξ = 0.66, ˆγ = 52.58, s 2 = 5.8 Teste β = 0: t = 14.4, p-værdi = Teste ξ = 0: t = 12.1, p-værdi = Nanostatistik: Lineær regression p. 67/69

68 Estimation Minimere n i=1 (y i γ β 1 x 1i β k x ki ) 2 Matrixregning X = 1 1 x 11 x 1n. x k1 x kn. (ˆγ, ˆβ) = yx (XX ) 1 Nanostatistik: Lineær regression p. 68/69

69 Estimation i R lsfit(t(x), y)$coef Eller, for eksempel hvis k = 2 og de forklarende variable ligger i vektorerne X 1 og X 2, så skriv lsfit(cbind(x 1,X 2 ),y)$coef Nanostatistik: Lineær regression p. 69/69

Nanostatistik: Lineær regression

Nanostatistik: Lineær regression Nanostatistik: Lineær regression JLJ Nanostatistik: Lineær regression p. 1/41 Sammenhænge Funktionssammenhæng: y er en funktion af x. Ex: Hvis jeg kender afstanden mellem to galakser så kender jeg også

Læs mere

Perspektiver i Matematik-Økonomi: Linær regression

Perspektiver i Matematik-Økonomi: Linær regression Perspektiver i Matematik-Økonomi: Linær regression Jens Ledet Jensen H2.21, email: jlj@imf.au.dk Perspektiver i Matematik-Økonomi: Linær regression p. 1/34 Program for i dag 1. Indledning: sammenhæng mellem

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Kapitel 11 Lineær regression

Kapitel 11 Lineær regression Kapitel 11 Lineær regression Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Nanostatistik: Test af hypotese

Nanostatistik: Test af hypotese Nanostatistik: Test af hypotese JLJ Nanostatistik: Test af hypotese p. 1/50 Repetition n uafhængige gentagne målinger: Fordelingsundersøgelse: Pindediagram / Histogram qq-plot Parameter: egenskab ved fordeling

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

Nanostatistik: Konfidensinterval

Nanostatistik: Konfidensinterval Nanostatistik: Konfidensinterval JLJ Nanostatistik: Konfidensinterval p. 1/37 Fraktilpåmindelse u p : Φ(u p ) = p, Φ( z ) = 1 Φ( z ) t p [f] : F t[f] (t p [f]) = p, F t[f] ( t ) = 1 F t[f] ( t ) F-fordeling:

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006 Dagens program Økonometri Den simple regressionsmodel 5. september 006 Den simple lineære regressionsmodel (Wooldridge kap.4-.6) Eksemplet fortsat: Løn og uddannelse på danske data Funktionel form Statistiske

Læs mere

Nanostatistik: Opgavebesvarelser

Nanostatistik: Opgavebesvarelser Nanostatistik: Opgavebesvarelser JLJ Nanostatistik: Opgavebesvarelser p. 1/16 Pakkemaskine En producent hævder at poserne indeholder i gennemsnit 16 ounces sukker. Data: 10 pakker sukker: 16.1, 15.8, 15.8,

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Simpel Lineær Regression: Model

Simpel Lineær Regression: Model Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde... Modul 13: Exercises 13.1 Substrat.......................... 1 13.2 Polynomiel regression.................. 3 13.3 Biomasse.......................... 4 13.4 Kreatinin.......................... 7 13.5 Læsefærdighed......................

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde...

13.1 Substrat Polynomiel regression Biomasse Kreatinin Læsefærdighed Protein og højde... Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 13: Exercises 13.1 Substrat........................................ 1 13.2 Polynomiel regression................................

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ). Program 1. multipel regression 2. polynomiel regression (og andre kurver) 3. kategoriske variable 4. Determinationkoefficient og justeret determinationskoefficient 5. ANOVA-tabel 1/13 Multipel regression

Læs mere

StatDataN: Test af hypotese

StatDataN: Test af hypotese StatDataN: Test af hypotese JLJ StatDataN: Test af hypotese p. 1/69 Repetition n uafhængige gentagne målinger: Fordelingsundersøgelse: Pindediagram / Histogram qq-plot Parameter: egenskab ved fordeling

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1 Population og stikprøve 2 Stikprøvevariation

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 32 Konsekvenser af Heteroskedasticitet Antag her (og i resten) at MLR.1 til MLR.4 er opfyldt. Antag MLR.5 ikke er opfyldt, dvs. vi har heteroskedastiske

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Nanostatistik: Opgaver

Nanostatistik: Opgaver Nanostatistik: Opgaver Jens Ledet Jensen, 19/01/05 Opgaver 1 Opgaver fra Indblik i Statistik 5 Eksamensopgaver fra tidligere år 11 i ii NANOSTATISTIK: OPGAVER Opgaver Opgave 1 God opgaveskik: Når I regner

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder Heteroskedasticitet 11. april 007 KM: F18 1 Oversigt: Heteroskedasticitet OLS estimation under heteroskedasticitet (W.8.1-): Konsekvenser af heteroskedasticitet for OLS Gyldige test

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i Da er r i = e i ˆσ ei t(n 3) (tæt på N(0,1) hvis n ikke alt for lille). Program 1. lineær regression: opgave 3 og 13 (sukker-temperatur). 2. studentiserede residualer, multipel regression. Tommelfinger-regel:

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Module 9: Residualanalyse

Module 9: Residualanalyse Mathematical Statistics ST6: Linear Models Bent Jørgensen og Pia Larsen Module 9: Residualanalyse 9 Rå residualer 92 Standardiserede residualer 3 93 Ensidig variansanalyse 4 94 Studentiserede residualer

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05 Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Module 3: Statistiske modeller

Module 3: Statistiske modeller Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot Program Residualanalyse Flersidet variansanalyse Helle Sørensen Modelkontrol (residualanalyse) i tosidet ANOVA med vekselvirkning. Test og konklusion i tosidet ANOVA (repetition) Tresidet ANOVA: the works

Læs mere

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t. t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program (8.15-10): 1. repetition: fordeling af observatorer X, S 2 og t. 2. konfidens-intervaller, hypotese test, type I og type II fejl, styrke,

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,,

Læs mere

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ Per Bruun Brockhoff, DTU Compute, Claus Thorn Ekstrøm, KU Biostatistik, Ernst Hansen, KU Matematik January 17, 2017 Abstract

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet Antag vi har model: y = β 0 + β 1 x 2 + + β k x k + u. Vi ønsker

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Normalfordelingens venner og bekendte Helle Sørensen Uge 9, onsdag SaSt2 (Uge 9, onsdag) Normalfordelingens venner 1 / 20 Program Resultaterne fra denne uge skal bruges

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 34 Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Antag vi har model: Vi ønsker at teste hypotesen y = β 0 + β 1 x

Læs mere

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8 Landmålingens fejlteori Repetition - Fordeling af slutfejl Lektion 8 - tvede@math.aau.dk http://www.math.aau.dk/ tvede/teaching/l4 Institut for Matematiske Fag Aalborg Universitet 15. maj 2008 1/13 Fordeling

Læs mere

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl

Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl Landmålingens fejlteori Lektion 4 Vægtet gennemsnit Fordeling af slutfejl - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/36 Estimation af varians/spredning Antag X 1,...,X n stokastiske

Læs mere

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik Lektion 4. Variansanalyse Modelkontrol Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345) Kursus 4: Besvarelser til øvelses- og hjemmeopgaver i uge 11 Opgave 11.4 side 316 (7ed: 11.4, side 35 og 6ed: 11., side 345) Opgaven består i at foretage en regressionsanalse. Først afbildes data som i

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet

Læs mere

Uge 10 Teoretisk Statistik 1. marts 2004

Uge 10 Teoretisk Statistik 1. marts 2004 1 Uge 10 Teoretisk Statistik 1. marts 004 1. u-fordelingen. Normalfordelingen 3. Middelværdi og varians 4. Mere normalfordelingsteori 5. Grafisk kontrol af normalfordelingsantagelse 6. Eksempler 7. Oversigt

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet Dagens program Økonometri Den multiple regressionsmodel 4. februar 003 regressionsmodel Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5)! Opsamling fra sidst

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere