Modul 6: Regression og kalibrering

Save this PDF as:
 WORD  PNG  TXT  JPG

Størrelse: px
Starte visningen fra side:

Download "Modul 6: Regression og kalibrering"

Transkript

1 Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning Kovarians og korrelation Estimation af kovarians og korrelation Simpel lineær regression Den lineære regressionsmodel Estimation af parametre Modelkontrol Inferens Prædiktion Årsag og virkning Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antag at vi har n observationspar (x 1,y 1 ),...,(x n,y n ). Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen mellem x og y? Hvordan påvirkes x af y? Eller y af x? SAMMENHÆNG BETYDER IKKE NØDVENDIGVIS, AT DER ER EN ÅRSAG OG EN VIRKNING 1. x er årsag til y. For eksempel: jo mere vind, jo større produktion af vindmøllestrøm. 2. x og y påvirker hinanden. For eksempel hænger prisen på et produkt ofte tæt sammen med efterspørgslen. 3. x og y kan begge være forårsaget af en tredje (underliggende) variabel z. For eksempel medfører større næringsindhold i jorden øget vækst for både nytteplanter og ukrudt.

2 6.2 Kovarians og korrelation 2 4. x af y kan hænge sammen ved rene tilfældigheder. For eksempel: Gå igennem alle mulige variabelpar i en årgang af Dansk Statistisk Årbog, indtil man finder to variable med en stærk sammenhæng. 5. x af y viser en sammenhæng fordi éns data ikke er repræsentative for den ønskede population. For eksempel: Hvis man på grundlag af tal for værnepligtige forsøger at udtale sig om sammenhængen mellem højde og vægt for hele den voksne population. 6.2 Kovarians og korrelation Hvor stærkt (linært) afhængige er to stokastiske variable X og Y? Kovarians: Cov (X,Y ) = E[(X EX) (Y EY )] Alternative udtryk: Cov (X,Y ) = E(XY ) E(X) E(Y ) Cov (X,Y ) = E[X (Y EY )] = E[Y (X EX)] Gennemsnitlig grad af co-variation mellem X og Y, dvs hvor meget de varierer sammen (co-vary). Regneregler for kovarians: 1. Cov (X,Y ) = Cov (Y,X) (symmetrisk). 2. Cov (X,X) = Var (X) 3. Cov (X + Y,Z) = Cov (X,Z) + Cov (Y,Z) (additiv) 4. Cov (a + bx,y ) = bcov (X,Y ) (skalatransformation) Mål for den lineære association mellem X og Y (renset for position). Variansen for en sum: Var (X + Y ) = Var (X) + Var (Y ) + 2Cov (X,Y ) Bevis: Var (X + Y ) = Cov (X + Y,X + Y ) = Cov (X,X) + Cov (X,Y ) + Cov (Y,X) + Cov (Y,Y ) = Var (X) + Cov (X,Y ) + Cov (X,Y ) + Var (Y )

3 6.2 Kovarians og korrelation 3 Korrelation (Pearsons korrelationskoefficient): ρ = ρ(x,y ) = Cov(X,Y ) Var (X) Var (Y ). Mulige værdier (følger af Cauchy-Schwarz uligheden) ρ [ 1,1] Symmetrisk: ρ(x,y ) = ρ(y,x). Fortegnsafhængig: ρ( X, Y ) = ρ(y, X). Uafhængig af position og skala: ρ(a + bx,y ) = ρ(x,y ) hvis b > 0 Bevis: ρ(a + bx,y ) = = Cov(a + bx,y ) Var (a + bx) Var (Y ) bcov(x,y ) b 2 Var (X) Var (Y ) = ρ(x,y ) Mål for den lineære association mellem X og Y (renset for både position og skala). Styrke og fortegn for korrelation vurderes groft som følger: Fortegn: Positiv korrelation hvis ρ > 0. Negativ korrelation hvis ρ < 0. Hvis ρ = 0 kaldes X og Y indbyrdes ukorrelerede. Styrke: Stærk korrelation hvis ρ er stor. Svag korrelation hvis ρ er lille. Eksakt lineær sammenhæng hvis ρ = 1, dvs. der findes a og b 0 så Y = a + bx. Ingen lineær sammenhæng hvis ρ = 0.

4 6.2 Kovarians og korrelation Estimation af kovarians og korrelation Antag at vi har n observationspar (x 1,y 1 ),...,(x n,y n ). Empirisk kovarians: c = c xy = 1 n 1 (x i x) (y i ȳ). Alternative udtryk: (x i x) (y i ȳ) = (x i x) (y i ȳ) = = x i y i n xȳ x i (y i ȳ) (x i x)y i Korrelationskoefficient: Bemærk: r = r xy = 1 n 1 (x i x) (y i ȳ) s x s y = 1 n 1 ( )( ) xi x yi ȳ. s x s y Mulige værdier: r [ 1,1] Fortolkning: fortolkes nogenlunde som ρ, se Modul 1 (sammenhængsmål). Eksempel 6.1 Isforbrug og temperatur Isforbruget per inbygger (i pints per dag) blev målt i forskellige områder af USA om sommeren. Desuden blev, for hver måling af isforbrug, gennemsnitstemperaturen noteret (bl.a.): Isforbrug (pints): Temperatur (Fahrenheit): Isforbrug og temperatur: r =

5 6.3 Simpel lineær regression 5 Figur 6.1: Isforbrug og temperatur. Determinationskoefficient: r 2 [0,1] Eksempel 6.1: isforbrug og temperatur: r 2 = Betegnes ofte R 2 og udtrykkes i procent. Bruges som mål for associationen mellem x og y i regression. Kan være misvisende hvis x ikke er stokastisk. 6.3 Simpel lineær regression Antag at vi igen har n observationspar (x 1,y 1 ),...,(x n,y n ). Angiver samhørende værdier for variablene x og y. Linear regression adskiller sig fra korrelation ved følgende: 1. Vi ønsker at prædiktere (forudsige) y fra x. 2. Vi skal vælge en responsvariabel y og en forklarende variabel x. Der skelnes mellem to tilfælde: 1. x er kontrolleret (konstant), mens y svarer til en stokastisk variabel Y. 2. x svarer til en stokastisk variabel X lige så vel som y svarer til Y. Vi taler også om regression af y på x.

6 6.3 Simpel lineær regression 6 I begge tilfælde (1. og 2.) tænker vi på x som konstant og Y som stokastisk. Bemærk: r xy og c xy spiller en vis praktisk rolle i regression, men da x betragtes som konstant, giver ρ(x,y ) ikke nødvendigvis mening. Eksempel 6.1: Isforbrug og temperatur Afhænger isforbruget (y) af tempeteraturen? Hvor stort isforbrug kan forventes ved 50 F? Vi kan tænke på x = temperatur som kontrolleret. Vi ønsker at prædiktere y ud fra x. Eksempel 6.2 Vindenergi En undersøgelse blev lavet for at finde ud af, hvordan strømproduktionen (y) fra vindmøller afhænger af vindhastigheden (x). 2.0 Current output Wind speed Figur 6.2: Strømproduktion og vindhastighed. Vi ønsker at prædiktere y ud fra x.

7 6.3 Simpel lineær regression 7 Eksempel 6.3 Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score (x, hurtig) Berg score (y, omstændelig, præcis) Begge svarer til stokastiske variable, hhv. X og Y. Berg score TUG score Figur 6.3: Berg score mod TUG score Den lineære regressionsmodel Data (x 1,y 1 ),...,(x n,y n ), hvor x 1,...,x n er konstante. y 1,...,y n er observationer fra uafhængige stokastiske variable Y 1,...,Y n. Sammenængen mellem x og Y er givet ved Y i = β 0 + β 1 x i + ɛ i, i = 1,...,n, β 0,β 1 R er ukendte regressionsparametre.

8 6.3 Simpel lineær regression 8 Om fejlleddet ɛ i gælder ɛ i N ( 0,σ 2) uafhængige i = 1,...,n. σ 2 kaldes for variansparameteren, eller residualvariansen. Sammenfatning: Der er fire antagelser i lineær regression: 1. Lineær sammenhæng mellem x og y: E(Y i ) = β 0 + β 1 x i for i = 1,...,n. 2. Y 1,...,Y n er indbyrdes uafhængige. 3. Variansen er konstant Var (Y i ) = Var[ɛ i ] = σ 2 for i = 1,...,n. 4. ɛ i -erne er normalfordelte. Modellen skrives kort som Y i N ( β 0 + β 1 x i,σ 2), uafhængige i = 1,...,n. Teoretisk regressionslinie y = β 0 + β 1 x Fortolkning af regressionsparametre: β 0 : Forventet værdi af Y, når x = 0. β 1 : Forventet ændring i Y, når værdien af x øges til x + 1. σ 2 : Den lodrette variation for hver givet værdi af x Estimation af parametre Find ret linie så de lodrette afvigelser af observerede data fra linien er minimeret. Lad ˆβ 0 og ˆβ 1 betegne estimater for parametrene. Residualer: e i = y i ˆβ 0 ˆβ 1 x i,i = 1,...,n. Forskelle mellem observationer: y i prædikterede værdier: ˆβ0 + ˆβ 1 x i

9 6.3 Simpel lineær regression 9 Vælg ˆβ 0 og ˆβ 1 så alle residualer er små i absolut værdi. Least squares (mindste kvadraters) metoden Minimer kvadratsummen af residualer m.h.t. β 0 og β 1 : e 2 i = (y i β 0 β 1 x i ) 2. Løs β 0 e 2 i = 0 og β 1 e 2 i = 0. Least squares estimater: ˆβ 1 = ˆβ 0 n (x i x)(y i ȳ) n (x i x) 2 = ȳ ˆβ 1 x = c xy s 2 x Estimeret regressionslinie: y = ˆβ 0 + ˆβ 1 x. Fittede værdier/ prædikterede værdier: ŷ i = ˆβ 0 + ˆβ 1 x i, i = 1,2,...,n. Eksempel 6.3 Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score (x) og Berg score (Y ). Least squares linien: y = x.

10 6.3 Simpel lineær regression 10 Berg score TUG score Estimat af residualvarians: Figur 6.4: Mobility data: de observerede residualer. MSE = 1 n 2 (Mean Square Error). Har n 2 frihedsgrader. Bemærk: Måler variationen omkring regressionslinien. ( y i ˆβ 0 ˆβ 1 x i ) 2. Unbiased estimat, dvs. har den korrekte middelværdi Modelkontrol Modelantagelser for i = 1,...,n: Y i ɛ i 1 uafhængige uafhængige 2 normalfordelte normalfordelte 3 E[Y i ] = β 0 + β 1 x i E[ɛ i ] = 0 4 Var[Y i ] = σ 2 Var[ɛ i ] = σ 2 Check 2 med et QQ plot for standardiserede residualer

11 6.3 Simpel lineær regression 11 Check med residualplot for standardiserede residualer Standardiserede residualer Check om ɛ i N ( 0,σ 2) : 1. Skal bruge observationer fra ɛ i = Y i β 0 β 1 x i 2. Idé: Residualer e i = y i ˆβ 0 ˆβ 1 x i. 3. Problem: kan vise at e i kommer fra N ( 0,σ 2 (1 h i ) ) -ford., med h i = 1 n + (x i x) 2 n (x i x) 2 Standardiserede residualer fra N ( 0,σ 2) : e i = e i 1 hi. Tegn standardiserede residualer mod forventede værdier: Tegn: (ˆβ0 + ˆβ 1 x i,e i), i = 1,2,...,n. Berg score TUG score Figur 6.5: Mobility data; least squares linien.

12 6.3 Simpel lineær regression 12 standardised residuals normal quantiles fitted values observed quantiles Figur 6.6: Isforbrug og temperatur: modelcheck. normal quantiles observed quantiles Figur 6.7: Isforbrug og temperatur: fraktildiagram uden outlier.

13 6.3 Simpel lineær regression 13 standardised residuals fitted values Figur 6.8: Isforbrug og temperatur: residualplot. normal quantiles residuals observed quantiles fitted values Figur 6.9: Strøm og vind: modelcheck.

14 6.3 Simpel lineær regression 14 normal quantiles residuals observed quantiles fitted values Figur 6.10: Strøm og 1/vind: modelcheck. standardised residuals normal quantiles fitted values observed quantiles Figur 6.11: Mobilitet af ældre: modelcheck. Hvis plottet viser krum form: Antagelse 3 forkert.

15 6.3 Simpel lineær regression 15 trompetform: Antagelse 4 forkert intet mønster: Antagelser (formentlig) OK Resumé: Model hvor Y i = β 0 + β 1 x i + ɛ i, i = 1,...,n, ɛ i N ( 0,σ 2) uafhængige i = 1,...,n. Estimat for hældning ˆβ 1 = n (x i x)(y i ȳ) n n (x i x) 2 = y i(x i x) hvor = n (x i x) 2. For intercept ˆβ 0 = ȳ ˆβ 1 x og for varians med n 2 frihedsgrader. MSE = 1 n 2 (y i ˆβ 0 ˆβ ) 2 1 x i Inferens Vi ønsker at lave test og konfidensintervaller for parametrene i regressionsmodellen. Estimatorernes fordeling Hældning: intercept ( σ ˆβ 2 ) 1 N β 1,, ( )] 1n ˆβ 0 N [β 0,σ 2 + x2. Bevis: Både ˆβ 1 og ˆβ 0 er linearkombinationer af Y i -erne, og er dermed normalfordelt. Nok at finde E og Var. 1. Hældning: Husk: ˆβ 1 = n Y i(x i x).

16 6.3 Simpel lineær regression 16 Middelværdi ) E (ˆβ1 n = E(Y i) (x i x) n = (β 0 + β 1 x i ) (x i x) n = β (x i x) n 0 + β x i(x i x) 1 = β 1, da n (x i x) = 0 og n x i(x i x) =. Varians da n (x i x) 2 =. 2. Intercept: Husk ) Var (ˆβ1 ) Middelværdi: Da E (ˆβ1 = β 1 og ) følger det at E (ˆβ0 = β 0. E ( Ȳ ) = n = Var (Y i) (x i x) 2 2 n = σ 2 (x i x) 2 2 = σ2, ˆβ 0 = Ȳ ˆβ 1 x. 1 n (β 0 + β 1 x i ) = β 0 + β 1 1 n = β 0 + β 1 x Varians: Man kan vise, at ˆβ 0 og Ȳ er uafhængige og Var ( Ȳ ) = σ 2 /n. Derfor ) Var (ˆβ1 x i = Var ( Ȳ ) ) + x 2 Var (ˆβ1 = σ2 n + x2 σ2. At ˆβ ) 0 og (ˆβ0 Ȳ er uafhængige følger af at Cov,Ȳ = 0 (en simpel udregning).

17 6.3 Simpel lineær regression 17 Hældning Da er standardfejlen for ˆβ 1 givet ved idet MSE er estimatet for σ 2. ( σ ˆβ 2 ) 1 N β 1,, SE = MSE, Man kan så vise, at ˆβ 1 β 1 SE t n 2. Konfidensinterval for hældningen: L 100% konfidensinterval C.I. L (y) for β 1 er givet ved endepunkterne: ˆβ 1 ± SE t n 2,(1+L)/2. Test for hældningen: baseres på H 0 : β 1 = β 10 ˆβ 1 β 10 SE H 0 t n 2 Som alternative hypoteser bruges de samme som i Modul 5, altså Intercept Da 1. H a : β 1 β 10, som betyder, at hældningen er forskellig fra β H a+ : β 1 > β 10, som betyder, at hældningen er større end β H a : β 1 < β 10, som betyder, at hældningen er mindre end β 10. er standardfejlen for ˆβ 0 givet ved idet MSE er estimatet for σ 2. ( )] 1n ˆβ 0 N [β 0,σ 2 + x2 SE = MSE ( ) 1 n + x2,

18 6.3 Simpel lineær regression 18 Man kan så vise, at ˆβ 0 β 0 SE t n 2. Konfidensinterval for intercept: L 100% konfidensinterval C.I. L (y) for β 0 er givet ved endepunkterne: ˆβ 0 ± SE t n 2,(1+L)/2. Test for intercept: baseres på H 0 : β 0 = β 00 ˆβ 0 β 00 SE H 0 t n 2 Alternative hypoteser: H a, H a+ eller H a på samme facon som ovenfor. Eksempel 6.3 Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score (x) og Berg score (Y ). Least squares linien: y = x. 95% konfidensintervaller: β 0 : C.I (y) = (54.143,68.484), β 1 : C.I (y) = ( 1.953, 0.728). Brug af SAS output De vigtigste ting fra SAS/Insight output for mobilitetsdata.

19 6.3 Simpel lineær regression 19 Figur 6.12: SAS analyse af mobilitetsdata. Model equation giver formlen for den fittede (least squares) linie. Parametric Regression Fit: 1. Degree (Polynomial): Der fittes en ret linie, som er et polynomium af grad Error: DF = frihedsgrader, dvs. n 2. Mean Square = MSE. Summary of Fit: 1. R-Square = R Root MSE = MSE. Parameter Estimates: 1. Estimate: ˆβ0 og ˆβ Std Error: SE 3. t Stat: t-test for hypotesen, at den pågældende parameter er Pr > t : p-værdi for t-testen. Konfidensinterval for β 1 : Med tabelopslag t 14,0.975 = er konfidensintervallet givet ved ± som stemmer overens med intervallet angivet ovenfor. Konfidensinterval for β 0 : Kan findes på samme måde ud fra tabellen med estimater.

20 6.3 Simpel lineær regression Prædiktion Vi ønsker nu at udføre prædiktion af en fremtidig observation. Forventet middelrespons Ny værdi af den forklarende variabel x = x 0. Lad Y = Y 0 være den tilsvarende responsvariabel. Middelværdi for Y 0 er men vi kender ikke β 0 og β 1. E(Y 0 ) = β 0 + β 1 x 0, I stedet bruger vi forventet middelrespons: Ŷ 0 = ˆβ 0 + ˆβ 1 x 0. Middelværdi og varians af Ŷ0 ) E (Ŷ0 = E (ˆβ0 + ˆβ ) 1 x 0 = β 0 + β 1 x 0. ) Var (Ŷ0 = Var (ˆβ0 + ˆβ ) ( 1 1 x 0 = σ 2 n + (x 0 x) 2 ). Bevis: Resultatet følger af ˆβ 0 + ˆβ 1 x 0 = Ȳ + ˆβ 1 (x 0 x), idet de to led er uafhængige. Det følger, at standardfejlen for Ŷ0 er SE = MSE [ 1 n + (x 0 x) 2 ]. 95% konfidensinterval for middelrespons C.I (y) er givet ved: Ŷ 0 ± SE t n 2,0.975 Kan også lave test for hvor µ 0 er et givet tal. H 0 : β 0 + β 1 x 0 = µ 0, Eksempel 6.3 Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score (x) og Berg score (Y ). Least squares linien: y = x.

21 6.3 Simpel lineær regression 21 Forventet middelrespons for x 0 = 10: For at finde SE på Ŷ0 skal vi bruge. ŷ 0 = = Figur 6.13: SAS nøglestørrelser for mobilitetsdata. Fra nøglestørrelser for x finder vi = (ses under CSS, Corrected Sum of Squares). SE for Ŷ0 er SE = [ ] 1 ( )2 + = % konfidensinterval for forventet Berg score, for person med TUG score 10 er givet ved ± , altså C.I (y) = (46.107,49.720).

22 6.3 Simpel lineær regression 22 Ny respons For x = x 0 er ny respons: Y 0 = β 0 + β 1 x 0 + ɛ 0, med ɛ 0 N ( 0,σ 2). Det antages at ɛ 0 er uafhængig af ɛ 1,...,ɛ n. Dvs. Y 0,Y 1,...,Y n er indbyrdes uafhængige. Vi prædikterer igen Y 0 ved den forventede middelrespons: Ŷ 0 = ˆβ 0 + ˆβ 1 x 0. Bemærk at Y 0 og Ŷ0 er uafhængige, så ( ) ) Var Y 0 Ŷ0 = Var (Y 0 ) + Var (Ŷ0 ( 1 = σ 2 + σ 2 n + (x 0 x) 2 ) ( = σ n + (x 0 x) 2 ) Fortolkning: Usikkerheden i prædiktionen kommer fra to kilder: 1. Estimaterne ˆβ 0 og ˆβ Fejlleddet ɛ 0. Da ɛ 0 er uafhængig af ˆβ 0 og ˆβ 1, skal de to varianser lægges sammen. Estimat for spredning: SE = MSE [ n + (x 0 x) 2 ]. 95% tosidet prædiktionsinterval er givet ved: P.I (y) = (Ŷ0 ± SE t n 2,0.975 ). Bemærk: Vi kalder det for et prædiktionsinterval (P.I.), fordi det vedrører den fremtidige observerede værdi af en stokastisk variabel Y 0 og ikke værdien af en ukendt parameter. Fortolkning: Hvis vi hver gang påstår at Y 0 tilhører P.I. L (y) vil vi have ret med sandsynlighed L. Det er vigtigt at skelne mellem middelrespons og ny respons.

23 6.3 Simpel lineær regression 23 Eksempel 6.3 Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score (x) og Berg score (Y ). Least squares linien: Forventet middelrespons for x 0 = 10: y = x. ŷ 0 = = SE for Ŷ0 er SE = [ ] ( )2 + = % prædiktionsinterval for Berg score, for person med TUG score 10, er givet ved ± , altså P.I (y) = (41.332,54.496). Vi kan altså forvente, at en fremtidig måling af Berg score på en sådan person med 95% sikkerhed vil ligge mellem og

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 7: Eksempler 7.1 Beskrivende dataanalyse............................... 1 7.1.1 Diagrammer.................................

Læs mere

Module 3: Statistiske modeller

Module 3: Statistiske modeller Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Skriftlig eksamen Science statistik- ST501

Skriftlig eksamen Science statistik- ST501 SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,,

Læs mere

Simpel Lineær Regression: Model

Simpel Lineær Regression: Model Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Module 1: Introduktion til R, simpel regression

Module 1: Introduktion til R, simpel regression Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 1: Introduktion til R, simpel regression 1.1 Lineære modeller................................... 1 1.2 Simpel lineær regression..............................

Læs mere

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Forskningsenheden for Statistik IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er tilladt.

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares) Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Oversigt Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) Klaus

Læs mere

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 32 Konsekvenser af Heteroskedasticitet Antag her (og i resten) at MLR.1 til MLR.4 er opfyldt. Antag MLR.5 ikke er opfyldt, dvs. vi har heteroskedastiske

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Module 9: Residualanalyse

Module 9: Residualanalyse Mathematical Statistics ST6: Linear Models Bent Jørgensen og Pia Larsen Module 9: Residualanalyse 9 Rå residualer 92 Standardiserede residualer 3 93 Ensidig variansanalyse 4 94 Studentiserede residualer

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer

Læs mere

Kursus 02402/02323 Introducerende Statistik

Kursus 02402/02323 Introducerende Statistik Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet Antag vi har model: y = β 0 + β 1 x 2 + + β k x k + u. Vi ønsker

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Perspektiver i Matematik-Økonomi: Linær regression

Perspektiver i Matematik-Økonomi: Linær regression Perspektiver i Matematik-Økonomi: Linær regression Jens Ledet Jensen H2.21, email: jlj@imf.au.dk Perspektiver i Matematik-Økonomi: Linær regression p. 1/34 Program for i dag 1. Indledning: sammenhæng mellem

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 34 Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Antag vi har model: Vi ønsker at teste hypotesen y = β 0 + β 1 x

Læs mere

Modul 1: Beskrivende dataanalyse

Modul 1: Beskrivende dataanalyse Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 1: Beskrivende dataanalyse 1.1 Statistik og dataanalyse............................... 1 1.2 Variable og data...................................

Læs mere

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt

enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt enote 5: Simpel lineær regressions analse Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression To variable: og Beregn mindstekvadraters estimat af ret linje Inferens med

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Afsnit 6.1. Ligefordelinger, fra sidst Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006 Dagens program Økonometri Den simple regressionsmodel 5. september 006 Den simple lineære regressionsmodel (Wooldridge kap.4-.6) Eksemplet fortsat: Løn og uddannelse på danske data Funktionel form Statistiske

Læs mere

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price

Læs mere

Nanostatistik: Lineær regression

Nanostatistik: Lineær regression Nanostatistik: Lineær regression JLJ Nanostatistik: Lineær regression p. 1/41 Sammenhænge Funktionssammenhæng: y er en funktion af x. Ex: Hvis jeg kender afstanden mellem to galakser så kender jeg også

Læs mere

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ Per Bruun Brockhoff, DTU Compute, Claus Thorn Ekstrøm, KU Biostatistik, Ernst Hansen, KU Matematik January 17, 2017 Abstract

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007 regressionsmodel 1 Dagens program Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5, E.2) Variansen

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Kontinuerte fordelinger Simultane fordelinger Kovarians og korrelation Uafhængighed Betingede fordelinger - Middelværdi og varians - Sammenhæng med uafhængighed 1 Figur 1: En tæthedsfunktion

Læs mere

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik Lektion 4. Variansanalyse Modelkontrol Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl

Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl. 9.00 12.00 IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er tilladt. Opgavesættet består af 5

Læs mere

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i Da er r i = e i ˆσ ei t(n 3) (tæt på N(0,1) hvis n ikke alt for lille). Program 1. lineær regression: opgave 3 og 13 (sukker-temperatur). 2. studentiserede residualer, multipel regression. Tommelfinger-regel:

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 22 sider. Skriftlig prøve: 13. december 2010 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.

Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data. Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data. 1 / 32 Motivation Eksempel: Savings = β 0 + β 1 Income + u Vi ved allerede, hvordan vi estimerer regresseionlinjen:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen STATISTIK Skriftlig evaluering, 3. semester, mandag den 6. januar 004 kl. 9.00-13.00. Alle hjælpemidler er tilladt. Opgaveløsningen forsynes med navn og CPR-nr. OPGAVE 1 Et firma tuner biler. Antallet

Læs mere

Skriftlig Eksamen ST501: Science Statistik Torsdag den 4. januar 2007 kl

Skriftlig Eksamen ST501: Science Statistik Torsdag den 4. januar 2007 kl Skriftlig Eksamen ST501: Science Statistik Torsdag den 4. januar 2007 kl. 9.00 12.00 Forskningsenheden for Statistik IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er

Læs mere

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet Dagens program Økonometri Den multiple regressionsmodel 4. februar 003 regressionsmodel Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5)! Opsamling fra sidst

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med Repetition: Varians af linear kombination Landmålingens fejlteori Lektion 5 Fejlforplantning - rw@math.aau.dk Antag X 1, X,..., X n er uafhængige stokastiske variable, og Y er en linearkombination af X

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Beskrivende statistik

Beskrivende statistik Beskrivende statistik Stikprøve af størrelse n for variablen x: x 1, x 2,, x n Beskriv fordelingen af data med nogle få talstørrelser. Centralt mål: en værdi som data er centreret om. Variationsmål: mål

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Betingede sandsynligheder Aase D. Madsen

Betingede sandsynligheder Aase D. Madsen 1 Uge 12 Teoretisk Statistik 15. marts 2004 1. Betingede sandsynligheder Definition Loven om den totale sandsynlighed Bayes formel 2. Betinget middelværdi og varians 3. Kovarians og korrelationskoefficient

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Kvantitative metoder 2

Kvantitative metoder 2 Kvantitative metoder Heteroskedasticitet 11. april 007 KM: F18 1 Oversigt: Heteroskedasticitet OLS estimation under heteroskedasticitet (W.8.1-): Konsekvenser af heteroskedasticitet for OLS Gyldige test

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere