Modul 6: Regression og kalibrering
|
|
|
- Mathilde Pedersen
- 9 år siden
- Visninger:
Transkript
1 Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning Kovarians og korrelation Estimation af kovarians og korrelation Simpel lineær regression Den lineære regressionsmodel Estimation af parametre Modelkontrol Inferens Prædiktion Årsag og virkning Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antag at vi har n observationspar (x 1,y 1 ),...,(x n,y n ). Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen mellem x og y? Hvordan påvirkes x af y? Eller y af x? SAMMENHÆNG BETYDER IKKE NØDVENDIGVIS, AT DER ER EN ÅRSAG OG EN VIRKNING 1. x er årsag til y. For eksempel: jo mere vind, jo større produktion af vindmøllestrøm. 2. x og y påvirker hinanden. For eksempel hænger prisen på et produkt ofte tæt sammen med efterspørgslen. 3. x og y kan begge være forårsaget af en tredje (underliggende) variabel z. For eksempel medfører større næringsindhold i jorden øget vækst for både nytteplanter og ukrudt.
2 6.2 Kovarians og korrelation 2 4. x af y kan hænge sammen ved rene tilfældigheder. For eksempel: Gå igennem alle mulige variabelpar i en årgang af Dansk Statistisk Årbog, indtil man finder to variable med en stærk sammenhæng. 5. x af y viser en sammenhæng fordi éns data ikke er repræsentative for den ønskede population. For eksempel: Hvis man på grundlag af tal for værnepligtige forsøger at udtale sig om sammenhængen mellem højde og vægt for hele den voksne population. 6.2 Kovarians og korrelation Hvor stærkt (linært) afhængige er to stokastiske variable X og Y? Kovarians: Cov (X,Y ) = E[(X EX) (Y EY )] Alternative udtryk: Cov (X,Y ) = E(XY ) E(X) E(Y ) Cov (X,Y ) = E[X (Y EY )] = E[Y (X EX)] Gennemsnitlig grad af co-variation mellem X og Y, dvs hvor meget de varierer sammen (co-vary). Regneregler for kovarians: 1. Cov (X,Y ) = Cov (Y,X) (symmetrisk). 2. Cov (X,X) = Var (X) 3. Cov (X + Y,Z) = Cov (X,Z) + Cov (Y,Z) (additiv) 4. Cov (a + bx,y ) = bcov (X,Y ) (skalatransformation) Mål for den lineære association mellem X og Y (renset for position). Variansen for en sum: Var (X + Y ) = Var (X) + Var (Y ) + 2Cov (X,Y ) Bevis: Var (X + Y ) = Cov (X + Y,X + Y ) = Cov (X,X) + Cov (X,Y ) + Cov (Y,X) + Cov (Y,Y ) = Var (X) + Cov (X,Y ) + Cov (X,Y ) + Var (Y )
3 6.2 Kovarians og korrelation 3 Korrelation (Pearsons korrelationskoefficient): ρ = ρ(x,y ) = Cov(X,Y ) Var (X) Var (Y ). Mulige værdier (følger af Cauchy-Schwarz uligheden) ρ [ 1,1] Symmetrisk: ρ(x,y ) = ρ(y,x). Fortegnsafhængig: ρ( X, Y ) = ρ(y, X). Uafhængig af position og skala: ρ(a + bx,y ) = ρ(x,y ) hvis b > 0 Bevis: ρ(a + bx,y ) = = Cov(a + bx,y ) Var (a + bx) Var (Y ) bcov(x,y ) b 2 Var (X) Var (Y ) = ρ(x,y ) Mål for den lineære association mellem X og Y (renset for både position og skala). Styrke og fortegn for korrelation vurderes groft som følger: Fortegn: Positiv korrelation hvis ρ > 0. Negativ korrelation hvis ρ < 0. Hvis ρ = 0 kaldes X og Y indbyrdes ukorrelerede. Styrke: Stærk korrelation hvis ρ er stor. Svag korrelation hvis ρ er lille. Eksakt lineær sammenhæng hvis ρ = 1, dvs. der findes a og b 0 så Y = a + bx. Ingen lineær sammenhæng hvis ρ = 0.
4 6.2 Kovarians og korrelation Estimation af kovarians og korrelation Antag at vi har n observationspar (x 1,y 1 ),...,(x n,y n ). Empirisk kovarians: c = c xy = 1 n 1 (x i x) (y i ȳ). Alternative udtryk: (x i x) (y i ȳ) = (x i x) (y i ȳ) = = x i y i n xȳ x i (y i ȳ) (x i x)y i Korrelationskoefficient: Bemærk: r = r xy = 1 n 1 (x i x) (y i ȳ) s x s y = 1 n 1 ( )( ) xi x yi ȳ. s x s y Mulige værdier: r [ 1,1] Fortolkning: fortolkes nogenlunde som ρ, se Modul 1 (sammenhængsmål). Eksempel 6.1 Isforbrug og temperatur Isforbruget per inbygger (i pints per dag) blev målt i forskellige områder af USA om sommeren. Desuden blev, for hver måling af isforbrug, gennemsnitstemperaturen noteret (bl.a.): Isforbrug (pints): Temperatur (Fahrenheit): Isforbrug og temperatur: r =
5 6.3 Simpel lineær regression 5 Figur 6.1: Isforbrug og temperatur. Determinationskoefficient: r 2 [0,1] Eksempel 6.1: isforbrug og temperatur: r 2 = Betegnes ofte R 2 og udtrykkes i procent. Bruges som mål for associationen mellem x og y i regression. Kan være misvisende hvis x ikke er stokastisk. 6.3 Simpel lineær regression Antag at vi igen har n observationspar (x 1,y 1 ),...,(x n,y n ). Angiver samhørende værdier for variablene x og y. Linear regression adskiller sig fra korrelation ved følgende: 1. Vi ønsker at prædiktere (forudsige) y fra x. 2. Vi skal vælge en responsvariabel y og en forklarende variabel x. Der skelnes mellem to tilfælde: 1. x er kontrolleret (konstant), mens y svarer til en stokastisk variabel Y. 2. x svarer til en stokastisk variabel X lige så vel som y svarer til Y. Vi taler også om regression af y på x.
6 6.3 Simpel lineær regression 6 I begge tilfælde (1. og 2.) tænker vi på x som konstant og Y som stokastisk. Bemærk: r xy og c xy spiller en vis praktisk rolle i regression, men da x betragtes som konstant, giver ρ(x,y ) ikke nødvendigvis mening. Eksempel 6.1: Isforbrug og temperatur Afhænger isforbruget (y) af tempeteraturen? Hvor stort isforbrug kan forventes ved 50 F? Vi kan tænke på x = temperatur som kontrolleret. Vi ønsker at prædiktere y ud fra x. Eksempel 6.2 Vindenergi En undersøgelse blev lavet for at finde ud af, hvordan strømproduktionen (y) fra vindmøller afhænger af vindhastigheden (x). 2.0 Current output Wind speed Figur 6.2: Strømproduktion og vindhastighed. Vi ønsker at prædiktere y ud fra x.
7 6.3 Simpel lineær regression 7 Eksempel 6.3 Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score (x, hurtig) Berg score (y, omstændelig, præcis) Begge svarer til stokastiske variable, hhv. X og Y. Berg score TUG score Figur 6.3: Berg score mod TUG score Den lineære regressionsmodel Data (x 1,y 1 ),...,(x n,y n ), hvor x 1,...,x n er konstante. y 1,...,y n er observationer fra uafhængige stokastiske variable Y 1,...,Y n. Sammenængen mellem x og Y er givet ved Y i = β 0 + β 1 x i + ɛ i, i = 1,...,n, β 0,β 1 R er ukendte regressionsparametre.
8 6.3 Simpel lineær regression 8 Om fejlleddet ɛ i gælder ɛ i N ( 0,σ 2) uafhængige i = 1,...,n. σ 2 kaldes for variansparameteren, eller residualvariansen. Sammenfatning: Der er fire antagelser i lineær regression: 1. Lineær sammenhæng mellem x og y: E(Y i ) = β 0 + β 1 x i for i = 1,...,n. 2. Y 1,...,Y n er indbyrdes uafhængige. 3. Variansen er konstant Var (Y i ) = Var[ɛ i ] = σ 2 for i = 1,...,n. 4. ɛ i -erne er normalfordelte. Modellen skrives kort som Y i N ( β 0 + β 1 x i,σ 2), uafhængige i = 1,...,n. Teoretisk regressionslinie y = β 0 + β 1 x Fortolkning af regressionsparametre: β 0 : Forventet værdi af Y, når x = 0. β 1 : Forventet ændring i Y, når værdien af x øges til x + 1. σ 2 : Den lodrette variation for hver givet værdi af x Estimation af parametre Find ret linie så de lodrette afvigelser af observerede data fra linien er minimeret. Lad ˆβ 0 og ˆβ 1 betegne estimater for parametrene. Residualer: e i = y i ˆβ 0 ˆβ 1 x i,i = 1,...,n. Forskelle mellem observationer: y i prædikterede værdier: ˆβ0 + ˆβ 1 x i
9 6.3 Simpel lineær regression 9 Vælg ˆβ 0 og ˆβ 1 så alle residualer er små i absolut værdi. Least squares (mindste kvadraters) metoden Minimer kvadratsummen af residualer m.h.t. β 0 og β 1 : e 2 i = (y i β 0 β 1 x i ) 2. Løs β 0 e 2 i = 0 og β 1 e 2 i = 0. Least squares estimater: ˆβ 1 = ˆβ 0 n (x i x)(y i ȳ) n (x i x) 2 = ȳ ˆβ 1 x = c xy s 2 x Estimeret regressionslinie: y = ˆβ 0 + ˆβ 1 x. Fittede værdier/ prædikterede værdier: ŷ i = ˆβ 0 + ˆβ 1 x i, i = 1,2,...,n. Eksempel 6.3 Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score (x) og Berg score (Y ). Least squares linien: y = x.
10 6.3 Simpel lineær regression 10 Berg score TUG score Estimat af residualvarians: Figur 6.4: Mobility data: de observerede residualer. MSE = 1 n 2 (Mean Square Error). Har n 2 frihedsgrader. Bemærk: Måler variationen omkring regressionslinien. ( y i ˆβ 0 ˆβ 1 x i ) 2. Unbiased estimat, dvs. har den korrekte middelværdi Modelkontrol Modelantagelser for i = 1,...,n: Y i ɛ i 1 uafhængige uafhængige 2 normalfordelte normalfordelte 3 E[Y i ] = β 0 + β 1 x i E[ɛ i ] = 0 4 Var[Y i ] = σ 2 Var[ɛ i ] = σ 2 Check 2 med et QQ plot for standardiserede residualer
11 6.3 Simpel lineær regression 11 Check med residualplot for standardiserede residualer Standardiserede residualer Check om ɛ i N ( 0,σ 2) : 1. Skal bruge observationer fra ɛ i = Y i β 0 β 1 x i 2. Idé: Residualer e i = y i ˆβ 0 ˆβ 1 x i. 3. Problem: kan vise at e i kommer fra N ( 0,σ 2 (1 h i ) ) -ford., med h i = 1 n + (x i x) 2 n (x i x) 2 Standardiserede residualer fra N ( 0,σ 2) : e i = e i 1 hi. Tegn standardiserede residualer mod forventede værdier: Tegn: (ˆβ0 + ˆβ 1 x i,e i), i = 1,2,...,n. Berg score TUG score Figur 6.5: Mobility data; least squares linien.
12 6.3 Simpel lineær regression 12 standardised residuals normal quantiles fitted values observed quantiles Figur 6.6: Isforbrug og temperatur: modelcheck. normal quantiles observed quantiles Figur 6.7: Isforbrug og temperatur: fraktildiagram uden outlier.
13 6.3 Simpel lineær regression 13 standardised residuals fitted values Figur 6.8: Isforbrug og temperatur: residualplot. normal quantiles residuals observed quantiles fitted values Figur 6.9: Strøm og vind: modelcheck.
14 6.3 Simpel lineær regression 14 normal quantiles residuals observed quantiles fitted values Figur 6.10: Strøm og 1/vind: modelcheck. standardised residuals normal quantiles fitted values observed quantiles Figur 6.11: Mobilitet af ældre: modelcheck. Hvis plottet viser krum form: Antagelse 3 forkert.
15 6.3 Simpel lineær regression 15 trompetform: Antagelse 4 forkert intet mønster: Antagelser (formentlig) OK Resumé: Model hvor Y i = β 0 + β 1 x i + ɛ i, i = 1,...,n, ɛ i N ( 0,σ 2) uafhængige i = 1,...,n. Estimat for hældning ˆβ 1 = n (x i x)(y i ȳ) n n (x i x) 2 = y i(x i x) hvor = n (x i x) 2. For intercept ˆβ 0 = ȳ ˆβ 1 x og for varians med n 2 frihedsgrader. MSE = 1 n 2 (y i ˆβ 0 ˆβ ) 2 1 x i Inferens Vi ønsker at lave test og konfidensintervaller for parametrene i regressionsmodellen. Estimatorernes fordeling Hældning: intercept ( σ ˆβ 2 ) 1 N β 1,, ( )] 1n ˆβ 0 N [β 0,σ 2 + x2. Bevis: Både ˆβ 1 og ˆβ 0 er linearkombinationer af Y i -erne, og er dermed normalfordelt. Nok at finde E og Var. 1. Hældning: Husk: ˆβ 1 = n Y i(x i x).
16 6.3 Simpel lineær regression 16 Middelværdi ) E (ˆβ1 n = E(Y i) (x i x) n = (β 0 + β 1 x i ) (x i x) n = β (x i x) n 0 + β x i(x i x) 1 = β 1, da n (x i x) = 0 og n x i(x i x) =. Varians da n (x i x) 2 =. 2. Intercept: Husk ) Var (ˆβ1 ) Middelværdi: Da E (ˆβ1 = β 1 og ) følger det at E (ˆβ0 = β 0. E ( Ȳ ) = n = Var (Y i) (x i x) 2 2 n = σ 2 (x i x) 2 2 = σ2, ˆβ 0 = Ȳ ˆβ 1 x. 1 n (β 0 + β 1 x i ) = β 0 + β 1 1 n = β 0 + β 1 x Varians: Man kan vise, at ˆβ 0 og Ȳ er uafhængige og Var ( Ȳ ) = σ 2 /n. Derfor ) Var (ˆβ1 x i = Var ( Ȳ ) ) + x 2 Var (ˆβ1 = σ2 n + x2 σ2. At ˆβ ) 0 og (ˆβ0 Ȳ er uafhængige følger af at Cov,Ȳ = 0 (en simpel udregning).
17 6.3 Simpel lineær regression 17 Hældning Da er standardfejlen for ˆβ 1 givet ved idet MSE er estimatet for σ 2. ( σ ˆβ 2 ) 1 N β 1,, SE = MSE, Man kan så vise, at ˆβ 1 β 1 SE t n 2. Konfidensinterval for hældningen: L 100% konfidensinterval C.I. L (y) for β 1 er givet ved endepunkterne: ˆβ 1 ± SE t n 2,(1+L)/2. Test for hældningen: baseres på H 0 : β 1 = β 10 ˆβ 1 β 10 SE H 0 t n 2 Som alternative hypoteser bruges de samme som i Modul 5, altså Intercept Da 1. H a : β 1 β 10, som betyder, at hældningen er forskellig fra β H a+ : β 1 > β 10, som betyder, at hældningen er større end β H a : β 1 < β 10, som betyder, at hældningen er mindre end β 10. er standardfejlen for ˆβ 0 givet ved idet MSE er estimatet for σ 2. ( )] 1n ˆβ 0 N [β 0,σ 2 + x2 SE = MSE ( ) 1 n + x2,
18 6.3 Simpel lineær regression 18 Man kan så vise, at ˆβ 0 β 0 SE t n 2. Konfidensinterval for intercept: L 100% konfidensinterval C.I. L (y) for β 0 er givet ved endepunkterne: ˆβ 0 ± SE t n 2,(1+L)/2. Test for intercept: baseres på H 0 : β 0 = β 00 ˆβ 0 β 00 SE H 0 t n 2 Alternative hypoteser: H a, H a+ eller H a på samme facon som ovenfor. Eksempel 6.3 Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score (x) og Berg score (Y ). Least squares linien: y = x. 95% konfidensintervaller: β 0 : C.I (y) = (54.143,68.484), β 1 : C.I (y) = ( 1.953, 0.728). Brug af SAS output De vigtigste ting fra SAS/Insight output for mobilitetsdata.
19 6.3 Simpel lineær regression 19 Figur 6.12: SAS analyse af mobilitetsdata. Model equation giver formlen for den fittede (least squares) linie. Parametric Regression Fit: 1. Degree (Polynomial): Der fittes en ret linie, som er et polynomium af grad Error: DF = frihedsgrader, dvs. n 2. Mean Square = MSE. Summary of Fit: 1. R-Square = R Root MSE = MSE. Parameter Estimates: 1. Estimate: ˆβ0 og ˆβ Std Error: SE 3. t Stat: t-test for hypotesen, at den pågældende parameter er Pr > t : p-værdi for t-testen. Konfidensinterval for β 1 : Med tabelopslag t 14,0.975 = er konfidensintervallet givet ved ± som stemmer overens med intervallet angivet ovenfor. Konfidensinterval for β 0 : Kan findes på samme måde ud fra tabellen med estimater.
20 6.3 Simpel lineær regression Prædiktion Vi ønsker nu at udføre prædiktion af en fremtidig observation. Forventet middelrespons Ny værdi af den forklarende variabel x = x 0. Lad Y = Y 0 være den tilsvarende responsvariabel. Middelværdi for Y 0 er men vi kender ikke β 0 og β 1. E(Y 0 ) = β 0 + β 1 x 0, I stedet bruger vi forventet middelrespons: Ŷ 0 = ˆβ 0 + ˆβ 1 x 0. Middelværdi og varians af Ŷ0 ) E (Ŷ0 = E (ˆβ0 + ˆβ ) 1 x 0 = β 0 + β 1 x 0. ) Var (Ŷ0 = Var (ˆβ0 + ˆβ ) ( 1 1 x 0 = σ 2 n + (x 0 x) 2 ). Bevis: Resultatet følger af ˆβ 0 + ˆβ 1 x 0 = Ȳ + ˆβ 1 (x 0 x), idet de to led er uafhængige. Det følger, at standardfejlen for Ŷ0 er SE = MSE [ 1 n + (x 0 x) 2 ]. 95% konfidensinterval for middelrespons C.I (y) er givet ved: Ŷ 0 ± SE t n 2,0.975 Kan også lave test for hvor µ 0 er et givet tal. H 0 : β 0 + β 1 x 0 = µ 0, Eksempel 6.3 Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score (x) og Berg score (Y ). Least squares linien: y = x.
21 6.3 Simpel lineær regression 21 Forventet middelrespons for x 0 = 10: For at finde SE på Ŷ0 skal vi bruge. ŷ 0 = = Figur 6.13: SAS nøglestørrelser for mobilitetsdata. Fra nøglestørrelser for x finder vi = (ses under CSS, Corrected Sum of Squares). SE for Ŷ0 er SE = [ ] 1 ( )2 + = % konfidensinterval for forventet Berg score, for person med TUG score 10 er givet ved ± , altså C.I (y) = (46.107,49.720).
22 6.3 Simpel lineær regression 22 Ny respons For x = x 0 er ny respons: Y 0 = β 0 + β 1 x 0 + ɛ 0, med ɛ 0 N ( 0,σ 2). Det antages at ɛ 0 er uafhængig af ɛ 1,...,ɛ n. Dvs. Y 0,Y 1,...,Y n er indbyrdes uafhængige. Vi prædikterer igen Y 0 ved den forventede middelrespons: Ŷ 0 = ˆβ 0 + ˆβ 1 x 0. Bemærk at Y 0 og Ŷ0 er uafhængige, så ( ) ) Var Y 0 Ŷ0 = Var (Y 0 ) + Var (Ŷ0 ( 1 = σ 2 + σ 2 n + (x 0 x) 2 ) ( = σ n + (x 0 x) 2 ) Fortolkning: Usikkerheden i prædiktionen kommer fra to kilder: 1. Estimaterne ˆβ 0 og ˆβ Fejlleddet ɛ 0. Da ɛ 0 er uafhængig af ˆβ 0 og ˆβ 1, skal de to varianser lægges sammen. Estimat for spredning: SE = MSE [ n + (x 0 x) 2 ]. 95% tosidet prædiktionsinterval er givet ved: P.I (y) = (Ŷ0 ± SE t n 2,0.975 ). Bemærk: Vi kalder det for et prædiktionsinterval (P.I.), fordi det vedrører den fremtidige observerede værdi af en stokastisk variabel Y 0 og ikke værdien af en ukendt parameter. Fortolkning: Hvis vi hver gang påstår at Y 0 tilhører P.I. L (y) vil vi have ret med sandsynlighed L. Det er vigtigt at skelne mellem middelrespons og ny respons.
23 6.3 Simpel lineær regression 23 Eksempel 6.3 Mobilitet af ældre To metoder bruges til at måle mobiliteten af ældre mennesker: TUG score (x) og Berg score (Y ). Least squares linien: Forventet middelrespons for x 0 = 10: y = x. ŷ 0 = = SE for Ŷ0 er SE = [ ] ( )2 + = % prædiktionsinterval for Berg score, for person med TUG score 10, er givet ved ± , altså P.I (y) = (41.332,54.496). Vi kan altså forvente, at en fremtidig måling af Berg score på en sådan person med 95% sikkerhed vil ligge mellem og
To samhørende variable
To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen
Forelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Anvendt Statistik Lektion 7. Simpel Lineær Regression
Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot
Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning
1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3
MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som
MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,
Modul 11: Simpel lineær regression
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................
Økonometri Lektion 1 Simpel Lineær Regression 1/31
Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen
men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Module 3: Statistiske modeller
Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med
Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik
Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 7: Eksempler 7.1 Beskrivende dataanalyse............................... 1 7.1.1 Diagrammer.................................
Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser
Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier
Økonometri: Lektion 2 Multipel Lineær Regression 1/27
Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere
Anvendt Statistik Lektion 8. Multipel Lineær Regression
Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke
Modul 12: Regression og korrelation
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................
Skriftlig eksamen Science statistik- ST501
SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.
Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
Multipel Lineær Regression
Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer
12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse
. september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression
Simpel Lineær Regression
Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige
Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion
Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,,
Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning
1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse
Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser
Simpel Lineær Regression: Model
Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]
grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00
Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Forskningsenheden for Statistik IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er tilladt.
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk
Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ
Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen
Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge
Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2
Tema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Økonometri: Lektion 2 Multipel Lineær Regression 1/33
Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,
Løsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge
Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange
Module 4: Ensidig variansanalyse
Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2
Kapitel 11 Lineær regression
Kapitel 11 Lineær regression Peter Tibert Stoltze [email protected] Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),
Eksamen i Statistik for biokemikere. Blok
Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)
Lineær regression i SAS. Lineær regression i SAS p.1/20
Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression
Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1
Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen
Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration
Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: [email protected] Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion
Økonometri: Lektion 6 Emne: Heteroskedasticitet
Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 32 Konsekvenser af Heteroskedasticitet Antag her (og i resten) at MLR.1 til MLR.4 er opfyldt. Antag MLR.5 ikke er opfyldt, dvs. vi har heteroskedastiske
Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)
Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Oversigt Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) Klaus
Løsning til eksaminen d. 14. december 2009
DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,
Module 9: Residualanalyse
Mathematical Statistics ST6: Linear Models Bent Jørgensen og Pia Larsen Module 9: Residualanalyse 9 Rå residualer 92 Standardiserede residualer 3 93 Ensidig variansanalyse 4 94 Studentiserede residualer
Kursus 02402/02323 Introducerende Statistik
Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Reeksamen i Statistik for Biokemikere 6. april 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på
Perspektiver i Matematik-Økonomi: Linær regression
Perspektiver i Matematik-Økonomi: Linær regression Jens Ledet Jensen H2.21, email: [email protected] Perspektiver i Matematik-Økonomi: Linær regression p. 1/34 Program for i dag 1. Indledning: sammenhæng mellem
Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet
Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet Antag vi har model: y = β 0 + β 1 x 2 + + β k x k + u. Vi ønsker
Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Statistik Lektion 16 Multipel Lineær Regression
Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk
Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6
Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået
Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at
Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af
Økonometri: Lektion 6 Emne: Heteroskedasticitet
Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 34 Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Antag vi har model: Vi ønsker at teste hypotesen y = β 0 + β 1 x
Normalfordelingen. Statistik og Sandsynlighedsregning 2
Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på
Modul 1: Beskrivende dataanalyse
Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 1: Beskrivende dataanalyse 1.1 Statistik og dataanalyse............................... 1 1.2 Variable og data...................................
enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt
enote 5: Simpel lineær regressions analse Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression To variable: og Beregn mindstekvadraters estimat af ret linje Inferens med
Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)
Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: [email protected] Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse
Løsning til eksamen d.27 Maj 2010
DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1
Sandsynlighedsregning 12. forelæsning Bo Friis Nielsen
Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: [email protected] Dagens nye emner afsnit 6.5 Den bivariate
Modelkontrol i Faktor Modeller
Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk
Kvantitative metoder 2
Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007 regressionsmodel 1 Dagens program Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5, E.2) Variansen
Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006
Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af
Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved
Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,
Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl
Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl. 9.00 12.00 IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er tilladt. Opgavesættet består af 5
Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm
Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik [email protected] Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1 Population og stikprøve 2 Stikprøvevariation
Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model
Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ
Nanostatistik: Lineær regression
Nanostatistik: Lineær regression JLJ Nanostatistik: Lineær regression p. 1/41 Sammenhænge Funktionssammenhæng: y er en funktion af x. Ex: Hvis jeg kender afstanden mellem to galakser så kender jeg også
1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol
Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price
Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ
Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ Per Bruun Brockhoff, DTU Compute, Claus Thorn Ekstrøm, KU Biostatistik, Ernst Hansen, KU Matematik January 17, 2017 Abstract
Statistik Lektion 4. Variansanalyse Modelkontrol
Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede
Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader
Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af
Konfidensintervaller og Hypotesetest
Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22
Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som
Normalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet
Dagens program Økonometri Den multiple regressionsmodel 4. februar 003 regressionsmodel Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5)! Opsamling fra sidst
Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:
Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18
Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)
