Simpel Lineær Regression
|
|
|
- Torben Bertelsen
- 10 år siden
- Visninger:
Transkript
1 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige variabel x: Forklarende/uafhængige variabel u: Fejlleddet Fejlleddet u forklarer den del af variationen i y, som ikke kan forklares af x.
2 En tegning β 0 : Skæring-punktet β 1 : Hældnings koefficienten y (Salg) y i u i (x i, y i ) β 0 + β 1 x i x i x (Budget) Det hedder simpel lineær regression, fordi β 0 og β 1 indgår liniært (dvs. som sig selv gange en konstant) og fordi vi kun har en forklarende variabel, nemlig x.
3 Fejlleddet For at komme videre, skal vi antaget lidt mere of fejlleddet u. Vi antager at fejlleddet har middelværdi nul uanset værdien af x: E[u x] = 0 Vi siger at u er middelværdi-uafhængig af x. Håndvifte-fortolkning: Fejlleddet har i gennemsnit ingen betydning det er lige meget over som under. Hvis x og u er uafhængige, og E[u] = 0 opnår vi det samme. Uafhængighed er en stærkere antagelse end middelværdi-uafhængighed.
4 Middelværdi-uafhængighed, E[u x] = 0 medfører følgende E[y x] = E[β 0 + β 1 x + u x] = β 0 + β 1 x Dvs., givet x, så er den forventede værdi af y lig β 0 + β 1 x. Ex: Hvis Budget = 1500, så siger vores antagelser, at vi i gennemsnit vil observere et udbytte på β 0 + β
5 Model-fortolkning Vores model siger: y = β 0 + β 1 x + u β 0 er den forventede værdi af y når x = 0. Har i mange tilfælde ikke den store interesse. Den forventede værdi af y ændres med β 1, når x vokser med 1 enhed. Med andre ord: Hvordan y forklares af x er beskrevet gennem β 0 og β 1... som vi ikke kender... Antag vi har n par af observationer: (x 1, y 1 ), (x 2, y 2 ),...,(x n, y n ). Vi vil finde estimater af β 0 og β 1.
6 Indledende knæbøjninger Vores estimation tager udgangspunkt i to middelværdier: Antag x og y er stokastiske variable. Kovariansen mellem x og u er da Cov[x, y] = E[(x E[x])(u E[u])] = E[xu E[x]u] = E[xu] E[x]E[u] = E[xu] = E[E[ux x]] = 0 Vi har altså E[u] = 0 og E[xu] = 0.
7 Armstræk Vores model siger y = β 0 + β 1 x + u, hvilket vi kan omskrive til u = y β 0 β 1 x. Dvs. E[u] = 0 kan omskrives til og E[xu] = 0 kan omskrives til E[y β 0 β 1 x] = 0 E[x(y β 0 β 1 x)] = 0 Tænker vi på x og y som kendte stokastiake variable, så har vi to ligninger med to ubekendte (β 0 og β 1 ). Vi skal altså bare finde β 0 og β 1, der løser ovenstående ligninger. Denne fremgangsmåde kaldes method of moments. Problem: Vi kender intet til E[x]...
8 Løselige ligninger Ide: Erstat de forventede værdier med stikprøve-gennemsnit: Den teoretiske ligningen E[y β 0 β 1 x] = 0 erstatter vi med stikprøve-versionen 1 n (y i ˆβ 0 ˆβ 1 x i ) = 0 (1) og E[x(y β 0 β 1 x)] = 0 erstatter vi med erstatter vi med 1 n x i (y i ˆβ 0 ˆβ 1 x i ) = 0 (2) Vi lader løsningerne, ˆβ 0 og ˆβ 1, til ovenstående ligninger være vores estimater af β 0 og β 1. Løsningsstrategi: Isolér ˆβ 0 i (1) og indsæt i (2).
9 Isolér ˆβ 0 Vi starter med ligninge (1): 1 n (y i ˆβ 0 ˆβ 1 x i ) = 0 Som vi kan skrive lidt om på 1 n y i = 1 n (ˆβ 0 + ˆβ 1 x i ) ȳ = ˆβ 0 + ˆβ 1 x ˆβ 0 = ȳ ˆβ 1 x. Dvs. når vi kender ˆβ 1 (estimatet af hældningen), så kender vi ˆβ 0.
10 Indsæt ˆβ 0 i (2) Vi indsætter ˆβ 0 = ȳ ˆβ 1 x i (2): 1 n 1 n x i (y i ˆβ 0 ˆβ 1 x i ) = 0 x i (y i (ȳ ˆβ 1 x) ˆβ 1 x i ) = 0 x i (y i ȳ) = ˆβ 1 x i (x i x) ˆβ 1 = n (x i x)(y i ȳ) n (x i x) 2, hvor sidste ligning forudsætter at n (x i x) 2 > 0.
11 OLS Estimaterne Vores model er y = β 0 + β 1 x + u, hvor β 0 og β 1 estimaeres ved ˆβ 0 = ȳ ˆβ 1 x og ˆβ 1 = n (x i x)(y i ȳ) n (x i x) 2. Disse to estimatorer kaldes OLS (Ordinary Least Squares) Estimatore.
12 Estimerede regressions-linje Regressions-linjen er estimeret ved ŷ = ˆβ 0 + β 1 x. Prædikteret værdi: ŷ i = ˆβ 0 + ˆβ 1 x i den prædikterede værdi for y i. Residual û i = y i ŷ i = y i ˆβ 0 ˆβ 1 x i. Estimat af fejlleddet u i. y (Salg) y i û i ˆβ 0 + ˆβ 1 x ŷ i Linjen ˆβ 0 + ˆβ 1 x går altid igennem punktet ( x, ȳ)! x i x (Budget)
13 Egenskaber for residualerne Summen af residualerne er nul: û i = 0 Stikprøve-kovariansen mellem û og x er nul: (û i 0)(x i x) = û i x i = 0
14 Sums of Squares (Et lille sidespring) Den totale variation i y i erne er beskrevet ved Total Sum of Squares (SST): SST = (y i ȳ) 2 y (Salg) y i y i ȳ ȳ û i ˆβ 0 + ˆβ 1 x ŷ i ȳ x i x (Budget) Den totale afvigelse y i ȳ kan opdeles i en forklaret del, ŷ i ȳ og en uforklaret del y i ŷ i.
15 Opsplitning af SST Den totale variation, SST kan splittes op i to: SST = SSE + SSR. Hvor SSE er Explained Sum of Squares (den forklarede variation): SSE = (ŷ i ȳ) 2 Hvor SSR er Residual Sum of Squares (den uforklarede variation): SSR = (y i ŷ i ) 2 = û 2 i
16 Determinations Koefficienten Den totale variation SST kan opdeles i en uforklaret del SSR og en forklaret det SSE. Andelen af den totale variation, der er forklaret kaldes determinations koefficienten R 2 = SSE SST = 1 SSR SST. Hvis R 2 = 0.7 betyder det at modellen kan forklare 70% af variationen i y i erne. De sidste 30% er tilfældig, uforklaret variation.
17 Bevis for SST = SSE + SSR (y i ȳ) 2 = [(y i ŷ i ) + (ŷ i ȳ)] 2 = = [û i + (ŷ i ȳ)] 2 ûi = SSR + 2 û i (ŷ i ȳ) + (ŷ i ȳ) 2 û i (ŷ i ȳ) + SSE. Færdig, da n ûi(ŷ i ȳ) = 0, idet n ûi = 0 og n ûix i = 0.
18 Eksempel I dette eksempel skal vi se på sammenhængen mellem Salg og Reklame-budget. Start R og start derefter R-commander med library(rcmdr). I dette tilfælde importere vi data-filen salg.dat vha. Data Import data From text file... Vi starter med at lave et scatter-plot: Graphs Scatter plot... Det ser rimligt ud.
19 Eksempel fortsat Næste trin er at opstille vores simple lineære regressionsmodel. Dette gøres under Statistics Fit models Linear Regression... Her kan i give modellen et navn samt angive hvilken variabel, der er afhængig (Response), og hvilken der er den forklarende (Explanatory). I output vinduet læg mærke til kommandoen lm(salg budget, data=reklame). Denne kommando angiver en lineær regressionsmodel (lm), hvor salg afhænger af budget (salg budget). Kommandoen Summary(RegModel.1) får vi bl.a. ˆβ 0 = (Intercept) ˆβ 1 = (budget) R 2 =
20 Centralitet Vi har estimater ˆβ 0 og ˆβ 1, men hvilke egenskaber har de? Hvis vi tænker på y i erne som tilfældige er estimatorerne ˆβ0 og ˆβ1 det også. Vi vil gerne have, at vores estimatore er centrale (unbiased), dvs. E[ˆβ 0 ] = β 0 og E[ˆβ 1 ], mao. vi i gennemsnit får det rigtige svar. For at vi kan vise centralitet, skal vi gøre os nogle antagelser.
21 Antagelser Antagelse SLR.1 (Lineære parametre) I populations-modellen er sammenhængen mellem y, x og u givet ved y = β 0 + β 1 x + u. Antagelse SLR.2 (Tilfældig stikprøve) Vi har en tilfældig stikprøve af størrelse n, (x 1, y 1 ), (x 2, y 2 ),...,(x n, y n ) fra populations-modellen i SLR.1. Antagelse SLR.3 (Variation i x i erne) Alle x i erne må ikke have samme værdi. Antagelse SLR.4 (Betingel nul-middelværdi) Fejlleddet u har forventet værdi nul uanset værdien af x, mao. E[u x] = 0
22 Centrale estimatorer Under antagelse SLR.1 til SLR.4 gælder E[ˆβ 0 ] = β 0 og E[ˆβ 1 ] = β 1, dvs. ˆβ0 og ˆβ1 er centrale estimatorer.
23 Bevis for centralitet af ˆβ 1 Vi starter at skrive lidt om på ˆβ 1 : ˆβ 1 = n (x i x)y i n (x i x) 2 = n (x i x)(β 0 + β 1 x i + u i ) SST x I tælleren kan vi gange ind i parentesen: (x i x)β 0 + (x i x)β 1 x i + β 0 (x i x) + β 1 (x i x)x i + Sætter vi tilbage får vi ˆβ 1 = β SST x (x i x)u i = (x i x)u i = 0 + β 1 SST x + (x i x)u i (x i x)u i
24 Bevis for centralitet af ˆβ 1 (fortsat) Vi tager udgangspunkt i Den forventede værdi er [ ˆβ 1 = β SST x E[ˆβ 1 ] = E β SST x (x i x)u i ] (x i x)u i 1 = E[β 1 ] + E[ (x i x)u i ] SST x = β (x i x)e[u i ] SST x = β 1, hvor vi har brugt at E[u i ] = 0.
25 Variansen af Estimatorerne Estimatoerne ˆβ 0 and ˆβ 1 er altså rigtige i gennemsnit, men hvad med variansen? Vi antager at fejlleddene har konstant varians: Antagelse SLR.5 (Homoskedastisk) Fejlledet u har samme varians uanset værdien af den forklarende variabel, x, mao. Var[u x] = σ 2. En konsekvens af SLR.4 (E[u x] = 0) og SLR.5 er at E[y x] = β 0 + β 1 x og Var[y x] = σ 2.
26 Genkald jer, at ˆβ 1 = β SST x (x i x)u i Vi kan nu udregne variansen for ˆβ 1 : [ ] Var[ˆβ 1 ] = Var β (x i x)u i SST x ( ) [ 1 2 ] = Var (x i x)u i SST x ( ) 1 2 = (x i x) 2 Var[u i ] SST x = σ2 SST x
27 Var[ˆβ 0 ] udregnes på tilsvarende vis. Vi har altså Var[ˆβ 1 ] = σ2 SST x og Var[ˆβ 0 ] = σ2 n 1 n x2 i SST x Bemærk, hvordan variansen for ˆβ 1 falder når SST x vokser hvorfor er det ikke overraskende?
28 Estimation af Fejlledsvariansen σ 2 En central estimator for σ 2 er ˆσ 2 = 1 n 2 ûi 2 = SSR/(n 2). Nævneren, n 2, svarer til antallet af frihedsgrader. Vi har altså mistet to frihedsgraderne pga. følgende begrænsninger: û i = 0 og x i û i = 0 Tommelfingerregel: û i afhænger af to estimater ˆβ 0 og ˆβ 1, derfor to mistede frihedsgrader.
Økonometri Lektion 1 Simpel Lineær Regression 1/31
Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen
Økonometri: Lektion 2 Multipel Lineær Regression 1/27
Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere
Simpel Lineær Regression: Model
Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]
Motivation. En tegning
Motivatio Scatter-plot at det mådelige salg mod det måedlige reklamebudget. R: plot(salg ~ budget, data = salg) Økoometri Lektio Simpel Lieær Regressio salg 400 450 500 550 20 25 30 35 40 45 50 budget
Økonometri: Lektion 2 Multipel Lineær Regression 1/33
Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,
Anvendt Statistik Lektion 7. Simpel Lineær Regression
Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot
MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som
MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,
Anvendt Statistik Lektion 8. Multipel Lineær Regression
Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke
Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2
Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition
Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater
Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi
To samhørende variable
To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen
Økonometri: Lektion 6 Emne: Heteroskedasticitet
Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 32 Konsekvenser af Heteroskedasticitet Antag her (og i resten) at MLR.1 til MLR.4 er opfyldt. Antag MLR.5 ikke er opfyldt, dvs. vi har heteroskedastiske
Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model
Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H
Kvantitative metoder 2
Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007 regressionsmodel 1 Dagens program Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5, E.2) Variansen
Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet
Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet Antag vi har model: y = β 0 + β 1 x 2 + + β k x k + u. Vi ønsker
Økonometri: Lektion 6 Emne: Heteroskedasticitet
Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 34 Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Antag vi har model: Vi ønsker at teste hypotesen y = β 0 + β 1 x
Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning
1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3
Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning
1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion
Appendiks Økonometrisk teori... II
Appendiks Økonometrisk teori... II De klassiske SLR-antagelser... II Hypotesetest... VII Regressioner... VIII Inflation:... VIII Test for SLR antagelser... IX Reset-test... IX Plots... X Breusch-Pagan
Modul 6: Regression og kalibrering
Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Løsning til eksaminen d. 14. december 2009
DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,
Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data.
Økonometri: Lektion 7 Emne: Prædiktionsintervaller, RESET teset, proxy variable og manglende data. 1 / 32 Motivation Eksempel: Savings = β 0 + β 1 Income + u Vi ved allerede, hvordan vi estimerer regresseionlinjen:
Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006
Dagens program Økonometri Den multiple regressionsmodel 8. september 006 Opsamling af statistiske resultater om den simple lineære regressionsmodel (W kap..5). Den multiple lineære regressionsmodel (W
! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet
Dagens program Økonometri Den multiple regressionsmodel 4. februar 003 regressionsmodel Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5)! Opsamling fra sidst
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Løsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22
Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som
Forelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol
Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price
Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1
Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006 Økonometri 1: F8 1 Dagens program Opsamling om asymptotiske egenskaber: Asymptotisk normalitet Asymptotisk efficiens Test af flere lineære
Module 3: Statistiske modeller
Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse
Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk
Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.
Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol
Simpel Lieær Regressio Opsplitig af variatioe Determiatios koefficiet Variasaalse F-test Model-kotrol Opbgig af statistisk model Specificer model Ligiger og atagelser Estimer parametre Modelkotrol Er modelle
Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1
Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen
Kursus 02402/02323 Introducerende Statistik
Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion
Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,,
men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Statistik Lektion 4. Variansanalyse Modelkontrol
Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede
Kvantitative metoder 2
Kvantitative metoder Heteroskedasticitet 11. april 007 KM: F18 1 Oversigt: Heteroskedasticitet OLS estimation under heteroskedasticitet (W.8.1-): Konsekvenser af heteroskedasticitet for OLS Gyldige test
12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse
. september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression
Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)
Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Oversigt Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) Klaus
Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at
Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af
Multipel Lineær Regression
Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer
Kapitel 11 Lineær regression
Kapitel 11 Lineær regression Peter Tibert Stoltze [email protected] Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),
Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable
IMM, 00--6 Poul Thyregod Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable Todimensionale stokastiske variable Lærebogens afsnit 4 introducerede sandsynlighedsmodeller formuleret
Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).
Program 1. multipel regression 2. polynomiel regression (og andre kurver) 3. kategoriske variable 4. Determinationkoefficient og justeret determinationskoefficient 5. ANOVA-tabel 1/13 Multipel regression
Module 4: Ensidig variansanalyse
Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2
Statistik Lektion 16 Multipel Lineær Regression
Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk
Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge
Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2
Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser
Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier
enote 5: Simpel lineær regressions analyse Kursus 02402/02323 Introducerende Statistik Oversigt
enote 5: Simpel lineær regressions analse Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression To variable: og Beregn mindstekvadraters estimat af ret linje Inferens med
Løsning til eksaminen d. 29. maj 2009
DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ
Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ Per Bruun Brockhoff, DTU Compute, Claus Thorn Ekstrøm, KU Biostatistik, Ernst Hansen, KU Matematik January 17, 2017 Abstract
Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved
Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,
Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006
Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af
Modul 11: Simpel lineær regression
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................
Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1
Økonometri 1 Dummyvariabler 13. oktober 2006 Økonometri 1: F10 1 Dagens program Dummyvariabler i den multiple regressionsmodel (Wooldridge kap. 7.3-7.6) Dummy variabler for kvalitative egenskaber med flere
! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)
Dagens program Økonometri 1 Specifikation, og dataproblemer 10. april 003 Emnet for denne forelæsning er specifikation (Wooldridge kap. 9.-9.4)! Proxy variable! Målefejl! Manglende observationer! Dataudvælgelse!
Statistik Lektion 17 Multipel Lineær Regression
Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Skriftlig eksamen Science statistik- ST501
SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.
Lineære normale modeller (4) udkast
E6 efterår 1999 Notat 21 Jørgen Larsen 2. december 1999 Lineære normale modeller (4) udkast 4.5 Regressionsanalyse 4.5.1 Præsentation 1 Regressionsanalyse handler om at undersøge hvordan én målt størrelse
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Note om Monte Carlo metoden
Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ
Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen
Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12
Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt
grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
Løsning til eksamen d.27 Maj 2010
DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1
Module 9: Residualanalyse
Mathematical Statistics ST6: Linear Models Bent Jørgensen og Pia Larsen Module 9: Residualanalyse 9 Rå residualer 92 Standardiserede residualer 3 93 Ensidig variansanalyse 4 94 Studentiserede residualer
Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6
Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået
Bedste rette linje ved mindste kvadraters metode
1/9 Bedste rette linje ved mindste kvadraters metode - fra www.borgeleo.dk Figur 1: Tre datapunkter og den bedste rette linje bestemt af A, B og C Målepunkter og bedste rette linje I ovenstående koordinatsystem
Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader
Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af
Bilag 12 Regressionsanalysens tabeller og forklaringer
Bilag 12 Regressionsanalysens tabeller og forklaringer Regressionsanalysens tabeller og forklaringer Regressionsanalysen vil være delt op i 2 blokke. Første blok vil analysere hvor meget de tre TPB variabler
Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:
Stastistik og Databehandling på en TI-83
Stastistik og Databehandling på en TI-83 Af Jonas L. Jensen ([email protected]). 1 Fordelingsfunktioner Husk på, at en fordelingsfunktion for en stokastisk variabel X er funktionen F X (t) = P (X t) og at
Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Normalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
Nanostatistik: Lineær regression
Nanostatistik: Lineær regression JLJ Nanostatistik: Lineær regression p. 1/41 Sammenhænge Funktionssammenhæng: y er en funktion af x. Ex: Hvis jeg kender afstanden mellem to galakser så kender jeg også
Bilag 7. SFA-modellen
Bilag 7 SFA-modellen November 2016 Bilag 7 Konkurrence- og Forbrugerstyrelsen Forsyningssekretariatet Carl Jacobsens Vej 35 2500 Valby Tlf.: +45 41 71 50 00 E-mail: [email protected] Online ISBN 978-87-7029-650-2
Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)
Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen
Produkt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
