Statistik Lektion 14 Simpel Lineær Regression. Simpel lineær regression Mindste kvadraters metode Kovarians og Korrelation

Relaterede dokumenter
Repetition. Forårets højdepunkter

Simpel Lineær Regression - repetition

Økonometri 1. Funktionel form. Funktionel form (fortsat) Dagens program. Den simple regressionsmodel 14. september 2005

Statistik 9. gang 1 REGRESSIONSANALYSE. Korrelation (kontrol af model) Regression (tilpasning af model)

Vi ønsker også at teste hypoteser om parametrene. F.eks: Kan µ tænkes at være 0 (eller anden fast, kendt værdi)? Eksempel: dollarkurser

Økonometri 1. For mange variable i modellen. For få variable. Dagens program. Den multiple regressionsmodel 21. september 2004

Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

Spørgsmål 1 (5 %) Bestem sandsynligheden for at batteriet kan anvendes i mere end 5 timer.

Hvorfor n-1 i stikprøvevariansen?

Variansanalyse. på normalfordelte observationer af Jens Friis

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 21. september 2005

Notato: k grupper observeret tl tdspuktere (logartmerede) t1;t2;:::;t k. Tl tdspukt observeres et atal ( ) ph-vρrder, 1 ; 2 ;:::;. V opfatter dem som

Scorer FCK "for mange" mål i det sidste kvarter?

Statistik Lektion 15 Mere Lineær Regression. Modelkontrol Prædiktion Multipel Lineære Regression

Statikstik II 4. Lektion. Generelle Lineære Modeller

Kvantitative metoder 2

BEVISER TIL KAPITEL 7

Statistik II Lektion 4 Generelle Lineære Modeller. Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA)

Økonometri 1. Instrumentvariabelestimation 26. november Plan for IV gennemgang. Exogenitetsantagelsen. Exogenitetsantagelsen for OLS

Fordelingen af gentagne observationer (målinger) kan beskrives ved hjælp af et histogram, der viser antallet af målinger i et givet interval.

Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller

Men tilbage til regression og Chi-i-anden. test. Begge begreber refererer til normalfordelingen med middelværdi μ og spredning σ.

bestemmes. kendes ( ) A i Subjektiv information + objektiv information Bayesiansk statistik (gang 10) Bayes sætning

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Økonometri lektion 7 Multipel Lineær Regression. Testbaseret Modelkontrol

Supplement til sandsynlighedsregning og matematisk statistik

Korrelation (kontrol af model) Regression (tilpasning af model) 1. Grad af fælles variation mellem X og Y. 2. Område og fordeling af sample data

Betænkning om kommunernes udgiftsbehov. Bilag (med metodediskussion af professor Anders Milhøj)

Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Rettevejledning til Økonomisk Kandidateksamen 2006I, Økonometri 1

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Motivation. En tegning

Analyse af bivariate data: korrelation og regression. korrelation. Korrelation og regression: Co-varians:

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelkontrol

Lineære Normale Modeller

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelsøgning Modelkontrol

Statistisk analyse. Vurdering af usikkerhed i forbindelse med statistiske opgørelser forudsætter:

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Kvantitative metoder 2

Lineær regression lidt mere tekniske betragtninger om R^2 og et godt alternativ

Økonometri 1. Heteroskedasticitet 27. oktober Økonometri 1: F12 1

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

Induktionsbevis og sum af række side 1/7

Pearsons formel for χ 2 test. Den teoretiske forklaring

Morten Frydenberg Biostatistik version dato:

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

Brugen af R 2 i gymnasiet

L komponent produceret i linie 1

Indeks over udviklingen i biltrafikken i Danmark

Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk!

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Økonometri 1. Test for heteroskedasticitet. Test for heteroskedasticitet. Dagens program. Heteroskedasticitet 26. oktober 2005

Regressions modeller Hvad regresserer vi på og hvorfor? Anders Stockmarr Axelborg statistikgruppe 6/

FORDELINGER: HYPERGEOMETRISK FORDELING, BINOMIALFORDELING MIDDELVÆRDI DEFINITION. X er en stokastisk variabel på et endeligt sandsynlighedsfelt ( )

Økonometri 1 Efterår 2006 Ugeseddel 9

Kvalitet af indsendte måledata

EKSAMEN I MATEMATIK-STATISTIK, 27. JANUAR 2006, KL 9-13

Kvantitative metoder 2

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

x-klasserne Gammel Hellerup Gymnasium

Regressionsanalyse. Epidemiologi og Biostatistik. 1.Simpel lineær regression (Kapitel 11) systolisk blodtryk og alder

SUPPLEMENT til Anvendt statistik

Kogebog: 5. Beregn F d

Økonometri 1. Lineær sandsynlighedsmodel. Hvad nu hvis den afhængige variabel er en kvalitativ variabel (med to kategorier)?

Lineær regressionsanalyse8

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Ikke-parametriske tests af forskel i central tendens. Tests for forskel i central tendens for data på ordinal- og intervalskala

Kvantitative metoder 2

Kvantitative metoder 2

FACITLISTE TIL KOMPLEKSE TAL

IKKE-KONTINUERTE (DISKRETE) STOKASTISKE VARIABLE MIDDELVÆRDI, VARIANS, SPREDNING FORDELINGER: HYPERGEOMETRISK, BINOMIAL, POISSON

Økonometri 1. Interne evalueringer. Interne evalueringer. Dagens program. Heteroskedaticitet (Specifikation og dataproblemer) 2.

1.0 FORSIKRINGSFORMER

24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik.

Generelle lineære modeller

6. SEMESTER Epidemiologi og Biostatistik Opgaver til 3. uge, fredag

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

Kvantitative metoder 2 Forår 2007 Ugeseddel 9

Afsnit , Hypotesetest for en varians... 19

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

Økonometri 1 Efterår 2006 Ugeseddel 13

Kontrol af udledninger ved produktion af ørred til havbrugsfisk

Elementær Matematik. Sandsynlighedsregning

Økonometri 1. Lineær sandsynlighedsmodel (Wooldridge 8.5). Dagens program: Heteroskedasticitet 30. oktober 2006

Løsninger til kapitel 7

Bilag 6: Økonometriske

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Kvantitative metoder 2 Forår 2007 Ugeseddel 10

1 Løsning og mindste kvadraters løsninger af lineære ligningssystemer

Økonometri 1. Avancerede Paneldata Metoder I 24.november F18: Avancerede Paneldata Metoder I 1

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Landbrugets efterspørgsel efter Kunstgødning. Angelo Andersen

C Homework Set 9 Spring 2011 Solutions S S. = S, E ˆβ. = β 1, and Var( ˆβ 1. 1 SOLUTION: Cov(Y, Y i ) = Cov Yj = σ. In the

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Binomialfordelingen: april 09 GJ

Transkript:

Statstk Lekto 4 Smpel Leær Regresso Smpel leær regresso Mdste kvadraters metode Kovaras og Korrelato

Scatterplot Scatterplot kf Advertsg Epedtures ( ad Sales ( Et scatterplot vser par (, af observatoer. I eksemplet er reklamebudget og afsætge. Sales 4 8 6 4 I scatter plottet er tlføjet e ret le 3 Advertsg 4 5 Bemærk hvorda par af og har tedes tl at lgge omkrg e ret le. hvorda par af og kke falder præcs på le. hvorda le beskrver hvorda geemst afgæger af.

Flere scatterplot

Smpel Leær Regresso (SLR Smpel ford v ku har é forklarede varabel emlg. Leær ford sammehæge mellem og er leær.

Smpel leær regressosmodel β β β d ε ε β + β + ε ε d N(, σ - de afhægge varabel. - de uafhægge varabel faste - det græske bogstav beta - skærgspukt med -akse - hældgskoeffcet - depedet, detcall dstrbuted uafhægg, detsk fordelte - det græske bogstav epslo - det eeste stokastske elemet modelle

Smpel leær regresso tegge Modelle er: β + β + ε ε d N(, σ (, E[ ] β + β Modelle sger: E( β + β V( σ ~ N(β + β, σ β β ε

ANOVA vs SLR j Esdet Varasaalse Smpel Leær Regresso μ + α + ε j β + β + j μ + α + ε j ε 3 ~ N(μ+α 3,σ ~N(β + β,σ j μ + α + ε j μ+α 3 μ..d ormalfordelte fejlled..d. ormalfordelte fejlled 3 4 5 3 4 5 Kategorsk forklarede varabel Kotuert forklarede varabel

Forudsætger for SLR (/3 Der er e leær sammehæg mellem og. Idledede tjek: Scatter plot af (, ser puktere ud tl at lgge lags e le?

Forudsætger for SLR (/3 Værdere af de uafhægge varable atages at være faste dvs. kke stokastske. Mao. Atages at være kedt eller målt ude støj / målefejl Idledede tjek: Logsk sas.

Forudsætger for SLR (3/3 Fejledee ε atages være uafhægge og ormalfordelte med mddelværd og varas σ. Idledede tjek: Se efter dlsede problemer scatter plot af (,.

Eksempel: Reklame budget vs salg Sammehæg mellem det ugetlge reklame-budget og det ugetlg salg? Reklame budget ( Salg ( 4 385 4 5 395 365 3 475 5 44 4 49 4 5 56 4 55 5 48 5 5

Scatterplot SPSS Graphs Chart Bulder Vælg Smple Scatter Placer relevate varable på - og - aksere. Klk OK 3 3

Scatterplot af data SPSS Og hva så?

Estmato Model: β + β + ε ε er..d. N(,σ β, β og σ er modelles parametre ukedte! Estmato af β og β svarer tl at vælge de lje, der passer bedst tl de observerede pukter. Estmerede regressos lje ˆ b + b b er estmat for β og b er estmat for β. hat er estmat for E( Spørgsmål: Hvorda estmerer v β og β?

Resdual led e ˆ ( er de (lodrette afstade fra de estmerede le tl puktet (,. ˆ e Det observerede datapukt ˆ. (, ˆ ˆ b+ b de forvedtede værd De fttede regressosle for gvet

Mdste kvadraters metode V vl fde b og b så summe af de kvadrerede resdualer blver mdst mulg. Dvs, v vl mmere SSE er Sum of Squared Errors. Skrevet ud: SSE ˆ + ( b b e ( e Bemærk: Fukto af to varable (b og b.

Mmerg SSE er e fukto af b og b. SSE b b V vl fde b og b så SSE er mdst mulg.

Mmerg udført Defer fukto Q(b,b SSE. Dvs v skal mmere Q(b,b. Fremgagsmåde: Fd de to partelle afledte og : Q( b, b b " Q dffeteret mht. b - lad som om b Sæt partelle afledte lg ul: ( ( Q( b, b b b b Q( b b, b To lgger med to ubekedte: Løs dem! Q( b b, b er e kostat" Q( b, b b ( ( ( b b (

b b b b b b + To lgger med to ubekedte Idsæt ( på b s plads og reg vdere Resultat: Estmat af β! Isolér b o ( ( ( ( b Estmat af β!

Estmater per hådkraft 4 6 385 485 54 4 4 6 8 5 65 395 565 9875 4 365 335 73 3 9 475 565 45 5 5 44 936 4 6 49 4 96 4 4 764 84 5 5 56 336 8 4 6 55 7565 5 65 48 34 5 5 5 6 55 4 565 5445 595 935

b 69 394 3. - 565-935 ( ( ( ( 5445( 4 ( 4 b b b 69 5445 394 677 97 343.7 4 Estmerede regressos le: ˆ 343.7+ 3.

Samme hstore SPSS Aalze Regresso Lear Placer de afhæge varabel ( -varable Depedet. Placer de uafhægge/ forklarede varable ( varable Idpedet(s. Klk OK.

SPSS output b b Estmerede regressos lje: ˆ 343.76 + 3.

Regeformler For at gøre lvet ldt lettere vl v bruge følgede forkortelser/regeformler Bemærk: Nok at udrege følgede fem udtrk: ( ( SS ( ( SS ( ( SS ( (

Estmateres fordelg Estmatore B svarede tl estmatet b er ( ( SS B SS ( Bemærk at ere store, dvs de er stokastske varable, derfor er B også er e stokastsk varabel. Estmator: Stokastsk varabel. Estmat: Fast tal, dvs. ej stokastsk. Opået ved at dsætte observatoere estmatore.

Estmatore B s fordelg Hvs de leære regressos model er sad gælder der for estmatore B : Mddelværd: Varas: Fordelg: E( B β Var( B B ~ N β, σ ( σ ( Bemærk: Når ( er stor så er Var(b llle!

Estmatore B s fordelg Estmatore B svarede tl estmatet b er Mddelværd Varas Fordelg B B B ( β B E B V ( ( σ N B (, ~ σ β

Estmato af σ varase for fejledee Tdlgere estmerede v varase e uafhægg stkprøve ved s ( For smpel leær regresso bruger v Atal frhedsgrader Mus é, da s volverer ét estmat, emlg. s ( ˆ SSE MSE Mea Squared Error MSE Atal frhedsgrader Mus to, da s volverer to estmater, emlg b og b.

Udregg af SSE Hermed opår v Som desude er e ubased estmator for σ. b SS SS df SSE MSE s ( ( ( ( ( ( ( ( b SS SS b SS SS SS SS b SS b SS SS b SS b b b b b b b ( ( ( ˆ + + +

Kofdesterval for β V har B β ~ t S SS ( (-α% kofdesterval for β er hvor b ± t α, sb s b s SS

Kofdesterval for β V har B β ~ t S SS ( (-α% kofdesterval for β er hvor b s ± t α, sb b s SS

Test af hældg (β Test for om hældge, β, har e bestemt værd, K: H H : : β β K K Hvs H er sad, så gælder der T B K ~ t S SS ( Teststørrelse: t b s K SS

Test af hældg (β Vælg et sgfkasveau, tpsk α.5. Udreg teststørrelse. 8. 7. 6. 5. 4. 3... t Bestem p-værde. Orage område p-værd Beslutg: Hvs p-værde < α afvses H. t-fordelg med - frhedsgrader t

Særlg teressat: H : β Er der e leær sammehæg mellem og? H : β ge leær sammehæg H : β leær sammehæg Følgede er eksempler, hvor H accepteres. Kostat Usstematsk varato Ikke-leær sammehæg

Eksempel: Reklame vs Salg Test for leær sammehæg mellem reklame og salg: H H Teststørrelse: Krtsk værder: t Beslutg: V forkaster H da t >.8. p-værd.7<.5. ± t : : β β s b 3. SS.5, ±.8 5.5 64.67.598

Samme hstore SPSS Aalze Regresso Lear (som sdst I Statstcs vælg: Estmates Cofdes Itervals

SPSS output Parameterestmatere b og b. Estmerede stadardafvgelser, s b og s b. Teststørrelse t. p-værde svarede tl det tosdede test H : β. 95% Kofdestervaller for β og β.

SPSS output SSE SS ( ˆ b SS s MSE SSE

Korrelatoskoeffcet ρ Grade af leær sammehæg mellem de stokastske varable og måles ved korrelatoskoeffcete, ρ: ρ [,] ρ ρ ρ Perfekt leær sammehæg - postv hældg Perfekt leær sammehæg - egatv hældg Ige leær sammehæg

Illustrato af korrelato ρ - ρ ρ ρ -.8 ρ ρ.8

Kovaras Atag at og er stokastske varable. Defto af kovaras mellem og : Cov (, E[ ( μ ( μ ] hvor [ ] og E[ ] μ E μ Bemærk: I SLR er kke stokastsk! Hvs store følges med store : Cov(,> Hvs store følges med små : Cov(,<

Nttg formel ( (, Cov( V( V( E ( E ( E E( E E ( E ( E ( E E E E(( E( E(( V( + + + + + + + + + Bemærk: Varase af (+ er kke bare varase af plus varase af! Eksempel: -

Kovaras, Uafhægghed og Korrelato Egeskab: Hvs og er uafhægge, så er Cov(, Hvs og er ormalfordelte: og er uafhægge Cov(, Defto: Korrelato ρ ρ(, Cov(, σ σ E (( E ( E E( E E( E Hvor σ Var( og σ Var(

Estmato of korrelatoskoef., ρ Estmatet af ρ beteges r: r er stkprøve korrelatoskoeffcete. r SS SS SS ( ( ( ( ( ( ( (

Test for korrelato mellem og Hpoteser H : ρ H : ρ Teststørrelse: t ( r r ( Uder H : t ( ~ t

SPSS output Korrelatoe mellem Reklame budget og Salg. p-værd hørede tl test af hpotese H : ρ.