Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Relaterede dokumenter
Statistik Lektion 15 Mere Lineær Regression. Modelkontrol Prædiktion Multipel Lineære Regression

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelkontrol

Anvendt Statistik Lektion 10. Regression med både kvantitative og kvalitative forklarende variable Modelsøgning Modelkontrol

Statistik II Lektion 4 Generelle Lineære Modeller. Simpel Lineær Regression Multipel Lineær Regression Flersidet Variansanalyse (ANOVA)

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Statikstik II 4. Lektion. Generelle Lineære Modeller

Statistik II Lektion 5 Modelkontrol. Modelkontrol Modelsøgning Større eksempel

Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller

Økonometri lektion 7 Multipel Lineær Regression. Testbaseret Modelkontrol

Kvantitative metoder 2

Økonometri 1. Heteroskedasticitet 27. oktober Økonometri 1: F12 1

Økonometri 1. Test for heteroskedasticitet. Test for heteroskedasticitet. Dagens program. Heteroskedasticitet 26. oktober 2005

Regressionsanalyse. Epidemiologi og Biostatistik. 1.Simpel lineær regression (Kapitel 11) systolisk blodtryk og alder

Økonometri 1. Lineær sandsynlighedsmodel. Hvad nu hvis den afhængige variabel er en kvalitativ variabel (med to kategorier)?

Økonometri 1 Efterår 2006 Ugeseddel 9

Morten Frydenberg Biostatistik version dato:

Kvantitative metoder 2

Logistisk regression. Logistisk regression. Probit model Fortolkning udfra latent variabel. Odds/Odds ratio

6. SEMESTER Epidemiologi og Biostatistik Opgaver til 3. uge, fredag

EKSAMEN I MATEMATIK-STATISTIK, 27. JANUAR 2006, KL 9-13

Simpel Lineær Regression - repetition

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Økonometri 1. Interne evalueringer. Interne evalueringer. Dagens program. Heteroskedaticitet (Specifikation og dataproblemer) 2.

Bilag 6: Økonometriske

Lineær regressionsanalyse8

Økonometri 1. Lineær sandsynlighedsmodel (Wooldridge 8.5). Dagens program: Heteroskedasticitet 30. oktober 2006

Ugeseddel 8. Gruppearbejde:

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Landbrugets efterspørgsel efter Kunstgødning. Angelo Andersen

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Statistik Lektion 16 Multipel Lineær Regression

Binomialfordelingen: april 09 GJ

Statistik Lektion 14 Simpel Lineær Regression. Simpel lineær regression Mindste kvadraters metode Kovarians og Korrelation

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Sandsynlighedsregning og statistik med binomialfordelingen

Økonometri 1. Avancerede Paneldata Metoder I 24.november F18: Avancerede Paneldata Metoder I 1

Kvantitative metoder 2

Repetition. Forårets højdepunkter

Multipel Lineær Regression

Statistik 9. gang 1 REGRESSIONSANALYSE. Korrelation (kontrol af model) Regression (tilpasning af model)

Økonometri 1 Efterår 2006 Ugeseddel 13

Vi ønsker også at teste hypoteser om parametrene. F.eks: Kan µ tænkes at være 0 (eller anden fast, kendt værdi)? Eksempel: dollarkurser

Statistik Lektion 4. Variansanalyse Modelkontrol

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Kvantitative metoder 2

Kvantitative metoder 2

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Anvendt Statistik Lektion 7. Simpel Lineær Regression

χ 2 -fordelte variable

Indtjening, konkurrencesituation og produktudvikling i danske virksomheder

Økonometri 1. Avancerede Paneldata Metoder II Introduktion til Instrumentvariabler 27. november 2006

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Løsninger til kapitel 12

Økonometri 1. For mange variable i modellen. For få variable. Dagens program. Den multiple regressionsmodel 21. september 2004

Udvikling af en metode til effektvurdering af Miljøstyrelsens Kemikalieinspektions tilsyn og kontrol

Modul 11: Simpel lineær regression

Antag X 1,..., X n stokastiske variable med fælles middelværdi µ og varians σ 2. Hvis µ er ukendt estimeres σ 2 ved 1/36.

Vægtet model. Landmålingens fejlteori - Lektion4 - Vægte og Fordeling af slutfejl. Vægte. Vægte: Eksempel. Definition: Vægtrelationen

Beregning af strukturel arbejdsstyrke

TALTEORI Følger og den kinesiske restklassesætning.

Sandsynlighedsregning 12. forelæsning Bo Friis Nielsen

Kvantitative metoder 2 Forår 2007 Ugeseddel 9

Prøveeksamen Indtjening, konkurrencesituation og produktudvikling i danske virksomheder Kommenteret vejledende besvarelse

Rettevejledning til Økonomisk Kandidateksamen 2007I, Økonometri 1

DLU med CES-nytte. Resumé:

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Binomialfordelingen. Erik Vestergaard

Kvantitative metoder 2 Forår 2007 Ugeseddel 10

Økonometri 1. Funktionel form. Funktionel form (fortsat) Dagens program. Den simple regressionsmodel 14. september 2005

Løsning eksamen d. 15. december 2008

Validering og test af stokastisk trafikmodel

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Fagblok 4b: Regnskab og finansiering 2. del Hjemmeopgave kl til kl

Forelæsning 11: Kapitel 11: Regressionsanalyse

Variansanalyse (ANOVA) Repetition, ANOVA Tjek af model antagelser Konfidensintervaller for middelværdierne Tukey s test for parvise sammenligninger

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Statistisk mekanik 13 Side 1 af 9 Faseomdannelse. Faseligevægt

Husholdningsbudgetberegner

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Fysik 3. Indhold. 1. Sandsynlighedsteori

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Brugen af R^2 i gymnasiet

Kvantitative metoder 2

Lineær regression i SAS. Lineær regression i SAS p.1/20

Stadig ligeløn blandt dimittender

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Scorer FCK "for mange" mål i det sidste kvarter?

Kreditrisiko efter IRBmetoden

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Tabsberegninger i Elsam-sagen

Module 12: Mere om variansanalyse

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Module 4: Ensidig variansanalyse

10. Usikkerhed og fejlsøgning

Statistik II 4. Lektion. Logistisk regression

PRODUKTIONSEFFEKTEN AF AVL FOR HANLIG FERTILITET I DUROC

Transkript:

Opsamlng Smpel/Multpel Lneær Regresson Logstsk Regresson Ikke-parametrske Metoder Ch--anden Test

Opbygnng af statstsk model Specfcer model Lgnnger og antagelser Estmer parametre Modelkontrol Er modellen passende Nej Ja Anvend modellen

Smpel/Multpel Lneær Regresson Model: Y β + β x + β x + β x + L+ β x + ε 0 3 3 k k Y afhængge varabel for te observaton. X j j te uafhængge/forklarende varable for te observaton. ε fejled, uafhængge og normalfordelte med mddelværd 0 og varans σ (kort: d N(0,σ ). β 0,,β k og σ er modellen parametre.

Smpel/Multpel Lneær Regresson Model: Y β 0 + β x + L + β k x k ε ε d N (0, σ + ) Systematsk komponent + Stokastsk komponent Bemærk: Den betngede mddelværd for Y : E[ Y x,, x β + β x + L + β x K k ] 0 k k

Regressonslne / -plan Den estmerede regresson lne/plan: b 0 er estmat af parameteren β 0 b er estmat af β, b er estmat af β osv. Resdual: Sum of square errors k k x b x b x b b x b y + + + + + L 3 3 0 ˆ y y e ˆ { Y X Yˆ Y e X ( ) n n y y e ˆ SSE

Model: y 0 + βx + βx β + ε Estmeret model: ˆ + y b0 + b x b x Resdual: y e e yˆ y x x $y b0 + bx + bx

Mndste Kvadraters Metode SSE er et mål for den totale afstand fra regressonslnen/planet tl observatonerne. SSE er en funkton af b 0, b,,b k : Mndste Kvadraters Metode: V vælger b 0, b,,b k, så SSE er mndst mulg. ( ) ( ) + + + n k k n n x b b x b y y y e 0 ) ( ˆ SSE L

Total, forklaret og uforklaret varaton Total varaton Forklaret varaton + Uforklaret varaton n y Gennemsnttet af alle observatoner: Mean Squares: MST SST SSE + SSR ( ) n ( ) n y y y yˆ + ( yˆ ) y n n y SST SSR SSE MSR MSE n k n ( k + )

Determnatonskoeffcenten Andelen af den totale varaton der er forklaret: R Pr defnton: 0 R. R vokser når antal forklarende varable (k) vokser. Justeret R : SSR SST R SSE SST adj R Forklaret varaton Totale varaton Adj R vokser hvs fordelen ved en ekstra parameter er større end ulempen. MSR MST

F-Test H 0 : β β β k 0, dvs. der er kke en lneær sammenhæng mellem Y og X erne. H : Der er en lneær sammenhæng mellem Y og mndst et af X erne. Teststørrelse: MSR F MSE SSR k ( n ( k + )) Under H 0 følger F en F-fordelng med k og n-(k+) frhedsgrader. Store værder af F er krtsk for H 0. SSE

F-Test Krtsk værd ved sgnfkansnveau α: F α ( k, n ( k + )) Eksempel: F(5,50) og α0.05: 0.6 0.4 F,7 P-værd0,03 0.6 0.4 F,5 P-værd0,0 0. 0.0 α0,05 0. 0.0 α0,05 0 3 4 0 3 4 Krtsk værd: F 0.05 (5,50),4

t-test: Test af Parameter H 0 : β 0, dvs. der er kke en lneær sammenhæng mellem Y og X. H : Der er en lneær sammenhæng mellem Y og X. Teststørrelse: t b s. e.( b ) Under H 0 følger t en t-fordelng med n-(k+) frhedsgrader. Værder af t langt fra nul er krtske for H 0.

t-test Krtsk værd ved sgnfkansnveau α: Eksempel: t(45) og α0.05: t α ( n ( k + )) 0.4 0.4 t,4 t,30 0.3 0.3 P-værd0,0 0. P-værd0,03 0. 0. α0,05 0. α0,05 0.0 0.0-3 - - 0 3-3 - - 0 3 Krtsk værd: +/- t 0.05 (45) +/-,0

Partel F-Test Sammenlgne en Fuld model med k forklarende varable, med en Reduceret model, der ndeholder r færre forklarende varable. H 0 : Den fulde model er kke besværet værd. H : Jo, det er den. Teststørrelse: Under H 0 følger F en F-fordelng med r og n-(k+) frhedsgrader. Store værder af F er krtsk for H 0. F ( SSRR SSR MSE F F ) / r

Dummy Varable En kategorsk forklarende varabel X med r nveauer omkodes tl (r-) 0/ dummy varable X,,X r-. Hver dummy varabel kodes som X hvs X er på ' te nveau. 0 alle andre tlfælde.

Modelkontrol V skal kontrollere følgende antagelser Y afhænger lneært af X ε er normal fordelt med mddelværd 0 og fast varans σ ndbyrdes uafhængge og uafhængg af Y og X. Vgtgste ngredens: Resdualer e. Grafske checks: Scatterplots, Resdualplots, Hstogrammer og Normalfordelngsplot.

Resdualplot Resdualer Resdualer 0 0 x or y$ x or y$ Homoskedastsk: Resdualerne ser ud tl at varere uafhænggt af hnanden og x. Heteroskedastsk: Varansen for resdualerne ændrer sg når x ændrer sg. Resdualer Resdualer 0 0 Td Resdualerne udvser lneær trend med tden (ellern anden varabel v kke har brugt). Dette ndkerer at td skulle nkluderes modellen. x or y$ Det buede mønster ndkerer en underlæggende kke-lneær sammenhæng.

Check for normalfordelng Hstogram og Q-Q plot Q-Q plot: prkkerne skal sno sg usystematsk omkrng den rette lne.

Check for Uafhængghed Som supplement tl resdual-plot kan man udføre formelle test for uafhængghed. Hvs observatoner er ndsamlet over td er et Durbn- Watson test for auto-korrelerede resdualer på sn plads. Et Run Test, hvor man ser på resdualernes fortegn. Problemer med heteroskedatske resdualer, kan tl tder afhjælpes med en transformaton, fx ved at erstatte Y med Y.

Modelsøgnng Backward søgnng: V starter med den fulde model Udfør t-test for alle β parametre modellen. Den parameter med højst P-værd over 0,05 fjernes fra modellen. Gentages ndtl alle P-værder er under 0,05. Bemærk: P-værder ændrer sg når parametre/varable fjernes fra modellen typsk nedad. Dette gælder specelt hvs en eller flere forklarende varable er mult-kolneære (fx ancentet og alder)

Modelsøgnng Forward søgnng: V starter med den tomme model Udfører et t-test for alle parametre der kke er modellen. Den parameter med lavest P-værd under 0,05 tlføjes. Fortsætter ndtl alle parameter har en P-værd over 0,05. Stepwse søgnng: Kombnerer Forward og Backward søgnng.

Multpel Lneær Regresson: Udvdelser Polynomel Regresson: Fx: Y β + β x + β x + ε 0 Dette er stadg en lneær regresson. For nogle kke-lneære modeller er det mulgt at transformere dsse, så der fremkommer en lneær model.

Logstsk Regresson Afhængg 0/ varabel Y : Succes og 0 Fasko p P(Y ) -p P(Y 0) Model: p log p Omskrvnng: Hvs v solerer p ovenfor får v: β 0 + βx p exp( β0 + βx ) + exp( β + β X 0 ) exp( η) p + exp( η)

Fortolknng af Odds p Odds: p Jo mndre odds jo mndre p. Hvs odds et er p/(-p) 4, så betyder det at sandsynlgheden for Succes er 4 gange større end for Fasko. Af logt modellen følger at Odds p β0 + βx β0 β X p Hvad sker der med odds et når X vokser med : e β 0 + β X + ) e 0 e e ( β β X β e β Odds et ændres med faktor når X vokser med. e e e

Logstsk Regresson: Test V ønsker at teste hypotesen H 0 : β 0 H : β 0 Teststørrelse: W b s e..( b ) Kaldes Wald teststørrelsen. Under H 0 følger W en Χ ( ch--anden ) fordelng med frhedsgrad. Store værder af W er krtske for H 0.

Ikke-parametrske Metoder Karakterseret ved kke at ndeholde antagelser om bestemte fordelnger, fx normalfordelte fejlled.

Ikke Parametrske Test Run Test: Tester om en sekvens af fx K er og P er er tlfældg. Testen baserer sg på antallet af runs af K er og P er. Mann-Whtney U Test: Test for om to fordelnger er ens. Små of store værder af U er krtske for H 0. Wlcoxon Snged-Rank Test: Et alternatv tl parret t- test. Baseret på rank af forskelle. Kruskal-Walls Test: Ikke parametrsk alternatv tl ensdet varansanalyse (ANOVA). Testet baserer sg på ranks.

Ch--anden Teststørrelse O er faktske antal observatoner te kategor og E er det forventede antal observatoner under H 0. Ch--anden teststørrelsen er gvet ved X O E E k ( ) Når stkprøvestørrelsen vokser og k fastholder, så nærmer X sg en Ch--anden fordelng. Bemærk: For at ch--anden approksmatonen er god skal alle E være mndst 5, dvs. v forventer mndst 5 observatoner hver kategor.

Kontngenstabeller Udgangspunkt er to kategorske varable A har r kategorer {,,,r} B har c kategorer {,,,c} Tlsvarende kontngenstabel har r rækker og c kolonner. Hver celle (,j) tabellen ndeholder antal af observatoner O j, hvor A og Bj. R er rækkesummen: summen af observatoner te række. R er samtdg antal observatoner, hvor A. C j er kolonnesummen: summen af observatoner j te kolonne. C j er samtdg antal observatoner, hvor Bj.

Kontngenstabel: Test for Uafhængghed H 0 : Kategorske varable A og B er uafhængge. H : A og B er afhængge. Under H 0 er det forventede antal observatoner celle (,j) gvet ved E j R C j / n. Teststørrelse: c r ( O j Ej ) X E j Under H 0 følger X en Χ -fordelng med (-c)(-r) frhedsgrader. Store værder af X er krtsk for H 0. j