Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test

Opsamlng Smpel/Multpel Lneær Regresson Logstsk Regresson Ikke-parametrske Metoder Ch--anden Test

Opbygnng af statstsk model Specfcer model Lgnnger og antagelser Estmer parametre Modelkontrol Er modellen passende Nej Ja Anvend modellen

Smpel/Multpel Lneær Regresson Model: Y β + β x + β x + β x + L+ β x + ε 0 3 3 k k Y afhængge varabel for te observaton. X j j te uafhængge/forklarende varable for te observaton. ε fejled, uafhængge og normalfordelte med mddelværd 0 og varans σ (kort: d N(0,σ ). β 0,,β k og σ er modellen parametre.

Smpel/Multpel Lneær Regresson Model: Y β 0 + β x + L + β k x k ε ε d N (0, σ + ) Systematsk komponent + Stokastsk komponent Bemærk: Den betngede mddelværd for Y : E[ Y x,, x β + β x + L + β x K k ] 0 k k

Regressonslne / -plan Den estmerede regresson lne/plan: b 0 er estmat af parameteren β 0 b er estmat af β, b er estmat af β osv. Resdual: Sum of square errors k k x b x b x b b x b y + + + + + L 3 3 0 ˆ y y e ˆ { Y X Yˆ Y e X ( ) n n y y e ˆ SSE

Model: y 0 + βx + βx β + ε Estmeret model: ˆ + y b0 + b x b x Resdual: y e e yˆ y x x $y b0 + bx + bx

Mndste Kvadraters Metode SSE er et mål for den totale afstand fra regressonslnen/planet tl observatonerne. SSE er en funkton af b 0, b,,b k : Mndste Kvadraters Metode: V vælger b 0, b,,b k, så SSE er mndst mulg. ( ) ( ) + + + n k k n n x b b x b y y y e 0 ) ( ˆ SSE L

Total, forklaret og uforklaret varaton Total varaton Forklaret varaton + Uforklaret varaton n y Gennemsnttet af alle observatoner: Mean Squares: MST SST SSE + SSR ( ) n ( ) n y y y yˆ + ( yˆ ) y n n y SST SSR SSE MSR MSE n k n ( k + )

Determnatonskoeffcenten Andelen af den totale varaton der er forklaret: R Pr defnton: 0 R. R vokser når antal forklarende varable (k) vokser. Justeret R : SSR SST R SSE SST adj R Forklaret varaton Totale varaton Adj R vokser hvs fordelen ved en ekstra parameter er større end ulempen. MSR MST

F-Test H 0 : β β β k 0, dvs. der er kke en lneær sammenhæng mellem Y og X erne. H : Der er en lneær sammenhæng mellem Y og mndst et af X erne. Teststørrelse: MSR F MSE SSR k ( n ( k + )) Under H 0 følger F en F-fordelng med k og n-(k+) frhedsgrader. Store værder af F er krtsk for H 0. SSE

F-Test Krtsk værd ved sgnfkansnveau α: F α ( k, n ( k + )) Eksempel: F(5,50) og α0.05: 0.6 0.4 F,7 P-værd0,03 0.6 0.4 F,5 P-værd0,0 0. 0.0 α0,05 0. 0.0 α0,05 0 3 4 0 3 4 Krtsk værd: F 0.05 (5,50),4

t-test: Test af Parameter H 0 : β 0, dvs. der er kke en lneær sammenhæng mellem Y og X. H : Der er en lneær sammenhæng mellem Y og X. Teststørrelse: t b s. e.( b ) Under H 0 følger t en t-fordelng med n-(k+) frhedsgrader. Værder af t langt fra nul er krtske for H 0.

t-test Krtsk værd ved sgnfkansnveau α: Eksempel: t(45) og α0.05: t α ( n ( k + )) 0.4 0.4 t,4 t,30 0.3 0.3 P-værd0,0 0. P-værd0,03 0. 0. α0,05 0. α0,05 0.0 0.0-3 - - 0 3-3 - - 0 3 Krtsk værd: +/- t 0.05 (45) +/-,0

Partel F-Test Sammenlgne en Fuld model med k forklarende varable, med en Reduceret model, der ndeholder r færre forklarende varable. H 0 : Den fulde model er kke besværet værd. H : Jo, det er den. Teststørrelse: Under H 0 følger F en F-fordelng med r og n-(k+) frhedsgrader. Store værder af F er krtsk for H 0. F ( SSRR SSR MSE F F ) / r

Dummy Varable En kategorsk forklarende varabel X med r nveauer omkodes tl (r-) 0/ dummy varable X,,X r-. Hver dummy varabel kodes som X hvs X er på ' te nveau. 0 alle andre tlfælde.

Modelkontrol V skal kontrollere følgende antagelser Y afhænger lneært af X ε er normal fordelt med mddelværd 0 og fast varans σ ndbyrdes uafhængge og uafhængg af Y og X. Vgtgste ngredens: Resdualer e. Grafske checks: Scatterplots, Resdualplots, Hstogrammer og Normalfordelngsplot.

Resdualplot Resdualer Resdualer 0 0 x or y$ x or y$ Homoskedastsk: Resdualerne ser ud tl at varere uafhænggt af hnanden og x. Heteroskedastsk: Varansen for resdualerne ændrer sg når x ændrer sg. Resdualer Resdualer 0 0 Td Resdualerne udvser lneær trend med tden (ellern anden varabel v kke har brugt). Dette ndkerer at td skulle nkluderes modellen. x or y$ Det buede mønster ndkerer en underlæggende kke-lneær sammenhæng.

Check for normalfordelng Hstogram og Q-Q plot Q-Q plot: prkkerne skal sno sg usystematsk omkrng den rette lne.

Check for Uafhængghed Som supplement tl resdual-plot kan man udføre formelle test for uafhængghed. Hvs observatoner er ndsamlet over td er et Durbn- Watson test for auto-korrelerede resdualer på sn plads. Et Run Test, hvor man ser på resdualernes fortegn. Problemer med heteroskedatske resdualer, kan tl tder afhjælpes med en transformaton, fx ved at erstatte Y med Y.

Modelsøgnng Backward søgnng: V starter med den fulde model Udfør t-test for alle β parametre modellen. Den parameter med højst P-værd over 0,05 fjernes fra modellen. Gentages ndtl alle P-værder er under 0,05. Bemærk: P-værder ændrer sg når parametre/varable fjernes fra modellen typsk nedad. Dette gælder specelt hvs en eller flere forklarende varable er mult-kolneære (fx ancentet og alder)

Modelsøgnng Forward søgnng: V starter med den tomme model Udfører et t-test for alle parametre der kke er modellen. Den parameter med lavest P-værd under 0,05 tlføjes. Fortsætter ndtl alle parameter har en P-værd over 0,05. Stepwse søgnng: Kombnerer Forward og Backward søgnng.

Multpel Lneær Regresson: Udvdelser Polynomel Regresson: Fx: Y β + β x + β x + ε 0 Dette er stadg en lneær regresson. For nogle kke-lneære modeller er det mulgt at transformere dsse, så der fremkommer en lneær model.

Logstsk Regresson Afhængg 0/ varabel Y : Succes og 0 Fasko p P(Y ) -p P(Y 0) Model: p log p Omskrvnng: Hvs v solerer p ovenfor får v: β 0 + βx p exp( β0 + βx ) + exp( β + β X 0 ) exp( η) p + exp( η)

Fortolknng af Odds p Odds: p Jo mndre odds jo mndre p. Hvs odds et er p/(-p) 4, så betyder det at sandsynlgheden for Succes er 4 gange større end for Fasko. Af logt modellen følger at Odds p β0 + βx β0 β X p Hvad sker der med odds et når X vokser med : e β 0 + β X + ) e 0 e e ( β β X β e β Odds et ændres med faktor når X vokser med. e e e

Logstsk Regresson: Test V ønsker at teste hypotesen H 0 : β 0 H : β 0 Teststørrelse: W b s e..( b ) Kaldes Wald teststørrelsen. Under H 0 følger W en Χ ( ch--anden ) fordelng med frhedsgrad. Store værder af W er krtske for H 0.

Ikke-parametrske Metoder Karakterseret ved kke at ndeholde antagelser om bestemte fordelnger, fx normalfordelte fejlled.

Ikke Parametrske Test Run Test: Tester om en sekvens af fx K er og P er er tlfældg. Testen baserer sg på antallet af runs af K er og P er. Mann-Whtney U Test: Test for om to fordelnger er ens. Små of store værder af U er krtske for H 0. Wlcoxon Snged-Rank Test: Et alternatv tl parret t- test. Baseret på rank af forskelle. Kruskal-Walls Test: Ikke parametrsk alternatv tl ensdet varansanalyse (ANOVA). Testet baserer sg på ranks.

Ch--anden Teststørrelse O er faktske antal observatoner te kategor og E er det forventede antal observatoner under H 0. Ch--anden teststørrelsen er gvet ved X O E E k ( ) Når stkprøvestørrelsen vokser og k fastholder, så nærmer X sg en Ch--anden fordelng. Bemærk: For at ch--anden approksmatonen er god skal alle E være mndst 5, dvs. v forventer mndst 5 observatoner hver kategor.

Kontngenstabeller Udgangspunkt er to kategorske varable A har r kategorer {,,,r} B har c kategorer {,,,c} Tlsvarende kontngenstabel har r rækker og c kolonner. Hver celle (,j) tabellen ndeholder antal af observatoner O j, hvor A og Bj. R er rækkesummen: summen af observatoner te række. R er samtdg antal observatoner, hvor A. C j er kolonnesummen: summen af observatoner j te kolonne. C j er samtdg antal observatoner, hvor Bj.

Kontngenstabel: Test for Uafhængghed H 0 : Kategorske varable A og B er uafhængge. H : A og B er afhængge. Under H 0 er det forventede antal observatoner celle (,j) gvet ved E j R C j / n. Teststørrelse: c r ( O j Ej ) X E j Under H 0 følger X en Χ -fordelng med (-c)(-r) frhedsgrader. Store værder af X er krtsk for H 0. j