Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression
|
|
|
- Ludvig Thomsen
- 8 år siden
- Visninger:
Transkript
1 Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression
2 Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende test: H 0 : β = β 2 = β 3 = = β k =0, dvs. modellen ikke er besværet værd. Til dette anvendes et F- test. H 0 : β j =0, dvs. der er ingen lineær sammenhæng mellem Y og X j. Vi sammenligner to modeller der adskiller sig ved om X j er med eller ej. Her anvendes et t- test.
3 Test for flere parametre - Partiel F-test Med fuld model menes en model, der indeholder forklarende variable af interesse. En reduceret model indeholder kun et udvalg (eller slet ingen) forklarende variable fra den fulde model. Ved et partielt F-test sammenlignesden fulde og den reducerede model.
4 Eksempel: Eksport til Fjernøsten Vi vil sammenligne følgende fulde og reducerede modeller Fulde model: Y β + β X + β X + β X + β + ε = X 4 Reducerede model: Y β + β X + β + ε = 0 2 X 2 Kan vi acceptere den reducerede model?
5 Eksempel: Eksport til Fjernøsten Vi vil sammenligne følgende fulde og reducerede modeller Export M Lend Price Exch. Fulde model: y β + β x + β x + β x + β + ε = x4 Reducerede model: y = 0 3x3 β + β x + β + ε Er det besværet værd, at have x 2 og x 3 med?
6 Det partielle F-test H 0 : β 2 =β 4 =0 (givet at X H : β 2 og β 4 er ikke begge nul. Teststørrelse for partielt F-test: og X 3 er i modellen) ( SSER SSEF ) / r F[ r, n ( k + )] = MSEF hvor SSE R og SSE F er sum of squares for errors for hhv. den reducerede og den fulde model. MSE F = SSE F /[n-(k+)] er mean square error. k er antal parameter i den fulde model r antal parametre vi forsøger at fjerne (2 i eks.).
7 Eksempel: Eksport til Fjernøsten Fulde model: Export M Lend Price Exch. y = x4 β + β x + β x + β x + β + ε ANOVA b Model Regression Residual Total Sum of Squares df Mean Square F Sig. 32, ,237 73,059,000 a 6,990 62,3 39, Reducerede model: y = 0 3x3 β + β x + β + ε ANOVA b Model Regression Residual Total Sum of Squares df Mean Square F Sig. 32, ,470 50,673,000 a 6,996 64,09 39, SSE F = 6,990 SSE R = 6,996 MSE F = 0,3
8 Eksempel: Eksport til Fjernøsten Er det besværet værd, at have x 2 og x 3 med? Det partielle F-test F H 0 : β 2 =β 4 =0 (givet at X og X 2 H : β 2 og β 4 er ikke begge nul. ( SSE SSE ) / (6,996 6,990) / 2 0,3 R F [ r, n ( k + )] = = = MSEF Kritisk væ rdi : F 0,05,[2,62] r 3,4 er i modellen) P - værdi :0,97 0,027 Testen er ikke signifikant, dvs. vi accepterer H 0 hypotesen, dvs. den fulde model er ikke besværet værd.
9 Bemærkninger Partielle F-test, der kun omhandler en enkel parameter er ækvivalente med et t-test. Husk: En kvalitativ variabel med r niveauer, omkodes til (r-) 0/ dummy variable. En test for betydningen af den kvalitative variable svarer til et partielt F-test, hvor (r-) variable fjernes.
10 Modelsøgning En statistiske analyser involverer ofte et stort antal forklarende variable. For at få overblik over, hvilke forklarende variable, der har betydning for den afhængige variabel udføres en modelsøgning I en modelsøgning, søger man en model, der kun indeholder de forklarende variable der har en reel betydning for den afhængige variabel. Der findes et utal af måder at udføre modelsøgning. De mest almindelige er:
11 Modelsøgning: Prøv alle muligheder Vi udfører en regression på alle tænkelige kombinationer af forklarende variable. Har vi k forklarende variable giver det 2 k forskellige modeller. Ved k=4 forklarende variable har vi allerede 2 4 =6 modeller. Vi udvælger vores model blandt de 2 k modeller fx. den med største adjusted R 2 eller mindste MSE.
12 Modelsøgning: Forward søgning Vi starter med en tom model dvs. uden forklarende variable. Dernæst tilføjer vi den forklarende variabel, hvor den tilhørende parameter er den med det mest signifikante partielle F-test med en P-værdi over en given grænse, fx Anden variabel vælges som den variabel blandt de resterende, hvor det tilsvarende partielle F-test har størst P-værdi over fx Fortsætter indtil ingen af de tilbageværende variable har en F-test med P-værdi over 0.05.
13 Modelsøgning: Backward søgning Vi starter med en model, hvor alle forklarende variable af interesse er inkluderet. For alle variable fortager vi et partielt F-test for den tilsvarende parameter. Den parameter med højst P- værdi over fx 0.05 fjernes. For hver af de tilbageværende variable foretages et nyt partielt F-test. Igen fjernes den variabel, der har højst P-værdi over Dette gentages indtil alle tilbageværende variable er signifikante, dvs. deres partielle F-test har P- værdier over 0.05.
14 Modelsøgning: Trinvis søgning Vi starter med den tomme model. Vi tilføjer den variabel, hvor det tilhørende partielle F-test har højest P-værdi over fx Vi tilføjer den mest signifikante variabel blandt de tilbageværende. Vi veksler nu mellem at fjerne den mindst signifikante og tilføje en den mest signifikante variabel. I hvert trin skal vi beregne partielle F-test for alle variable.
15 Modelsøgning i SPSS I Linear Regression kan man i menuen Method bl.a. vælge mellem Enter (Uden søgning) Stepwise Backward Forward Independent indeholder variable af interesse.
16 Illustration af algoritmer Forward algoritmen Start: Den tomme model Test for at tilføje Backward algoritmen Start: Den fulde model Test for at fjerne Stepwise algoritmen Start: Den tomme model Test for at fjerne/tilføje Trin M Lend Price Exchange 0 2 Trin M Lend Price Exchange 0 2 Trin M Lend Price Exchange (potentielt)
17 SPSS detaljer for forward algoritmen Model inkluderer M Model 2 Adjusted Std. Error of R R Square R Square the Estimate,775 a,60,595,49522,908 b,825,89,33062 Model 2 inkluderer M og Price Matchende rammer til højre illustrerer hvilke P-værdier, der konkurrerede om pladsen i hvert trin. Model 2 Model 2 (Constant) M (Constant) M Price Lend Price Exchange Lend Exchange Unstandardized Coefficients Coefficients a Standardized Coefficients B Std. Error Beta t Sig.,935,368 2,538,04,520,053,775 9,892,000-3,423,54-6,329,000,36,039,539 9,209,000,037,004,529 9,046,000 Excluded Variables c Collinearity Partial Statistics Beta In t Sig. Correlation Tolerance,427 a 7,255,000,672,987,529 a 9,046,000,749,800 -,39 a -,633,07 -,200,832,005 b,044,965,006,97,03 b,23,832,027,762
18 Logistisk Regression
19 Binær (0/) afhængig variabel Hvordan afhænger en 0/ variabel af forklarende variable? Eksempel: Et antal insekter udsættes for forskellige giftdoser. For hvert insekt har vi noteret Dosen (d) af insekt gift og Responsen (r): 0=Levende =Død. Dosis Respons , 0 0, 0, 0 0,2 0 0,2 0,2 0,4 0,4 0,4
20 Binær (0/) afhængig variabel Dosis (d) insekt gift. Respons (r): 0=Levende =Død Dosis Respons , 0 0, 0, 0 0,2 0 0,2 0,2 0,4 0,4 0,4 Lad os prøve med lineær regression
21 Bernouilli/Binomial Fordeling En variabel Y i er en Bernouilli-fordelt variabel med sandsynligheds-parameter p, hvis Y i kan tage værdierne 0 og og P( Y i P( Y i = ) = p = 0) = p (sandsynligheden for at = ) Antag at Y,,Y n er uafhængige Bernouilli variable med parameter p. Så er Y = Y + +Y n binomial fordelt B(n,p). Eksempel: p er sandsynligheden for at overleve bestemt dosis og Y i er vitalstatus for i te insekt. Y i
22 Eksempel: p er sandsynligheden for at overleve bestemt dosis og Y i er vitalstatus for i te insekt. Y er antal døde insekter ud af ti er B(0,p). Gennemsnits antal døde: E[Y]=np Gennemsnits andel døde: E[Y/n]=p
23 Insektgift: Forskellige doser For hver dose observeres antal døde blandt ti insekter. Dose #døde %døde En binomal fordelte variable for hver dose med hver sit p. Dvs. for dose i er sandsynligheden for at dø p i.
24 Multipel Lineær Regression? p i : sandsynligheden for at dø af dosis i. y i : % døde ud af 0 Lineær model: p i = β 0 + β dosis i y i ε i = p i + ε i er normal fordelt.
25 Multipel Lineær Regression? Problemer: For dosis forudsiger (prædikterer) modellen et negativt antal døde. Frekvenser (antal døde) ikke normalfordelte Ikke samme varians: var(y i ) = p i (-p i )/0
26 Bemærk: p p p p p log 0 0 Sandsynlighed: Odds: Log-odds (logit): Ide: Lineær model for logit: ) exp( ) exp( log ) logit( k k k k k k x x x x x x p x x x p p p β β β β β β β β β β β β = = = L L L c
27 Logit og Invers Logit Transformation logit( p) = log p p p exp( η) = + exp( η) NB: logit strækker ]0,[ ud til hele den reelle talakse invers logit ligger altid mellem 0 og. og
28 Andel døde ud af ti p exp 6,286,029 dose exp 6,286,029 dose Parameter Estimates respons a Intercept dose a. The reference category is: 0. 95% Confidence Interval for Exp(B) B Std. Error Wald df Sig. Exp(B) Lower Bound Upper Bound -6,286,238 25,767,000,029,97 27,35,000 2,799,903 4,8 Hvad er sandsynlighed for at dø, hvis dosis er 5,7?
29 Dose-respons: Mere insektgift Hvert insekt (00 stk) sin dose. Respons (levende=0, død=) dose p = sandsynlighed for at dø. p
30 Eksempel: valg af transportmiddel til arbejde i forhold til alder Undersøge om valg af transportmiddel til/fra arbejde afhænger af alder. Logistisk regression hvor responsen 'Nej (kører ej bil)' er kodet som og 'Ja (kører bil)' er kodet som 0.
31 I SPSS Her er anvendt Analyze Regression Binary Logistic Minder i anvendelse om Analyze Regression Linear
32 Output fra multinomial regression: parameter estimater Bil_til_arbejde a Nej Intercept Alder a. The reference category is: Ja. Parameter Estimates 95% Confidence Interval for Exp(B) B Std. Error Wald df Sig. Exp(B) Lower Bound Upper Bound -,343,273,584,208,00,006 2,599,07,00,998,023 NB: reference kategori er 'Ja', dvs vi modellerer sandsynlighed for 'Nej', dvs. ikke at køre i bil.
Multipel Lineær Regression
Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer
Logistisk Regression - fortsat
Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative
Statistik Lektion 16 Multipel Lineær Regression
Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk
Generelle lineære modeller
Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal
Logistisk regression. Logistisk regression. Probit model Fortolkning udfra latent variabel. Odds/Odds ratio
Logstsk regresson Logstsk regresson Odds/Odds rato Probt model Fortolknng udfra latent varabel En varabel Y parameter p P( Y 1 Bernoull/bnomal fordelngen 1 1 p. er Bernoull- fordelt med sandsynlgheds hvs
Anvendt Statistik Lektion 8. Multipel Lineær Regression
Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke
Eksamen Bacheloruddannelsen i Medicin med industriel specialisering
Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform
Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion
Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,,
Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.
Overlevelse efter AMI Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Diabetes VF (Venticular fibrillation) WMI (Wall motion index) CHF (Cardiac Heart Failure) Køn og alder betragtes
Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol
Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price
Statistik II 4. Lektion. Logistisk regression
Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:
Statistik Lektion 17 Multipel Lineær Regression
Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x
Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).
Program 1. multipel regression 2. polynomiel regression (og andre kurver) 3. kategoriske variable 4. Determinationkoefficient og justeret determinationskoefficient 5. ANOVA-tabel 1/13 Multipel regression
Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model
Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives
Anvendt Statistik Lektion 7. Simpel Lineær Regression
Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot
Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.
Log-lineære modeller Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Kontingenstabel Contingency: mulighed/tilfælde Kontingenstabel: antal observationer (frekvenser)
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.
Regressionsanalyser Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer. Hvilke faglige problemer kan man løse vha. regressionsanalyser? 1 Regressionsanalyser Det primære problem
Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning
1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion
Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab
Logistis regression Statisti Kandidatuddannelsen i Folesundhedsvidensab Multipel logistis regression Antagelser: Binære observationer (Y i, i=,.,n) f.es Ja/Nej Høj/Lav Død/Levende Kodet: / 0 Y i uafhængige
Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder
Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P
Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test
Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x k uafhængige variable
Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller
Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Eksamensopgave E05 Socialklasse og kronisk sygdom Data: Tværsnitsundersøgelse fra 1986 Datamaterialet indeholder: Køn, alder, Højest opnåede
Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)
Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: [email protected] Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse
Morten Frydenberg 14. marts 2006
Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik 1 RESUME: 2 2. gang: 2006 Institut for Biostatistik, Århus Universitet MPH 1. studieår Specialmodul 4 Cand. San. uddannelsen
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Morten Frydenberg 26. april 2004
Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik RESUME: 2 2. gang: 2002 Institut for Biostatistik, Århus Universitet MPH. studieår Specialmodul 4 Cand. San. uddannelsen.
Statistik II 1. Lektion. Analyse af kontingenstabeller
Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression
Forelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]
Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af
MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som
MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,
Konfidensintervaller og Hypotesetest
Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller
Økonometri: Lektion 6 Emne: Heteroskedasticitet
Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 32 Konsekvenser af Heteroskedasticitet Antag her (og i resten) at MLR.1 til MLR.4 er opfyldt. Antag MLR.5 ikke er opfyldt, dvs. vi har heteroskedastiske
Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser
Mantel-Haensel analyser Stratificerede epidemiologiske analyser 1 Den epidemiologiske synsvinkel: 1) Oftest asymmetriske (kausale) sammenhænge (Eksposition Sygdom/død) 2) Risikoen vurderes bedst ved hjælp
Løsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Module 3: Statistiske modeller
Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med
Løsning til opgave i logistisk regression
Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator
Ikke-parametriske tests
Ikke-parametriske tests 2 Dagens menu t testen Hvordan var det nu lige det var? Wilcoxson Mann Whitney U Kruskall Wallis Friedman Kendalls og Spearmans correlation 3 t-testen Patient Drug Placebo difference
Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]
Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination
Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004
Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Formål med Øvelsen: Formålet med øvelsen er at analysere om risikoen for død er forbundet med to forskellige vacciner BCG (mod
Kapitel 11 Lineær regression
Kapitel 11 Lineær regression Peter Tibert Stoltze [email protected] Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),
Løsning til eksaminen d. 14. december 2009
DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,
To-sidet varians analyse
To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model
Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H
Statistik Lektion 4. Variansanalyse Modelkontrol
Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ
Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen
1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.
Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller
Logistisk regression
Logistisk regression Test af antagelsen om lineære effekter Modelkonstruktion og modelsøgning Hvilke variable og hvilke interaktioner skal inkluderes i regressionsmodellerne? 1 Logistiske regressionsmodeller
Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008
Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet [email protected] www.biostat.ku.dk/~bxc
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet
Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet Antag vi har model: y = β 0 + β 1 x 2 + + β k x k + u. Vi ønsker
Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.
Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i
Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater
Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi
Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet
Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,
Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Økonometri Lektion 1 Simpel Lineær Regression 1/31
Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen
Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning
1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3
men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge
Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2
Lineær regression i SAS. Lineær regression i SAS p.1/20
Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression
Økonometri: Lektion 6 Emne: Heteroskedasticitet
Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 34 Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Antag vi har model: Vi ønsker at teste hypotesen y = β 0 + β 1 x
Logistisk regression
Logistisk regression http://biostat.ku.dk/ kach/css2 Thomas A Gerds & Karl B Christensen 1 / 18 Logistisk regression I dag 1 Binær outcome variable død : i live syg : rask gravid : ikke gravid etc 1 prædiktor
Eksamen i statistik 2009-studieordning
Kandidatuddannelsen i Folkesundhedsvidenskab Det sundhedsvidenskabelige fakultet Københavns Universitet 21.12.2010 Eksamen i statistik 2009-studieordning Underviser Svend Kreiner Udarbejdet af eksamens
Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.
1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;
Økonometri: Lektion 2 Multipel Lineær Regression 1/27
Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere
Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april
Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et
Basal Statistik Logistisk Regression. Dagens Tekst E Sædvanlig Linear Regression (Repetition) Basal Statistik - Logistisk regression 1
Basal Statistik Logistisk Regression Judith L. Jacobsen, PhD. Lene Theil Skovgaard http://staff.pubhealth.ku.dk/~lts/basal13_ [email protected] Dagens Tekst Logistisk regression Binære data Logit transformation
Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)
Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen
Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1
Økonometri 1 Dummyvariabler 13. oktober 2006 Økonometri 1: F10 1 Dagens program Dummyvariabler i den multiple regressionsmodel (Wooldridge kap. 7.3-7.6) Dummy variabler for kvalitative egenskaber med flere
Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data
Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: [email protected] Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Mantel-Haenszel analyser Mantel-Haenszel analyser Sidst lærte vi om stratificerede analyser. I dag kigger vi på et specialtilfælde: både exposure
Simpel Lineær Regression: Model
Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]
Opsamling. Simpel/Multipel Lineær Regression Logistisk Regression Ikke-parametriske Metoder Chi-i-anden Test
Opsamlng Smpel/Multpel Lneær Regresson Logstsk Regresson Ikke-parametrske Metoder Ch--anden Test Opbygnng af statstsk model Specfcer model Lgnnger og antagelser Estmer parametre Modelkontrol Er modellen
Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Skriftlig eksamen Science statistik- ST501
SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.
Eksamen i Statistik for biokemikere. Blok
Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)
Module 12: Mere om variansanalyse
Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger..........
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse
Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser
