1 Multipel lineær regression
|
|
|
- Marianne Clausen
- 9 år siden
- Visninger:
Transkript
1 1 Multipel lineær regression Regression med 2 eksponeringsvariable Fortolkning og estimation AnovaTabel og multipel R 2 Ensidet variansanalyse: Dummy kodning Kovariansanalyse og effektmodifikation Tosidet variansanalyse PSE (I17) FSV1 Statistik - 3. lektion 1 / 22
2 Regression med 2 eksponeringsvariable PeruLungeData Alder er en rimeligt god prediktor for FEV1. Vi kan aflæse en t-score på 15.17, dvs en klart signifikant sammenhæng, hvor FEV1 vokser med liter/år. PSE (I17) FSV1 Statistik - 3. lektion 2 / 22
3 Regression med 2 eksponeringsvariable PeruLungeData Højde er en rimeligt god prediktor for FEV1. Vi kan aflæse en t-score på 20.84, dvs en klart signifikant sammenhæng, hvor FEV1 vokser med liter/cm. PSE (I17) FSV1 Statistik - 3. lektion 3 / 22
4 Fortolkning og estimation Multipel regression Når vi har flere prediktorer/eksponeringsvariable som er associerede, så vil vi studere indvirkning af en given prediktor, når vi har korrigeret for indvirkning af de øvrige prediktorer. Eksempelvis har højde og alder en signifikant positiv korrelation på 0.595, så det er meningsfyldt at spørge: Hvad er korrelationen mellem FEV1 og alder, når vi har korrigeret for indvirkning af højde? Hvad er korrelationen mellem FEV1 og højde, når vi har korrigeret for indvirkning af alder? Dette besvares vha den multiple regressionsmodel: FEV1 = β 0 + β 1 alder + β 2 højde + ε hvor populationsresidualet ε har middeltal 0 og standardafvigelse σ. PSE (I17) FSV1 Statistik - 3. lektion 4 / 22
5 Fortolkning og estimation Multipel regression Multipel regressionsmodel: Populationsparametre: FEV1 = β 0 + β 1 alder + β 2 højde + ε β 0 liter: Volumen ved alder=højde=0. Modellen er dog kun relevant for alder 7-11 år og højde cm. β 1 liter/år: Volumenændring når alderen vokser 1 år β 2 liter/cm: Volumenændring når højden vokser 1 cm σ liter: standardfejl på populationsresidualer. Givet en stikprøve, så bestemmes de tilsvarende estimater b 0, b 1, b 2 og deres tilhørende standardfejl ved at minimere kvadratsummen af residualer. PSE (I17) FSV1 Statistik - 3. lektion 5 / 22
6 Fortolkning og estimation Stata-analyse Analyze Regression Linear... og vælg Dependent: FEV1 Independent(s): Alder og højde Effekter efter korrektion for den anden variabel: Alder: b 1 =0.09 liter/år. Effekt uden korrektion var: liter/år. Effekten er mindre, men er stadig signifikant (t=5.71). højde: b 2 =0.025 liter/cm. Effekt uden korrektion var: liter/cm. Mindre men stadig signifikant effekt(t=13.77). PSE (I17) FSV1 Statistik - 3. lektion 6 / 22
7 AnovaTabel og multipel R 2 Kvadratsummer Lad os kalde responsen(fev1) y og prediktorerne(alder,højde) x 1 og x 2. Modellen y = β 0 + β 1 x 1 + β 2 x 2 + ε har prediktionsligningen: med tilhørende kvadratsummer y = b 0 + b 1 x 1 + b 2 x 2 Forskel på model og observationer: SS residual = (y y ) 2. Da vi estimer 3 parametre har denne df residual = n 3 frihedsgrader. Som tidligere: SS total = (y ȳ) 2, som har df = n 1 frihedsgrader. Som tidligere: SS regression = SS total SS residual, men nu med df regression = (n 1) (n 3) = 2, idet vi har 2 prediktorer. PSE (I17) FSV1 Statistik - 3. lektion 7 / 22
8 AnovaTabel og multipel R 2 Test for regressionseffekt Betragt hypotesen H 0 : β 1 = β 2 = 0 dvs ingen af prediktorerne korrelerer med responsen. HVIS H 0 er sand, så skal MS regression og MS residual være af samme størrelsesorden, dvs F-teststatistikken F = MS regression MS residual skal ligge i nærheden af 1. p-værdien er øvre halesandsynlighed for teststatistikken i en F-fordeling med (df regression, df residual ) frihedsgrader. PSE (I17) FSV1 Statistik - 3. lektion 8 / 22
9 AnovaTabel og multipel R 2 F-test og R 2 Exorbitant stor F-værdi, dvs klar effekt af prediktorerne. Vi kan aflæse R 2 = , dvs alder og højde forklarer ca. 44% af totalvariationen i FEV1. PSE (I17) FSV1 Statistik - 3. lektion 9 / 22
10 Ensidet variansanalyse: Dummy kodning Eksempel Vi skal kigge på et datasæt vedrørende lungefunktionen hos arbejdere i cadmium industrien. Undersøgelsens resultater er rapporteret i P. Armitage and G. Berry (1987), Statistical Methods in Medical Research, 2nd ed., Blackwell. Ud over samhørende værdier af alder(år) og vitalkapacitet(liter) har man for hver person registreret graden af cadmiumeksponering, iht følgende ordinale skala A: Ingen eksponering B: Under 10 års eksponering C: Over 10 års eksponering Vi indfører tillige 2 såkaldte dummyvariable x 1 : Denne er lig med 1, hvis du er i gruppeb og ellers nul. x 2 : Denne er lig med 1, hvis du er i gruppec og ellers nul. PSE (I17) FSV1 Statistik - 3. lektion 10 / 22
11 Ensidet variansanalyse: Dummy kodning Ensidet variansanalyse Idet y er vitalkapacitet skal vi først kigge på modellen y = β 0 + β 1 x 1 + β 2 x 2 + ε Ingen eksponering: x 1 = x 2 = 0, dvs y = β 0 + ε. Mao: β 0 er middeltallet for populationen af ikke eksponerede. Lav eksponering: x 1 = 1, x 2 = 0, dvs y = β 0 + β 1 + ε. Mao: β 1 er forskel mellem middeltal for de laveksponerede og ikkeeksponerede. Tilsvarende: β 2 er forskel mellem middeltal for de højeksponerede og ikkeeksponerede. PSE (I17) FSV1 Statistik - 3. lektion 11 / 22
12 Ensidet variansanalyse: Dummy kodning Ensidet variansanalyse Analyze Regression Linear... Med en p-værdi på 9% er der - om nogen - kun svag overordnet signifikans af eksponering. Også manifesteret i en R 2 under 6%. Bemærk at Stata i Source-søjlen bruger termen Model i stedet for Regression. PSE (I17) FSV1 Statistik - 3. lektion 12 / 22
13 Ensidet variansanalyse: Dummy kodning Ensidet variansanalyse IkkeEksponeringsgruppen( cons) har et middeltal på liter. laveksponeret(x1): Forskellen på lav og ingen eksponering er 0.01 liter. IkkeSignifikant. højeksponeret(x2): Forskellen på høj og ingen eksponering er liter, hvilket er signifikant med pværdi=3.7%. PSE (I17) FSV1 Statistik - 3. lektion 13 / 22
14 Kovariansanalyse og effektmodifikation Eksempel Det ser ud til at højeksponering giver et signifikant fald på 0.5 liter i vitalkapacitet. Men dette kunne vel nemt forklares ved, at de højeksponerede er gamle? I middel er de højeksponerede mere end 10 år ældre. PSE (I17) FSV1 Statistik - 3. lektion 14 / 22
15 Kovariansanalyse og effektmodifikation Eksempel Det kunne se ud til at de højeksponeredes vitalkapacitet aftager hurtigere med alderen. Hvilket måske kunne forklares med at alder er en proxy for antal års eksponering og at dette har en negativ indvirkning på vitalkapacitet. Vi vil undersøge om de 2 linier har signifikant forskellig hældning. PSE (I17) FSV1 Statistik - 3. lektion 15 / 22
16 Kovariansanalyse og effektmodifikation Kovariansmodel y = β 0 + β 1 alder + β 2 x 2 + β 3 x 2 alder + ε Ikke højeksponeret(x 2 = 0) giver linien y = β 0 + β 1 alder dvs ændringen i vitalkapacitet er β 1 liter/år for de ikke højeksponerede. HøjEksponeret(x 2 = 1) giver linien y = (β 0 + β 2 ) + (β 1 + β 3 ) alder dvs ændringen i vitalkapacitet er β 1 + β 3 liter/år for de højeksponerede. Dette betyder at β 3 er forskellen på de 2 liniers hældning. Vi vil så undersøge H 0 : β 3 = 0. PSE (I17) FSV1 Statistik - 3. lektion 16 / 22
17 Kovariansanalyse og effektmodifikation Kovariansanalyse Statistics Linear models... Linear... c. foran variabelnavnet fortæller Stata, at variablen skal opfattes som skalær(continuous) i forbindelse med vekselvirkning. ## fortæller Stata at vi vil inkludere vekselvirkning mellem de 2 variable. PSE (I17) FSV1 Statistik - 3. lektion 17 / 22
18 Kovariansanalyse og effektmodifikation Kovariansanalyse Effekt af alder for ikke højeksponeret(age): liter/år. Effekt af alder for højeksponeret(age+c.age#c.x2): liter/år. Forskel i alderseffekt(c.age#c.x2): liter/år, ses at være signifikant med pværdi 1.7%. PSE (I17) FSV1 Statistik - 3. lektion 18 / 22
19 Tosidet variansanalyse PeruLungeData Variable Model: y: FEV1(liter). x 1 : Dummy for køn( dreng =1). x 2 : Dummy for respsymp( ja =1). Populationsparametre: y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 + ε β 0 : Middeltal når x 1 = x 2 = 0, dvs piger uden respsymp. β 1 : Hovedeffekt af køn. Aktuelt forskel mellem drenge og piger uden symptomer. β 2 : Hovedeffekt af respsymp for piger. β 3 : Vekselvirkning mellem køn og respsymp. Aktuelt forskellen i respsympeffekt mellem dreng og pige. σ: Populationsresidualernes standardfejl. PSE (I17) FSV1 Statistik - 3. lektion 19 / 22
20 Tosidet variansanalyse Tosidet variansanalyse fev1 er afhængig variabel sex og respsymptoms er uafhængige variable, hvor ## betyder at vi inkluderer interaktion, dvs en kombineret effekt. PSE (I17) FSV1 Statistik - 3. lektion 20 / 22
21 Tosidet variansanalyse cons: Middeltal for piger uden symptomer: liter. dreng: Effekt=0.095 liter. Drenge uden symp har et signifikant højere volumen end piger uden symp. ja: Effekt= liter. Symptomer giver piger et signifikant lavere volumen. dreng#ja: Kombineret effekt=0.085 liter er IKKE signifikant. Dvs vi kan antage at effekten af symptomer er den samme for begge køn. PSE (I17) FSV1 Statistik - 3. lektion 21 / 22
22 Tosidet variansanalyse Der er ingen effektmodifikation af køn på respsym, dvs vi slutter med modellen, hvor der kun er hovedvirkninger. Piger uden respsym har et middelvolumen på (95% CI) liter. Drenges middelvolumen er (95% CI) liter højere end pigers. Effekten af respsym er i middel et volumentab på (95% CI) liter. PSE (I17) FSV1 Statistik - 3. lektion 22 / 22
1 Multipel lineær regression
Indhold 1 Multipel lineær regression 2 1.1 Regression med 2 eksponeringsvariable......................... 2 1.2 Fortolkning og estimation................................ 3 1.3 AnovaTabel og multipel R
grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ
Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen
Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning
1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion
Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning
1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Anvendt Statistik Lektion 8. Multipel Lineær Regression
Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke
Kapitel 11 Lineær regression
Kapitel 11 Lineær regression Peter Tibert Stoltze [email protected] Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),
Anvendt Statistik Lektion 7. Simpel Lineær Regression
Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan
Krydstabeller Forventede under nulhypotesen Ki-kvadrat test Residualanalyse Eksakt test
1 Kontingenstabeller Krydstabeller Forventede under nulhypotesen Ki-kvadrat test Residualanalyse Eksakt test 2 Logaritme- og eksponentialfunktion 3 Logistisk regression Sammenligning af odds for 2 grupper
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet
Overlevelsesfunktion. Vi kalder S(t) for overlevelsesfunktionen.
1 Levetidsanalyse Overlevelsesfunktionen Censurering Kaplan-Meier estimatoren Hazard funktionen Proportionale hazards Multipel regression PSE (I17) FSV1 Statistik - 5. lektion 1 / 19 Overlevelsesfunktionen
Multipel Lineær Regression
Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer
Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau
Hvad skal vi lave? 1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ. Teststatistik P-værdi Signifikansniveau 2 t-test for middelværdi Tosidet t-test for middelværdi Ensidet t-test for middelværdi
Statistik Lektion 4. Variansanalyse Modelkontrol
Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Forelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse
. september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression
Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller
Hvad skal vi lave? 1 Kovariansanalyse Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning 2 Sammenligning af modeller 3 Mere generelle modeller PSE (I17) ASTA - 14. lektion
Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk
Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.
1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...
Indhold 1 Statistisk inferens: Hypotese og test 2 1.1 Nulhypotese - alternativ.................................. 2 1.2 Teststatistik........................................ 3 1.3 P-værdi..........................................
Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary
1 Kontingenstabeller Betinget fordeling Uafhængighed 2 Chi-kvadrat test for uafhængighed Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary
2 Logaritme- og eksponentialfunktion 6
Indhold 1 Kontingenstabeller 2 1.1 Krydstabeller....................................... 2 1.2 Forventede under nulhypotesen............................. 4 1.3 Ki-kvadrat test......................................
Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model
Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ
Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april
Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et
Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse
Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser
Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).
Program 1. multipel regression 2. polynomiel regression (og andre kurver) 3. kategoriske variable 4. Determinationkoefficient og justeret determinationskoefficient 5. ANOVA-tabel 1/13 Multipel regression
Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]
Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Eksamen i Statistik for biokemikere. Blok
Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)
Økonometri: Lektion 2 Multipel Lineær Regression 1/27
Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere
Module 4: Ensidig variansanalyse
Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2
1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens
Oversigt Oversigt over emner 1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens 2 Konfidensinterval Konfidensinterval for andel Konfidensinterval - normalfordelt stikprøve
Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Besvarelse af juul2 -opgaven
Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium
Økonometri Lektion 1 Simpel Lineær Regression 1/31
Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen
Module 3: Statistiske modeller
Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Eksamensopgave E05 Socialklasse og kronisk sygdom Data: Tværsnitsundersøgelse fra 1986 Datamaterialet indeholder: Køn, alder, Højest opnåede
Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Logistisk regression
Logistisk regression http://biostat.ku.dk/ kach/css2 Thomas A Gerds & Karl B Christensen 1 / 18 Logistisk regression I dag 1 Binær outcome variable død : i live syg : rask gravid : ikke gravid etc 1 prædiktor
Vejledende løsninger kapitel 9 opgaver
KAPITEL 9 OPGAVE 1 a) Hypoteser H 0 : Der er uafhængighed (ingen sammenhæng) i kontingenstabellen H 1 : Der er afhængighed (sammenhæng) i kontingenstabellen Observerede værdier Ny metode Gammel metode
Module 12: Mere om variansanalyse
Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger..........
Simpel Lineær Regression: Model
Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]
Statistik Lektion 16 Multipel Lineær Regression
Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk
Økonometri: Lektion 2 Multipel Lineær Regression 1/33
Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,
Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol
Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price
Løsninger til kapitel 14
Opgave 14.1 a) Linjetilpasningsplottet bliver: Løsninger til kapitel 14 Idet datapunkterne ligger tæt på og jævnt fordelt omkring den rette linje, så ser det ud til, at der med rimelighed er tale om en
Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.
Regressionsanalyser Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer. Hvilke faglige problemer kan man løse vha. regressionsanalyser? 1 Regressionsanalyser Det primære problem
Generelle lineære modeller
Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal
Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π
Løsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Besvarelse af vitcap -opgaven
Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.
Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]
Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination
Modul 6: Regression og kalibrering
Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................
MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som
MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,
1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2
Indhold 1 Sammenligning af 2 grupper 2 1.1 Responsvariabel og forklarende variabel......................... 2 1.2 Afhængige/uafhængige stikprøver............................ 2 2 Sammenligning af 2 middelværdier
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Mantel-Haenszel analyser Mantel-Haenszel analyser Sidst lærte vi om stratificerede analyser. I dag kigger vi på et specialtilfælde: både exposure
Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression
Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende
Modul 11: Simpel lineær regression
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................
Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j
Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!
Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm
Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik [email protected] Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1 Population og stikprøve 2 Stikprøvevariation
ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression // SVAR
! ØVELSER Statistik, Logistikøkonom Lektion 8 og 9: Simpel og multipel lineær regression // SVAR Eksempel 1 AT OPSTILLE EN SIMPEL LINEÆR REGRESSIONSMODEL - GENNEMGÅS AF JAKOB Et stort lager måler løbende
Kvantitative metoder 2
Kvantitative metoder 2 Den multiple regressionsmodel 5. marts 2007 regressionsmodel 1 Dagens program Emnet for denne forelæsning er stadig den multiple regressionsmodel (Wooldridge kap. 3.4-3.5, E.2) Variansen
Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1
Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen
Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se
Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller
Statistik II 1. Lektion. Analyse af kontingenstabeller
Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression
MPH specialmodul Epidemiologi og Biostatistik
MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:
Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.
Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller
Økonometri 1. Prediktion. Dummyvariabler 9. oktober Økonometri 1: F9 1
Økonometri 1 Prediktion. Dummyvariabler 9. oktober 2006 Økonometri 1: F9 1 Program frem til efterårsferien Om goodness-of-fit, prediktion og residualer (kap. 6.3-4) Kvalitative egenskaber i den multiple
Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge
Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2
Statistik II 4. Lektion. Logistisk regression
Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:
men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1
Økonometri 1 Dummyvariabler 13. oktober 2006 Økonometri 1: F10 1 Dagens program Dummyvariabler i den multiple regressionsmodel (Wooldridge kap. 7.3-7.6) Dummy variabler for kvalitative egenskaber med flere
