Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer
|
|
|
- Mikkel Oscar Søgaard
- 9 år siden
- Visninger:
Transkript
1 Program Simpel og multipel lineær regression Helle Sørensen Simpel LR: repetition, konfidensintervaller, test, prædiktionsintervaller, mm. Multipel LR: estimation, valg af model, multikollinearitet. Eksempel hvor transformation af data er nyttigt (eller...): Michaelis-Menten ligning. StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 1 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 2 / 26 I tirsdags: model og estimation I tirsdags: Prædikterede værdier og residualer Set-up: responsvariabel og én forklarende kvantitativ variabel. Statistisk model: y i = β 0 + β 1 x i + ε i hvor ε erne antages at være uafhængige og N(0, σ)-fordelte. Estimation: ˆβ 0 og ˆβ 1 findes ved least squares, nemlig således at er så lille som muligt. n i=1 (y i β 0 β 1 x i ) 2 Minimerer summen af kvadraterne af lodrette afstande mellem observationer og forventede/prædikterede værdier. Regressionslinie: y = ˆβ 0 + ˆβ 1 x Prædikteret værdi for vilkårlig x-værdi: ŷ = ˆβ 0 + ˆβ 1 x. Specielt for værdierne x i i datasættet: ŷ i = ˆβ 0 + ˆβ 1 x i. Residualer: r i = y i ŷ i Estimat for spredning af ε i : Aflæses i SAS som Root MSE. 1 ˆσ = s Y X = n 2 n i=1 r 2 i StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 3 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 4 / 26
2 I tirsdags: Modelkontrol Standardiserede residualer: r i = r i sd(r i ) Hvis modelantagelserne er ok, så er r i erne normalfordelte med middelværdi 0 og spredning 1 uanset i. Modelkontrol: Residualplot: Plot (x i, r i ) eller (ŷ i, r i ). Checker antagelserne om at ε erne har middelværdi 0 og samme spredning. QQ-plot over r i erne. Checker normalfordelingsantagelsen. Cook-afstande: Plot (i,d i ) hvor D i måler afstanden måler effekten på de prædikterede værdier af at udelade observation i. Checker for særligt indflydelsesrige observationer. Problemer med modellen? Sommetider nyttigt at transformere responsen og/eller den forklarende variabel. Konfidensintervaller Især interesseret i konfidensintervaller for Husk: β 1 forventet ændring i y ved ændring i x på en enhed µ Y X = β 0 + β 1 x forventet værdi for y når forklarende variabel er x. 95% KI : estimat ± t n 2,0.975 SE(estimat) hvor SE som sædvanlig betyder standard error (estimeret spredning). SE( ˆβ 1 ) = s Y X (xi x) 2, Hvad sker der når n vokser? Hvad sker der for x langt fra/tæt på x? SE( ˆβ 0 + ˆβ 1 (x x)2 1 x) = s Y X + n (x i x) 2 Hvad sker hvis spredningen omkring linien er stor hhv. lille? Hvordan får vi SE( ˆβ 0 ) og dermed KI for β 0? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 5 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 6 / 26 Konfidensintervaller i SAS Test af hypoteser Konfidensintervaller for β 0 + β 1 x i fås med optionen clm Konfidensintervaller for β 0 og β 1 : SE givet, men jeg kan ikke finde ud af at få proc reg til at beregne konfidensintervallerne direkte... Blodtryksdata: 95% KI for β 1? 95% KI for β 0? 95% KI for β 0 + β 1 50? Se figur side 365. Ofte interesseret i hypotesen H 0 : β 1 = 0. Hvorfor? Testes som sædvanlig på T obs = ˆβ 1 SE( ˆβ 1 ) ; p = 2P(T T obs) hvor T t n 2. Hvor ekstremt ligger den observerede værdi af T i t n 2 -fordelingen? Det er præcis dette test SAS laver i outputtet med parameterestimater. Hvordan skal testet ændres hvis hypotesen er H 0 : β 1 = β 10 for et kendt tal β 10? Hvordan tester vi mon hypotesen µ Y X = µ 0 for et kendt tal µ 0? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 7 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 8 / 26
3 Test for ingen effekt af den forklarende variabel Forklaringsgrad R 2 Tilbage til hypotesen H 0 : β 1 = 0. Svarer til at vi kan fjerne variablen x fra modelbeskrivelsen. Som i variansanalysen: F -test. Til variationskilder: variation der kan forklares ved ret linie samt variation omkring ret linie: (y i ȳ) 2 = (ŷ i ȳ) 2 + (y i ŷ i ) 2 Variansanalyseskema side 363 og 364. F -test: F obs = (ŷ i ȳ) 2 /1 (y i ŷ i ) 2 /(n 2), p = P(F F obs), F F (1,n 2) R 2 -værdien er andelen af den totale variation som kan forklares med den rette linie: R 2 = (ŷ i ȳ) 2 (y i ȳ) 2 R 2 er netop kvadratet på Peason korrelationskoefficienten mellem x og y. R 2 rapporteres ofte som et mål for modellens egnethed, men er stærkt overvurderet: Hvad er det egentlig R 2 måler? Hvad hvis der er en stor naturlig variation? Hvad er risikoen ved at tilføje ekstra forklarende variable for at booste sin R 2? Sammenhæng mellem t-test og F -test: T 2 = F, samme p-værdi. StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 9 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 10 / 26 Prædiktionsintervaller Regression af y på x eller omvendt? Husk konfidensintervallet for µ Y X = β 0 + β 1 x: ˆβ 0 + ˆβ 1 (x x)2 1 x ± t n 1,0.975 s Y X + n (x i x) 2 Hvad udtaler konfidensintervallet sig om? Ønsker nu at angive et prædiktionsinterval, dvs. et interval hvor en ny observation vil havne med ssh. 95%. Hvad mangler vi at tage højde for? Hvordan? Skal det være smallere eller bredere end konfidensintervallet? Se figurer side 365 og 366. Hvad sker der hvis n vokser? Prædiktionsintervaller fås med optionen cli i SAS. For hvilke værdier af x er prædiktionen og PI troværdige? Model for sammenhæng mellem x og y samt tilhørende estimater: y i = β 0 + β 1 x i + ε i ( ˆβ 0, ˆβ 1 ) Alternativ model og tilhørende estimater: x i = α 0 + α 1 y i + e i (ˆα 0, ˆα 1 ) Hvis vi ser bort fra restleddet svarer dette til y i = α 0 α α 1 x i. Der gælder ikke ˆβ 0 = ˆα 0 /ˆα 1 og ˆβ 1 = 1/ˆα 1. Hvorfor ikke? Men testene for H 0 : β 1 = 0 og α 1 = 0 faktisk identiske. Hvornår er det rimeligt at bruge hvilken model? Hvad hvis ingen af modellerne er mere rimelig end den anden? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 11 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 12 / 26
4 Multipel lineær regression Eksempel: blodtryk for voksne Simpel lineær regression: én kvantitativ forklarende variabel (prædiktor) Multipel lineær regression: flere kvantitative forklarende variable (prædiktorer) Model: y i = β 0 + β 1 x 1,i + β 1 x 2,i + + β p 1 x p 1,i + ε i hvor ε i erne er uafhængige og N(0,σ)-fordelte. Hvad er fortolkningen af β 1,β 2,...,β p 1? β 0? σ? FLH side 370: blodtryksmålinger for 50 voksne. Variable: Response: sbp Kvantitative forklarende: age, education, weight, height, bmi Kategoriske forklarende: race, sex, smoke FLH foreslår at bruge (delmængde af) variablene: age, height, weight. Sammenhænge mellem forklarende variable: scatter plots og parvise korrelationer. Se side 371. Begge dele beskriver kun parvise sammenhænge. Vi kan evt. forsøge at inddrage education og bmi, også (senere). StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 13 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 14 / 26 Eksempel: blodtryk for voksne Valg af model Hvor mange variable kan data bære? FLH-tommelfingerregel: n mindst 10 gange antal variable. For en given multipel regressionsmodel kan vi estimere β 0,β 1,...,β p 1 ved LS samt estimere σ. Lave modelkontrol vha. residualanalyse beregne SE( ˆβ j ) og dermed konfidensintervaller for β j. Bemærk: DF = n p; n minus antallet af parametre i middelværdibeskrivelsen. Men hvordan finder vi ud af hvilke variable vi skal inkludere i modellen? FLH beskriver to metoder til valg af model: Forward stepwise selection All possible regressions procedure Begge dele er ret automatiske /objektive procedurer. Måske for automatiske... Alternativ: backward stepwise selection. Overvej hvilke variable det giver mening at inddrage fra et fagligt synspunkt. Pas på med at inddrage for mange. Reducer modellen, dvs. test for effekt af variable indtil alle er signifikante. Hypotesen H 0 : β j = 0 testes med t-test. I hvilken rækkefølge skal vi teste for variablene? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 15 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 16 / 26
5 Eksempel: blodtryk for voksne Multikollinearitet Startmodel: sbp i = β 0 + β 1 age i + β 2 weight i + β 3 height i + ε i hvor ε i erne er uafhængige og N(0,σ)-fordelte. Modelkontrol giver ikke umiddelbart anledning til bekymringer. Modelreduktion: Ikke signifikant effekt af højde når vægt og alder er med i modellen (p = 0.057) Alder har signifikant effekt (p = ). ˆβ 1 = (SE 0.044) Vægt har signifikant effekt (p = ). ˆβ 2 = (SE 0.119) Når frem til samme model som i FLH ved forward stepwise selection. Multikollinearitet betyder at der er forklarende variable der er tæt på at være lineært afhængige. En forklarende variabel kan næsten skrives som linearkombination af nogle af de øvrige. Eksempler: Stærkt korrelerede variable. To variable udtrykker stort det samme, fx. højde/skostørrelse(?) eller bmi/fedtprocent. Ikke svært at finde... Flere variable indblandet, fx. alder, uddannelse målt i år, antal år på arbejdsmarkedet. Sværere at finde... Hvad er problemet? Ikke problemer med at fitte modellen, men... parameterestimater er ikke troværdige da forskellige effekter blandes sammen. fortolkningen af parametrene ikke rimelige: ændring i x j når alle andre variable holdes fast. Hvorfor ikke? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 17 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 18 / 26 Multikollinearitet Eksempel: blodtryk for voksne Symptomer på multikollinearitet: Fortegn på estimater får et andet fortegn end det man ville forvente Store p-værdier for variable som man ellers ville tro havde en effekt Store p-værdier for alle/næsten alle forklarende variable Store ændringer i parameterestimater hvis en/flere forklarende variable udelades Hvad sker hvis vi også inkluderer bmi og education i modellen? Pas ekstra meget på med ekstrapolation udover områder med observationer! StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 19 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 20 / 26
6 Eksempel: puromycin Eksempel: puromycin Eksperiment med enzymet puromycin. Hastigheden af en bestemt kemisk reaktion blev målt for seks forskellige koncentrationer af enzymet Andre forhold i forsøget var uændrede To gentagelser per koncentration. 12 sammenhørende værdier af puromycinkoncentration og hastighed. Koncentration Hastighed Hastighed Oprindelige værdier Koncentration y=1/hastighed Reciprokke værdier x=1/koncentration StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 21 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 22 / 26 Michaelis Menten model Analyse af den reciprokke model Michaelis-Menton ligning: Her er C koncentration, V hastighed V = θ C ρ + C Parameteren θ angiver den maksimale hastighed (for en meget stor koncentration) Parameteren ρ er den koncentration hvor reaktionshastigheden er halvdelen af den maksimale, dvs. θ/2. Hvorfor passer denne model ikke ind i den lineære regressionsmodel? Hvad sker der hvis ser på den reciprokke af V, dvs. 1/V? Lineær regressionsmodel: eller Estimater for α og β? 1 = 1 V i θ + ρ θ 1 + ε i C i y i = α + β x i + ε i Afhænger reaktionshastigheden af koncentrationen? Estimater for θ og ρ? Estimat for forventet reaktionshastighed ved koncentration på 0.5? Ved hvilken koncentration er den forventede reaktionshastighed 175? Mon modelantagelserne er rimelige? StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 23 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 24 / 26
7 Ikke-lineær regressionsmodel Resumé Alternativ model: med de sædvanlige antagelser på ε erne. V i = θ C i ρ + C i + ε i Modellen kan fittes med proc nlin. Estimater for θ og ρ? Estimat for forventet reaktionshastighed ved koncentration på 0.5? Ved hvilken koncentration er den forventede reaktionshastighed 175? Sammenlign med den anden model. Også SE er. Er modelantagelserne mon ok? Simpel/multipel: en eller flere forklarende variabel. Fortolkning af parametre er essentiel Konfidensintervaller vs. prædiktionsintervaller Fortolkningsproblemer ved multikollinearitet i multipel LR StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 25 / 26 StatBK (Uge 6, torsdag) Simpel og multipel lineær regresison 26 / 26
Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration
Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: [email protected] Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion
Ensidet variansanalyse
Ensidet variansanalyse Sammenligning af grupper Helle Sørensen E-mail: [email protected] StatBK (Uge 47, mandag) Ensidet ANOVA 1 / 18 Program I dag: Sammenligning af middelværdier Sammenligning af spredninger
Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie
Program Ensidet variansanalyse Sammenligning af grupper Helle Sørensen E-mail: [email protected] I dag: Sammenligning af middelværdier Sammenligning af spredninger Parvise sammenligninger To eksempler:
To samhørende variable
To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen
Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test
Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x k uafhængige variable
En Introduktion til SAS. Kapitel 6.
En Introduktion til SAS. Kapitel 6. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 6 Regressionsanalyse i SAS 6.1 Indledning Dette kapitel
Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter
Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: [email protected] I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede
Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik
Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 7: Eksempler 7.1 Beskrivende dataanalyse............................... 1 7.1.1 Diagrammer.................................
Konfidensinterval for µ (σ kendt)
Program 1. Repetition: konfidens-intervaller. 2. Hypotese test 3. Type I og type II fejl, p-værdi 4. En og to-sidede tests 5. Test for middelværdi (kendt varians) 6. Test for middelværdi (ukendt varians)
Normalfordelingen. Statistik og Sandsynlighedsregning 2
Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på
Module 12: Mere om variansanalyse
Mathematical Statistics ST06: Linear Models Bent Jørgensen og Pia Larsen Module 2: Mere om variansanalyse 2. Parreded observationer................................ 2.2 Faktor med 2 niveauer (0- variabel)........................
Kapitel 11 Lineær regression
Kapitel 11 Lineær regression Peter Tibert Stoltze [email protected] Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),
Anvendt Statistik Lektion 8. Multipel Lineær Regression
Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke
Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau
ypotese test Repetition fra sidst ypoteser Test af middelværdi Test af andel Test af varians Type 1 og type fejl Signifikansniveau Konfidens intervaller Et konfidens interval er et interval, der estimerer
Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.
Program 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test. 1/19 Konfidensinterval for µ (σ kendt) Estimat ˆµ = X bedste bud
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse
Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser
Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot
Program Residualanalyse Flersidet variansanalyse Helle Sørensen Modelkontrol (residualanalyse) i tosidet ANOVA med vekselvirkning. Test og konklusion i tosidet ANOVA (repetition) Tresidet ANOVA: the works
Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller
Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende
Multipel Lineær Regression
Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer
Lineær regression i SAS. Lineær regression i SAS p.1/20
Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression
Statistik Lektion 17 Multipel Lineær Regression
Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x
Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)
Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: [email protected] Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie
Reeksamen i Statistik for Biokemikere 6. april 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk
Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.
Modul 6: Regression og kalibrering
Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................
Modul 5: Test for én stikprøve
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 5: Test for én stikprøve 5.1 Test for middelværdi................................. 1 5.1.1 t-fordelingen.................................
Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning
1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion
Anvendt Statistik Lektion 7. Simpel Lineær Regression
Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot
12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse
. september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Besvarelse af juul2 -opgaven
Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium
Modul 11: Simpel lineær regression
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................
Løsning til øvelsesopgaver dag 4 spg 5-9
Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for
To-sidet variansanalyse
Program 1. To-sidet variansanalyse 2. Hierarkisk princip 3. Tre (og flere) sidet variansanalyse 4. Variansanalyse med blocking 5. Flersidet variansanalyse med tilfældige faktorer 6. En oversigtsslide til
Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??
Dagens Temaer k normalfordelte obs. rækker i proc glm. Test for lineær regression Test for lineær regression - via proc glm p. 1/?? Proc glm Vi indlæser data i datasættet stress, der har to variable: areal,
Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser
Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier
Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).
Program 1. multipel regression 2. polynomiel regression (og andre kurver) 3. kategoriske variable 4. Determinationkoefficient og justeret determinationskoefficient 5. ANOVA-tabel 1/13 Multipel regression
Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge
Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2
Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper
Program Forsøgsplanlægning og tosidet variansanalyse Helle Sørensen E-mail: [email protected] I formiddag: Forsøgstyper og forsøgsplanlægning Analyse af data fra fuldstændigt randomiseret blokforsøg: tosidet
Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable
Faculty of Health Sciences Logistisk regression: Interaktion Kvantitative responsvariable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet [email protected]
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Statistik II 4. Lektion. Logistisk regression
Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:
Forelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P
Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model
Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ
Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning
1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3
Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (24.-25.
Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (24.-25. marts) En stikprøve bestående af 65 mænd og 65 kvinder
Rygtespredning: Et logistisk eksperiment
Rygtespredning: Et logistisk eksperiment For at det nu ikke skal ende i en omgang teoretisk tørsvømning er det vist på tide vi kigger på et konkret logistisk eksperiment. Der er selvfølgelig flere muligheder,
Epidemiologi og Biostatistik
Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag
Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression
Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende
Lineær og logistisk regression
Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet [email protected] Dagens program Lineær regression
Privatansatte mænd bliver desuden noget hurtigere chef end kvinderne og forholdsvis flere ender i en chefstilling.
Sammenligning af privatansatte kvinder og mænds løn Privatansatte kvindelige djøfere i stillinger uden ledelsesansvar har en løn der udgør ca. 96 procent af den løn deres mandlige kolleger får. I sammenligningen
02402 Løsning til testquiz02402f (Test VI)
02402 Løsning til testquiz02402f (Test VI) Spørgsmål 4. En ejendomsmægler ønsker at undersøge om hans kunder får mindre end hvad de har forlangt, når de sælger deres bolig. Han har regisreret følgende:
Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]
Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination
Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model
Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H
Eksamen i Statistik for Biokemikere, Blok januar 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for Biokemikere, Blok 2 2008 09 19. januar 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet
Program. Tosidet variansanalyse og forsøgsplanlægning. Repetition: ensidet variansanalyse. Eksempel: data fra Collinge et al
Program Tosidet variansanalyse og forsøgsplanlægning Helle Sørensen E-mail: [email protected] I formiddag: Ensidet ANOVA: repetition og Collinge eksempel. Additiv tosidet ANOVA (blokforsøg) Tosidet ANOVA
Økonometri: Lektion 2 Multipel Lineær Regression 1/27
Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere
Trivsel og fravær i folkeskolen
Trivsel og fravær i folkeskolen Sammenfatning De årlige trivselsmålinger i folkeskolen måler elevernes trivsel på fire forskellige områder: faglig trivsel, social trivsel, støtte og inspiration og ro og
Statistik Lektion 16 Multipel Lineær Regression
Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk
1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.
Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller
Økonometri 1. Inferens i den lineære regressionsmodel 25. september 2006. Oversigt: De næste forelæsninger
Oversigt: De næste forelæsninger Økonometri Inferens i den lineære regressionsmodel 5. september 006 Statistisk inferens: hvorledes man med udgangspunkt i en statistisk model kan drage konklusioner på
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ
Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen
Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion
Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,,
Basal statistik. 30. januar 2007
Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet
Note til styrkefunktionen
Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H
Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives
Simpel Lineær Regression: Model
Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]
Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004
Dagens program Økonometri 1 Dummyvariabler 21. oktober 2004 Emnet for denne forelæsning er kvalitative egenskaber i den multiple regressionsmodel (Wooldridge kap. 7.1-7.6) Kvalitative variabler generelt
Multipel regression 22. Maj, 2012
Data: Det færøske kviksølv-studie Simpel linær regression Confounding Multipel lineær regression Fortolkning af parametre Vekselvirkning Kollinearitet Modelkontrol Multipel regression 22. Maj, 2012 Esben
Module 3: Statistiske modeller
Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med
Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable
Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet [email protected] Sammenhæng
Regressionsanalyse i SAS
Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse
Ligninger med reelle løsninger
Ligninger med reelle løsninger, marts 2008, Kirsten Rosenkilde 1 Ligninger med reelle løsninger Når man løser ligninger, er der nogle standardmetoder som er vigtige at kende. Vurdering af antallet af løsninger
Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger
Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: [email protected] I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt
Besvarelse af vitcap -opgaven
Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.
Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data
Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: [email protected] Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration
grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)
Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Oversigt Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) Klaus
