Kursus i basal statistik: Multipel regression

Størrelse: px
Starte visningen fra side:

Download "Kursus i basal statistik: Multipel regression"

Transkript

1 Multipel regression: Princip 2 Multipel regression: Et outcome, mange forklarende variable Problemstillingen kan eksempelvis være: Kursus i basal statistik: Multipel regression Birthe Lykke Thomsen Det Nationale Forskningscenter for Arbejdsmiljø Prædiktion eller konstruktion af normalområde til diagnostisk brug, for eksempel finde et skøn over fostervægten ved hjælp af ultralydsmål. Prædiktion af outcome er hovedfokus, ikke de specifikke sammenhænge med de enkelte forklarende variable. Ønske om at justere for forstyrrende variable ( confoundere ), for eksempel vurdere, om grøntsager beskytter mod forhøjet blodtryk uden fejlagtigt at tro på en falsk sammenhæng, fordi rygere måske spiser færre grøntsager, mens fysisk aktive måske spiser flere grøntsager. Flere forklarende variable er af interesse: Hvilke er vigtige? Fanger de det samme aspekt? Har de selvstændig betydning? Eksempelvis en vurdering af, hvordan vægttilvækst afhænger af indtaget af protein, fedt, sukkerarter, andre typer af kulhydrater og fibre. Multipel regression: Princip 3 Multipel regression: Princip 4 Alle principperne for multipel regression gælder for enhver statistisk analyse med flere forklarende variable kun modelkontrollen afhænger af, om det er almindelig regression, logistisk regression eller overlevelsesanalyse. Programmeringsteknisk set: Helt magen til simpel lineær regression, man skriver bare flere variable i MODEL y = x1 x2 x3; Modelkontrollen er også magen til der er bare flere forklarende variable, som residualerne skal tegnes op mod.

2 Multipel regression 5 Repetition af simpel lineær regression Multipel regression: Repetition af simpel lineær regression 6 Spørgsmål: Hvordan hænger fedmegraden i skolealderen sammen med barnets højde i 1-årsalderen? Fedmegraden i skolealderen måles her ved en fedmescore beregnet som et standardiseret mål for, hvor langt barnets BMI-vækstkurve ligger fra den mediane BMI vækstkurve for 7-14 årige børn. Med standardiseret menes, at målet har en standarddeviation på 1. (Upublicerede data fra T.I.A. Sørensen) Modelkontrol i simpel lineær regression Statistisk model for person i: Y i = a + bx i + e i, e i N(0, σ 2 ) uafhængige for forskellige i er Hvad skal vi tjekke her? 1. linearitet tegne 2. varianshomogenitet tegne 3. normalfordelte residualer (afstande til linien) tegne Husk: Intet krav om normalfordeling på X i erne eller Y i erne!! 4. Vigtigst af alt: uafhængighed mellem residualerne tænke! Er der flere observationer på samme individ? Indgår der personer fra samme familie? Tvillinger? Multipel regression: Repetition af simpel lineær regression 7 Modelkontroltegninger, husk altid af residualer mod den forklarende variabel afvigelse fra linearitet ses typisk som eller facon mod de prædikterede værdier ŷ i tjek for voksende varians evt. mod klassevariabel (boxplot) i fraktildiagram normalfordeling svarer til ret linie nyt plot til tjek af konstant varians: (normerede residualer) 2 mod de prædikterede værdier kurven viser, om variansen vokser (den skal ligge vandret omkring 1) Multipel regression: Modelkontrol 8 Det nye variansplot er nemt at vurdere, men det er ikke med som standard plot. Det kræver særskilt programmering: 1. Normerede residualer skal gemmes på et datasæt sammen med de prædikterede værdier PROC REG DATA=Skolehelbred; MODEL FedmeSc = Hjd1 / CLB; OUTPUT OUT=med_resid P=Predicted RSTUDENT=Norm_Resid_Uden; QUIT; 2. En ny variabel lig med residualerne kvadreret skal beregnes DATA med_resid; SET med_resid; Norm_Resid_Squared = norm_resid_uden**2; 3. Den nye variabel skal tegnes op mod de prædikterede værdier med en udglattet gennemsnitskurve, helst med en Y-akse, der går fra 0 til 4. Konstant varians giver en kurve, der ligger omkring den vandrette linje y = 1 *- Udseendet af akserne, når de bruges i GPLOT: -*; AXIS1 LABEL=(H=3) VALUE=(H=2.5) MINOR=NONE; AXIS222 LABEL=(H=3 A=90) VALUE=(H=2.5) ORDER=(0 TO 4) MINOR=(N=1); *- Tegn udglattet kurve: -*; SYMBOL1 V=CIRCLE CV=BLACK H=2 I=SM75S CI=RED MODE=INCLUDE; PROC GPLOT DATA=med_resid; PLOT Norm_Resid_Squared*predicted / HAXIS=AXIS1 VAXIS=AXIS222 VREF=1 CVREF=BLACK LVREF=33; QUIT;

3 Multipel regression: Modelkontrol 9 Hvis lineariteten ikke holder, bliver estimaterne misvisende og ufortolkelige! Afhjælpning: Tilføj flere kovariater, kovariater relateret til den oprindelige kovariat, f.eks. log(hjd1): FedmeSc=a+b 1 Hjd1+b 2 log(hjd1) Test af, om linearitet er ok: b 2 =0. Test af, om %-vis effekt er ok: b 1 =0. helt nye kovariater Transformer variablene med logaritmer kvadratrod invers Lad være med at gøre noget: ikke-lineær regression Multipel regression: Modelkontrol 10 Varianshomogenitet? (konstant varians = konstant spredning) Ikke vigtigt for estimation af regressionsparametrene, men hvis der ikke er rimelig varianshomogenitet, bliver estimationen inefficient (dvs. unødigt stor usikkerhed på parameterestimaterne) En forudsætning for, at man kan stole på spredningen, standard errors for parametrene og p-værdierne Vigtigt for normalområder og prædiktionsgrænser Multipel regression: Modelkontrol 11 Afhjælpning af variansinhomogenitet For at få en tilnærmelse til mere korrekte konfidensgrænser og p-værdier i tilfælde af variansinhomogenitet kan man tilføje options HCC HCCMETHOD=3 i MODEL-statement i PROC REG i SAS: PROC REG DATA=Skolehelbred; MODEL FedmeSc = Hjd1 / CLB HCC HCCMETHOD=3; QUIT; Mere komplicerede modeller (PROC MIXED) Multipel regression: Modelkontrol 12 Typiske alternativer til varianshomogenitet Konstant relativ spredning = konstant variationskoefficient Variationskoefficient (CV) = spredning middelværdi ofte konstant, når man ser på størrelser, der (evt. skjult) involverer division (f.eks. koncentrationer, BMI, andel positive celler, laboratorieassays, observationer beregnet ud fra lys- eller farveintensiteter... ) giver voksende kurve i (det nye) plot af kvadrerede residualer mod prædikterede værdier og kan give trompetfacon på det sædvanlige plot af residualer mod prædikterede værdier afhjælpes ved at transformere outcome (Y i ) med logaritme: Spredning(ln(y)) Spredning(y) = CV Middelværdi(y) Forskellige grupper f.eks. flere instrumenter eller laboratorier, mænd/kvinder, forskellige patienttyper afhjælpes med mere komplicerede modeller for variansen

4 Multipel regression: Modelkontrol 13 Normalfordelingsantagelsen er ikke kritisk for selve fittet: Mindste kvadraters metode giver under alle omstændigheder gode estimater (men pas på outliers) er i princippet en forudsætning for t-fordelingen af teststørrelsen, men reelt behøves kun, at estimatet ˆb er nogenlunde normalt fordelt, og dette passer ofte, når der er rimeligt mange observationer. er vigtig for normalområder og prædiktionsgrænser Husk: Det er kun residualerne, der antages at være normalfordelte, hverken outcome eller kovariater! Outliers i den høje ende ( hængekøje ) kan ofte afhjælpes ved at logaritmetransformere outcome. Multipel regression: Transformation 14 Transformation: logaritmer, kvadratrod, invers logaritmer (X og/eller Y ) giver simpel fortolkning af estimaterne skal bruges, hver gang man føler trang til at tænke relativt til eller vil omregne til % kvadratrod (Y ) giver konstant varians for tælletal (f.eks. antal cancertilfælde) kan afhjælpe variansinhomogenitet, når man ikke kan tage logaritmen, fordi der er 0 er i data, f.eks. ved data fra assays, hvor man har brugt den metodologisk inadekvate, men ofte brugte formel (observation negativ kontrol)/(positiv kontrol negativ kontrol) for at justere for baggrundsstøj [få fat i de oprindelige observationer] invers (X og/eller Y ) normalt kun relevant, når den også er forståelig, som f.eks. omregning fra antal hændelser pr tidsenhed til gennemsnitstid mellem hændelser eller omvendt omregning fra hvor lang tid tager det (varighed) til hvor hurtigt går det (hastighed) eller omvendt Multipel regression: Transformation 15 Hvorfor tage logaritmer? af de forklarende variable for at opnå linearitet, hvis det er %-vise forskelle, der har konstant effekt. Brug gerne 2-tals logaritmer (effekt af fordobling) eller XX=log(X)/log(1.1); (så er ˆbxx lig effekten af 10% forskel i X) for at se på multiplikative sammensætninger af nogle af de forklarende variable (f.eks. vægt og højde, jf. BMI) for at mindske indflydelsen af nogle få, ekstremt store værdier af outcome overvej om de forklarende variable så også skal transformeres fordi man forventer multiplikative effekter på Y for at opnå linearitet for at mindske indflydelsen af høje outliers for at opnå varianshomogenitet, fordi en konstant variationskoefficient på Y betyder konstant varians på log(y ) (gælder for alle logaritmetransformationer) for at opnå normalitet Multipel regression: Transformation 16 Logaritme-transformation af en forklarende variabel X (bemærk: her skal der ikke tilbagetransformeres) ˆb er effekten på responsvariablen for hver gang X ganges med en fast faktor hvilken faktor afhænger af valget af logaritme XX = log 10 (X) XX = log 2 (X) faktor=10, dvs. 10-dobling af X faktor=2, dvs. fordobling af X XX = log(x)/ log(1.1) faktor=1.1, dvs. 10% større X Tip: logaritme-regneregel med to variable X og Z giver b x log(x) + b z log(z) = b x log(x Z b z/bx), så hvis b z = b x, fås b x log( X ) som i f.eks. talje-hofte ratio Z hvis b z = 2b x, fås b x log( X vægt Z 2 ) som i f.eks. højde 2 =BMI så det er klogere at bruge de to variable log(x) og log(z) i stedet for den præ-definerede, kombinerede variabel ( X Z eller X Z 2 eller... ), så data i stedet for fordomme kan få lov at bestemme den bedste kombination!

5 Multipel regression: Transformation 17 Logaritme-transformation af responsvariablen Y (bemærk: her skal der tilbagetransformeres) De additive effekter af de forklarende variable tilbagetransformerer til multiplikative effekter a + b 1 X 1 + b 2 X 2 anti-log(a) anti-log(b 1 X 1 ) anti-log(b 2 X 2 ) anti-log(ˆb j ) er den faktor, som den prædikterede værdi Ŷ skal ganges med for hver 1 enheds forskel i den forklarende variabel X j omregnet til procentvis ændring i Ŷ : (anti-log(ˆb j ) 1) 100 % For Y Y = ln(y ) er 100 ˆb j ca. lig den %-vise ændring i Ŷ for hver 1 enheds forskel i X j, hvis ˆb j er tilstrækkeligt lille men til artikler bør det beregnes præcist med formlen ovenfor. anti-log(intercept)=anti-log(â) er den konstant, som produktet af de (tilbagetransformerede) multiplikative effekter skal ganges med for at finde den prædikterede værdi Ŷ. Multipel regression: Transformation 18 Logaritme-transformation af responsvariablen Y, fortsat (tilbagetransformation af prædiktionsgrænser) For den tilbagetransformerede prædikterede værdi Ŷ = anti-log(a + b 1 X 1 + b 2 X 2 ) = anti-log(a) anti-log(b 1 X 1 ) anti-log(b 2 X 2 ) skal prædiktionsgrænserne ganges på øvre: Ŷ anti-log(ca. 2 s) nedre: Ŷ anti-log( ca. 2 s) = Ŷ /anti-log(ca. 2 s) hvor s er standard deviationen (RootMSE) fra analysen af den logaritmetransformerede responsvariabel log(y ) Man kan alternativt beregne prædiktionsgrænserne for den logaritmetransformerede respons (a + b 1 X 1 + b 2 X 2 ± ca. 2 s) og så tilbagetransformere hver enkelt grænse til sidst Reminder: Husk altid at tilbagetransformere med den rette anti-log! Multipel regression: Transformation 19 Logaritme-transformation af både X og Y Sammenhængen mellem X og Y er en potensfunktion (og dermed ikke længere eksponentielt voksende eller exponentielt aftagende) Hvis den samme logaritme er brugt for både X og Y, kan log(ŷ ) = â + ˆb log(x) tilbageregnes til Ŷ = A Xˆb, hvor A = anti-log(â), og ˆb er den potens, som X skal opløftes til for at prædiktere Y, dvs. Y Xˆb er er et kvalificeret bud på Y normeret for X, jf. BMI ellers må man først lave tilbagetransformationen til Y s oprindelige skala og derefter forstå, hvad 1 enheds ændring i den transformerede variabel XX svarer til for den originale X (valgte man log 10, log 2 eller pr 10% =log(x)/log(1.1)?) Multipel regression: Effekt af relative forskelle i eksemplet 20 Fedmescoren som funktion af 1-års højden, pr 10% forskelle. R-Square Coeff Var Root MSE fedmesc Mean Standard Parameter Estimate Error t Value Pr> t Intercept Hjd1_pr10pct Parameter 95% Conf. Limits Intercept Hjd1_pr10pct Konklusion: Fedmegraden i skolealderen vokser stærkt signifikant med højden i 1-års alderen, omend forklaringsevnen er begrænset.

6 Multipel regression: Teori 21 Multipel regression Multipel regression: Teori 22 person x 1 x 2... x p y Data: n personer, dvs. n sæt af sammenhørende observationer: 1 x 11 x x 1p y 1 2 x 21 x x 2p y 2 3 x 31 x x 3p y 3 : : :... : : : : :... : : n x n1 x n2... x np y n Den lineære regressionsmodel med p forklarende variable skrives: Parametre: b 0 y i = b 0 + b 1 x i1 + b 2 x i2 + + b p x ip + e i respons middelværdi biologisk variation outcome regressionsfunktionen måleusikkerhed/støj afskæring, intercept Fedmescore Vægt pr 10% 6 b 1,, b p regressionskoefficienter Højde pr 10% Multipel regression: Teori 23 Multipel regression: Opstilling af model, estimation og test 24 Regressionsmodel: y i = b 0 + b 1 x i1 + + b p x ip + e i, Traditionelle antagelser: e i N(0, σ 2 ), uafhængige i = 1,, n Mindste kvadraters metode: Find de b 0, b 1,, b p, der minimerer summen af de kvadrerede lodrette afstande S(b 0, b 1,, b p ) = (yi (b 0 + b 1 x i1 + + b p x ip )) Fedmescore Højde pr 10% Vægt pr 10% 6 Spørgsmål: Hvordan hænger fedmegraden i skolealderen sammen med højde og vægt i 1-årsalderen? Vi er interesserede i at se på multiplikative effekter af højde og vægt i 1-årsalderen for at se, om et mål svarende til BMI kunne være relevant. Derfor bruges logaritmetransformerede højde og vægt som forklarende variable, her med den logaritmetransformation, så parameterestimaterne svarer til 10% forskelle. DATA Skolehelbred; SET SkoleHelbred; Hjd1_pr10pct = LOG(Hjd1)/LOG(1.1); * "/log(1.1)" giver effekt pr 10%; Vgt1_pr10pct = LOG(Vgt1/10)/LOG(1.1); * "Vgt/10" centrerer til 10 kg så ; * Intercept svarer til vægt=10 kg ; PROC REG DATA=SkoleHelbred; MODEL FedmeSc = Hjd1_pr10pct Vgt1_pr10pct / CLB;

7 Multipel regression: Opstilling af model, estimation og test 25 Output (lidt redigeret af hensyn til pladsen) Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model <.0001 Error Corrected Total Root MSE R-Square Dependent Mean Adj R-Sq Coeff Var Multipel regression: Opstilling af model, estimation og test 26 Test af simple hypoteser Er højden uden betydning, når vægten er med i modellen? H 0 : b 1 =0 Her har vi ˆb 1 = med se(ˆb 1 )= , og t-testet 95% konfidensinterval: t = ˆb 1 = 2.93 t(194), p = se(ˆb 1 ) ˆb1 ± t (97.5%,194) se(ˆb 1 ) = ± = ( 0.77, 0.15) Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t 95% Conf. Limits Intercept Hjd1_pr10pct Vgt1_pr10pct < Men: ˆbj erne er korrelerede, når de forklarende variable er korrelerede! Derfor kan man ikke lave et kombineret test/konfidensområde for begge variable ud fra testene/konfidensgrænserne for hver af variablene Multipel regression: Fortolkning 27 Multipel regression: Fortolkning 28 Simple (univariate) regressionsmodeller: Responsen vurderes overfor de forklarende variable hver for sig. Multipel regressionsmodel: Responsen vurderes overfor begge forklarende variable samtidigt. Estimaterne for disse modeller (med tilhørende standard errors (se) i parentes): ˆb0 (se) ˆb1 (se) ˆb2 (se) s Model [Intercept] [Hjd1_pr10pct] [Vgt1_pr10pct] [Root MSE] Kun Hjd_pr10pct (0.329) (0.111) Kun Vgt_pr10pct (0.064) (0.044) Multipel (0.458) (0.157) (0.067) Bemærk, 1) at koefficienterne (ˆb 1 og ˆb 2 ) ændres, og 2) at deres se bliver større, selvom residualspredningen s bliver mindre. Matematisk fortolkning af koefficienten b 1 til Hjd1_pr10pct: Simpel/univariat regressionsmodel: Forventet forskel i FedmeSc er 0.36 for 1 enheds forskel i kovariaten Hjd1_pr10pct, dvs. for en forskel på 10% i 1-års højden. Multipel regressionsmodel: Forventet forskel i FedmeSc er 0.46 for 1 enheds forskel i kovariaten Hjd1_pr10pct for to individer, hvor alle andre kovariater (her kun Vgt_pr10pct) er identiske ( holdes fast ). Det kaldes, at vi har korrigeret ( adjusted ) for effekten af de andre kovariater. Forskellen kan være markant, fordi kovariaterne typisk er relaterede: Når en af dem ændres, ændres nogle af de andre oftest også Vigtigt: Den biologiske fortolkning af parameterestimaterne ændres også: Det videnskabelige spørgsmål, der besvares, er ikke det samme spørgsmål!

8 Multipel regression: Fortolkning 29 Det videnskabelige spørgsmål, som kan belyses af koefficienten til Hjd1_pr10pct i den univariate model: Når højden er alene, er den et udtryk for, hvor stort barnet er, så det videnskabelige spørgsmål, der belyses, er, Er børn, der er store i 1-årsalderen, i gennemsnit federe i skolealderen? Den positive koefficient til højden betyder, at fedmegraden i skolealderen vokser signifikant med størrelsen i 1-års alderen. Biologisk mekanisme: Overernæring i barnealderen bruges til at vokse, så barnet bliver stort af sin alder, men det kan øjensynligt øge risikoen for fedme senere. Heldigvis er det ikke en stærkt deterministisk sammenhæng (residualspredningen er relativt stor). Multipel regression: Fortolkning 30 Videnskabelige spørgsmål, som kan belyses af koefficienten til Hjd1_pr10pct i den multiple regressionsmodel: Når vægten fastholdes, ved vi noget mere om det højeste af de to småbørn: Det højeste barn må også være det slankeste barn! Så det nye videnskabelige spørgsmål, der belyses, er, Er børn, der er slanke i 1-årsalderen, i gennemsnit slankere i skolealderen? Den negative koefficient til højden betyder, at slanke småbørn generelt er slankere i skolealderen. Koefficienterne til de logaritme-transformerede højde og vægt er lige store og med modsat fortegn. Det betyder, 1. at vægt/højde (altså ikke BMI=vægt/højde 2 ) i 1-års alderen er prædiktivt for fedme i skolealderen 2. at to småbørn med samme vægt/højde-ratio har samme forventede fedmegrad i skolealderen Multipel regression: Prædiktion 31 Multipel regression: Prædiktion 32 Først beregnes kovariaterne: Prædiktion ud fra modellen X 1 = X 2 = log(højde (m)) log(1.1) log(vægt (kg)/10) log(1.1) (her er det ligegyldigt, hvilken logaritme man bruger) Derefter beregnes den prædikterede værdi for Z-scoren for fedme i skolealderen som Ẑ = X X 2 Regneeksempel (barn nr. 100): Et barn, der er 80 cm højt og vejer 10.8 kg, giver X 1 = ln(0.8)/ ln(1.1) = / = og X 2 = ln(1.08)/ ln(1.1) = / = 0.807, så den prædikterede fedmescore er Ẑ = ( 2.341) = Barnets observerede fedmescore: 0.27

9 Multipel regression: Prædiktion 33 Multipel regression: Modelevaluering 34 Stærk signifikant effekt af begge kovariater holder fordelingsantagelserne? Regneeksempel, fortsat (barn nr. 100) Prædiktionsgrænserne er Ŷ ± ca. 2 s = ± t (97.5%,194) RootMSE = ± = [ 1.67, 1.79] Der er snydt en smule her: Vi har negligeret estimationsusikkerheden på regressionsparametrene (b erne). Hvis den prædikterede værdi og prædiktionsgrænserne beregnes af SAS, fås 0.06 [-1.68, 1.80] PROC REG DATA=SkoleHelbred; MODEL FedmeSc = Hjd1_pr10pct Vgt1_pr10pct / CLI; Vurdering af modellen: Linearitet er ok Ingen tegn på voksende varians med voksende middelværdi Normalfordelingen halter en lille smule, med lidt for mange af de store positive residualer og lidt for få af de store negative residualer. Afvigelsen fra normalfordelingen er dog ikke specielt stor helt ude i ekstremerne Multipel regression: Modelevaluering 35 Hvad bør tjekkes? 1. Den sædvanlige modelkontrol af fordelingsantagelserne: Linearitet, varianshomogenitet, normalfordeling og korrelationer/uafhængighed er ligesom for simpel lineær regression 2. Vekselvirkning (=interaktion=effektmodifikation) Produktled, ligesom for variansanalysen? Pas på: SAS ganger bare variablene sammen! Duer kun, hvis effekten af den ene kovariat vokser proportionalt med, hvor stor den anden kovariat er! Lav grupperet version af den ene kovariat ( 3 grp), og lad denne nye variabel vekselvirke med den anden kovariat. Husk at beholde den oprindelige lineære kovariat i modellen også ellers kan residualkonfounding af kovariaten fejlagtigt blive tilskrevet en vekselvirkning! (Se SAS kode eksempel på sidste side) bør gøres for begge kovariater, en ad gangen 3. Indflydelsesrige observationer Cook s afstand, helst splittet op på hver variabel Multipel regression: Indflydelsesrige observationer 36 Regression diagnostics: Cook s afstand og DFbetas Understøttes konklusionerne af hele materialet? Eller er der enkelte observationer med meget stor indflydelse på resultaterne? Udelad den i te person og find nye estimater, Cook s afstand er et samlet mål for ændringen i parameterestimaterne (i) (i) (i) ˆb 0, ˆb 1 og ˆb 2 Cook s afstand kan spaltes ud på hver variabel (DFBETAS), så man kan se, hvor meget f.eks. ˆb 1 ændrer sig (i forhold til sin standard error), når den i te person tilføjes til resten af datasættet (kan gøres ved hjælp af option INFLUENCE i MODEL-statement for PROC REG, er ikke muligt i PROC GLM)

10 Multipel regression: Indflydelsesrige observationer 37 PROC REG DATA=Skolehelbred; Multipel: MODEL FedmeSc = Hjd1_pr10pct Vgt1_pr10pct / CLB INFLUENCE; ODS OUTPUT OutputStatistics=DFBmv; Cook s afstand som mål for indflydelse DATA MedDFB; MERGE SkoleHelbred DFBmv; Multipel regression: Indflydelsesrige observationer 38 Opdelt efter betydningen for hver af de to regressionsparametre (SAS har bestemt variabelnavnene DFB_Hjd1_pr10pct og DFB_Vgt1_pr10pct) PROC G3D DATA=MedDFB; SCATTER hjd1_pr10pct*vgt1_pr10pct=cooksd / SHAPE="pillar" SIZE=0.45 TILT=75 GRID COLOR="BLACK" ; Multipel regression: Indflydelsesrige observationer 39 Hvad gør vi ved indflydelsesrige observationer? Multipel regression: Eksempel 2 40 Mange forklarende variable O Neill et. al. (1983): Lungefunktion hos 25 patienter med cystisk fibrose. ser nærmere på dem! anfører et mål for deres indflydelse? udelader dem? Hvornår kan vi udelade dem? hvis de ligger meget yderligt for en forklarende variabel husk at afgrænse konklusionerne tilsvarende! hvis man kan finde årsagen og så skal alle den slags observationer udelades!

11 Multipel regression: Eksempel 2 41 Multipel regression: Variabelselektion 42 Hvilke forklarende variable har en univariat effekt på responset P E max? BMP: BMI i % af BMI udregnet for median vægt og median højde for raske børn med samme alder FEV 1 : Forced expiratory volume in 1 second RV: FRC: TLC: Residual volume Functional residual capacity Total lung capacity P E max : Maximal expiratory pressure Er det så disse variable, der skal med i modellen? Multipel regression: Variabelselektion 43 Korrelationer: Age Sex Height Weight BMP FEV1 RV FRC TLC Age Sex Height Weight BMP FEV RV Multipel regression: Variabelselektion 44 Videnskabelig variabelselektion Gennemtænk præcis hvilket videnskabeligt spørgsmål, man ønsker besvaret det præcise spørgsmål bestemmer hvilke variable, der skal inkluderes i modellen. Svært men den eneste måde at opnå egentlig videnskabelig indsigt! (og så bliver det lettere at skrive en god artikel og lettere at svare på reviewernes kommentarer... ) FRC

12 Multipel regression: Variabelselektion 45 Automatisk variabelselektion Forlæns selektion Medtag hver gang den mest signifikante Slutmodel: Weight BMP FEV1 Baglæns elimination Start med alle, udelad hver gang den mindst signifikante Slutmodel: Weight BMP FEV1 Det ser da meget stabilt ud!? Men: Hvis nu observation nr. 25 tilfældigvis ikke havde været med? Så ville forlæns selektion have taget højde ind som den første, og baglæns elimination ville have smidt højde ud som den første! Tommelfingerregel (vedrører kun stabiliteten): Antallet af observationer skal være mindst 10 gange så stort som antallet af undersøgte parametre! Multipel regression: Variabelselektion 46 Massesignifikans! Advarsel ved variabelselektion Enhver variabelselektion baseret på signifikansvurderinger (dvs. også når I selv fjerner enkelte variable pga. statistisk insignifikans): Signifikanserne overvurderes! Regressionsparametrene er for store, dvs. for langt væk fra 0. Automatisk variabelselektion: Hvad kan vi sige om vinderne? Var de hele tiden signifikante, eller blev de det lige pludselig? I sidstnævnte tilfælde kunne de jo være blevet smidt ud, mens de var insignifikante... Multipel regression: Variabelselektion 47 Multipel regression: Variabelselektion 48 Baglæns elimination - successive p-værdier Når alle 9 kovariater medtages (start på baglæns elimination): Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP Age Sex Height Weight BMP FEV RV FRC TLC p value Sex TLC FRC Age Height RV FEV1 BMP Weight step

13 Multipel regression: Variabelselektion 49 Multipel regression: Variabelselektion 50 Traditionelle anbefalinger ved automatisk variabelselektion Baglæns elimination Gennemregning af alle modeller Cross-validation: Foretag variabelselektionen på en del af data, afprøv bagefter på resten Shrinkage af regressionsparameterestimaterne Overvej også, om parametrene overhovedet kan fortolkes! Hvordan kan effekterne af Weight og BMP fortolkes i samme model?? Anbefalinger ved videnskabeligt baseret variabelselektion Undgå uklare problemstillinger hvis man er usikker på en kovariat, så gennemtænk den præcise forskel, som kovariaten gør for fortolkningen Hvis datagenereret variabelselektion er relevant, så prioriter variablene ud fra relevante kriterier (biologisk relevans, tilgængelighed [f.eks. er ikke-invasive undersøgelser oftest at foretrække], andres standard valg,... ) Test noget meningsfuldt! Og lad være med at smide nogle variable ud, bare fordi deres p-værdi (tilfældigvis?) er stor Så er det nemmere at få det publiceret. Multipel regression: Variabelselektion 51 Multipel regression: Kollinearitet 52 Multipel regressionsmodel vs. simple/univariate regressionsmodeller Den tekniske årsag til problemerne: Kollinearitet Kollinearitet: De forklarende variable er lineært relaterede Det vil de altid være til en vis grad, undtagen i designede forsøg (f.eks. landbrugsforsøg) Hvad er problemet ved kollinearitet? Fortolkningen af resultaterne: Hvordan skal (effekten af) hver enkelt kovariat fortolkes? Hvad er årsagen til den observerede sammenhæng? Meget sjældent: Tekniske problemer med estimationen Højde Vægt Variable i modellen ˆb1 (se) p ˆb2 (se) p s (RootMSE) Kun Height 0.93 (0.26) Kun Weight (0.30) Både Height og Weight 0.15 (0.66) (0.79) Hver af de to forklarende variable har betydning vurderet ud fra de univariate modeller. I den multiple regressionsmodel ser ingen af dem ud til at have selvstændig betydning. De to variable fanger et betydningsfuldt aspekt, men det er svært at sige hvilken variabel, der er bedst vægten ser ud til at være den med stærkest sammenhæng i disse data, men pas på fortolkningen! Det betyder ikke, at vægten er den sande årsag måske opsummerer vægten bare aspekter fra flere af de egentlige årsager eller rammer bedre for en enkelt indflydelsesrig observation (her observation nr. 25).

14 Multipel regression: Kollinearitet 53 Multipel regression: Kollinearitet 54 Nogle symptomer på kollinearitet Nogle af kovariaterne er stærkt korrelerede Alle kovariater i den multiple regressionsanalyse er insignifikante, men modellens samlede forklaringsværdi er signifikant og/eller R 2 er alligevel stor Variable i modellen Modellens Laveste R 2 R 2 adj p-værdi enkelt p-værdi Height og Weight Alle 9 variable Estimaterne for effekterne af andre variable ændres meget, når en enkelt variabel udelades af modellen Resultaterne er væsentligt anderledes end forventet (Tænk igennem! Oftest er det spørgsmål, der svarer til den valgte model, ikke helt det, man havde planlagt... ) Kvantificering af graden af multikollinearitet Tjek tolerance factor for hver variabel: Den må ikke være for lille! tolerance factor (TOL) for en kovariat = 1-R 2 for regression af kovariaten på de øvrige kovariater = den del af variationen i kovariaten, som ikke kan forklares af de andre kovariater lineært PROC REG DATA=pemax; MODEL PEmax=age sex height weight bmp fev1 rv frc tlc / TOL; TOL skal ganges på kovariatens varians for at finde et bud på restvariationen i kovariaten for fastholdt værdi af de andre overvej, om denne restvariation er stor nok til, at data kan bruges til at vurdere, om variablen har en effekt Multipel regression: Kollinearitet 55 Når vi tilføjer TOL, får vi en ekstra søjle: Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T Tolerance Intercept Age Sex Height Weight BMP FEV RV FRC TLC Multipel regression: Styrkeberegning 56 Stikprøvestørrelse for regressionsanalyse Simpel lineær regression: Hvis man ønsker at kunne påvise en forskel i Y på b for en enheds forskel i X med et tosidet signifikansniveau på α og en styrke på 1 β, så skal man inkludere mindst N personer, hvor N Var(Y ) Var(X) ( Uα/2 + U β Multipel regression: Skal analysen justeres for en anden kovariat Z, skal man have et bud, T X, på tolerance (TOL) for X. Formlen bliver N Var(Y ) ( ) T X Var(X) Uα/2 + U 2 β b hvor residualvariansen for Y fra en analyse med Z som forklarende variabel kan bruges som Var(Y ). (U p =(1 p)-fraktilen i en normal fordeling, eksempelvis U 2.5% =1.96, U 5% =1.645, U 10% =1.282, U 20% =0.842) b ) 2

15 Multipel regression: Kollinearitet 57 Hvad gør man så, når der er kollinearitet? 1. Gennemtænk grundigt, hvad den enkelte variabel står for afhængigt af hvilke af de andre mulige variable, der fastholdes (= er med i modellen) Overvej også, om responsvariablen ændrer fortolkning 2. Lav analyser af fokusvariablen med og uden justering for forskellige grupper af de andre variable og prøv at forstå forskellene i resultaterne Præsenter gerne begge/alle analyser i artiklen med fortolkning af forskellene 3. Spar eventuelt på antallet af variable for grupper af variable, der hænger sammen: Drejer det sig om ét fælles aspekt af interesse, så kan man måske nøjes med én af variablene og begrunde, hvorfor man vælger netop den 4. Fortolk med stor forsigtighed Multipel regression: Kollinearitet 58 Vigtigt: I modstrid med anbefalingen fra visse epidemiologer, så må man ikke nøjes med at præsentere univariate analyser for alle variablene! Problemet med fortolkningen forsvinder ikke af, at man tillægger hver enkelt variabel al forklaringsevnen en ad gangen. Multipel regression: Overordnede principper 59 Multipel regression: Overordnede principper 60 Nogle kilder til forkerte modelvalg: Den statistiske model bestemmes af det videnskabelige spørgsmål. Eneste undtagelse fra denne regel er fordelingsantagelserne (inkl. korrelationer), der bestemmes af data. Forsimple virkeligheden for meget, eksempelvis tro, at frasen alt andet lige giver mening (og ikke bare er en bekvem undskyldning for ikke at tænke det ordentligt igennem) tro, at det giver mening at tale om sammenhængen mellem exposure og respons, som om der kun kan eksistere ét eneste videnskabeligt spørgsmål, der involverer denne exposure og dette respons tro, at confounderne er givet ud fra exposure og respons, så man kan vælge sine kovariater uden at overveje konsekvenserne for fortolkningen

16 Multipel regression: Overordnede principper 61 Multipel regression: Falske dogmer og påstande 62 Nogle kilder til fejlkonklusioner/fejlfortolkninger: Glemme (ikke kunne overskue?) at gennemtænke fortolkningen af såvel exposure som respons, når man ser på sammenhængen justeret for de valgte kovariater herunder at tro, at det er lige meget, om effekten er justeret for forskellige ting i forskellige artikler Sammenligne f.eks. percentil-gruppe forskelle (f.eks. opdele ved medianen) eller forskelle svarende til 1 SD for forskellige populationer den biologiske effekt er nok ligeglad med, hvad resten af personens population gør... Falsk dogme blandt traditionelle epidemiologer: Påstand: Når man skal vurdere effekten af en forklarende variabel ( exposure ) på et bestemt outcome, så skal man så vidt muligt justere for alle confoundere. Sandhed: Nej! Man skal kun justere for de variable, som man gerne ville have kunnet holde fast og man skal kunne gennemskue, hvilken konsekvens justering for hver eneste af de inkluderede confoundere har for fortolkningen af den estimerede effekt af exposure på outcome! Multipel regression: Falske dogmer og påstande 63 Multipel regression: Falske dogmer og påstande 64 Påstand: Man må ikke inkludere mediator variable, dvs. variable, der er en del af virkningsmekanismen. Sandhed: Mediator variable er ligesom alle andre variable: Hvis man inkluderer dem, ændrer man det videnskabelige spørgsmål, der besvares ved analysen! Når man inkluderer en eller flere mediator variable, undersøger man størrelsen af den del af effekten, der ikke går via effekten på disse mediator variable, altså styrken af eventuelle andre virkningsmekanismer. Påstand: Signifikansen for den enkelte variabel bliver altid svagere, når de andre tages med. Sandhed: Ofte, men ikke altid. Nogle gange bliver signifikanserne væsentligt stærkere. NB: Pas på med at justere for variable, der ligger før i årsagskæden for den interessante exposure-variabel. At fokusere på effekten justeret for sådanne variable betyder, at man tror, det giver mening, at betydningen af en høj exposure afhænger af, hvorfor exposure er høj.

17 Multipel regression: SAS programmering 65 SAS kode bidder Diverse options til MODEL skal stå efter / og inden ; i MODEL specifikationen i kaldet af PROC REG, f.eks. PROC REG DATA=pemax; MODEL PEmax=age sex height weight bmp fev1 rv frc tlc / CLB CLM CLI TOL INFLUENCE ; De fleste MODEL-options kan kombineres helt frit, se SAS online manual. Link til SAS online manual Multipel regression: SAS programmering 66 Eksempel på program (med STORE mængder output!!) DATA Skolehelbred; SET SkoleHelbred; Hjd1_pr10pct = log(hjd1)/log(1.1); * "/log(1.1)" giver effekt pr 10%; Vgt1_pr10pct = log(vgt1/10)/log(1.1); * "Vgt/10" centrerer til 10 kg; *- AXIS1 og AXIS2 bestemmer udseendet af akserne, når de bruges i GPLOT -*; AXIS1 LABEL=(H=3) VALUE=(H=2.5) MINOR=NONE; AXIS2 LABEL=(H=3 A=90 R=0) VALUE=(H=2.5) MINOR=NONE; *- Plot af outcome mod de forklarende variable med blød "gennemsnits"kurve -*; PROC GPLOT DATA=SkoleHelbred; PLOT FedmeSc*(Hjd1_pr10pct Vgt1_pr10pct) / HAXIS=AXIS1 /* Bruger den ovenstående AXIS1 til den vandrette akse */ VAXIS=AXIS2 /* Bruger den ovenstående AXIS2 til den lodrette akse */ VREF=0 CVREF=BLACK LVREF=33; /* stiplet vandret linie gennem 0 */ SYMBOL1 CV=BLACK V=CIRCLE H=2 /* sorte cirkler i dobbeltstørrelse */ CI=RED I=SM75S /* rød, blød "gennemsnits"kurve */ MODE=INCLUDE; /* Bør være med for en sikkerheds skyld */ Multipel regression: SAS programmering 67 Multipel regression: SAS programmering 68 ODS GRAPHICS ON; PROC REG DATA=SkoleHelbred PLOTS(LABEL)=(ALL RESIDUALS(SMOOTH) DFBETAS); MODEL FedmeSc = Hjd1_pr10pct Vgt1_pr10pct / R /*residualer og prædikterede værdier*/ CLB CLM /*konfidensgrænser på parametre (CLB) og prædikteret værdi (CLM)*/ CLI /*prædiktionsgrænser*/ INFLUENCE /*Mål for observationens indflydelse*/ TOL /*Mål for kollinearitet*/ ; /* De ekstra variable kan gemmes på et nyt datasæt. Jeg har valgt navnet */ /* EkstraVariable til det nye datasæt. NB: OutputStatistics er et SAS-ord */ ODS OUTPUT OutputStatistics=EkstraVariable; /* De ekstra variable skal flettes på det originale datasæt, hvis de skal */ /* bruge til f.eks. at udelukke observationer ved sensitivitetsanalyser */ /* eller til det ekstra plot til tjek af varianshomogenitet, se nedenfor. */ DATA MedDetHele; /* PAS PÅ med MERGE. Man skal vide, hvad man gør, ellers kan det gå galt! */ MERGE SkoleHelbred EkstraVariable; resid_squared = RSTUDENT**2; /* Til det ekstra variansplot */ /* Det ekstra variansplot - kurven skal ligge vandret omkring 1, */ /* hvis den er voksende, kan man overveje at log-transformere Y. */ AXIS222 LABEL=(H=3 A=90 R=0) VALUE=(H=2.5) ORDER=(0 TO 4 BY 1); SYMBOL1 V=CIRCLE CV=BLACK H=2 I=SM75S CI=RED MODE=INCLUDE; PROC GPLOT DATA=MedDetHele; PLOT resid_squared*predicted / HAXIS=AXIS1 VAXIS=AXIS222 VREF=1 CVREF=BLACK LVREF=33; QUIT;

18 Multipel regression: SAS programmering 69 /* */ /* Test af vekselvirkning (=interaktion=effektmodifikation) */ /* */ /* 1) Konstruere de grupperede variable */ PROC RANK GROUPS=3 /* Lav 3 grupper (husk: opdel altid i MINDST 3 grupper) */ DATA=SkoleHelbred OUT=MedGrupperet; /* Gemmer alle variable i datasættet MedGrupperet */ VAR Hjd1 Vgt1; /* Variable, der bruges til at lave de grupperede variable */ RANKS HjdGrp VgtGrp; /* Mine navne på de nye, grupperede variable */ /* 2) Vekselvirkningstest med HjdGrp -- se på p-værdien for HjdGrp*Vgt1_pr10pct */ PROC GLM DATA=MedGrupperet; CLASS HjdGrp; MODEL FedmeSc = Hjd1_pr10pct HjdGrp HjdGrp*Vgt1_pr10pct Vgt1_pr10pct / SOLUTION CLPARM; /* 3) Vekselvirkningstest med VgtGrp -- se på p-værdien for VgtGrp*Hjd1_pr10pct */ PROC GLM DATA=MedGrupperet; CLASS VgtGrp; MODEL FedmeSc = Vgt1_pr10pct VgtGrp VgtGrp*Hjd1_pr10pct Hjd1_pr10pct / SOLUTION CLPARM;

Kursus i basal statistik: Multipel regression. Birthe Lykke Thomsen Det Nationale Forskningscenter for Arbejdsmiljø

Kursus i basal statistik: Multipel regression. Birthe Lykke Thomsen Det Nationale Forskningscenter for Arbejdsmiljø Kursus i basal statistik: Multipel regression Birthe Lykke Thomsen Det Nationale Forskningscenter for Arbejdsmiljø Multipel regression: Princip 2 Multipel regression: Et outcome, mange forklarende variable

Læs mere

Basal Statistik. Simpel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Multipel regressionsanalyse. Lene Theil Skovgaard 10. oktober 2017 Multipel regression Regression med to kvantitative kovariater: Eksempel

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse. Lene Theil Skovgaard. 8. oktober 2018

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse. Lene Theil Skovgaard. 8. oktober 2018 Faculty of Health Sciences Basal Statistik Multipel regressionsanalyse. Lene Theil Skovgaard 8. oktober 2018 1 / 84 Multipel lineær regression Regression med to kvantitative kovariater: Eksempel om ultralyd

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineær regression i SAS. Lineær regression i SAS p.1/20 Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression

Læs mere

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten. Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 21. februar 2017 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden)

Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) Multipel regression: Et outcome, mange forklarende variable Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) OBS VAEGT BPD AD 1 2350 88 92 2 2450 91 98 3 3300 94 110............

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Besvarelse af juul2 -opgaven

Besvarelse af juul2 -opgaven Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium

Læs mere

Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden)

Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) Multipel regression: Et outcome, mange forklarende variable Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) Repetition af simpel lineær regression Først ser vi på en enkelt kovariat,

Læs mere

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen Opgavebesvarelse, Resting metabolic rate I filen T:\Basalstatistik\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik Januar 2007 2 Regressionsanalyse med GLM Sammenligning af regressionslinier

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse i R. Lene Theil Skovgaard. 11. marts 2019

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse i R. Lene Theil Skovgaard. 11. marts 2019 Faculty of Health Sciences Basal Statistik Multipel regressionsanalyse i R. Lene Theil Skovgaard 11. marts 2019 1 / 86 Multipel lineær regression Regression med to kvantitative kovariater: Eksempel om

Læs mere

Basal Statistik. Multipel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences

Basal Statistik. Multipel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences Faculty of Health Sciences Multipel lineær regression Basal Statistik Multipel regressionsanalyse i R. Lene Theil Skovgaard 11. marts 2019 Regression med to kvantitative kovariater: Eksempel om ultralyd

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017 Faculty of Health Sciences Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 26. september 2017 1 / 85 Simpel lineær regression Regression og korrelation Simpel lineær regression Todimensionale

Læs mere

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger. Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.

Læs mere

Besvarelse af opgave om Vital Capacity

Besvarelse af opgave om Vital Capacity Besvarelse af opgave om Vital Capacity hentet fra P. Armitage & G. Berry: Statistical methods in medical research. 2nd ed. Blackwell, 1987. Spørgsmål 1: Indlæs data og konstruer en faktor (klassevariabel)

Læs mere

Besvarelse af vitcap -opgaven

Besvarelse af vitcap -opgaven Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.

Læs mere

Multipel regression 22. Maj, 2012

Multipel regression 22. Maj, 2012 Data: Det færøske kviksølv-studie Simpel linær regression Confounding Multipel lineær regression Fortolkning af parametre Vekselvirkning Kollinearitet Modelkontrol Multipel regression 22. Maj, 2012 Esben

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Multipel regression. Birthe Lykke Thomsen H. Lundbeck A/S

Multipel regression. Birthe Lykke Thomsen H. Lundbeck A/S Multipel regression Birthe Lykke Thomsen H. Lundbeck A/S 1 Multipel regression: Et outcome, mange forklarende variable Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) OBS VAEGT

Læs mere

Regressionsanalyse i SAS

Regressionsanalyse i SAS Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse

Læs mere

Basal statistik. 25. september 2007

Basal statistik. 25. september 2007 Basal statistik 25. september 2007 Korrelation og regression Simpel lineær regression Todimensionale normalfordelinger Korrelation vs. regression Modelkontrol Diagnostics Lene Theil Skovgaard, Biostatistisk

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 musekuld er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12 mus

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Kapitel 11 Lineær regression

Kapitel 11 Lineær regression Kapitel 11 Lineær regression Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Reeksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6 Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Lineær og logistisk regression

Lineær og logistisk regression Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Dagens program Lineær regression

Læs mere

Module 3: Statistiske modeller

Module 3: Statistiske modeller Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med

Læs mere

Basal Statistik Variansanalyse. 24 september 2013

Basal Statistik Variansanalyse. 24 september 2013 Basal Statistik Variansanalyse 24 september 2013 Michael Gamborg Institut for sygdomsforebyggelse Københavns Universitetshospital michael.orland.gamborg@regionh.dk Lene Theil Skovgaard biostat.ku.dk/~lts/basal/overheads/anova.pdf

Læs mere

Opgavebesvarelse, Basalkursus, uge 2

Opgavebesvarelse, Basalkursus, uge 2 Opgavebesvarelse, Basalkursus, uge 2 Opgave 1. Filen "space.txt" fra hjemmesiden ser således ud: salt pre post 1 71 61 1 65 59 1 52 47 1 68 65......... 0 52 77 0 54 80 0 52 79 Data indlæses i 3 kolonner,

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt

Læs mere

Simpel Lineær Regression: Model

Simpel Lineær Regression: Model Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Eksempel , opg. 2

Eksempel , opg. 2 Faktorer En faktor er en gruppering/inddeling af målinger/observationer pga. Tilsigtede variationer i en eller flere forsøgsparametre Nødvendige (potentielle) blok-effekter såsom gentagne målinger på samme

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Eksamen i Statistik for Biokemikere, Blok januar 2009

Eksamen i Statistik for Biokemikere, Blok januar 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for Biokemikere, Blok 2 2008 09 19. januar 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet

Læs mere

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot Program Residualanalyse Flersidet variansanalyse Helle Sørensen Modelkontrol (residualanalyse) i tosidet ANOVA med vekselvirkning. Test og konklusion i tosidet ANOVA (repetition) Tresidet ANOVA: the works

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke

Læs mere

Besvarelse af opgave om Vital Capacity

Besvarelse af opgave om Vital Capacity Besvarelse af opgave om Vital Capacity I filen cadmium.txt ligger observationer fra et eksempel omhandlende lungefunktionen hos arbejdere i cadmium industrien (hentet fra P. Armitage & G. Berry: Statistical

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,

Læs mere

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober 2007 Basal statistik 30. oktober 2007 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Kovariansanalyse Parametriseringer Lene Theil Skovgaard, Biostatistisk Afdeling

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Basal statistik. 30. oktober Den generelle lineære model

Basal statistik. 30. oktober Den generelle lineære model Basal statistik 30. oktober 2007 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Kovariansanalyse Parametriseringer Lene Theil Skovgaard, Biostatistisk Afdeling

Læs mere

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9 Indhold 1 Ensidet variansanalyse 2 1.1 Estimation af middelværdier............................... 3 1.2 Estimation af standardafvigelse............................. 3 1.3 F-test for ens middelværdier...............................

Læs mere

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1 (a) Denne opgave bygger på resultaterne fra 2 forsøg med epo-behandling af for tidligt fødte børn, idet gruppe 1 og 3 stammer fra første forsøg, mens gruppe 2 og 4 stammer fra det andet. Det må antages,

Læs mere

Basal statistik. 21. oktober 2008

Basal statistik. 21. oktober 2008 Basal statistik 21. oktober 2008 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Parametriseringer Kovariansanalyse Esben Budtz-Jørgensen, Biostatistisk Afdeling

Læs mere