Multipel regression. Birthe Lykke Thomsen H. Lundbeck A/S

Størrelse: px
Starte visningen fra side:

Download "Multipel regression. Birthe Lykke Thomsen H. Lundbeck A/S"

Transkript

1 Multipel regression Birthe Lykke Thomsen H. Lundbeck A/S 1

2 Multipel regression: Et outcome, mange forklarende variable Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) OBS VAEGT BPD AD Problemstillingen kan eksempelvis være: Prediktion, konstruktion af normalområde til diagnostisk brug (som her) Ønske om at justere for forstyrrende variable (confoundere) Flere forklarende variable af interesse: Hvilke er vigtige? Fanger de det samme aspekt? Har de selvstændig betydning? 2

3 Repetition af simpel lineær regression Først ser vi på en enkelt kovariat, BPD 3

4 Modelkontrol i simpel lineær regression Statistisk model: Y i = a + bx i + e i, e i N(0, σ 2 ) uafh. Hvad skal vi checke her? 1. linearitet tegne 2. varianshomogenitet tegne 3. normalfordelte afvigelser (afstande til linien) tegne OBS: Intet krav om normalfordeling på X i 'erne eller Y i 'erne!! 4. uafhængighed mellem afvigelserne tænke! Er der ere observationer på samme individ? Indgår der personer fra samme familie? Tvillinger? 4

5 Modelkontrol består af grak, typisk med residualer=forskellen på den observerede værdi og den forventede (prædikterede, ttede) værdi evt. formelle tests Residualplots: Residualerne plottes mod 1. den (eller de) forklarende variable x i for at checke linearitet 2. de ttede værdier ŷ i for at checke varianshomogenitet 3. 'normal scores' dvs. fraktildiagram (probability plot) for at checke normalfordelingsantagelsen De to første skal give indtryk af uorden dvs. der må ikke være nogen systematik som f.eks. U-form (for den første) eller trompet-facon (for den anden) Fraktildiagrammet skal ligne en ret linie 5

6 Modelkontroltegninger: 6

7 En stor del af plottene kan konstrueres direkte ved i regressionsopsætningen at klikke Plots/Residual hvor der f.eks. vælges Ordinary Residual mod Predicted 7

8 Der er 4 typer residualer at vælge imellem: 1. ordinary: afstand fra observation lodret ned til 'linie' = observeret - ttet værdi: ê i = y i ŷ i 2. standardized (student): ordinary, normeret med spredning 3. press: observeret minus predikteret, men i en model, hvor den aktuelle observation har været udeladt i estimationsprocessen 4. rstudent (studentized, rstudent): normerede Press-residualer Fordele og ulemper: Rart med residualer, der bevarer enhederne (type 1 og 3); men nemmere at vurdere graden af outlier med standardiserede (type 2 og 4) Lettest at nde outliers, når observationerne udelades en ad gangen (type 3 og 4) 8

9 De viste typer af plots kan produceres (i en ikke særligt pæn version) ved hjælp af programkoden PROC REG DATA=secher; MODEL vaegt = bpd; VAR ad; * AD bruges i et af plottene; PLOT RESIDUAL.*(bpd PRED.) PRESS.*ad RUN; STUDENT.*NQQ.; Pæne plots kræver, at residualerne gemmes på et datasæt ved hjælp af PROC REG DATA=secher; MODEL vaegt = bpd; OUTPUT OUT=med_resid P=predict RUN; R=resid STUDENT=stdized PRESS=without_curr RSTUDENT=stdized_without_curr; og tegnes med diverse specikke tegneprocedurer (f.eks. GPLOT, BOXPLOT, PROBPLOT under UNIVARIATE,... ) 9

10 Hvorfor standardisere? Problemer med de sædvanlige residualer Vi har antaget, at e i N(0, σ 2 ) uafh. så vi ville forvente, at det samme galdt for residualerne ê i = y i ŷ i. Det gør det ikke! De er ikke uafhængige (de summerer til 0) betyder ikke meget, når der er tilstrækkelig mange De har ikke helt samme varians hvor Var(ê i ) = σ 2 (1 h ii ) h ii = 1 n + (x i x) 2 S xx betegnes leverage for den i'te observation Standardiserede residualer (standardized) (normerede residualer, student residualer): ê r i = i, Var(r i) 1 s 1 h ii 10

11 Modelkontroltegninger linearitet? 11

12 Linearitet Hvis lineariteten ikke holder, bliver modellen misvisende og ufortolkelig Afhjælpning: tilføj ere kovariater, f.eks. ad kvadratleddet BPD 2 vaegt=a+b 1 bpd+b 2 bpd 2 Test af linearitet: b 2 =0 transformer variablene med logaritmer kvadratrod invers Lad være med at gøre noget ikke-lineær regression 12

13 Modelkontroltegningerne fra den simple lineære regression varianshomogenitet? 13

14 Varianshomogenitet (konstant varians / konstant spredning) Var(e i )=σ 2, i=1,,n Hvis der ikke er rimelig varianshomogenitet, bliver estimationen inecient (unødigt stor usikkerhed på parameterestimaterne) Hvilke alternativer kan der typisk være? konstant relativ spredning = konstant variationskoecient Variationskoecient = middelværdi spredning ofte konstant, når man ser på størrelser, der (evt. skjult) involverer division (f.eks. koncentrationer, BMI, andel positive celler, visse laboratorie assays, observationer beregnet ud fra lys- eller farveintensiteter... ) vil give anledning til trompetfacon på plottet af residualerne mod de prædikterede værdier afhjælpes ved at transformere outcome (Y i ) med logaritme Forskellige grupper, f.eks. ere instrumenter eller laboratorier, mænd/kvinder, forskellige patienttyper 14

15 Modelkontroltegninger normalitet? 15

16 Normalfordelingsantagelsen Husk: Det er kun modelafvigelserne, der antages at være normalfordelte, hverken outcome eller kovariater! Normalfordelingsantagelsen er ikke kritisk for selve ttet: Mindste kvadraters metode giver under alle omstændigheder 'de bedste' estimater er formelt en forudsætning for t-fordelingen af teststørrelsen, men reelt behøves kun en normalfordelingsantagelse for estimatet ˆb, og dette passer ofte, når der er rimeligt mange observationer, på grund af: Den centrale grænseværdisætning, der siger, at summer og andre funktioner af mange observationer bliver 'mere og mere' normalfordelte. Tunge haler i den høje ende kan ofte afhjælpes ved at logaritmetransformere outcome. 16

17 Transformation logaritmer, kvadratrod, invers Hvorfor tage logaritmer? af de forklarende variable for at opnå linearitet, hvis det er %-vise forskelle, der har konstant eekt. Brug gerne 2-tals logaritmer (eekt af fordobling) eller XX=log(X)/log(1.1); (eekt af 10% stigning i X) for at se på multiplikative sammensætninger af to variable (f.eks. vægt og højde, jf. BMI) af respons / outcome for at opnå linearitet for at opnå varianshomogenitet Var(ln(y)) Var(y) y 2 dvs. en konstant variationskoecient på Y betyder konstant varians på log(y ) (gælder for alle logaritmetransformationer) for at opnå normalitet 17

18 Utransformeret 18

19 Efter log2-transformation af vaegt: 19

20 Efter log2-transformation af både vaegt og bpd: logaritme-transformationer ikke nok, AD skal med! 20

21 Multipel regression DATA: n personer, dvs. n sæt af sammenhørende observationer: person x 1...x p y 1 x 11...x 1p y 1 2 x 21...x 2p y 2 3 x 31...x 3p y n x n1...x np y n Den lineære regressionsmodel med p forklarende variable skrives: y = b 0 + b 1 x b p x p + e i respons middelværdi biologisk regressionsfunktionen variation Parametre: b 0 b 1,, b p afskæring, intercept regressionskoecienter 21

22 Graphs/Scatter Plot/Three-Dimensional, under Display vælges Needles/Pillar PROC G3D; SCATTER bpd*ad=vaegt / SHAPE='PILLAR' SIZE=0.5; RUN; 22

23 Regressionsmodel: y i = b 0 +b 1 x i1 + +b p x ip +e ij, i = 1,, n Traditionelle antagelser: e i N(0, σ 2 ), uafhængige Mindste kvadraters metode: S(b 0, b 1,, b p ) = (y i b 0 b 1 x i1 b p x ip ) 2 23

24 Eksempel: Sechers data med fødselsvægt som funktion af såvel bpd som ad Analyse i Analyst: Statistics/Regression/Linear, vælg vaegt som Dependent, bpd og ad som Explanatory eller som programmering PROC REG DATA=secher; MODEL vaegt=bpd ad; PLOT RESIDUAL.*(bpd PRED. ad) RUN; STUDENT.*NQQ.; 24

25 The REG Procedure Dependent Variable: vaegt Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model <.0001 Error Corrected Total Root MSE R-Square Dependent Mean Adj R-Sq Coeff Var Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept <.0001 bpd <.0001 ad <.0001 Stærk signikant eekt af begge kovariater, men holder modelforudsætningerne? 25

26 Modelkontrol af utransformeret model: 26

27 Vurdering af modellen: Normalfordelingen halter lidt, med nogle enkelte ret store positive afvigelser, hvilket kunne tale for at logaritmetransformere vægten. Måske lidt trompetfacon i plot af residualer mod predikterede værdier, hvilket også taler for logaritmetransformation (men husk på, at observationerne ikke er ligeligt fordelt over x-aksen). Linearitet er ikke helt god, men det skyldes hovedsageligt de få børn med de særligt lave ultralydsmål Teoretiske argumenter fra den faglige ekspertise foreslår en multiplikativ sammenhæng, dvs. en samtidig logaritmetransformation af kovariaterne 27

28 Logaritmetransformerede data: DATA secher; SET secher; lvaegt=log2(vaegt) lbpd=log2(bpd) lad=log2(ad) RUN; Analyse i Analyst: Statistics/Regression/Linear, vælg lvaegt som Dependent, lbpd og lad som Explanatory eller som programmering PROC REG DATA=secher; MODEL lvaegt=lbpd lad; VAR bpd ad; * bruges i plots; PLOT RESIDUAL.*(bpd PRED. ad) RUN; STUDENT.*NQQ.; 28

29 Dependent Variable: LVAEGT Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP LBPD LAD

30 Modelkontrol af log2-transformeret model: 30

31 Utransformeret model (til sammenligning): 31

32 Marginale (univariate) modeller: Responsen vurderes overfor hver enkelt forklarende variabel for sig. Multipel regressionsmodel: Responsen vurderes overfor begge forklarende variable samtidigt. Estimaterne for disse modeller (med tilhørende standard errors i parentes) bliver: b 0 (int.) b 1 (lbpd) b 2 (lad) s R (0.202) (0.111) (0.229) 1.467(0.147) Bemærk koecienterne (b 1 og b 2 ) ændres og standard errors bliver større 32

33 Fortolkning af koecient b 1 til lbpd: Marginal model: Ændringen i lvaegt, når kovariaten lbpd ændres 1 enhed (dvs. når bpd fordobles) Multipel regressionsmodel Ændringen i lvaegt, når kovariaten lbpd ændres 1 enhed, men hvor alle andre kovariater (her kun ad) holdes fast Vi siger, at vi har korrigeret for eekten af de andre kovariater i modellen. Forskellen kan være markant, fordi kovariaterne typisk er relaterede: Når en af dem ændres, ændres de andre også Vigtigt: Den biologiske fortolkning af parameterestimaterne ændres: Det videnskabelige spørgsmål, der besvares, er et andet! 33

34 Prædiktion ud fra modellen log 2 (vaegt) = log 2 (bpd) log 2 (ad) vaegt = bpd 1.55 ad 1.47 = bpd 1.55 ad 1.47 Hvis ad holdes fast, svarer en forskel på 10% i bpd (dvs. bpd 2 =bpd 1 1.1) til at gange vægten med = 1.16 altså en 16% større vægt. 34

35 Regneeksempel (barn nr. 1) For bpd=88 og ad=92, vil man forvente log 2 (vaegt) = log 2 (88) log 2 (92) = = Forventet fødselsvægt: g = 2257 g Prædiktionsgrænserne beregnes for den analyserede variabel, dvs. for log 2 (vægt), og tilbagetransformeres! ± 1.96 Root MSE = ± = (10.84, 11.44) ( g, g) = (1833 g, 2778 g) Vi har snydt en smule: Vi har negligeret selve estimationsusikkerheden på b'erne. Faktisk observeret fødselsvægt: 2350 g 35

36 Prediktionsusikkerhed NB: log-skalaen medfører konstant relativ usikkerhed 2 ± = (0.81, 1.23) Dette betyder, at med 95% sandsynlighed vil fødselsvægten ligge et sted mellem 19% under og 23% over den predikterede værdi. Vi har stadig snydt en smule og negligeret selve estimationsusikkerheden på b'erne. 36

37 Test af hypoteser Er AD uden betydning, når BPD allerede er med i modellen? H 0 : b 2 =0 Her har vi ˆb 2 =1.467 med se(ˆb 2 )=0.147, og dermed t-testet t = ˆb 2 se( ˆb 2 ) = t(104), P < % kondensinterval: ˆb 2 ± t (97.5%,n p 1) se( ˆb 2 ) = ± = (1.175,1.759) Men: ˆbj 'erne er korrelerede med mindre de forklarende variable er uafhængige så man kan ikke lave et kombineret test eller kondensområde for begge variable ud fra kondensgrænserne for hver af variablene 37

38 Goodness-of-t mål R 2 = Sum Sq(Model) Sum Sq(Total) Hvor stor en del af variationen kan forklares af modellen? (her , dvs %) Fortolkningsproblemer når værdierne for kovariaterne er fastlagt direkte eller indirekte ud fra forsøgsdesignet (ganske som for korrelationskoecienten) R 2 stiger med antallet af kovariater selv hvis disse er uden betydning! Adjusted R 2 : R 2 adj (her ) = 1 Mean Sq(Residual) Mean Sq(Total) 38

39 Modelkontrol Plots: residualer mod hver kovariat for sig (linearitet) residualer mod ttede (predikterede) værdier (varianshomogenitet) fraktildiagram, 'probability plot' (normalfordelingen) Tests: Udvid modellen med krumning: Kvadratled, 3. gradsled,... vekselvirkning: Produktled? Indydelsesrige observationer modicerede residualer Cooks afstand 39

40 Regression diagnostics Understøttes konklusionerne af hele materialet? Eller er der observationer med meget stor indydelse på resultaterne? Leverage = potentiel indydelse (hat-matrix, i sas kaldet Hat Diag eller H) Hvis der kun er en kovariat er det simpelt: h ii = 1 n + (x i x) 2 S xx Observationer med ekstreme x-værdier kan have stor indydelse på resultaterne, 40

41 y x men de har det ikke nødvendigvis! hvis de ligger 'pænt' i forhold til regressionslinien, dvs. har et lille residual 41

42 Indydelsesrige observationer har en kombination af høj leverage stort residual 42

43 Regression diagnostics Udelad den i'te person og nd nye estimater, (i) (i) ˆb 0, ˆb 1 og ˆb (i) 2 Udregn Cook's afstand, et samlet mål for ændringen i parameterestimaterne Spalt Cooks afstand ud i koordinater og angiv: Hvor mange se'er ændres f.eks. ˆb 1, når den i'te person udelades? Hvad gør vi ved indydelsesrige observationer? udelader dem? anfører et mål for deres indydelse? 43

44 Diagnostics: Cooks afstand som mål for indydelse 44

45 Outliers Observationer, der ikke passer ind i sammenhængen de er ikke nødvendigvis indydelsesrige de har ikke nødvendigvis et stort residual Hvad gør vi ved outliers? ser nærmere på dem, de er tit ganske interessante Hvornår kan vi udelade dem? hvis de ligger meget yderligt, dvs. har høj leverage husk at afgrænse konklusionerne tilsvarende! hvis man kan nde årsagen og da skal alle sådanne observationer udelades! 45

46 Modelkontrol og Diagnostics i ANALYST Mange tegninger kan fås direkte fra regressionen under Plots/Residual eller Plots/Diagnostics. Vil man lave yderligere (f.eks. en tegning af Cook's distance), er man nødt til at danne et nyt datasæt i Analyst: 1. I regressionsopsætningen klikkes Save Data 2. afkryds Create and save diagnostics data 3. overyt (klik Add) de størrelser, der skal gemmes (typisk Predicted, Residual, Student, Rstudent, Cookd, Press) 4. Kør analysen 5. Dobbeltklik på Diagnostics Table i projekttræet 6. Gem det ved at klikke File/Save as By SAS Name 46

47 Modelkontrol og Diagnostics ved programmering Ved programmering kan Cook's distance tegnes umiddelbart ved hjælp af PLOT eller gemmes på datasæt ved hjælp af OUTPUT PROC REG DATA=secher; RUN; MODEL lvaegt=lbpd lad; VAR bpd; PLOT COOKD*bpd; OUTPUT OUT=med_resid P=predict R=resid STUDENT=stdized PRESS=without_curr RSTUDENT=stdized_without_curr COOKD=Cooks_D; 47

48 Mange forklarende variable Eksempel: O'Neill et. al. (1983): Lungefunktion hos 25 patienter med cystisk brose. 48

49 Hvilke forklarende variable har en univariat/marginal eekt på responset P E max? Er det så disse variable, der skal med i modellen? 49

50 Korrelationer: Correlation Analysis Pearson Correlation Coefficients / Prob> R under Ho:Rho=0 / N=25 AGE SEX HEIGHT WEIGHT BMP AGE SEX HEIGHT WEIGHT BMP FEV RV FRC TLC PEMAX

51 Correlation Analysis Pearson Correlation Coefficients / Prob> R under Ho:Rho=0 / N=25 FEV1 RV FRC TLC PEMAX AGE SEX HEIGHT WEIGHT BMP FEV RV FRC TLC PEMAX Bemærk især korrelationerne mellem alder, højde og vægt. 51

52 Modelselektion Automatisk (computergenereret): ANALYST: Vælges under Model i Regression/Linear) programmering: PROC REG DATA=pemax; RUN; eller MODEL pemax=age sex height weight PROC REG DATA=pemax; RUN; bmp fev1 rv frc tlc / SELECTION=STEPWISE; MODEL pemax=age sex height weight bmp fev1 rv frc tlc / SELECTION=BACKWARD; Videnskabeligt: Gennemtænk præcis hvilket videnskabeligt spørgsmål, man ønsker besvaret det præcise spørgsmål bestemmer, hvilke variable, der skal inkluderes i modellen. Svært men den eneste måde at opnå egentlig videnskabelig indsigt! 52

53 Automatisk modelselektion Forlæns selektion Medtag hver gang den mest signikante Slutmodel: WEIGHT BMP FEV1 Baglæns elimination Start med alle, udelad hver gang den mindst signikante Slutmodel: WEIGHT BMP FEV1 Det ser jo meget stabilt ud!? Men: Hvis nu WEIGHT havde været logaritmetransformeret fra starten? Så havde vi fået slutmodellen Tommelngerregel: AGE FEV1 Antallet af observationer skal være mindst 10 gange så stort som antallet af undersøgte parametre i modellen! 53

54 Når alle 9 kovariater medtages: Dependent: pemax Explanatory: age sex height weight bmp fev1 rv frc tlc Dependent Variable: PEMAX Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP AGE SEX HEIGHT WEIGHT BMP FEV RV FRC TLC

55 Baglæns elimination Tabel over successive p-værdier [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] age sex height weight bmp fev rv frc tlc (Altman stopper ved skridt nr. 7) 55

56 56

57 Advarsel ved modelselektion Massesignikans! Undgå at inkludere mange variable, der udtrykker mere eller mindre det samme Automatisk variabelselektion: Signikanserne overvurderes! Hvad kan vi sige om 'vinderne'? Var de hele tiden signikante, eller blev de det lige pludselig? I sidstnævnte tilfælde kunne de jo være blevet smidt ud, mens de var insignikante... Traditionel anbefaling (datagenereret/automatisk modelreduktion): Baglæns elimination Gennemregning af alle modeller Cross-validation: Foretag modelttet på en del af data, afprøv bagefter på resten Min anbefaling: Tænk selv (undgå uklare problemstillinger), test noget meningsfuldt (og lad være med at smide de andre variable ud, bare fordi deres p-værdi (tilfældigvis?) er stor) så er det også nemmere at få det publiceret 57

58 Hvad sker der ved udeladelse af en forklarende variabel? Fittet bliver dårligere, dvs. residualkvadratsummen bliver større. Antallet af frihedsgrader (for residualkvadratsummen) stiger. Estimatet s 2 for residualvariansen σ 2 kan både stige og falde s 2 = () 2 n p 1 %-delen af variation, som forklares af modellen, R 2, falder. Dette kompenseres der for i den justerede determinationskoecient R 2 adj Som kriterium for, om modellen er god, kan vi altså bruge s 2 eller R 2 adj 58

59 Marginale (univariate) modeller: Model 1: pemax overfor height Model 2: pemax overfor weight Multipel regressionsmodel: Model 3: pemax overfor height og weight b 0 b 1 (height) b 2 (weight) s R 2 R (0.260) (0.301) (0.655) 1.024(0.787) Hver af de to forklarende variable har betydning, vurderet ud fra de marginale modeller. I den multiple regressionsmodel ser ingen af dem ud til at have nogen betydning. De to variable fanger et betydningsfuldt aspekt, men det er svært at sige hvilken, der er bedst vægten ser ud til at være den med stærkest sammenhæng i disse data, men pas på! Det betyder ikke at vægten er den sande årsag måske opsummerer vægten bare aspekter fra ere af de egentlige årsager. 59

60 ANALYST: Options i Statistics/Regression/: Model: Forward Backward Statistics clb: kondensgrænser for estimater corrb: korrelation mellem estimater stb: standardiserede koecienter: eekt af ændring på 1 SD for kovariat Statistics/Tests collin: kollinearitets diagnostics tol: tolerance factor= 1-R 2 for regression af en kovariat på de øvrige vif: variance ination factor = 1/tol, variansøgning p.g.a. kollinearitet Ved programmering er de options til MODEL, dvs. de skal stå efter / og inden ; i MODEL specikationen i kaldet af PROC REG; 60

61 Når vi tilføjer clb, stb, vif og tol, får vi: Parameter Estimates Standardized Variance Variable DF Estimate Tolerance Inflation Intercept age sex height weight bmp fev rv frc tlc Parameter Estimates Variable DF 95% Confidence Limits Intercept age sex height weight bmp fev rv frc tlc

62 Størrelser udregnet for hver observation kan med fordel gemmes i et nyt datasæt, så man kan se på deskriptive størrelser The MEANS Procedure Variable Label Mean resid Residual E-14 stresid Studentized Residual press Residual without Current Observation residud Studentized Residual without Current Obs leverage Leverage cook Cook's D Influence Statistic inflpred Standard Influence on Predicted Value Variable Label Minimum resid Residual stresid Studentized Residual press Residual without Current Observation residud Studentized Residual without Current Obs leverage Leverage cook Cook's D Influence Statistic inflpred Standard Influence on Predicted Value Variable Label Maximum resid Residual stresid Studentized Residual press Residual without Current Observation residud Studentized Residual without Current Obs leverage Leverage cook Cook's D Influence Statistic inflpred Standard Influence on Predicted Value

63 Udvalgte diagnostics tegninger 63

64 Kollinearitet: Kovariaterne er lineært relaterede Det vil de altid være til en vis grad, undtagen i designede forsøg (f.eks. landbrugsforsøg) Symptomer på kollinearitet: Visse af kovariaterne er stærkt korrelerede Nogle parameterestimater har meget store standard errors Alle kovariater i den multiple regressionsanalyse er insignikante, men R 2 er alligevel stor Der sker store forskydninger i estimaterne, når en kovariat udelades af modellen Der sker store forskydninger i estimaterne, når en observation udelades af modellen Resultaterne er anderledes end forventet Check vif: Den må ikke være for stor! 64

65 Kollinearitet Hvad er problemet ved kollinearitet? 1. Fortolkningen af resultaterne: Hvad er årsagen til den observerede sammenhæng 2. Nogle gange: Tekniske problemer med estimationen Hvad gør man så, når der er kollinearitet? 1. Find ud af, om det er grupper af variable, der hænger sammen Drejer det sig om ét fælles aspekt, så man kan nøjes med den ene og begrunde, hvorfor man vælger netop den? 2. Gennemtænk grundigt, hvad den enkelte variabel står for afhængigt af hvilke af de andre mulige variable, der fastholdes 3. Lav analyser med og uden justering for forskellige grupper af de andre variable, og prøv at forstå forskellene i resultaterne 4. Fortolk med stor forsigtighed 65

66 Kollinearitet Vigtigt: I modstrid med anbefalingen fra visse (udygtige) epidemiologer, så må man ikke nøjes med at præsentere univariate analyser for alle variablene! Problemet med fortolkningen forsvinder ikke af, at man tillægger hver enkelt variabel al forklaringsevnen. Andre fejlagtige påstande: Påstand: Signikansen for den enkelte variabel bliver svagere, når de andre tages med. Sandhed: Oftest, men ikke altid. Nogle gange bliver signikanserne væsentligt stærkere. Påstand (ernæringsepidemiologer): Problemet løses ved residual-metoden, hvor eksempelvis hver enkelt næringsstof erstattes af residualerne fra en regression af næringsstoet på totalt energiindtag. Sandhed: Det betyder bare, at man på forhånd tillægger totalt energiindtag mest muligt forklaringsevne, så betydningen af totalt energiindtag overvurderes. Resultaterne for de enkelte næringsstoer er essentielt de samme. Hvis totalt energiindtag er det væsentlige, så vil det vise sig ved, at alle energikilder giver ca. samme parameterestimat, når de inkluderes på en gang målt i energienheder (f.eks. kj)! 66

Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden)

Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) Multipel regression: Et outcome, mange forklarende variable Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) Repetition af simpel lineær regression Først ser vi på en enkelt kovariat,

Læs mere

Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden)

Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) Multipel regression: Et outcome, mange forklarende variable Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) OBS VAEGT BPD AD 1 2350 88 92 2 2450 91 98 3 3300 94 110............

Læs mere

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten. Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,

Læs mere

Basal Statistik. Simpel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Multipel regressionsanalyse. Lene Theil Skovgaard 10. oktober 2017 Multipel regression Regression med to kvantitative kovariater: Eksempel

Læs mere

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse. Lene Theil Skovgaard. 8. oktober 2018

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse. Lene Theil Skovgaard. 8. oktober 2018 Faculty of Health Sciences Basal Statistik Multipel regressionsanalyse. Lene Theil Skovgaard 8. oktober 2018 1 / 84 Multipel lineær regression Regression med to kvantitative kovariater: Eksempel om ultralyd

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineær regression i SAS. Lineær regression i SAS p.1/20 Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression

Læs mere

Kursus i basal statistik: Multipel regression. Birthe Lykke Thomsen Det Nationale Forskningscenter for Arbejdsmiljø

Kursus i basal statistik: Multipel regression. Birthe Lykke Thomsen Det Nationale Forskningscenter for Arbejdsmiljø Kursus i basal statistik: Multipel regression Birthe Lykke Thomsen Det Nationale Forskningscenter for Arbejdsmiljø Multipel regression: Princip 2 Multipel regression: Et outcome, mange forklarende variable

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Kursus i basal statistik: Multipel regression

Kursus i basal statistik: Multipel regression Multipel regression: Princip 2 Multipel regression: Et outcome, mange forklarende variable Problemstillingen kan eksempelvis være: Kursus i basal statistik: Multipel regression Birthe Lykke Thomsen Det

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Basal statistik. 25. september 2007

Basal statistik. 25. september 2007 Basal statistik 25. september 2007 Korrelation og regression Simpel lineær regression Todimensionale normalfordelinger Korrelation vs. regression Modelkontrol Diagnostics Lene Theil Skovgaard, Biostatistisk

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 21. februar 2017 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Multipel regression. Lene Theil Skovgaard 10. oktober 2017 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Figurer: s.

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Indlæsning og

Læs mere

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen Opgavebesvarelse, Resting metabolic rate I filen T:\Basalstatistik\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991

Læs mere

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse i R. Lene Theil Skovgaard. 11. marts 2019

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse i R. Lene Theil Skovgaard. 11. marts 2019 Faculty of Health Sciences Basal Statistik Multipel regressionsanalyse i R. Lene Theil Skovgaard 11. marts 2019 1 / 86 Multipel lineær regression Regression med to kvantitative kovariater: Eksempel om

Læs mere

Basal Statistik. Multipel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences

Basal Statistik. Multipel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences Faculty of Health Sciences Multipel lineær regression Basal Statistik Multipel regressionsanalyse i R. Lene Theil Skovgaard 11. marts 2019 Regression med to kvantitative kovariater: Eksempel om ultralyd

Læs mere

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger. Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.

Læs mere

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017 Faculty of Health Sciences Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 26. september 2017 1 / 85 Simpel lineær regression Regression og korrelation Simpel lineær regression Todimensionale

Læs mere

Besvarelse af juul2 -opgaven

Besvarelse af juul2 -opgaven Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Regressionsanalyse i SAS

Regressionsanalyse i SAS Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Besvarelse af vitcap -opgaven

Besvarelse af vitcap -opgaven Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.

Læs mere

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober 2007 Basal statistik 30. oktober 2007 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Kovariansanalyse Parametriseringer Lene Theil Skovgaard, Biostatistisk Afdeling

Læs mere

Basal statistik. 30. oktober Den generelle lineære model

Basal statistik. 30. oktober Den generelle lineære model Basal statistik 30. oktober 2007 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Kovariansanalyse Parametriseringer Lene Theil Skovgaard, Biostatistisk Afdeling

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling Faculty of Health Sciences Regressionsanalyse Simpel lineær regression, 28-2-2013 Lene Theil Skovgaard Biostatistisk Afdeling 1 / 67 Simpel lineær regression Regression og korrelation Simpel lineær regression

Læs mere

Multipel regression 22. Maj, 2012

Multipel regression 22. Maj, 2012 Data: Det færøske kviksølv-studie Simpel linær regression Confounding Multipel lineær regression Fortolkning af parametre Vekselvirkning Kollinearitet Modelkontrol Multipel regression 22. Maj, 2012 Esben

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 musekuld er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12 mus

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

Kapitel 11 Lineær regression

Kapitel 11 Lineær regression Kapitel 11 Lineær regression Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Eksamen i Statistik for Biokemikere, Blok januar 2009

Eksamen i Statistik for Biokemikere, Blok januar 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for Biokemikere, Blok 2 2008 09 19. januar 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet

Læs mere

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik Januar 2007 2 Regressionsanalyse med GLM Sammenligning af regressionslinier

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

En Introduktion til SAS. Kapitel 6.

En Introduktion til SAS. Kapitel 6. En Introduktion til SAS. Kapitel 6. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 6 Regressionsanalyse i SAS 6.1 Indledning Dette kapitel

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Basal Statistik - SPSS Den generelle lineære model. Lene Theil Skovgaard 24. oktober 2017 Biokemisk iltforbrug,

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Den generelle lineære model. Lene Theil Skovgaard 26. februar 2018 1 / 28 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Biokemisk

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Module 3: Statistiske modeller

Module 3: Statistiske modeller Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med

Læs mere

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse i R. Lene Theil Skovgaard 23. september 2019 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse i R. Lene Theil Skovgaard. 25. februar 2019

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse i R. Lene Theil Skovgaard. 25. februar 2019 Faculty of Health Sciences Basal Statistik Regressionsanalyse i R. Lene Theil Skovgaard 25. februar 2019 1 / 85 Simpel lineær regression Regression og korrelation Simpel lineær regression Todimensionale

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 Parret sammenligning, målemetoder med logaritmer Tosidet variansanalyse

Læs mere

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015 Faculty of Health Sciences Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 1 / 84 Logaritmer og kovariansanalyse Parret sammenligning, målemetoder med logaritmer Tosidet

Læs mere

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6 Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Basal statistik. 21. oktober 2008

Basal statistik. 21. oktober 2008 Basal statistik 21. oktober 2008 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Parametriseringer Kovariansanalyse Esben Budtz-Jørgensen, Biostatistisk Afdeling

Læs mere

Basal statistik. 23. september 2008

Basal statistik. 23. september 2008 Basal statistik 23. september 2008 Korrelation og regression Simpel lineær regression Todimensionale normalfordelinger Korrelation vs. regression Modelkontrol Diagnostics Thomas Scheike, Biostatistisk

Læs mere

Reeksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Bilag 12 Regressionsanalysens tabeller og forklaringer

Bilag 12 Regressionsanalysens tabeller og forklaringer Bilag 12 Regressionsanalysens tabeller og forklaringer Regressionsanalysens tabeller og forklaringer Regressionsanalysen vil være delt op i 2 blokke. Første blok vil analysere hvor meget de tre TPB variabler

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018 Faculty of Health Sciences Basal Statistik Logistisk regression mm. Lene Theil Skovgaard 5. marts 2018 1 / 22 APPENDIX vedr. SPSS svarende til diverse slides: To-gange-to tabeller, s. 3 Plot af binære

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer Program Simpel og multipel lineær regression Helle Sørensen E-mail: helle@math.ku.dk Simpel LR: repetition, konfidensintervaller, test, prædiktionsintervaller, mm. Multipel LR: estimation, valg af model,

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Reeksamen i Statistik for biokemikere. Blok 3 2007.

Reeksamen i Statistik for biokemikere. Blok 3 2007. Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet

Læs mere

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i Da er r i = e i ˆσ ei t(n 3) (tæt på N(0,1) hvis n ikke alt for lille). Program 1. lineær regression: opgave 3 og 13 (sukker-temperatur). 2. studentiserede residualer, multipel regression. Tommelfinger-regel:

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2019

Vejledende besvarelse af hjemmeopgave, forår 2019 Vejledende besvarelse af hjemmeopgave, forår 2019 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (26. marts.-28. marts). På hjemmesiden http://staff.pubhealth.ku.dk/~lts/basal19_1/hjemmeopgave.html

Læs mere

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk

Læs mere