Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Save this PDF as:
 WORD  PNG  TXT  JPG

Størrelse: px
Starte visningen fra side:

Download "Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences"

Transkript

1 Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger Korrelation vs. regression Modelkontrol Diagnostics Hjemmesider: : Siden er lidt teknisk 1 / 85 2 / 85 Simpel lineær regression Data Retningsbestemt relation (men ikke nødvendigvis kausal) mellem to kvantitative (kontinuerte) variable: Y: Respons eller outcome, afhængig (dependent) variabel X: Forklarende variabel, kovariat (somme tider Independent/uafhængig - meget uheldigt!) Gennemgående eksempel at tænke på: Y =blodtryk, X =alder Sammenhørende registreringer (x i, y i ), for en række individer eller units, i = 1,, n: Bemærk: x i erne kan vælges på forhånd! Det er smart, fordi man kan designe sig til mere præcise estimater Det er farligt, hvis man har tænkt sig at benytte korrelationer (mere om det senere) 3 / 85 4 / 85

2 Eksempel I Eksempel II Sammenhæng mellem kolinesteraseaktivitet (KE) og tid til opvågning (TID) Outcome: TID Forklarende variabel: KE Konklusioner: Hvor lang tid forventer vi til opvågning, baseret på en måling af KE? Hvor stor er usikkerheden på denne prediktion? Et outcome, en (kvantitativ) kovariat: Simpel lineær regression Sammenligning af lungekapacitet (FEV 1 ) for rygere og ikke-rygere Problem: FEV 1 afhænger også af f.eks. højde Outcome: FEV 1 Forklarende variable: højde, rygevaner Konklusioner: Hvor meget dårligere er lungefunktionen hos rygere? Et outcome, to kovariater: Her er der tale om multipel regression, i form af en kovariansanalyse (omtales i næste forelæsning) 5 / 85 6 / 85 Eksempel fra bogen Scatter plot Hvilken sammenhæng er der mellem fastende blodsukkerniveau og sammentrækningsevne for venstre hjertekammer hos diabetikere? (n=23) OBS BLODSUKKER VCF data vcf; infile " ~lts/basal/data/vcf.txt" URL firstobs=2; input blodsukker vcf; Outcome: Y=vcf, %/sec. Kovariat: X=blodsukker, mmol/l Er der nogen sammenhæng her? proc sgplot data=vcf; scatter x=blodsukker y=vcf; SPSS: se app. s. 3 7 / 85 8 / 85

3 Matematisk model Fortolkning Ligningen for en ret linie: Y = α + βx Intercept α: Skæring med Y-akse Hældning β α: intercept, afskæring (skæring med Y-akse) Sammentrækningsevnen for en diabetiker med en blodsukkerværdi på 0. Samme enheder som outcome. Som regel en utilladelig ekstrapolation! β: hældning, regressionskoefficient Forskellen i sammentrækningsevne hos 2 diabetikere, der afviger i blodsukkerværdi med 1 mmol/l. Ofte parameteren med størst interesse. Enheder som Outcomes enheder pr. kovariats enhed. 9 / / 85 Statistisk model Estimation Y i = α + βx i + ε i, ε i N (0, σ 2 ) uafh. ε i erne er residualerne, dvs. afvigelserne (i Y) fra observeret til forventet. Mindste kvadraters metode: Bestem α og β, så kvadratafvigelsessummen n n (y i (α + βx i )) 2 = ε 2 i i=1 i=1 bliver mindst mulig. Resultat (estimater): ˆβ = S xy S xx = ni=1 (x i x)(y i ȳ) ni=1 (x i x) 2, ˆα = ȳ ˆβ x (ingen kode til denne figur) 11 / / 85

4 Regressionsanalyse i praksis Output fra regressionsanalyse i SAS (GLM) i SAS: proc glm data=vcf; model vcf = blodsukker / clparm; eller proc reg data=vcf; model vcf = blodsukker / clb; i SPSS: Analyze/General Linear Model/ eller Analyze/Regression/Linear mere i appendix, s. 4 Dependent Variable: vcf Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected Total R-Square Coeff Var Root MSE vcf Mean Source DF Type I SS Mean Square F Value Pr > F blodsukker Source DF Type III SS Mean Square F Value Pr > F blodsukker Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 blodsukker Parameter 95% Confidence Limits Intercept blodsukker / / 85 Vigtige informationer fra output Estimeret regressionslinie Hældning (slope, vises i output under betegnelsen blodsukker, fordi det er koefficienten til denne), ˆβ = , med tilhørende spredning (standard error) Spredningen omkring linien (Root MSE), s = ˆσ = Denne størrelse benyttes til konstruktion af prediktionsgrænser (kommer senere), som er normalområder for given blodsukkerværdi. proc sgplot data=vcf; reg x=blodsukker y=vcf / markerattrs=(color=blue) lineattrs=(color=red); SPSS: app. s. 5 Estimeret regressionslinie: vcf= blodsukker 15 / / 85

5 Forventet værdi for specifikke værdier af kovariaten Fittede (predikterede, forventede) værdier: ŷ i = ˆα + ˆβx i Forventet værdi af vcf for en diabetiker med blodsukker 10mmol/l: = 1.32 Forventet værdi for specifikke værdier af kovariaten, II Usikkerheder på disse kan ikke udregnes ved at kombinere s.e. på hhv. intercept og hældning! Dette skyldes, at intercept og hældning er (negativt) korrelerede: Højt intercept giver lav hældning - og omvendt. Lad SAS gøre det ved hjælp af en estimate-sætning: (SPSS: app. s. 6) estimate blodsukker=10 intercept 1 blodsukker 10; som giver outputtet: Standard Parameter Estimate Error t Value Pr > t blodsukker= <.0001 men hvad med usikkerheden (s.e.) for denne? Parameter 95% Confidence Limits blodsukker= / / 85 Estimaterne fra regressionsanalysen Spredning omkring regressionslinie Regressionsanalysen indeholder 3 parametre: 2 hørende til linien (intercept og hældning) 1, som er spredningen omkring linien (σ): den biologiske variation af vcf for folk med samme blodsukker-værdi Variansen omkring regressionslinien (σ 2 ) estimeres ved s 2 = 1 n 2 n (y i ˆα ˆβx i ) 2 i=1 ca. gennemsnitlig kvadratisk afstand, blot er n (antallet af observationer) erstattet af n 2 (antallet af frihedsgrader), her / 85 Da man ikke kan forstå eller fortolke varianser direkte, tager vi straks kvadratrod: s = s 2 som er estimat for spredningen omkring regressionslinien som benævnes i SAS (lidt uheldigt ): Root Mean Square Error, forkortet Root MSE i output. i SPSS (heller ikke så sigende ): Standard Error of the Estimate Estimatet er , med de samme enheder som outcome vcf uheldigt, fordi det ikke er en standard error, men en standard deviation 20 / 85

6 Usikkerhed på estimaterne Hvor gode er skønnene over de ukendte parametre α og β? Hvor meget anderledes resultater kunne vi forvente at finde ved en ny undersøgelse? Det kan vises, at ˆβ N (β, σ2 S xx ) dvs. hældningen er præcist bestemt, hvis observationerne ligger tæt på linien (σ 2 lille) variationen i x-værdier (S xx ) er stor Konfidensinterval = Sikkerhedsinterval Estimeret usikkerhed på ˆβ: s.e.( ˆβ) = s S xx Dette estimat kaldes standard error for ˆβ, eller generelt standard error of the estimate (s.e.e.) Vi bruger det til at konstruere et 95% konfidensinterval ˆβ ± t 97.5% (n 2) s.e.( ˆβ) = ˆβ ± ca.2 s.e.( ˆβ) = ± = (0.0002, ) 21 / / 85 T-test for parameter=0 Og hvad med interceptet...? Vi kan også teste, typisk H 0 : β = 0 ved t-testet som her giver t = ˆβ t(n 2) s.e.( ˆβ) t = =2.10 t(21), P= dvs. lige på grænsen af det signifikante Man kan forestille sig situationer, hvor det er rimeligt at teste f.eks. H 0 : α = α 0 I så fald benyttes det tilsvarende t-test t = ˆα α 0 s.e.(ˆα) t(n 2) eller man udregner et 95% konfidensinterval for α: ± = (0.854, 1.342) Dette er bare ikke altid særligt interessant fordi interceptet i sig selv ikke er særligt interessant. 23 / / 85

7 Når man har flere hypoteser... Hypotetisk eksempel Vi kan altså teste hypoteser om såvel α som β, men: Estimaterne for intercept og hældning er (negativt) korrelerede (her -0.92) Accepter ikke to sideordnede test Selv om vi kan acceptere test vedr. både α (f.eks. intercept=0) og β (f.eks. hældning 1) hver for sig, kan vi ikke nødvendigvis acceptere begge samtidig 25 / / 85 Variationsopspaltning Determinationskoefficient, R 2 Forklaring til de øverste linier i output s. 14: SS total = n (y i ȳ) 2 = SS model + SS error i=1 Total variation = variation, som kan forklares + variation, som ikke kan forklares x er en god forklarende variable, hvis SS model er stor i forhold til SS error Den andel af variationen (i y), der kan forklares ved modellen: R 2 = SS model SS total Her finder vi determinationskoefficienten: R 2 = 0.17, dvs. vi kan forklare 17% af variationen i vcf v.hj.a. variablen blodsukker. Determinationskoefficienten er kvadratet på korrelationskoefficienten mellem vcf og blodsukker (som dermed er r = 0.17 = 0.42) Jeg foretrækker at kalde SS error for SS residual / / 85

8 Korrelationen Todimensional normalfordelingstæthed, r=0 Korrelationen r mellem to variable måler I hvor høj grad ligner scatter plottet en ret linie? Ikke: Hvor nær ligger punkterne ved den rette linie? Korrelationskoefficienten estimeres ved: r = r xy = S ni=1 xy (x i x)(y i ȳ) = ni=1 Sxx S yy (x i x) 2 n i=1 (y i ȳ) 2 antager værdier mellem -1 og 1 (0 = uafhængighed) +1 og -1 svarer til perfekt lineær sammenhæng, hhv. positiv og negativ Korrelation 0 Alle lodrette snit giver normalfordelinger med samme middelværdi og samme varians 29 / / 85 Todimensional normalfordelingstæthed, r=0.9 Konturkurverne for en normalfordeling bliver ellipser Korrelation 0.9 Udpræget retning i figuren 31 / 85 så check af todimensional normalfordeling kan foretages som visuelt check af scatterplottet: Giver det indtryk af noget elliptisk? med flest observationer i de inderste ellipser 32 / 85

9 Regression kontra korrelation Regression kontra korrelation, II Regressionsmodellen Y i = α + βx i + ε i, ε i N (0, σ 2 ) siger, at de betingede fordelinger af Y, givet X, er normalfordelinger, med samme varians σ 2 (samme spredning σ) og med middelværdier, der afhænger lineært af X. Antagelserne til brug for fortolkning af en korrelation er skrappere end for regressionsanalysen, fordi: Her er der også et krav om normalfordeling på x i erne!! Hvis ikke dette krav er opfyldt, kan man ikke fortolke korrelationskoefficienten!...men man kan godt teste, om den er / / 85 Test af hældning vs test af korrelation Pas på med fortolkning af korrelation Det er en og samme sag De to estimater (for korrelation og hældning) er 0 på samme tid r xy = ˆβ Sxx S yy Test for β = 0 er identisk med test for ρ xy = 0 men fortolkningen af de to størrelser er vidt forskellig: ˆβ fortolkes i substans-termer, med forståelige enheder r xy er skala-uafhængig - og meget vanskelig at tillægge nogen virkelig mening Hold ˆβ og s 2 fast: 1 r 2 xy = s 2 s 2 + ˆβ 2 Sxx n 2 S xx stor 1-r 2 xy tæt på 0 r 2 xy tæt på 1 r 2 xy kan gøres vilkårlig tæt på 1 ved at sprede x erne hvordan mon? 35 / / 85

10 Forskellige typer af korrelationer Korrelationer i praksis Pearson: Det er den type, vi netop har beskrevet, som altså bygger på en antagelse om tilfældig udvælgelse fra en todimensional normalfordeling Spearman: Et non-parametrisk alternativ, som kun kræver tilfældig udvælgelse fra en todimensional fordeling (der altså ikke behøver at være en normalfordeling) I tilfælde af et selekteret sample bliver begge korrelationer meningsløse og under alle omstændigheder giver de bare et ret ufortolkeligt tal... I SAS benyttes PROC CORR: proc corr pearson spearman; var vcf blodsukker; med oplagte options (pearson er default). og vi får output som vist på næste side. SPSS, se appendix, s / / 85 Output med korrelationer Hvornår bruger vi så korrelationen The CORR Procedure 2 Variables: vcf blodsukker Pearson Correlation Coefficients, N = 23 Prob > r under H0: Rho=0 vcf blodsukker vcf blodsukker Her aflæses korrelationerne: Pearson: 0.42, P=0.048 Spearman: 0.32, P=0.14 The CORR Procedure 2 Variables: vcf blodsukker Spearman Correlation Coefficients, N = 23 Prob > r under H0: Rho=0 vcf blodsukker vcf blodsukker Bemærk, at P-værdien for Pearson-korrelationen er nøjagtig den samme som ved test af hældning=0 i regressionsanalysen. Dette vil altid være tilfældet 39 / 85 Til at teste om der er en sammenhæng Brug gerne Spearman korrelation og slip for så mange antagelser, men så får man også kun en P-værdi Til at sammenligne styrken af sammenhænge mellem mange variable, målt på de samme individer I observationelle studier uden selektion: Her kan korrelationen fortolkes, hvis der er tale om en todimensional normalfordeling men spørgsmålet er stadig, om det giver den information, der er ønskelig/brugbar 40 / 85

11 Eksempler Sammenligning af målemetoder Spørgsmål: Hvor meget stiger blodtrykket med alderen? Svar: Korrelationen er hellere: 5mmHg per år, med CI=(3.7, 6.3) Spørgsmål: Er rygning mere skadeligt for kvinder end for mænd? Svar: Næh, for korrelationen mellem pakkeår og FEV 1 er 0.62 for mænd og kun 0.49 for kvinder... Pas på: Dette kan skyldes en større spredning på variablen rygning blandt mænd, og behøver altså ikke at have noget at gøre med effekten af rygning I en sådan situation giver det ingen mening at benytte korrelation! Korrelationen udtrykker sammenhæng, ikke overensstemmelse (der er f.eks. en sammenhæng mellem alder og blodtryk, men der er naturligvis ikke overensstemmelse) Naturligvis er der sammenhæng mellem to målemetoder, der foregiver at måle det samme, så det behøver man ikke teste (ellers er der i hvert fald noget helt galt) Man skal i stedet kvantificere differenserne mellem de to metoder, og udregne limits of agreement (på relevant skala) og nu tilbage til regressionsanalyse 41 / / 85 Konfidensgrænser for linien Prediktionsgrænser for enkeltindivider For hver værdi af kovariaten (her x =blodsukker): Fittede (predikterede, forventede) værdier er selve linien: ŷ i = ˆα + ˆβx i Konfidensgrænser for denne linie (smalle grænser) benyttes til sammenligning med andre grupper af personer man benytter spredningen s konf = s 1 n + (x i x) 2 Sxx Disse grænser bliver vilkårligt snævre, når antallet af observationer øges. De kan ikke bruges til diagnostik! Normalområder for sammentrækningsevne (y), for givet x=blodsukker (brede grænser): De benyttes til at afgøre, om en ny person er atypisk i forhold til normen (diagnostik), idet de omslutter ca. 95% af fremtidige observationer, også for store n. man benytter spredningen s pred = s n + (x i x) 2 Sxx Disse grænser bliver ikke nævneværdigt snævrere, når antallet af observationer øges. 43 / / 85

12 Konfidens- og prediktionsgrænser i praksis Summa summarum om grænser Figuren dannes enten automatisk, eller ved brug af ods graphics, se s. 81 (SPSS: se app. s. 8) De smalle grænser, konfidensgrænser: svarer til standard error bruges til at vurdere sikkerheden i estimatet afhænger kraftigt af værdien af kovariaten De brede grænser, prediktionsgrænser: svarer til standard deviation kaldes også normalområder eller referenceområder bruges til at diagnosticere individuelle patienter udregnes approksimativt ved ±2 spredninger (Root MSE) 45 / / 85 Har vi gjort det godt nok? Modelkontrol Modellens konklusioner er kun rimelige, hvis modellen selv er rimelig. Modelkontrol: Passer modellen rimeligt til data? Diagnostics: Passer data til modellen? Eller er der indflydelsesrige observationer eller outliers? Check af disse to forhold burde naturligvis foretages fra begyndelsen, men da de kræver fit af modellen, kan de først foretages efterfølgende. Den statistiske model var Y i = α + βx i + ε i, ε i N (0, σ 2 ) uafhængige Hvilke antagelser skal vi checke her? Uafhængighed: Tænk: Er der flere observationer på hvert individ, søskende el.lign? Linearitet Varianshomogenitet (ε i erne har samme spredning) Normalfordelte residualer (ε i erne) Obs: Intet krav om normalfordeling på x i erne!! 47 / / 85

13 Grafisk modelkontrol Residualplots til modelkontrol Fokus er her på residualerne = modelafvigelserne = observeret værdi - fittet værdi: ˆε i = y i ŷ i eller en modifikation af disse: Normerede/Standardiserede/Studentized: STUDENT Leave-one-out: PRESS Studentized Press: RSTUDENT Alle disse kan fås i nyt datasæt ved at skrive (se også s. 82): output out=ny p=yhat r=resid student=stresid cookd=cook rstudent=uresid press=press; Residualer (af passende type) plottes mod 1. den forklarende variabel x i for at checke linearitet (se efter krumninger, buer) 2. de fittede værdier ŷ i for at checke varianshomogenitet (se efter trompeter) 3. fraktildiagram eller histogram for at checke normalfordelingsantagelsen (se efter afvigelse fra en ret linie) Disse plots ses på s. 51 og 52, og kommenteres s. 51 og / / 85 Residualplots i praksis Diagnostics Panel - kode s.82 Check af lineariteten Residualer plottet mod kovariaten, med overlejret udglatning (hele koden s. 82): fås som regel automatisk, ellers brug ods graphics (SPSS: app. s. 9-10): proc glm PLOTS=(DIAGNOSTICS RESIDUALS(smooth)) data=vcf; Her ses ingen oplagte (store) buer 51 / / 85

14 Kommentarer til Diagnostics Panel Bedre check af varianshomogeniteten Vi ser foreløbig på den venstre kolonne på s. 52: Øverst: Plot af residualer mod predikterede værdier, dvs. plot af type 2 fra s. 50: Her anes muligvis lidt trompetfacon Mellemste: Fraktildiagram til check af normalfordelte residualer. Det ser rimeligt ud, men der anes ligesom et hul i fordelingen (type 3 fra s. 50) Nederst: Histogram over residualerne, ligeledes til check af normalfordelingen. (type 3 fra s. 50) Det hul, der nævnes ovenfor ses som minimummet lige over midten af fordelingen Man kan med fordel supplere med plots på siderne 51 og / 85 Plot af kvadratrod af numerisk værdi af normerede residualer, mod de predikterede værdier (se kode s. 83, SPSS: app. s.11): Der er en tendens til højere spredning for de høje predikterede værdier. Måske konstant relativ spredning? 54 / 85 Afvigelser fra modellen Afhjælpning af problemer Linearitet: Hvis lineariteten ikke holder i rimelig grad, bliver modellen ufortolkelig. Hvad gør man så? transformerer variablene med logaritmer - ligegyldigt hvilken, se s kvadratrod, invers benytter lineære splines ( knæk-linier, kommer senere) tilføjer flere kovariater, f.eks. alder, køn, medicin etc., eller log(x) foretager ikke-lineær regression 55 / / 85

15 Afhjælpning af problemer, II Varianshomogenitet, fortsat Varianshomogenitet: Hvis varianshomogeniteten ikke holder i rimelig grad, mister vi styrke, og prediktionsgrænser bliver upålidelige! Hvad gør man så? I tilfælde af trompetfacon: Transformation af Y med logaritmer Vægtet regression... (Non-parametriske metoder... men så får vi ingen kvantificeringer) Robuste metoder: (quantreg) Trompetfacon betyder, at residualernes variation (og dermed størrelse) er større for højere niveauer af outcome - ofte i form af Konstant relativ spredning = konstant variationskoefficient Variationskoefficient = spredning middelværdi Dette sker ofte, når man måler på små positive størrelser, og løsningen er (sædvanligvis) at transformere outcome Y med en logaritme 57 / / 85 Afhjælpning af problemer, III Normalfordeling (og varianshomogenitet) Normalfordelte residualer: Hvis normalfordelingen ikke holder i rimelig grad, mister vi styrke, og prediktionsgrænser bliver upålidelige! Hvad gør man så? I tilfælde af hale mod højre: Transformation med en logaritme Non-parametriske metoder... Antagelsen om normalfordeling (og til en vis grad varianshomogenitet) er ikke kritisk for selve fittet: Man får stadig gode estimater Pålidelige tests og konfidensintervaller fordi normalfordelingen som regel passer godt for estimatet ˆβ pga Den centrale grænseværdisætning, der siger at summer og andre funktioner af mange observationer bliver mere og mere normalfordelt. Men prediktionsgrænserne bliver misvisende og ufortolkelige!! 59 / / 85

16 Lidt om logaritmer måske genopfriskning...? Logaritmetransformation af outcome Alle logaritmefunktioner har et grundtal 10-tals logaritmen (log10) har grundtal 10 Den såkaldt naturlige logaritme (log, før i tiden ofte kaldet ln) har grundtal e = tals logaritmen (log2) har grundtal 2 Alle logaritmer er proportionale, f.eks. for at opnå linearitet for at opnå ens spredninger (varianshomogenitet) for at opnå normalitet af residualerne Her er kun et enkelt (ret ubetydeligt) fif: Hvis fokus er på estimation af variationskoefficenten (se s. 58), kan man med fordel benytte den naturlige logaritme), idet log 2 (x) = log(x) log(2) = log 10(x) log 10 (2) Spredning(log(y)) Spredning(y) y = CV og det betyder derfor intet for resultatet, hvilken en, man benytter fordi man altid får det samme, når man tilbagetransformerer. Alligevel er der visse fif...: 61 / 85 dvs. en konstant variationskoefficient (CV) på Y betyder konstant spredning på log(y ). Når Y logaritmetransformeres, bliver effekten af kovariater (når de tilbagetransformeres) til faktorer, der skal ganges på. 62 / 85 Logaritmetransformation af kovariat Numeriske check af antagelserne Den forklarende variabel (x) transformeres altid for at opnå linearitet. Her kan med fordel anvendes 2-tals logaritmer, idet 1 enhed i log 2 (x) så svarer til en fordobling af x, der har konstant effekt. Hældningen β udtrykker altså effekten af en fordobling af kovariaten, og successive fordoblinger antages at have samme effekt. Man kan også gøre det endnu mere fortolkeligt ved at benytte logaritmen med grundtal f.eks. 1.1, svarende til en faktor 1.1, altså en 10% forøgelse af kovariat-værdien. 63 / 85 log 1.1 (x) = log 10(x) log 10 (1.1) er mulig, men bør kun bruges som en rettesnor Linearitet: Tilføj f.eks. log(x) sammen med x selv, og test derefter, om det resulterende fit er væsentlig bedre end linien Benyt lineære splines (knæk-linier, kommer senere) og test, om der overhovedet er et knæk Varianshomogenitet: De findes, men ikke i GLM Normalfordelingen: Der findes test, men de kan ikke generelt anbefales 64 / 85

17 Regression diagnostics Cooks afstand Understøttes konklusionerne generelt af hele materialet? Eller er der observationer med meget stor indflydelse på resultaterne? Udelad den i te person og bestem nye estimater for samtlige parametre. Udregn Cook s afstand, et mål for ændringen i parameterestimater. Spalt evt. Cook s afstand ud i separate dele, som måler f.eks: Hvor mange s.e.( ˆβ 1 ) ændrer ˆβ 1 sig, hvis den i te person udelades? Diagnostics i SPSS: app. s / 85 Vi har allerede set en figur af disse i DiagnosticsPanel tidligere, se s. 52 (højre kolonne i midten). Alternativt kan man benytte en output-sætning og selv tegne en passende figur (se s. 82 og 84): En enkelt observation skiller sig ud i forhold til de øvrige Tommelfingerregel: Sammenlign med 4 n = (rød stiplet linie) 66 / 85 Cooks afstand spaltet i komponenter Benyt option influence i model-sætningen (kun proceduren REG, se appendix s. 85), og få svar på: Hvor mange s.e.( ˆβ 1 ) er ændres f.eks. ˆβ, når den i te person udelades? Dependent Variable: vcf Output Statistics DFBETAS Obs Intercept blodsukker En enkelt observation (nr. 13, tilfældigvis) kan ændre hældningsestimatet med mere end 1 standard error. Tommelfingerregel: Sammenlign med 2 n = / < Udeladelse af observation nr. 13 Estimeret linie fra tidligere: y = x ˆβ = ( ), t = Regressionsanalyse uden observation nr. 13 Estimeret linie: y = x 68 / 85 ˆβ = ( ), t = = 2.1, P = = 1.05, P = 0.31

18 Outliers To forskellige eksempler Observationer, der ikke passer ind i sammenhængen de er ikke nødvendigvis indflydelsesrige de har ikke nødvendigvis et stort residual på mulige outliers: Press-residualer Residualer, der fremkommer efter at den pågældende observation har været udelukket fra estimationen. (residualer without current observation) Man kan med fordel danne et nyt datasæt med predikterede værdier og residualer, se kode i appendix s / 85 Hvad gør vi i hver af disse situationer? 70 / 85 Kan vi udelade disse observationer? Udeladelse af enkeltobservationer? Lad os forestille os, at figuren på forrige side viser blodtrykket som funktion af alderen, og at den grønne person er 110 år, mens den røde person er 50 år Vi kan godt udelade den grønne person faktisk bør vi gøre det for ikke at ødelægge beskrivelsen af det store flertal. Men husk at skrive det som inklusionskriterium! Vi kan ikke udelade den røde person, fordi vi ikke kan konstruere et tilsvarende inklusionskriterium. Forestil jer sætningen: Her beskriver vi blodtrykket for personer, hvis blodtryk ligger pænt i forhold til den beskrivelse, vi er ved at lave... Hvad gør vi ved indflydelsesrige observationer og outliers? ser nærmere på dem, de er tit ganske interessante anfører et mål for deres indflydelse Hvornår kan vi udelade dem? hvis de ligger meget yderligt i kovariat-værdier husk at afgrænse konklusionerne tilsvarende! hvis man kan finde årsagen og da skal alle sådanne udelades! mere om dette senere (ved øvelserne) 71 / / 85

19 Confounding, bare lige et smugkig Confounding, II meget mere om dette senere (Kor)relationen er: positiv for mænd positiv for kvinder (Kor)relationen er: tilsyneladende positiv 0 for hver aldersgruppe negativ for mennesker Eks: Kolesterol vs. chokoladeindtag X og Y vokser begge med alderen (f.eks. kolesterol og blodtryk) 73 / / 85 APPENDIX Indlæsning og scatter plot Slide 8 med SAS-programbidder svarende til diverse slides: Indlæsning og scatter plot, s. 76 Regressionsanalyse, s data vcf; infile " URL firstobs=2; input blodsukker vcf; Korrelation, s. 80 Konfidens- og prediktionsgrænser, s. 81 Modelkontrol, s Diagnostics, s SPSS: se separat appendix proc sgplot data=vcf; scatter x=blodsukker y=vcf; eller evt. med den gamle kode: proc gplot data=vcf; plot vcf*blodsukker; 75 / / 85

20 Regressionsanalyse Regressionslinie Slide 13 og 14 Med GLM: proc glm data=vcf; model vcf = blodsukker / clparm; eller med REG: proc reg data=vcf; model vcf = blodsukker / clb Udbygget kode s. 79 og / 85 Slide 16 For at tegne linien skrives f.eks. proc sgplot data=vcf; reg x=blodsukker y=vcf / markerattrs=(color=blue) lineattrs=(color=red); eller med den lidt gamle kode proc gplot data=vcf; plot vcf*blodsukker; symbol v=circle c=red i=rl h=2 l=1; 78 / 85 Forventet værdi for specifikke værdier af kovariaten Korrelationer Slide 18 I SAS benyttes en estimate-sætning, Her for en blodsukkerværdi på 10: proc glm data=vcf; model vcf=blodsukker / clparm; estimate blodsukker=10 intercept 1 blodsukker 10; Slide proc corr pearson spearman; var vcf blodsukker; Pearson: betegner den sædvanlige korrelation baseret på en todimensional normalfordeling Spearman: betegner den nonparametriske korrelation 79 / / 85

21 Konfidens- og prediktionsgrænser Modelkontrol Slide 45 Den pæne figur s. 45 fås formentlig automatisk, når der udføres en lineær regression. Ellers må man benytte ods graphics on; eller den mere gammeldags procedure gplot med en af nedenstående symbol-sætninger: proc gplot data=vcf; plot vcf*blodsukker; * symbol v=circle c=blue i=rlclm95; /* konfidens */ symbol v=circle c=blue i=rlcli95; /* prediktion */ 81 / 85 Slide 51 og 52 ods graphics on; proc glm PLOTS=(DIAGNOSTICS RESIDUALS(smooth)) data=vcf; model vcf=blodsukker / clparm; output out=ny p=yhat r=resid student=stresid rstudent=uresid press=press cookd=cook; ods graphics off; danner DiagnosticsPanel med mange brugbare figurer, samt en figur til vurdering af lineariteten Hvis man vil have fuld kontrol over hele modelkontrollen kan man udregne predikterede værdier og residualer, samt gemme disse i et nyt datasæt (her kaldet ny) benyttes ovenstående output-linie 82 / 85 Check af varianshomogenitet Regression diagnostics Slide 51 Her afbildes kvadratroden af de numeriske residualer overfor de predikterede værdier, eller evt. kovariaten (datasættet ny er defineret på s. 82): data tegn; set ny; sqrtres=sqrt(abs(stresid)); proc sgplot data=tegn; loess Y=sqrtres X=yhat; proc sgplot data=tegn; loess Y=sqrtres X=blodsukker; Slide 66 Plot af Cooks afstand mod observationsnummer ses i DiagnosticsPanel, se s. 52 Vil man mere end det, kan man få dem ud i et nyt datasæt ved at benytte output-sætningen (se s. 82) med cookd=cook; Herefter kan vi lave tegninger direkte: proc sgplot data=ny; scatter x=blodsukker y=cook / markerattrs=(symbol=circle color=blue size=15); 83 / / 85

22 Regression diagnostics i REG Slide 67 I proceduren REG kan Cooks afstand spaltes ud i koordinater: proc reg data=vcf; model vcf = blodsukker / influence; 85 / 85

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 21. februar 2017 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017 Faculty of Health Sciences Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 26. september 2017 1 / 85 Simpel lineær regression Regression og korrelation Simpel lineær regression Todimensionale

Læs mere

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling Faculty of Health Sciences Regressionsanalyse Simpel lineær regression, 28-2-2013 Lene Theil Skovgaard Biostatistisk Afdeling 1 / 67 Simpel lineær regression Regression og korrelation Simpel lineær regression

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger. Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.

Læs mere

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineær regression i SAS. Lineær regression i SAS p.1/20 Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Regressionsanalyse i SAS

Regressionsanalyse i SAS Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Basal statistik. 23. september 2008

Basal statistik. 23. september 2008 Basal statistik 23. september 2008 Korrelation og regression Simpel lineær regression Todimensionale normalfordelinger Korrelation vs. regression Modelkontrol Diagnostics Thomas Scheike, Biostatistisk

Læs mere

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen Opgavebesvarelse, Resting metabolic rate I filen T:\Basalstatistik\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Multipel regression. Lene Theil Skovgaard 10. oktober 2017 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Figurer: s.

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2016

Vejledende besvarelse af hjemmeopgave, efterår 2016 Vejledende besvarelse af hjemmeopgave, efterår 2016 Udleveret 4. oktober, afleveres senest ved øvelserne i uge 44 (1.-4. november) Normal aktivitet af enzymet plasma kolinesterase er en forudsætning for

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Basal Statistik. Simpel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Multipel regressionsanalyse. Lene Theil Skovgaard 10. oktober 2017 Multipel regression Regression med to kvantitative kovariater: Eksempel

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger. Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.

Læs mere

Besvarelse af opgave om Vital Capacity

Besvarelse af opgave om Vital Capacity Besvarelse af opgave om Vital Capacity hentet fra P. Armitage & G. Berry: Statistical methods in medical research. 2nd ed. Blackwell, 1987. Spørgsmål 1: Indlæs data og konstruer en faktor (klassevariabel)

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 Parret sammenligning, målemetoder med logaritmer Tosidet variansanalyse

Læs mere

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015 Faculty of Health Sciences Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 1 / 84 Logaritmer og kovariansanalyse Parret sammenligning, målemetoder med logaritmer Tosidet

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Basal Statistik - SPSS Den generelle lineære model. Lene Theil Skovgaard 24. oktober 2017 Biokemisk iltforbrug,

Læs mere

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i Da er r i = e i ˆσ ei t(n 3) (tæt på N(0,1) hvis n ikke alt for lille). Program 1. lineær regression: opgave 3 og 13 (sukker-temperatur). 2. studentiserede residualer, multipel regression. Tommelfinger-regel:

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Kovariansanalyse. Lene Theil Skovgaard 3. oktober 2017 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Bland-Altman plot,

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ

Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ Lineær regression: lidt mere tekniske betragtninger om R 2 og et godt alternativ Per Bruun Brockhoff, DTU Compute, Claus Thorn Ekstrøm, KU Biostatistik, Ernst Hansen, KU Matematik January 17, 2017 Abstract

Læs mere

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk

Læs mere

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1 (a) Denne opgave bygger på resultaterne fra 2 forsøg med epo-behandling af for tidligt fødte børn, idet gruppe 1 og 3 stammer fra første forsøg, mens gruppe 2 og 4 stammer fra det andet. Det må antages,

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2015

Vejledende besvarelse af hjemmeopgave, forår 2015 Vejledende besvarelse af hjemmeopgave, forår 2015 En stikprøve bestående af 65 mænd og 65 kvinder er blevet undersøgt med henblik på at se på en evt. sammenhæng mellem kropstemperatur og puls. På hjemmesiden

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2016

Vejledende besvarelse af hjemmeopgave, forår 2016 Vejledende besvarelse af hjemmeopgave, forår 2016 Udleveret 1. marts, afleveres senest ved øvelserne i uge 13 (29. marts-1. april) Denne opgave fokuserer på at beskrive niveauet af hormonet AMH (højt niveau

Læs mere

Basal statistik. 21. oktober 2008

Basal statistik. 21. oktober 2008 Basal statistik 21. oktober 2008 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Parametriseringer Kovariansanalyse Esben Budtz-Jørgensen, Biostatistisk Afdeling

Læs mere

Perspektiver i Matematik-Økonomi: Linær regression

Perspektiver i Matematik-Økonomi: Linær regression Perspektiver i Matematik-Økonomi: Linær regression Jens Ledet Jensen H2.21, email: jlj@imf.au.dk Perspektiver i Matematik-Økonomi: Linær regression p. 1/34 Program for i dag 1. Indledning: sammenhæng mellem

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og Model M 0 : X hi N(α h + β h t hi,σ 2 h ), h = 1,...,m, i = 1,...,n h. m separate regressionslinjer. Behandles som i afsnit 3.3. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister)

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger Øvelser til basalkursus, 5. uge Opgavebesvarelse: Knogledensitet hos unge piger I alt 112 piger har fået målt knogledensitet (bone mineral density, bmd) i 11-års alderen (baseline værdi). Pigerne er herefter

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Epidemiologi og Biostatistik Kliniske målinger (Kapitel. +.1 + 11.-11 + 1.1-) Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Faculty of Health Sciences. Basal statistik. Den generelle lineære model mv. Lene Theil Skovgaard. 14. marts 2017

Faculty of Health Sciences. Basal statistik. Den generelle lineære model mv. Lene Theil Skovgaard. 14. marts 2017 Faculty of Health Sciences Basal statistik Den generelle lineære model mv. Lene Theil Skovgaard 14. marts 2017 1 / 96 Den generelle lineære model mv. Ikke-lineære sammenhænge Opbygning af modeller Sammenligning

Læs mere

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Sammenhæng

Læs mere

Simpel Lineær Regression: Model

Simpel Lineær Regression: Model Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]

Læs mere

Module 3: Statistiske modeller

Module 3: Statistiske modeller Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,,

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

Postoperative komplikationer

Postoperative komplikationer Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.

Læs mere

Vejledende besvarelse af hjemmeopgave

Vejledende besvarelse af hjemmeopgave Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2013 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) I forbindelse med en undersøgelse af vitamin

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2017

Vejledende besvarelse af hjemmeopgave, forår 2017 Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave.txt ligger data fra 400 fødende kvinder. Der er tale om et uddrag

Læs mere

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016 Faculty of Health Sciences Basal Statistik Begreber. Parrede sammenligninger. Lene Theil Skovgaard 6. september 2016 1 / 88 APPENDIX Programbidder svarende til diverse slides: Indlæsning af vitamin D datasæt,

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,

Læs mere

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik Lektion 4. Variansanalyse Modelkontrol Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 32 Konsekvenser af Heteroskedasticitet Antag her (og i resten) at MLR.1 til MLR.4 er opfyldt. Antag MLR.5 ikke er opfyldt, dvs. vi har heteroskedastiske

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere