Basal statistik. 23. september 2008

Størrelse: px
Starte visningen fra side:

Download "Basal statistik. 23. september 2008"

Transkript

1 Basal statistik 23. september 2008

2 Korrelation og regression Simpel lineær regression Todimensionale normalfordelinger Korrelation vs. regression Modelkontrol Diagnostics

3 Thomas Scheike, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet Slides af Lene T. Skovgaard findes på

4 Korrelation og regression, september Simpel lineær regression Retningsbestemt relation (men ikke nødvendigvis kausal) mellem to kontinuerte variable: Y: Respons eller outcome, afhængig (dependent) variabel X: Forklarende variabel, kovariat (somme tider Independent/uafhængig - meget uheldigt!)

5 Korrelation og regression, september Data: Sammenhørende registreringer (x i,y i ), for en række individer eller units, i = 1,,n: Bemærk: x i erne kan vælges på forhånd! Det er smart, fordi man kan designe sig til mere præcise estimater Det er farligt, hvis man har tænkt sig at benytte korrelationer (mere om det senere)

6 Korrelation og regression, september Eksempel: Sammenhæng mellem kolinesteraseaktivitet (KE) og tid til opvågnen (TID) Outcome: TID Forklarende variabel: KE Konklusioner: Hvor lang tid forventer vi til opvågnen, baseret på en måling af KE? Hvor stor er usikkerheden på denne prediktion?

7 Korrelation og regression, september Eksempel: Sammenligning af lungekapacitet (FEV 1 ) for rygere og ikke-rygere Problem: FEV 1 afhænger også af f.eks. højde Outcome: FEV 1 Forklarende variable: højde, rygevaner Konklusioner: Hvor meget dårligere er lungefunktionen hos rygere?

8 Korrelation og regression, september Kan der påvises en sammenhæng mellem fastende blodsukkerniveau og sammentrækningsevne for venstre hjertekammer hos diabetikere? (n=23) OBS BLODSUK VCF Outcome: Y=vcf, %/sec. Kovariat: X=blodsuk, mmol/l

9 Korrelation og regression, september Scatter plot Graphs/Scatter Plot /Two-Dimensional eller proc gplot data=sasuser.bp; plot vcf*blodsuk; run;

10 Korrelation og regression, september Ligningen for en ret linie: Y = α + βx

11 Korrelation og regression, september Fortolkning: α: intercept, afskæring (skæring med Y-akse) Sammentrækningsevnen for en diabetiker med en blodsukkerværdi på 0. Som regel en utilladelig ekstrapolation! β: hældning, regressionskoefficient Forskellen i sammentrækningsevne hos 2 diabetikere, der afviger i blodsukkerværdi med 1 mmol/l. Ofte parameteren med størst interesse.

12 Korrelation og regression, september Statistisk model: Y i = α + βx i + ε i, ε i N(0,σ 2 ) uafh. Estimation foretages v.hj.a mindste kvadraters metode

13 Korrelation og regression, september Mindste kvadraters metode: Bestem α og β, så kvadratafvigelsessummen n n (y i (α + βx i )) 2 = bliver mindst mulig i=1 i=1 ε 2 i ˆβ = S xy S xx = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2, ˆα = ȳ ˆβ x

14 Korrelation og regression, september Regressionsanalyse i ANALYST: Statistics/Regression/Simple eller Linear vcf Dependent, blodsuk Explanatory Statistics afkryds Confidence limits for estimates samt evt. Correlation matrix of estimates Og ved direkte programmering: proc reg data=sasuser.bp; model vcf = blodsuk / clb corrb; run;

15 Korrelation og regression, september Dependent Variable: vcf Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model Error Corrected Total Root MSE R-Square Dependent Mean Adj R-Sq Coeff Var Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t 95% Confidence Limits Intercept < blodsuk Correlation of Estimates Variable Intercept blodsuk Intercept blodsuk

16 Korrelation og regression, september Vigtige informationer fra output: hældning (slope, vises i output under betegnelsen blodsuk, fordi det er koefficienten til denne), ˆβ = , med tilhørende spredning (standard error) spredningen omkring linien (Root MSE), s = ˆσ = Denne størrelse benyttes til konstruktion af prediktionsgrænser (kommer senere), som er normalområder for given blodsukkerværdi.

17 Korrelation og regression, september Tegning med linie: I regressionsopsætningen klikkes Plots, og der afkrydses i Plot observed vs. independent Estimeret regressionslinie: vcf= blodsuk

18 Korrelation og regression, september Fortolkning af ˆα er ofte håbløs, men den er nødvendig for at lave prediktioner. Fittede (predikterede, forventede) værdier: ŷ i = ˆα + ˆβx i Forventet værdi af vcf for en diabetiker med blodsukker 10mmol/l: = 1.32

19 Korrelation og regression, september Omparametrisering, f.eks. v.hj.a. ny forklarende variabel: Z = X 10 Der gælder så α = α + 10β, dvs. liniens y-værdi i x=10. Fortolkning af α 10 : Sammentrækningsevne for en diabetiker med blodsukkerværdi 10 mmol/l.

20 Korrelation og regression, september Data/Transform/Compute, definer sukker10 som blodsuk-10 Gentag nu regressionen med blodsuk erstattet af sukker10. Vi får så Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t 95% Confidence Limits Intercept < sukker Correlation of Estimates Variable Intercept sukker10 Intercept sukker

21 Korrelation og regression, september Regressionsanalysen indeholder 3 parametre: 2 hørende til linien (intercept og hældning) 1, som er spredningen omkring linien (σ): den biologiske variation af vcf for folk med samme blodsukker-værdi Vi estimerer σ 2, variansen omkring regressionslinien ved s 2 = 1 n 2 n (y i ˆα ˆβx i ) 2 i=1 ca. gennemsnitlig kvadratisk afstand, blot er n (antallet af observationer) erstattet af n 2 (antallet af frihedsgrader), her 21

22 Korrelation og regression, september Man kan ikke forstå eller fortolke varianser direkte, så vi tager straks kvadratrod: s = s 2 som er estimat for spredningen omkring regressionslinien kaldes i SAS (lidt uheldigt) for Root Mean Square Error her , med de samme enheder som vcf

23 Korrelation og regression, september Hvor gode er skønnene over de ukendte parametre α og β? Hvor meget anderledes resultater kunne vi forvente at finde ved en ny undersøgelse? Det kan vises, at ˆβ N(β, σ2 S xx ) dvs. hældningen er præcist bestemt, hvis observationerne ligger tæt på linien (σ 2 lille) variationen i x-værdier (S xx ) er stor

24 Korrelation og regression, september Estimeret usikkerhed på ˆβ: se(ˆβ) = s Sxx Dette estimat kaldes standard error for ˆβ, eler generelt standard error of the estimate (s.e.e) Vi bruger det til at konstruere et 95% konfidensinterval ˆβ ± t 97.5% (n 2) se(ˆβ) = ˆβ ± ca.2 se(ˆβ) = ± = (0.0002, )

25 Korrelation og regression, september Vi kan også teste, typisk H 0 : β = 0 ved t-testet t = ˆβ se(ˆβ) t(n 2) som her giver t = =2.10 t(21), P= dvs. lige på grænsen af det signifikante

26 Korrelation og regression, september Tilsvarende kan vi teste f.eks. H 0 : α = α 0 ved t-testet t = ˆα α 0 se(ˆα) t(n 2) eller udregne et 95% konfidensinterval for α: ± = (0.854, 1.342) Dette er ikke særlig interessant. I stedet kan vi erstatte blodsuk af blodsuk-10, hvorved det nye intercept -estimat bliver 1.317(0.045) med 95% konfidensinterval ± = (1.223, 1.411). Dette kan fortolkes.

27 Korrelation og regression, september Vi kan altså teste hypoteser om såvel α som β, men: Estimaterne for intercept og hældning er (negativt) korrelerede (her -0.92, jv. s. 12) Accepter ikke to sideordnede test Selv om vi kan acceptere test vedr. både α (f.eks. intercept=0) og β (f.eks. hældning 1) hver for sig, kan vi ikke nødvendigvis acceptere begge samtidig

28 Korrelation og regression, september

29 Korrelation og regression, september Variationsopspaltning SS total = n (y i ȳ) 2 = SS model + SS resid i=1 Total variation = variation, som kan forklares + variation, som ikke kan forklares x er en god forklarende variable, hvis SS resid er lille i forhold til SS model

30 Korrelation og regression, september Alternativ teststørrelse for effekt af x F-teststørrelse for hypotesen H 0 : β = 0: SS model /1 SS resid /(n 2) F(1,n 2) Bemærk, at der her gælder, at det nye F-test giver det samme som det gamle t-test, fordi t = ˆβ se(ˆβ) = F

31 Korrelation og regression, september Ækvivalensen mellem t og F-tests gælder kun for simpel lineær regression Generelt tester F-testet mere end 1 frihedsgrad væk: flere niveauer af en kategorisk kovariat testes ens (anova) flere kvantitative forklarende variable testes væk på samme tid (multipel regression)

32 Korrelation og regression, september Determinationskoefficient, R 2 : Den andel af variationen (i y), der kan forklares ved modellen: R 2 = SS model SS total Her finder vi determinationskoefficienten: R 2 = 0.17, dvs. vi kan forklare 17% af variationen i vcf v.hj.a. variablen blodsuk. Determinationskoefficienten er kvadratet på korrelationskoefficienten mellem vcf og blodsuk (som dermed er r = 0.17 = 0.42)

33 Korrelation og regression, september Korrelationen r mellem to variable måler: I hvor høj grad ligner scatter plottet en ret linie? Ikke: Hvor nær ligger punkterne ved den rette linie? Korrelationskoefficienten estimeres ved: S n xy i=1 r = r xy = = (x i x)(y i ȳ) Sxx S n yy i=1 (x i x) 2 n i=1 (y i ȳ) 2 antager værdier mellem -1 og 1 (0 = uafhængighed) +1 og -1 svarer til perfekt lineær sammenhæng, hhv. positiv og negativ

34 Korrelation og regression, september Todimensional normalfordelingstæthed med korrelation 0 Alle lodrette snit giver normalfordelinger med samme middelværdi og samme varians

35 Korrelation og regression, september Todimensional normalfordelingstæthed Korrelation 0.9 Udpræget retning i figuren

36 Korrelation og regression, september Konturkurver for en normalfordeling

37 Korrelation og regression, september Regression kontra korrelation Antagelserne til brug for fortolkning af en korrelation er skrappere end for regressionsanalysen, fordi: En todimensional normalfordeling for (X,Y) medfører: De betingede fordelinger af Y givet X=x er igen normalfordelinger De betingede middelværdier ligger på en ret linie De betingede varianser er ens (uafhængig af x)

38 Korrelation og regression, september Betingninger i den todimensionale normalfordeling giver altså en lineær regressionsmodel: men ved udregning af korrelationen antager man tillige, at X erne følger en normalfordeling.

39 Korrelation og regression, september De to estimater (for korrelation og hældning) ligner hinanden ˆβ = S xy S xx ˆβ = r xy Syy S xx r xy = S xy Sxx S yy r xy = ˆβ Sxx S yy Men korrelationen er dimensionsløs og svær at fortolke

40 Korrelation og regression, september Test af uafhængighed (ingen korrelation), H 0 : ρ xy = 0 T = r xy 1 r 2 xy n 2 t(n 2) Test for β = 0 er identisk med test for ρ xy = 0

41 Korrelation og regression, september Men pas på: 1 r 2 xy = s 2 s 2 +ˆβ 2 Sxx n 2 Hold ˆβ og s 2 fast: S xx stor 1-r 2 xy tæt på 0 r 2 xy tæt på 1 r 2 xy kan gøres vilkårlig tæt på 1 ved at sprede x erne f.eks. ved at udelade de midterste

42 Korrelation og regression, september Korrelationskoefficienten udtrykker sammenhæng, ikke overensstemmelse (der er f.eks. en sammenhæng mellem alder og blodtryk, men der er naturligvis ikke overensstemmelse) Man skal derfor ikke bruge korrelationskoefficienten til at sammenligne målemetoder Pearson korrelationen måler graden af lineær sammenhæng. For krumme sammenhænge bør man benytte rangkorrelationer (Spearman).

43 Korrelation og regression, september Fittede (predikterede, forventede) værdier: ŷ i = ˆα + ˆβx i Konfidensgrænser for selve linien (smalle grænser) benyttes til sammenligning med andre grupper af personer man benytter spredningen s 1 + (x i x) 2 n S xx Disse grænser bliver vilkårligt snævre, når antallet af observationer øges. De er ofte irrelevante!

44 Korrelation og regression, september Konfidensgrænser (fås under Plots i regressionsopsætningen) eller ved at skrive symbol=rlclm95 i symbol-sætningen

45 Korrelation og regression, september Fittede (predikterede, forventede) værdier: ŷ i = ˆα + ˆβx i Prediktionsgrænser (normalområde) for enkeltobservationer (brede grænser) De benyttes til at afgøre, om en ny person er atypisk i forhold til normen (diagnostik), idet de omslutter ca. 95% af fremtidige observationer, også for store n. man benytter spredningen s n + (x i x) 2 S xx Disse grænser bliver ikke nævneværdigt snævrere, når antallet af observationer øges.

46 Korrelation og regression, september Prediktionsgrænser Afkryds Prediction limits i stedet for Confidence limits eller ved at skrive symbol=rlcli95 i symbol-sætningen

47 Korrelation og regression, september Modellens konklusioner er kun rimelige, hvis modellen selv er rimelig. Modelkontrol: Passer modellen rimeligt til data? Diagnostics: Passer data til modellen? Eller er der indflydelsesrige observationer eller outliers? Check af disse to forhold burde foretages fra begyndelsen, men da de kræver fit af modellen, kan de først foretages efterfølgende

48 Korrelation og regression, september Modelkontrol: Den statistiske model var Y i = α + βx i + ε i, ε i N(0,σ 2 ) uafhængige Hvilke antagelser skal vi checke her? linearitet varianshomogenitet (ε i erne har samme varians) normalfordelte afvigelser (ε i erne) Obs: Intet krav om normalfordeling på x i erne!! eller y i erne!!

49 Korrelation og regression, september Til grafisk modelkontrol skal vi bruge residualerne = modelafvigelserne = observeret - fittet værdi: eller en modifikation af disse (se senere) ˆε i = y i ŷ i

50 Korrelation og regression, september Residualplots: Residualer (af passende type) plottes mod den forklarende variabel x i for at checke linearitet (se efter krumninger) de fittede værdier ŷ i for at checke varianshomogenitet (se efter trompeter) fraktildiagram eller histogram for at checke normalfordelingsantagelsen De to førstnævnte figurer skal give indtryk af uorden dvs. der må ikke være nogen systematik Fraktildiagrammet skal ligne en ret linie

51 Korrelation og regression, september Linearitet, eller.. Tendens til buer? Hvis lineariteten ikke holder i rimelig grad, bliver modellen ufortolkelig.

52 Korrelation og regression, september Numerisk check af linearitet: Tilføj kvadratleddet blodsuk 2 vcf=α+β 1 blodsuk+β 2 blodsuk 2 Test af linearitet: β 2 =0 Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept <.0001 sukker blodsuk_i_anden Test af β = 0 giver t = 0.93 og P = Lineariteten ser rimelig ud

53 Korrelation og regression, september Afhjælpning af non-linearitet: tilføj flere kovariater, f.eks. alder, køn, medicin etc. transformer variablene med logaritmer kvadratrod, invers Lad være med at gøre noget: ikke-lineær regression

54 Korrelation og regression, september Problemer med varianshomogeniteten? Kaos? eller trompetfacon? symmetri om 0-linien? Hvis varianshomogeniteten ikke holder i rimelig grad, mister vi styrke, og prediktionsgrænser bliver upålidelige!

55 Korrelation og regression, september Trompetfacon kan fortolkes som konstant relativ spredning = konstant variationskoefficient Variationskoefficient = spredning middelværdi ofte konstant, når man måler på små positive størrelser, f.eks. koncentrationer transformer outcome med logaritme

56 Korrelation og regression, september Problemer med normalfordelingsantagelsen? Er histogrammet passende symmetrisk? Ser fraktildiagrammet lineært ud?

57 Korrelation og regression, september Hvis normalfordelingen ikke holder i rimelig grad, mister vi (lidt) styrke og prediktionsgrænser bliver upålidelige! Afhjælpning af problemer med normalfordelingsantagelsen: transformation med logaritmer i tilfælde af fordelinger med haler mod højre non-parametriske metoder men så får vi ingen kvantificeringer

58 Korrelation og regression, september Antagelsen om normalfordeling (og varianshomogenitet) er ikke så kritisk for selve fittet, fordi: t-fordelingen bygger på normalfordelingen, men kun på en normalfordelingsantagelse for estimatet ˆβ, og dette passer ofte, når der er rimeligt mange observationer, på grund af Den centrale grænseværdisætning, der siger at summer og andre funktioner af mange observationer bliver mere og mere normalfordelt. Men prediktionsgrænserne bliver misvisende og ufortolkelige!!

59 Korrelation og regression, september Transformation med logaritmer men hvilken logaritme? Alle logaritmer er proportionale, så resultaterne bliver ens (efter tilbagetransformation), men der er visse fif: Den forklarende variabel transformeres for at opnå linearitet, dvs. når det er successive fordoblinger, der har konstant effekt. Brug gerne 2-tals logaritmer!

60 Korrelation og regression, september Outcome transformeres enten for at opnå linearitet for at opnå varianshomogenitet Var(log(y)) Var(y) y 2 = CV 2 dvs. en konstant variationskoefficient (CV) på Y betyder konstant varians på log(y ), den naturlige logaritme (den som tidligere har heddet ln, men som altså hedder log i computersprog)

61 Korrelation og regression, september Regression diagnostics: Understøttes konklusionerne af hele materialet? Eller er der observationer med meget stor indflydelse på resultaterne? Udelad den i te person og bestem nye estimater for samtlige parametre. Udregn Cook s afstand, et mål for ændringen i parameterestimater. Spalt Cook s afstand ud i koordinater, som måler f.eks: Hvor mange s.e. ændrer ˆβ 1 sig, hvis den i te person udelades?

62 Korrelation og regression, september En enkelt observation skiller sig ud i forhold til de øvrige

63 Korrelation og regression, september Spalt Cooks afstand ud i koordinater og angiv: Hvor mange se er ændres f.eks. ˆβ, når den i te person udelades? Dependent Variable: vcf Output Statistics DFBETAS Obs Intercept blodsuk <

64 Korrelation og regression, september Estimeret linie: y = x ˆβ = ( ), t = = 2.1,P = Regressionsanalyse uden observation nr. 13 Estimeret linie: y = x ˆβ = ( ), t = = 1.05,P = 0.31

65 Korrelation og regression, september Outliers Observationer, der ikke passer ind i sammenhængen de er ikke nødvendigvis indflydelsesrige de har ikke nødvendigvis et stort residual Press-residualer Residualer, der fremkommer efter at den pågældende observation har været udelukket fra estimationen. (residualer without current observation)

66 Korrelation og regression, september Hvad gør vi ved indflydelsesrige observationer og outliers? ser nærmere på dem, de er tit ganske interessante anfører et mål for deres indflydelse Hvornår kan vi udelade dem? hvis de ligger meget yderligt husk at afgrænse konklusionerne tilsvarende! hvis man kan finde årsagen og da skal alle sådanne udelades!

67 Korrelation og regression, september Modelkontrol og Diagnostics i ANALYST Visse af plottene kan konstrueres direkte ved i regressionsopsætningen at klikke Plots/Residual hvor der vælges f.eks. Residual mod Predicted

68 Korrelation og regression, september Der findes 4 forskellige typer af residualer normeret? med alle obs. uden current obs. nej Residual Press ja Student Rstudent

69 Korrelation og regression, september Fuld kontrol over tegninger til modelkontrol fås ved i regressionsopsætningen at benytte Save Data, afkryds Create and save diagnostics data overflyt (klik Add) de størrelser, der skal gemmes (typisk Predicted, Residual, Student, Rstudent,Cookd,Press). Dobbeltklik på Diagnostics Table i projekttræet Gem det ved at klikke File/Save as By SAS Name og åbn det i ANALYST, når der skal laves tegninger mv.

70 Korrelation og regression, september Falsk korrelation (spurious correlation) Korrelationen er: positiv for mænd positivt for kvinder negativt for mennesker Eks: Kolesterol vs. chokoladeindtag

71 Korrelation og regression, september Korrelationen er: tilsyneladende positiv 0 for hver aldersgruppe X og Y vokser begge med alderen

72 Korrelation og regression, september Et delvist program kunne se ud som: data a1; infile vcf.tal ; input glucose vcf; sukker10=glucose-10; glucose_i_anden=(glucose-10)**2; run; proc print data=a1; var glucose vcf; run; proc corr pearson spearman data=a1; var vcf glucose; run;

73 Korrelation og regression, september proc reg data=a1; model vcf=sukker10 glucose_i_anden / clb; run; proc reg data=a1; model vcf=glucose / corrb clb r p influence; output out=ny p=yhat r=resid student=stresid cookd=cook h=h rstudent=uresid press=press; run; proc print data=ny; var glucose vcf yhat resid stresid h cook uresid press; run; proc univariate normal data=ny; var resid; histogram / cfill=gray height=3 normal; probplot / height=3 normal(mu=est sigma=est l=33); inset mean std skewness / header= descriptive ; run;

74 Korrelation og regression, september proc gplot gout=plotud data=a1; plot vcf*glucose / haxis=axis1 vaxis=axis2 frame; axis1 order=(0 to 20 by 5) value=(h=3) offset=(3,3) minor=none label=(h=3 blood glucose (mmol/l) ); axis2 order=(0.6 to 2.0 by 0.2) value=(h=3) offset=(3,3) minor=none label=(a=90 R=0 H=3 Vcf (%/sec) ); symbol1 v=circle i=rlcli95 c=black h=3 l=1 w=2; run;

Basal statistik. 25. september 2007

Basal statistik. 25. september 2007 Basal statistik 25. september 2007 Korrelation og regression Simpel lineær regression Todimensionale normalfordelinger Korrelation vs. regression Modelkontrol Diagnostics Lene Theil Skovgaard, Biostatistisk

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 21. februar 2017 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017 Faculty of Health Sciences Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 26. september 2017 1 / 85 Simpel lineær regression Regression og korrelation Simpel lineær regression Todimensionale

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling Faculty of Health Sciences Regressionsanalyse Simpel lineær regression, 28-2-2013 Lene Theil Skovgaard Biostatistisk Afdeling 1 / 67 Simpel lineær regression Regression og korrelation Simpel lineær regression

Læs mere

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten. Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer Program Simpel og multipel lineær regression Helle Sørensen E-mail: helle@math.ku.dk Simpel LR: repetition, konfidensintervaller, test, prædiktionsintervaller, mm. Multipel LR: estimation, valg af model,

Læs mere

En Introduktion til SAS. Kapitel 6.

En Introduktion til SAS. Kapitel 6. En Introduktion til SAS. Kapitel 6. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 6 Regressionsanalyse i SAS 6.1 Indledning Dette kapitel

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Regressionsanalyse. Lene Theil Skovgaard 5. februar 2018 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Indlæsning og

Læs mere

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x k uafhængige variable

Læs mere

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse i R. Lene Theil Skovgaard. 25. februar 2019

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse i R. Lene Theil Skovgaard. 25. februar 2019 Faculty of Health Sciences Basal Statistik Regressionsanalyse i R. Lene Theil Skovgaard 25. februar 2019 1 / 85 Simpel lineær regression Regression og korrelation Simpel lineær regression Todimensionale

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse i R. Lene Theil Skovgaard 23. september 2019 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen Opgavebesvarelse, Resting metabolic rate I filen T:\Basalstatistik\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Regressionsanalyse i SAS

Regressionsanalyse i SAS Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Modul 5: Test for én stikprøve

Modul 5: Test for én stikprøve Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 5: Test for én stikprøve 5.1 Test for middelværdi................................. 1 5.1.1 t-fordelingen.................................

Læs mere

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik Januar 2007 2 Regressionsanalyse med GLM Sammenligning af regressionslinier

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineær regression i SAS. Lineær regression i SAS p.1/20 Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

Module 12: Mere om variansanalyse

Module 12: Mere om variansanalyse Mathematical Statistics ST06: Linear Models Bent Jørgensen og Pia Larsen Module 2: Mere om variansanalyse 2. Parreded observationer................................ 2.2 Faktor med 2 niveauer (0- variabel)........................

Læs mere

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger. Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.

Læs mere

Besvarelse af opgave om Vital Capacity

Besvarelse af opgave om Vital Capacity Besvarelse af opgave om Vital Capacity hentet fra P. Armitage & G. Berry: Statistical methods in medical research. 2nd ed. Blackwell, 1987. Spørgsmål 1: Indlæs data og konstruer en faktor (klassevariabel)

Læs mere

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Besvarelse af vitcap -opgaven

Besvarelse af vitcap -opgaven Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.

Læs mere

Ensidet variansanalyse

Ensidet variansanalyse Ensidet variansanalyse Sammenligning af grupper Helle Sørensen E-mail: helle@math.ku.dk StatBK (Uge 47, mandag) Ensidet ANOVA 1 / 18 Program I dag: Sammenligning af middelværdier Sammenligning af spredninger

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Forelæsning 8: Inferens for varianser (kap 9)

Forelæsning 8: Inferens for varianser (kap 9) Kursus 02402 Introduktion til Statistik Forelæsning 8: Inferens for varianser (kap 9) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Konfidensinterval for µ (σ kendt)

Konfidensinterval for µ (σ kendt) Program 1. Repetition: konfidens-intervaller. 2. Hypotese test 3. Type I og type II fejl, p-værdi 4. En og to-sidede tests 5. Test for middelværdi (kendt varians) 6. Test for middelværdi (ukendt varians)

Læs mere

Basal statistik. 30. januar 2007

Basal statistik. 30. januar 2007 Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Afsnit 3.3-3.5 Varians Eksempel: Forventet nytte Kovarians og korrelation Middelværdi og varians af summer af stokastiske variabler Eksempel: Porteføljevalg 1 Beskrivelse af fordelinger

Læs mere

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie Program Ensidet variansanalyse Sammenligning af grupper Helle Sørensen E-mail: helle@math.ku.dk I dag: Sammenligning af middelværdier Sammenligning af spredninger Parvise sammenligninger To eksempler:

Læs mere

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (24.-25.

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (24.-25. Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (24.-25. marts) En stikprøve bestående af 65 mænd og 65 kvinder

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau ypotese test Repetition fra sidst ypoteser Test af middelværdi Test af andel Test af varians Type 1 og type fejl Signifikansniveau Konfidens intervaller Et konfidens interval er et interval, der estimerer

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden)

Multipel regression: Et outcome, mange forklarende variable. Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) Multipel regression: Et outcome, mange forklarende variable Eksempel: Ultralydsscanning, umiddelbart inden fødslen (1-3 dage inden) OBS VAEGT BPD AD 1 2350 88 92 2 2450 91 98 3 3300 94 110............

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen

k UAFHÆNGIGE grupper F-test Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen Introduktion til Statistik Forelæsning 10: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Besvarelse af juul2 -opgaven

Besvarelse af juul2 -opgaven Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

INTRODUKTION TIL dele af SAS

INTRODUKTION TIL dele af SAS INTRODUKTION TIL dele af SAS Der er flere forskellige angrebsvinkler ved statistiske analyser i SAS. Vi skal her kun beskæftige os med to af disse, nemlig Direkte programmering. Brug af SAS ANALYST Hvilken

Læs mere

Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004

Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004 Dagens program Økonometri 1 Dummyvariabler 21. oktober 2004 Emnet for denne forelæsning er kvalitative egenskaber i den multiple regressionsmodel (Wooldridge kap. 7.1-7.6) Kvalitative variabler generelt

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Multipel regression. Lene Theil Skovgaard 10. oktober 2017 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Figurer: s.

Læs mere

Module 2: Beskrivende Statistik

Module 2: Beskrivende Statistik Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen og Hans Chr. Petersen Module 2: Beskrivende Statistik 2.1 Histogrammer og søjlediagrammer......................... 1 2.2 Sammenfatning

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test. Program 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test. 1/19 Konfidensinterval for µ (σ kendt) Estimat ˆµ = X bedste bud

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Basal Statistik Variansanalyse. 24 september 2013

Basal Statistik Variansanalyse. 24 september 2013 Basal Statistik Variansanalyse 24 september 2013 Michael Gamborg Institut for sygdomsforebyggelse Københavns Universitetshospital michael.orland.gamborg@regionh.dk Lene Theil Skovgaard biostat.ku.dk/~lts/basal/overheads/anova.pdf

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 musekuld er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12 mus

Læs mere

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Privatansatte mænd bliver desuden noget hurtigere chef end kvinderne og forholdsvis flere ender i en chefstilling.

Privatansatte mænd bliver desuden noget hurtigere chef end kvinderne og forholdsvis flere ender i en chefstilling. Sammenligning af privatansatte kvinder og mænds løn Privatansatte kvindelige djøfere i stillinger uden ledelsesansvar har en løn der udgør ca. 96 procent af den løn deres mandlige kolleger får. I sammenligningen

Læs mere

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable Faculty of Health Sciences Logistisk regression: Interaktion Kvantitative responsvariable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk

Læs mere

Opgavebesvarelse, korrelerede målinger

Opgavebesvarelse, korrelerede målinger Opgavebesvarelse, korrelerede målinger I 18 familier bestående af far, mor og 3 børn (i veldefinerede aldersintervaller, med child1 som det ældste barn og child3 som det yngste) har man registreret antallet

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller Chi-i-anden Test Repetition Goodness of Fit Uafhængighed i Kontingenstabeller Chi-i-anden Test Chi-i-anden test omhandler data, der har form af antal eller frekvenser. Antag, at n observationer kan inddeles

Læs mere

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober 2007 Basal statistik 30. oktober 2007 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Kovariansanalyse Parametriseringer Lene Theil Skovgaard, Biostatistisk Afdeling

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 7: Eksempler 7.1 Beskrivende dataanalyse............................... 1 7.1.1 Diagrammer.................................

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Basal statistik. 30. oktober Den generelle lineære model

Basal statistik. 30. oktober Den generelle lineære model Basal statistik 30. oktober 2007 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Kovariansanalyse Parametriseringer Lene Theil Skovgaard, Biostatistisk Afdeling

Læs mere

Multipel regression 22. Maj, 2012

Multipel regression 22. Maj, 2012 Data: Det færøske kviksølv-studie Simpel linær regression Confounding Multipel lineær regression Fortolkning af parametre Vekselvirkning Kollinearitet Modelkontrol Multipel regression 22. Maj, 2012 Esben

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Opgavebesvarelse, Basalkursus, uge 2

Opgavebesvarelse, Basalkursus, uge 2 Opgavebesvarelse, Basalkursus, uge 2 Opgave 1. Filen "space.txt" fra hjemmesiden ser således ud: salt pre post 1 71 61 1 65 59 1 52 47 1 68 65......... 0 52 77 0 54 80 0 52 79 Data indlæses i 3 kolonner,

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 1 Ensidet variansanalyse Bartlett s test Tukey s test PROC

Læs mere

Basal statistik. 30. september 2008

Basal statistik. 30. september 2008 Basal statistik 30. september 2008 Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Peter Dalgaard, Biostatistisk Afdeling Institut for

Læs mere

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse. Lene Theil Skovgaard. 8. oktober 2018

Faculty of Health Sciences. Basal Statistik. Multipel regressionsanalyse. Lene Theil Skovgaard. 8. oktober 2018 Faculty of Health Sciences Basal Statistik Multipel regressionsanalyse. Lene Theil Skovgaard 8. oktober 2018 1 / 84 Multipel lineær regression Regression med to kvantitative kovariater: Eksempel om ultralyd

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Basal Statistik. Simpel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Problemstillinger ved multipel regression. Multipel regression. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Multipel regressionsanalyse. Lene Theil Skovgaard 10. oktober 2017 Multipel regression Regression med to kvantitative kovariater: Eksempel

Læs mere

Reeksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er

Læs mere

Basal statistik. 2. oktober Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol

Basal statistik. 2. oktober Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Basal statistik 2. oktober 2007 Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Lene Theil Skovgaard, Biostatistisk Afdeling Institut

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Kapitel 11 Lineær regression

Kapitel 11 Lineær regression Kapitel 11 Lineær regression Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

To-sidet variansanalyse

To-sidet variansanalyse Program 1. To-sidet variansanalyse 2. Hierarkisk princip 3. Tre (og flere) sidet variansanalyse 4. Variansanalyse med blocking 5. Flersidet variansanalyse med tilfældige faktorer 6. En oversigtsslide til

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium?

Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium? variansanalyse 1 variansanalyse 2 Basal statistik 27. februar 2007 Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Judith Jacobsen Statcon

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Basal statistik 3. oktober Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium?

Basal statistik 3. oktober Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium? variansanalyse, oktober 2006 1 Basal statistik 3. oktober 2006 Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Lene Theil Skovgaard

Læs mere

Basal statistik. 21. oktober 2008

Basal statistik. 21. oktober 2008 Basal statistik 21. oktober 2008 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Parametriseringer Kovariansanalyse Esben Budtz-Jørgensen, Biostatistisk Afdeling

Læs mere