Phd-kursus i Basal Statistik, Opgaver til 2. uge

Størrelse: px
Starte visningen fra side:

Download "Phd-kursus i Basal Statistik, Opgaver til 2. uge"

Transkript

1 Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.txt på hjemmesiden indeholder datamateriale til belysning af forskellen i sædkvalitet mellem SAS-ansatte og mænd, der lever økologisk (i det følgende ofte blot omtalt som økologer). Variablene er (i den nævnte rækkefølge): sas_ansat: ansat i SAS (ja/nej) abstid: abstinenstid (1: kort, 2: medium, 3: lang) (et mål for længden af seksuel afholdenhed) konc: sædkoncentrationen (mill/ml) Formålet med opgaven er at undersøge, om der er forskel på de to populationsgruppers sædkoncentrationsniveau. Vi indlæser data (i form af txt-filen direkte fra hjemmesiden), og foretager samtidig en logaritmetransformation, fordi det viser sig, at vi senere kan få brug for dette: FILENAME navn URL "http://biostat.ku.dk/~lts/basal/data/oeko.txt"; data oeko; infile navn firstobs=2; input sas_ansat $ abstid konc; lkonc=log10(konc); /* variablen gruppe er beskrevet i spørgsmål 1 og 4a */ saskode=(sas_ansat= ja ); gruppe=10*saskode+abstid; 1. Lav en passende illustration af data. En umiddelbar optegning af sædkoncentration mod abstinenstid, med farveangivelse for grupperne kan udføres ved at skrive som nedenfor: 1

2 proc sgplot data=oeko; scatter x=abstid y=konc / group=sas_ansat; hvorved vi får figuren Heraf ses, at sædkoncentration næppe er normalfordelt inden for hver gruppe, og vi laver derfor en logaritmetransformation (her er brugt log10). Samtidig skiller vi observationerne ud i 6 grupper, så vi bedre kan se, hvad der er hvad, og hertil benytter vi den variabel, vi kaldte gruppe og som blev dannet i forbindelse med indlæsningen vha de to viste sætninger. proc sgplot data=oeko; scatter x=abstid y=lkonc / group=gruppe; Variablen gruppe har (som det ses nedenfor) værdierne 1,2,3 (for økologerne, abstinenstid 1,2 og 3) og 11,12,13 (for de SAS-ansatte, abstinenstid 1,2 og 3), og figuren ser nu således ud: 2

3 På denne skala ser både normalfordelingsantagelse og varianshomogenitet rimelig fornuftig ud, omend ikke perfekt. 2. Vi skal nu kvantificere niveauet af sædkoncentration for de to grupper af mænd og sammenligne disse niveauer, i første omgang uden at tage hensyn til abstinenstiden. Overvej, om der skal logaritmetransformeres, når I svarer på nedenstående spørgsmål: (a) Giv et estimat for nivauet af sædkoncentrationen for hver af de to grupper af mænd. Husk et 95% konfidensinterval. Som estimat for niveauet vil vi jo umiddelbart anvende gennemsnittet, men da fordelingen er skæv, vil det nok være mere passende at benytte medianen, eller at transformere til logaritmisk skala. Vi gør det hele på en gang nedenfor: proc means N mean median stddev stderr clm data=oeko; class sas_ansat; var konc lkonc; hvorved vi får 3

4 The MEANS Procedure N sas_ansat Obs Variable N Mean Median Std Dev ja 135 konc lkonc nej 53 konc lkonc N Lower 95% Upper 95% sas_ansat Obs Variable Std Error CL for Mean CL for Mean ja 135 konc lkonc nej 53 konc lkonc De estimerede middelværdier (med tilhørende 95% konfidensinterval) ses at være Data Gruppe gennemsnit SEM 95% konfidensinterval (CI) utransformeret SAS (59.22, 83.35) Øko (76.99, ) log10-transformeret SAS (1.568, 1.729) Øko (1.719, 1.950) tilbagetransformeret SAS (36.98, 53.58) Øko (52.36, 89.13) Til sammenligning kan det anføres, at medianerne i de to grupper er hhv. 48 (SAS-ansatte) og 69 (økologer), hvilket ses at passe en del bedre med de estimater, der fremkommer ved at tilbagetransforme gennemsnittene på logaritmisk skala, i forhold til de gennemsnit, der er lavet direkte på den utransformerede skala. (b) Sammenlign de to estimater og de to tilhørende konfidensintervaller fundet ovenfor, og giv en intuitiv vudering af, hvorvidt der er forskel på de to grupper eller ej. På såvel de utransformerede som de logaritmetransformerede gennemsnit ses, at økologerne har et højere niveau af sædkoncentrationen end de SAS-ansatte. Der er nogen overlap mellem de tilhørende konfidensgrænser, men ikke ret meget for de logaritme- 4

5 transformeredes vedkommende. Vi vil derfor nok forvente, at der er en faktisk forskel, men det ser vi på nedenfor. (c) Foretag nu en sammenligning af de to grupper, og kvantificer forskellen i sædkoncentration for grupperne, igen med 95% konfidensinterval. Når vi skal sammenligne de to grupper uden hensyntagen til abstinenstiden, drejer det sig blot om et T-test. Antagelserne er bedst på log-skala, så det er den, vi benytter: proc ttest data=oeko; class sas_ansat; var lkonc; The TTEST Procedure Variable: lkonc sas_ansat N Mean Std Dev Std Err Minimum Maximum ja nej Diff (1-2) sas_ansat Method Mean 95% CL Mean Std Dev ja nej Diff (1-2) Pooled Diff (1-2) Satterthwaite Method Variances DF t Value Pr > t Pooled Equal Satterthwaite Unequal Equality of Variances Method Num DF Den DF F Value Pr > F Folded F Det ses, at SAS-ansatte har en signifikant lavere sædkoncentration end økologer (P=0.013). Forskellen på logaritmisk-skala er 0.186, svarende til at de SAS-ansattes sædkoncentration udgør i gennemsnit kun udgør = 0.65, dbvs. 65% af økologernes koncentrationsniveau. 5

6 95% sikkerhedsintervallet for denne forskel er angivet af SAS til ( 0.332, 0.040), og når dette tilbagetransformeres, fås: ( , ) = (47%; 91%) (d) Er der signifikant forskel på de to gruppers sædkoncentration? Ja, på et sædvanligt 5% signifikansniveau er der forskel, da P= Lav nu en underopdeling af de to grupper, baseret på længden af abstinenstiden og udregn passende summary statistics for de nu i alt 6 grupper. Vi ser igen på nogle summary statistics, men for at minimere outputtet, tager vi denne gang kun gennemsnit og median (og antallet, som man altid bør have med): proc means N mean median data=oeko; class sas_ansat abstid; var konc lkonc; Dette giver en del output N sas_ansat abstid Obs Variable N Mean Median ja 1 25 konc lkonc konc lkonc konc lkonc nej 1 12 konc lkonc konc lkonc konc lkonc

7 (a) Ser det ud som om abstinenstiden har indflydelse på sædkoncentrationen? Og i givet fald, ser denne indflydelse så ens ud i grupperne? Mændene med den lange abstinenstid ses at have en noget højere sædkoncentration end dem med kort eller mellem abstinenstid. Forskellen på de to korte abstinenstider er lidt mere uklar, men noget kunne tyde på, at effekten af abstinenstid er mere udtalt for økologerne end for de SAS ansatte (altså at der kunne være en interaktion). (b) Ser det ud som om fordelingen af abstinenstider er den samme i de to grupper? Dette spørgsmål vedrører slet ikke sædkoncentrationen, men udelukkende de to potentielle forklarende variable. Hvis de disse to forklarende variabel har relation til hinanden, altså hvis abstinenstiden i norgen grad afhænger af om man er SAS-ansat eller økolog, så kan abstinenstiden virke som en confounder for sammenligningen mellem de to grupper af mænd, således at vores estimat fra spørgsmål 2c bliver et misvisende udtryk for effekten af at leve økologisk. Vi vil lave en simpel tabel, så som: Table of sas_ansat by abstid sas_ansat abstid Frequency Row Pct Total ja nej Total

8 Denne er lavet ved at skrive proc freq data=oeko; table sas_ansat*abstid / nocol nopercent; I denne tabel ses antallene af mænd i hver af de 6 grupper, samt rækkeprocenterne, dvs. fordelingen af abstinenstider for hver af de to grupper mønd (SAS-ansatte og økologer). Der synes ikke at være nogen særlig forskel på disse fordelinger (man kunne lave et χ 2 -test for dette, det lærer I i næste uge). 4. Benyt en variansanalysemodel til at besvare følgende: (a) Find et estimat for forskellen i sædkoncentration mellem de to populationer af mænd, for fastholdt værdi af abstinenstid. Hvis abstinenstiden har en effekt på sædkoncentrationen (som det ser ud til, at den har) og hvis den også var relateret til SAS-ansat ja/nej (som det ikke ser ud til, at den er), så ville estimatet fra spørgsmål 2c som nævnt ikke være en rimelig sammenligning af de to grupper af mænd. I så fald ville vi hellere sammenligne SAS-ansatte med økologer, under forudsætning af samme abstinenstid, og det er præcis hvad en (additiv) tosidet variansanalysemodel gør. Den additive model kan skrives som : Y sai = µ + α s + β a + ε sai hvor indices betyder s: SAS-ansat ja/nej, a: abstinenstid og i: individ. SAS-koden til dette ses nedenfor. Denne indeholder tillige dannelse af passende modelkontrol, ved hjælp af ods-systemet: 8

9 ods graphics on; proc glm plots=diagnosticspanel data=oeko; class sas_ansat abstid; model lkonc=sas_ansat abstid / solution clparm; ods graphics off; Outputtet bliver nu (lettere beskåret): The GLM Procedure Class Level Information Class Levels Values sas_ansat 2 ja nej abstid Number of observations 188 Dependent Variable: lkonc Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected Total R-Square Coeff Var Root MSE lkonc Mean Source DF Type I SS Mean Square F Value Pr > F sas_ansat abstid Source DF Type III SS Mean Square F Value Pr > F sas_ansat abstid Standard Parameter Estimate Error t Value Pr > t Intercept B <.0001 sas_ansat ja B sas_ansat nej B... abstid B abstid B abstid B... Parameter 95% Confidence Limits Intercept sas_ansat ja sas_ansat nej.. abstid abstid abstid 3.. Begge kovariater ses at være signifikante, abstinenstiden dog kun lige akkurat (P=4.9%). For abstid ses de to laveste abstinens- 9

10 tider at ligge nogenlunde på samme niveau, mens sædkoncentrationen er højere for mænd med lang abstinenstid, ganske som vi konkluderede ud fra gennemsnittene ovenfor. Endvidere ses, at SAS-ansatte har en signifikant lavere sædkoncentration end økologer med samme abstinenstid. Forskellen på logaritmisk-skala er 0.187, svarende til at de SAS-ansattes sædkoncentration udgør i gennemsnit kun udgør = 65% af økologernes koncentrationsniveau. 95% sikkerhedsintervallet for denne forskel er angivet af SAS til ( 0.332, 0.042), og når dette tilbagetransformeres, fås: ( , ) = (47%; 91%) altså (med den valgte nøjagtighed) fuldstændig det samme som det ukorrigerede estimat fra spørgsmål 2c. De tilhørende predikterede værdier for sædkoncentrationen ses i figuren nedenfor. De er dannet ved at tilføje en output-sætning, med efterfølgende fiksfakserier (sortering samt udvælgelse af netop 1 person fra hver af de 6 grupper), der skal sørge for at få tegningen til at se pæn ud... proc glm plots=diagnosticspanel data=oeko; class sas_ansat abstid; model lkonc=sas_ansat abstid / solution clparm; output out=ny p=predikt; data ny; set ny; predikteret=10**predikt; proc sort data=ny; by sas_ansat abstid; proc sgplot data=ny; where nr in (13,11,1,148,146,147); series y=predikteret x=abstid / group=sas_ansat; 10

11 Bemærk, at de predikterede værdier er tilbagetransformeret til den oprindelige skala, og på denne skala er der ikke additivitet. Når effekterne er additive på logaritmisk skala, er de multiplkative på den oprindelige skala. Modelkontrollen. Varianshomogenitet? Vi kan checke antagelsen om ens varians i alle 6 grupper ved at bruge Levenes test fra en ensidet variansanalyse (one-way ANOVA), der sammenligner alle disse 6 grupper under et. Hertil skal vi bruge den variabel, vi kaldte gruppe og som blev dannet i forbindelse med indlæsningen, og tidligere benyttet til en figur. proc glm data=oeko; class gruppe; model lkonc=gruppe; means gruppe / hovtest=levene; 11

12 og vi får så outputtet The GLM Procedure Class Level Information Class Levels Values gruppe Number of Observations Read 188 Number of Observations Used 188 Dependent Variable: lkonc Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected Total R-Square Coeff Var Root MSE lkonc Mean Source DF Type III SS Mean Square F Value Pr > F gruppe Levene s Test for Homogeneity of lkonc Variance ANOVA of Squared Deviations from Group Means Sum of Mean Source DF Squares Square F Value Pr > F gruppe Error The GLM Procedure Level of lkonc gruppe N Mean Std Dev Antagelsen om ens varianser ser altså rimelig ud, idet Levenes test accepteres (P=51%) Vi kunne også se på figuren i øverste venstre hjørne nedenfor. Det er et plot af residualer mod predikterede=forventede værdier, og det bør ikke udvise nogen form for struktur (bortset fra, at det jo ligner 6 søjler, da der kun er 6 forskellige predikterede værdier i denne model). Vi ser ingen tendens til trompetfacon eller anden form for struktur. 12

13 Normalfordelingsantagelsen? Tegnes histogrammer eller residual-plots (se midti og nederst i venstre kolonne i figuren ovenfor) vil man opdage at logaritmetransformationen har bevirket en skævhed til den anden side, så normalfordelingsantagelsen er tvivlsom. En bedre overensstemmelse kan opnås efter en kubikrodstranformation (f(konc) = konc 1/3 ). De overordnede konklusioner ændres dog ikke. Til gengæld kan parametrene i den nye model ikke direkte fortolkes (forskellene kan ikke kvantificeres på en enkel måde), så vi foretrækker at fortsætte på logaritmisk skala og glæde os over det rimeligt store datamateriale, der nedsætter behovet for en perfekt normalfordeling, så længe vi afholder os fra at lave normalområder. (b) Sammenhold ovenstående estimat med det tilsvarende fra spørgsmål 2a og kommenter. Denne sammenligning er allerede kommenteret ovenfor. Der er ikke nævneværdig confounding at spore. 13

14 (c) Er der evidens for, at abstininstiden har en forskellig effekt på sædkoncentrationen i de to populationer? En model, der tillader effekten af abstinenstid at afhænge af SASansat ja/nej, er en model med et interaktionsled (vekselvirkningsled): Y sai = µ + α s + β a + γ sa + ε sai Koden bliver derfor nu udbygget til proc glm data=oeko; class sas_ansat abstid; model lkonc=sas_ansat abstid sas_ansat*abstid / solution; som resulterer i nedenstående output: The GLM Procedure Class Level Information Class Levels Values sas_ansat 2 ja nej abstid Number of observations 188 Dependent Variable: lkonc Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected Total R-Square Coeff Var Root MSE lkonc Mean Source DF Type I SS Mean Square F Value Pr > F sas_ansat abstid sas_ansat*abstid Source DF Type III SS Mean Square F Value Pr > F sas_ansat abstid sas_ansat*abstid

15 Standard Parameter Estimate Error t Value Pr > t Intercept B <.0001 sas_ansat ja B sas_ansat nej B... abstid B abstid B abstid B... sas_ansat*abstid ja B sas_ansat*abstid ja B sas_ansat*abstid ja B... sas_ansat*abstid nej B... sas_ansat*abstid nej B... sas_ansat*abstid nej B... NOTE: The X X matrix has been found to be singular, and a generalized inverse was used to solve the normal equations. Terms whose estimates are followed by the letter B are not uniquely estimable. Hypotesen om ingen vekselvirkning kan accepteres med P = 43.2%. De predikterede forløb ses i figuren nedenfor, og vi bemærker, at de ser meget anderledes ud end de tilsvarende for den additive model. Hvis vi bare skulle udtale os udfra figuren, ville vi således gætte på, at der var interaktion mellem SAS-ansat og abstinenstid, men figuren viser jo heller ikke usikkerhederne, og disse er altså så store, at vi ikke kan påstå at have evidens for en interaktion. Til gengæld kan vi selvfølgelig heller ikke afvise, at der kunne være en interaktion, som vi bare ikke finder på grund af et for lille datamateriale. 15

16 Opgave 2: Space shuttle Et studie involverer de 26 astronauter, der deltog på de første 8 rejser med space shuttle (Bungo et.al., 1985). På frivillig basis konsumerede 17 af disse astronauter store mængder af salt og væske inden landingen, i et forsøg på at imødegå space deconditioning (salt=1). De 9 øvrige indtog intet specielt (salt=0). Tabellen nedenfor viser pulsen (slag pr. minut) før og efter flyvningen for hver af de 26 astronauter. Filen "space.txt" fra hjemmesiden ser således ud: salt pre post

17 Data indlæses derfor i 3 kolonner, som f.eks. kaldes salt, pre og post, ligesom det står i overskriften. Der er således i alt tale om 26 observationer, idet de to grupper lægges i forlængelse af hinanden (kun oplysninger fra 1 person på hver linie!). Indlæsningen (til det midlertidige WORK-datasæt space), definition af to nye variable, dif og snit, samt print af datamaterialet, kunne se ud som nedenfor, hvis data forinden var anbragt i filen space.txt i folderen C:\Basal: data space; infile C:\Basal\space.txt firstobs=2; input salt pre post; dif=post-pre; snit=(pre+post)/2; proc print data=space; Man kunne selvfølgelig også indlæse filen direkte fra hjemmesiden, ligesom vi gjorde det i forrige opgave. 1. Sammenlign før- og efter-målingerne i salt -gruppen, og husk samtidig at lave passende illustrationer. Vi skal sammenligne før- og efter-målingerne i salt-gruppen. Selv om vi således i første omgang kun bliver bedt om at se på salt-gruppen, er det ligeså let at foretage sammenligne for begge grupper på en gang, ved at benytte by salt;, når den relevante analyse foretages. Man skal dog bare huske at sortere først. I nedenstående plots er dog vist filtreringsversionen, hvor plottet kun udføres for salt-gruppen, idet vi skriver where salt=1;. Hvis vi skal foretage et parametrisk test (og det foretrækker vi, da det giver et konfidensinterval), bliver der tale om et parret t-test. Forudsætningen for dette er rimelig normalitet for differenserne dif=post-pre, som er udregnet ovenfor. 17

18 Et histogram og et fraktildiagram kan fås ved at skrive: proc univariate data=space; where salt=1; var dif; histogram / height=3 normal(mu=est sigma=est); probplot / height=3 normal(mu=est sigma=est l=33); Vi ser her ingen særlige tegn på afvigelse fra normalfordelingen (men det betyder ikke, at vi har stor tiltro til denne antagelse, da der er tale om et ganske lille materiale). En anden vigtig forudsætning er, at differenserne er lige store over hele skalaen, altså at der ikke er nogen sammenhæng mellem differenser og niveau. Dette undersøges ved et Bland-Altman plot, som simpelthen er et scatterplot af differenser mod gennemsnit, her udført med proceduren gplot (den nyere procedure sgplot kan gøre noget tilsvarende, men vi har endnu ikke så stor erfaring med detaljerne endnu, f.eks. som her at indlægge en rød vandret linie i 0 med stiplet linie vref=0 lv=33 cv=red): proc gplot data=space; where salt=1; plot dif*snit / vref=0 lv=33 cv=red haxis=axis1 vaxis=axis2 frame; 18

19 axis1 value=(h=2) minor=none label=(h=3); axis2 value=(h=2) minor=none label=(a=90 R=0 H=3); symbol v=circle i=none c=blue h=2 l=1 w=2; Da dette heller ikke viser udprægede tegn på sammenhæng (eller gør det??), vil vi fortsætte med et parret t-test. Vi udfører t-testet for begge grupper på en gang ved at skrive proc sort data=space; by salt; proc ttest data=space; by salt; paired pre*post; eller proc sort data=space; by salt; proc ttest data=space; by salt; var dif; 19

20 Vi finder resultatet (her er kun den nederste del vist, svarende til saltgruppen) salt=1 The TTEST Procedure Difference: pre - post N Mean Std Dev Std Err Minimum Maximum Mean 95% CL Mean Std Dev 95% CL Std Dev DF t Value Pr > t P-værdien for test af identiske middelværdier for puls før og efter flyvningen ses at være 0.017, hvilket er signifikant på et 5% niveau og altså viser, at der formentlig sker en pulsstigning. Hvis vi føler os usikre på normalfordelingsantagelsen, kunne vi i stedet udføre et non-parametrisk test (Wilcoxon signed-rank test), se kode og output nedenfor. Herved finder vi en P-værdi på 0.024, som understøtter konklusionen fra t-testet. Vi kunne også lave et test for normalfordelingen, men det giver ikke rigtig nogen mening på sådan et lille datamateriale. Koden til den nonparametriske analyse er proc univariate data=space; by salt; var dif; og output er (igen kun for salt-gruppen): salt=1 The UNIVARIATE Procedure Tests for Location: Mu0=0 20

21 Test -Statistic p Value Student s t t Pr > t Sign M 4 Pr >= M Signed Rank S 43 Pr >= S Huskede du at give en kvantificering af effekten af flyvning på pulsen i salt -gruppen? Med konfidensinterval! Udregning af et konfidensinterval for middelværdien af pulsstigningen fås automatisk ved at udføre t-testet. Det ses under betegnelsen 95% CL Mean, dvs. ( , ). Udfra ovenstående resultater kvantificeres stigningen i puls altså til 6.88 (med en standard error på 2.60), dvs. med 95% konfidensintervallet (1.38,12.38), altså ganske bredt. Testet gav signifikans på et 5% niveau, svarende til, at 0 ikke er inkluderet i konfidensintervallet. Vi er altså noget usikre på, hvor stor denne pulsstigning er, men den er næppe af afgørende betydning. 3. Sammenlign effekten af flyvning i de to grupper. Hvilken konklusion opnås for effekten af saltindtagelse? Husk konfidensinterval! Vi skal nu se på en sammenligning af differenserne i de to grupper. I kontrolgruppen har vi kun 9 personer, hvilket simpelthen er for lidt selv til grafiske illustrationer af fordelingen. Vi tillader os derfor (i hvert fald til en start) at gå ud fra, at differenserne post-pre er ligeså normalfordelte i denne gruppe som i salt -gruppen. En illustration af differenserne i de to grupper gøres bedst ved et scatterplot, da der er så få observationer: 21

22 På trods af den ikke så pæne fordeling i kontrolgruppen, fortsætter vi alligevel med at basere en sammenligning af de to gruppers differenser på et uparret t-test: proc ttest data=space; class salt; var dif pre; Så får vi The TTEST Procedure Variable: dif salt N Mean Std Dev Std Err Minimum Maximum Diff (1-2) salt Method Mean 95% CL Mean Std Dev Diff (1-2) Pooled Diff (1-2) Satterthwaite Method Variances DF t Value Pr > t Pooled Equal Satterthwaite Unequal Equality of Variances Method Num DF Den DF F Value Pr > F Folded F Vi ser, at P-værdien for sammenligning af middelværdierne for differenserne i de to grupper er , svarende til, at de er signifikant forskellige på et 5% niveau. Det betyder, at de astronauter, der ikke traf nogen foranstaltninger havde en mere udtalt pulsøgning end de, der gjorde noget. Denne øgede stigning er estimeret til 10.56, med et 95% konfidensinterval på (1.62,19.50). Ikke særligt overbevisende, men alligevel... Det tilsvarende non-parametriske test fås (for differenser og før-målinger på en gang, se forklaring under spørgsmål 5), ved at skrive 22

23 proc npar1way wilcoxon data=space; class salt; var pre dif; exact hl; og for differenserne finder vi outputtet The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable dif Classified by Variable salt Sum of Expected Std Dev Mean salt N Scores Under H0 Under H0 Score Average scores were used for ties. Wilcoxon Two-Sample Test Statistic Normal Approximation Z One-Sided Pr > Z Two-Sided Pr > Z t Approximation One-Sided Pr > Z Two-Sided Pr > Z Z includes a continuity correction of 0.5. Kruskal-Wallis Test Chi-Square DF 1 Pr > Chi-Square Hodges-Lehmann Estimation Location Shift Interval Asymptotic Type 95% Confidence Limits Midpoint Standard Error Asymptotic (Moses) Exact Vi finder altså også en signifikans i det non-parametriske test (P-værdien er ca. 3-4%), og et konfidensinterval på (2,21), altså ikke langt fra det tilsvarende parametriske. 23

24 4. To astronauter deltog i to forskellige flyvninger og optræder altså i datamaterialet to gange. Spiller det nogen rolle? Vi ved ikke hvilke par af observationer, der stammer fra samme astronauter, så helt konkret kan vi ikke stille noget op med vores viden. Men hvis vi havde kunnet identificere dem, ville det nok være klogest kun at benytte første flyvetur for disse. Hvis pulsøgningen er meget personspecifik skaber det nemlig problemer for antagelsen om uafhængighed mellem observationerne, at der er flere målinger for hver person. Herudover kunne man tænke sig at det er nogle selekterede personer, der tager afsted flere gange at personer, der allerede har været afsted en gang, er blevet varigt ændret, så de anden gang adskiller sig fra de øvrige Den konkrete betydning for analyseresultaterne er svær at sige ret meget om. Det afhænger f.eks. af om personerne er med i samme gruppe begge gange: Hvis de er med i samme gruppe, bliver variationen indenfor grupper for lille, og dermed kan man lettere finde en (måske ikkeeksisterende) forskel på de to grupper (type 1 fejl). Hvis de er med i hver sin gruppe, bliver grupperne for ens, og vi får dermed sværere ved at se en evt. forskel (type 2 fejl). 5. Kommenter frivilligheden i opdelingen i de to grupper og hvordan dette kunne tænkes at påvirke fortolkningen af resultaterne. Frivilligheden i gruppeopdelingen kan tænkes at skabe problemer, som kan gå begge veje Måske er det de overforsigtige/velovervejede, der tager deres forholdsregler, og hvis disse samtidig er i fysisk bedst form, kan de tænkes i forvejen at ville opleve en mindre pulsstigning eller måske er det dem med en kendt risiko for pulsstigning, der vælger at tage forholdsregler, og så er det sandsynligt, at forskellen på de to grupper bliver mindre udtalt. For at få en valid sammenligning, burde grupperne have været randomiseret. 24

25 En lille indsigt i en evt. skævvridning kan fås ved at sammenligne preværdierne i de 2 grupper. Bemærk, at et t-test nu vil kræve normalitet af disse pre-målinger i hver gruppe og ikke som tidligere kun af differenserne. Vi finder Mann-Whitney (Kruskal-Wallis) test: P=0.94 T-test, med ens varianser: P=0.92 T-test, med forskellige varianser: P=0.92 Der er altså ikke her nogen indikation af selektion. 25

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

Vejledende besvarelse af hjemmeopgave

Vejledende besvarelse af hjemmeopgave Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2013 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) I forbindelse med en undersøgelse af vitamin

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 Parret sammenligning, målemetoder med logaritmer Tosidet variansanalyse

Læs mere

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015 Faculty of Health Sciences Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 1 / 84 Logaritmer og kovariansanalyse Parret sammenligning, målemetoder med logaritmer Tosidet

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2015

Vejledende besvarelse af hjemmeopgave, forår 2015 Vejledende besvarelse af hjemmeopgave, forår 2015 En stikprøve bestående af 65 mænd og 65 kvinder er blevet undersøgt med henblik på at se på en evt. sammenhæng mellem kropstemperatur og puls. På hjemmesiden

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2016

Vejledende besvarelse af hjemmeopgave, forår 2016 Vejledende besvarelse af hjemmeopgave, forår 2016 Udleveret 1. marts, afleveres senest ved øvelserne i uge 13 (29. marts-1. april) Denne opgave fokuserer på at beskrive niveauet af hormonet AMH (højt niveau

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 1 Ensidet variansanalyse Bartlett s test Tukey s test PROC

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Basal statistik. 21. oktober 2008

Basal statistik. 21. oktober 2008 Basal statistik 21. oktober 2008 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Parametriseringer Kovariansanalyse Esben Budtz-Jørgensen, Biostatistisk Afdeling

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016 Faculty of Health Sciences Basal Statistik Begreber. Parrede sammenligninger. Lene Theil Skovgaard 6. september 2016 1 / 88 APPENDIX Programbidder svarende til diverse slides: Indlæsning af vitamin D datasæt,

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Kommentarer til øvelser i basalkursus, 2. uge

Kommentarer til øvelser i basalkursus, 2. uge Kommentarer til øvelser i basalkursus, 2. uge Opgave 2. Vi betragter målinger af hjertevægt (i g) og total kropsvægt (målt i kg) for 10 normale mænd og 11 mænd med hjertesvigt. Målingerne er taget ved

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Basal statistik. 16. september 2008

Basal statistik. 16. september 2008 Basal statistik 16. september 2008 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation sammenligning af to grupper uparret t-test

Læs mere

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences Faculty of Health Sciences Sammenligning af grupper Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 7. februar 2017 Sammenligning af to grupper: T-test Dimensionering af undersøgelser

Læs mere

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017 Faculty of Health Sciences Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 7. februar 2017 1 / 96 Sammenligning af grupper Sammenligning af to grupper: T-test Dimensionering

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Reeksamen i Statistik for biokemikere. Blok 3 2007.

Reeksamen i Statistik for biokemikere. Blok 3 2007. Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet

Læs mere

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE Økonomisk Kandidateksamen Teoretisk Statistik Eksamenstermin: Sommer 2004, dato: 3. juni 4 timers prøve med alle hjælpemidler, besvarelse på Dansk Opgave En simpel tilfældig stikprøve på 500 udtrukket

Læs mere

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1 (a) Denne opgave bygger på resultaterne fra 2 forsøg med epo-behandling af for tidligt fødte børn, idet gruppe 1 og 3 stammer fra første forsøg, mens gruppe 2 og 4 stammer fra det andet. Det må antages,

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2006. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 6 sider.

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 21. februar 2017 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Postoperative komplikationer

Postoperative komplikationer Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.

Læs mere

Løsning til opgave i logistisk regression

Løsning til opgave i logistisk regression Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner I modsætning til envejs-anova kan flervejs-anova udføres selv om der er kun én

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Faculty of Health Sciences. Basal statistik. Lille SAS Manual. Lene Theil Skovgaard. 31. januar 2017

Faculty of Health Sciences. Basal statistik. Lille SAS Manual. Lene Theil Skovgaard. 31. januar 2017 Faculty of Health Sciences Basal statistik Lille SAS Manual Lene Theil Skovgaard 31. januar 2017 1 / 42 Selve sproget Siderne 9-18 Indlæsning (9-12) Definition af nye variable (13) Missing values / Manglende

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer, Repetition, Kovariansanalyse, Interaktion Lene Theil Skovgaard 4. oktober 2016 Parret sammenligning, målemetoder med

Læs mere

Basal statistik 3. oktober Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium?

Basal statistik 3. oktober Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium? variansanalyse, oktober 2006 1 Basal statistik 3. oktober 2006 Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Lene Theil Skovgaard

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Basal statistik. 30. januar 2007

Basal statistik. 30. januar 2007 Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt

Læs mere

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger. Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.

Læs mere

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen Opgavebesvarelse, Resting metabolic rate I filen T:\Basalstatistik\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Ikke-parametriske tests

Ikke-parametriske tests Ikke-parametriske tests 2 Dagens menu t testen Hvordan var det nu lige det var? Wilcoxson Mann Whitney U Kruskall Wallis Friedman Kendalls og Spearmans correlation 3 t-testen Patient Drug Placebo difference

Læs mere

To-sidet varians analyse

To-sidet varians analyse To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og Model M 0 : X hi N(α h + β h t hi,σ 2 h ), h = 1,...,m, i = 1,...,n h. m separate regressionslinjer. Behandles som i afsnit 3.3. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister)

Læs mere

Basal statistik. 30. september 2008

Basal statistik. 30. september 2008 Basal statistik 30. september 2008 Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Peter Dalgaard, Biostatistisk Afdeling Institut for

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse Øvelser i epidemiologi og biostatistik, 12. april 21 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse 1. Belys ud fra data ved 5 års follow-up den fordom, at der er flere

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et

Læs mere

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren Faculty of Life Sciences Program Sammenligning af grupper Ensidet ANOVA Claus Ekstrøm E-mail: ekstrom@life.ku.dk Sammenligning af to grupper: tre eksempler Sammenligning af mere end to grupper: ensidet

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

Seniorkursus i Biostatistik og Stata, Dag 2

Seniorkursus i Biostatistik og Stata, Dag 2 SENIORKURSUS STATA OG BIOSTATISTIK Aarhus Universitet juni DAGENS TEMA: SAMMENLIGNINGER FORMIDDAG: KONTINUERTE DATA EFTERMIDDAG: KATEGORISKE DATA STATISTISK ANALYSE AF TO UAFHÆNGIGE STIKPRØVER FRA NORMALFORDELTE

Læs mere

Restsaltmængdernes afhængighed af trafikken,

Restsaltmængdernes afhængighed af trafikken, Restsaltmængdernes afhængighed af trafikken, Thomas Glue, marts 2. Trafikintensitet...2 Indledende definitioner...2 Regressionsanalyser på trafikintensiteten...6 Justering af restsaltmængder i henhold

Læs mere

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik Lektion 4. Variansanalyse Modelkontrol Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede

Læs mere

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

To-sidet variansanalyse

To-sidet variansanalyse Program 1. To-sidet variansanalyse 2. Hierarkisk princip 3. Tre (og flere) sidet variansanalyse 4. Variansanalyse med blocking 5. Flersidet variansanalyse med tilfældige faktorer 6. En oversigtsslide til

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

INTRODUKTION TIL dele af SAS

INTRODUKTION TIL dele af SAS INTRODUKTION TIL dele af SAS Der er flere forskellige angrebsvinkler ved statistiske analyser i SAS. Vi skal her kun beskæftige os med to af disse, nemlig Direkte programmering. Brug af SAS ANALYST Hvilken

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Program 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Ensidet variansanalyse: analyse af grupperede data Nedbrydningsrate for tre typer af opløsningsmidler (opgave 13.8 side 523) Sorption

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

Øvelser til basalkursus, 2. uge

Øvelser til basalkursus, 2. uge Øvelser til basalkursus, 2. uge Opgave 1 Vi betragter igen Sundby95-materialet, og skal nu forbedre nogle af de ting, vi gjorde sidste gang. 1. Gå ind i ANALYST vha. Solutions/Analysis/Analyst. 2. Filen

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 30. maj 2006 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

Kvant Eksamen December 2010 3 timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer.

Kvant Eksamen December 2010 3 timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer. Kvant Eksamen December 2010 3 timer med hjælpemidler 1 Hvad er en continuous variable? Giv 2 illustrationer. What is a continuous variable? Give two illustrations. 2 Hvorfor kan man bedre drage konklusioner

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Begreber. Parrede sammenligninger. Lene Theil Skovgaard 5. september 2017 1 / 16 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides

Læs mere

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen

Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model og hypotese. 3 Beregning - variationsopspaltning og ANOVA tabellen Kursus 02402/02323 Introducerende Statistik Forelæsning 10: Envejs variansanalyse, ANOVA Oversigt 1 Intro: Regneeksempel og TV-data fra B&O 2 Model og hypotese Per Bruun Brockhoff DTU Compute, Statistik

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

3. SPSS Output. Descriptives. [DataSet1] C:\Users\Thomas\Desktop\Eservice_i_produktgruppen_Bekldning.sav

3. SPSS Output. Descriptives. [DataSet1] C:\Users\Thomas\Desktop\Eservice_i_produktgruppen_Bekldning.sav 3. SPSS Output DESCRIPTIVES VARIABLES=DEM DEM5 DEM10 DEM11 /STATISTICS=MEAN STDDEV MIN MAX. Descriptives [DataSet1] C:\Users\Thomas\Desktop\Eservice_i_produktgruppen_Bekldning.sav Descriptive Statistics

Læs mere

2. januar 2015 Proj.nr. 2001474 Version 1 LRK/EHBR/EVO/CCM/MT. Rapport

2. januar 2015 Proj.nr. 2001474 Version 1 LRK/EHBR/EVO/CCM/MT. Rapport Rapport Projekt: Fedtkvalitet i moderne svineproduktion Betdning af jodtal for udbtter af kogeskinker Lars Kristensen, Eva Honnens de Lichtenberg Broge, Eli Vibeke Olsen, Chris Claudi- Magnussen 2. januar

Læs mere

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere