Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger i R. Lene Theil Skovgaard. 4. februar 2019

Størrelse: px
Starte visningen fra side:

Download "Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger i R. Lene Theil Skovgaard. 4. februar 2019"

Transkript

1 Faculty of Health Sciences Basal Statistik Begreber. Parrede sammenligninger i R Lene Theil Skovgaard 4. februar / 89

2 Indhold Planlægning af undersøgelse, protokol Grafik, Basale begreber Parrede sammenligninger Limits of agreement Appendix med kodning Home pages: : Siden er lidt teknisk 2 / 89

3 Ide, Problemstilling Har folk et tilstrækkeligt højt niveau af vitamin D? Og hvis ikke, kan vi så gøre noget ved det? eller i hvert fald forstå hvorfor... Vi ser her på: studie af kvinder fra 4 lande: Danmark, Polen, Finland og Irland Udvælgelse af personer? Hvem? Inklusionskriterier kontra repræsentativitet. Hvor mange? Dimensionering. Design? 3 / 89

4 Planlægning af undersøgelse Formulering af de(t) centrale spøgsmål Er folk generelt oppe på det anbefalede niveau på 25 nmol/l? Er der forskel på landene? I givet fald, hvorfor? Hvilke oplysninger skal registreres? Formodede forklarende variable = kovariater spisevaner sol eksponering fedme rygning alkohol 4 / 89

5 Skriv en protokol Dette er en vigtig del af processen!! Man får tænkt sig om på forhånd Der bliver udarbejdet information til brug for kolleger mv. Det tjener som ekstra hukommelse - man glemmer en del hvis dataindsamling eller andet trækker ud Det er en nødvendig del af dokumentation i forbindelse med f.eks. etisk komite, ansøgning om midler, anmeldelse af trial etc. I forbindelse med den statistiske analyse dokumenterer det, hvad der var den oprindelige strategi og hvad der bør betegnes som tilfældige fund 5 / 89

6 Eksempel på data > head(vitd2)[,c(8,3,4,5,9,7)] country VitaminD age bmi sunexp vitdintake 246 EI Sometimes in sun EI Sometimes in sun EI Sometimes in sun EI Avoid sun EI Avoid sun EI Prefer sun > tail(vitd2)[,c(8,3,4,5,9,7)] country VitaminD age bmi sunexp vitdintake 281 EI Avoid sun EI Sometimes in sun EI Sometimes in sun EI Prefer sun EI Sometimes in sun EI Prefer sun Det oprindelige datasæt i tekstformat, samt indlæsning mv. fremgår af appendix bagest i disse slides (s ). 6 / 89

7 Datastruktur, terminologi Rækkerne kaldes observationer (typisk 1 pr. person) Søjlerne kaldes variable (en bestemt type oplysning). De kan være Kvantitative variable (Numeriske variable), dvs. tal, som man kan regne på Vitamin D koncentration (vitd, i nmol/l) Alder (age) Body mass index (bmi) Kategoriske variable (Class-variable, factors), som kun kan antage nogle få bestemte værdier, her repræsenteret ved tekst (string) Personens hjemland (country) Personens solvaner (sunexp) 7 / 89

8 Anbefalet rækkefølge af aktiviteter 1. Tænk (forhåbentlig allerede på protokolstadiet) 2. Tegn Histogram Boxplot (typisk for at sammenligne grupper) Scatter plot 3. Regn Tabeller Summary statistics 4. Lav analyser Model Estimation Test 8 / 89

9 Histogram for Irske kvinder overlejret med fittet fordeling myhist <- hist(vitd2$vitamind) multiplier <- myhist$counts / myhist$density mydensity <- density(vitd2$vitamind) mydensity$y <- mydensity$y * multiplier[1] Histogram of vitd2$vitamind plot(myhist) lines(mydensity) God til vurdering af fordelingen Frequency vitd2$vitamind 9 / 89

10 Normalfordelinger som ikke er nær så vigtige, som nogle af jer sikkert tror! Middelværdi = mean, ofte benævnt µ, δ el.lign. Spredning, ofte benævnt σ (eller s, når den udregnes): N(µ,σ 2 ) 10 / 89

11 Box-plot for alle kvinder boxplot(vitamind~factor(country), data=vitd1) God til sammenligninger Box: 25% - 75% fraktil Streg: Median : Gennemsnit Whiskers: definitionsafhængig DK SF EI PL...noget med variansanalyse 11 / 89

12 Scatter-plot af Vitamin D niveau mod BMI Lang kode, se s. 82 Vitamin D DK EI SF PL BMI Er der en afhængighed af BMI? Måske lineær?... noget med regressionsanalyse 12 / 89

13 Regn: Summary statistics, I Observationer y 1,..., y n Location, centrum Gennemsnit: ȳ = 1 n (y y n ) Median: midterste observation, efter størrelsesorden I symmetriske fordelinger vil gennemsnit og median være ens (pånær tilfældigheder, naturligvis) I skæve fordelinger vil de ikke være ens: Typisk er der hale mod de høje værdier, så gennemsnittet er større end medianen. 13 / 89

14 Gennemsnit=tyngdepunkt Eksempel: Indlæggelsestider: 5,5,5,7,10,16,106 dage Gennemsnit: 154/7=22 dage. Repræsentativt for hvad? kan opfattes som ligevægtspunkt påvirkes kraftigt af yderlige observationer På den anden side, hvis omkostninger er proportionale med indlæggelsestiden, så er det måske gennemsnittet, der er interessant for hospitalsledelsen. 14 / 89

15 Regn: Summary statistics, II Observationer y 1,..., y n Variation Varians: s 2 = 1 n 1 Σ(y i ȳ) 2 Spredning = Standardafvigelse= Standard Deviation = varians = s = SD Fraktiler Medianen er 50% fraktilen, men der er en fraktil svarende til alle procenter, se næste side 15 / 89

16 Fraktiler for vitamin D Sorter data med den mindste først, tæl: 5% fraktil: 5% er mindre end dette, 95% er større 25% fraktil: 25% er mindre, 75% er større kaldes også nedre kvartil eller Q1 50% fraktil: 50% er mindre, 50% er større Midterste observation, kaldes også median 75% fraktil: 75% er mindre, 25% er større kaldes også øvre kvartil eller Q % og % er vigtige, fordi 95% af observationerne ligger imellem disse 16 / 89

17 Summary statistics for vitamin D install.packages("doby") library(doby) vitd1$vitd = vitd1$vitamind #for at have plads nok summaryby(vitd ~ country, data = vitd1, FUN = function(x) { c(mean = mean(x,na.rm=t), median = median(x,na.rm=t), Q1 = quantile(x,0.025),q3 = quantile(x,0.075), sd = sd(x,na.rm=t))}) giver outputtet country VitD.mean VitD.median VitD.Q1.2.5% VitD.Q3.7.5% VitD.sd 1 DK SF EI PL / 89

18 Summary statistics for vitamin D Bemærk: Median og gennemsnit er nogenlunde ens, svarende til rimelig symmetri i Boxplottene s. 11 Dette kan ikke bruges til at påstå, at der er tale om en Normalfordeling Polen ligger lavere end de øvrige lande, undtagen måske for Q1. Bemærk, at også spredningen er lavere for Polen. 18 / 89

19 Traditionel fortolkning af spredningen s Hovedparten af observationerne ligger inden for ȳ ± ca.2 s dvs. sandsynligheden for at en tilfældig udtrukket person fra populationen har en værdi i dette interval er stor... For Vitamin D blandt irske kvinder finder vi reference område = normalområde 48.0 ± = (7.6, 88.4) Hvis data er normalfordelt, vil dette interval indeholde ca. 95% af fremtidige observationer. Hvis ikke, tja... Noter: Ca. 2-tallet er i virkeligheden (1 + 1 n )ṫ 97.5% (n 1), 3 og usikkerheden på grænserne (st.err.) er ca. n s / 89

20 Er folk oppe på det anbefalede niveau på 25 nmol/l? Vi har lige fundet normalområdet til (7.6, 88.4), hvilket fortæller os, at en del personer må forventes at have værdier under 25 - hvis vi har at gøre med en normalfordeling. Med definitionen lav = (vitd2$vitamind<25) kan vi også bare tælle... m=as.matrix(table(lav)) options(digits=3) > cbind(m,prop.table(m)) [,1] [,2] FALSE TRUE som altså viser, at mere end 12% af de irske kvinder har et for lavt niveau. 20 / 89

21 Normalområde / Referenceområde Område, der omslutter de centrale 95% af observationerne: nedre grænse: % fraktil øvre grænse: % fraktil (For irske kvinder fås 18 hhv 89.1 nmol/l, se kode s. 84) Hvis fordelingen kan beskrives ved en normalfordeling N(µ,σ 2 ), kan de sande fraktiler udtrykkes som % fraktil: µ 1.96σ ȳ 1.96s ȳ 2s % fraktil: µ σ ȳ s ȳ + 2s og normalområdet udregnes derfor som ȳ ± ca.2 s (ȳ 2 s, ȳ + 2 s) 21 / 89

22 Praktisk konstruktion af referenceområde Store datasæt: Brug fraktiler Mellemstore datasæt: Brug en rimelig fordelingsantagelse, typisk normalfordelingen, evt. efter transformation Her er normalfordelingsantagelsen vigtig! Mellemstort...: Med 100 observationer er usikkerheden på grænserne ca. 20% Små datasæt: Lad være med det!! 22 / 89

23 Hvad er en rimelig fordelingsantagelse? Her: passer normalfordelingen nogenlunde? Gode argumenter Tegn histogram, er det symmetrisk? Fraktildiagram, er det lineært? (kræver tilvænning) Svagere indicier Er gennemsnit og median tæt på hinanden? Er fraktilerne (f.eks. 25% og 75%) symmetriske omkring medianen? Bemærk: Et stort antal observationer sikrer ikke, at der er tale om en normalfordeling. og et lille materiale kan sagtens være et sample fra en Normalfordeling vi kan bare ikke afgøre det / 89

24 Fraktildiagram, qqplot til check af Normalfordelingen: Sammenlign observationerne (Y-aksen) med teoretiske fraktiler, baseret på en fittet normalfordeling, her normeret (X-aksen), qqnorm(vitd2$vitamind) qqline(vitd2$vitamind) Normal Q Q Plot Sample Quantiles Theoretical Quantiles Dette bør se lineært ud, hvis der er tale om en normalfordeling. 24 / 89

25 Hvorfor normalfordelingen? Det er ofte en rimelig approksimation Evt. efter transformation med logaritme, kvadratrod, invers,... Central grænseværdisætning: Sum (eller gennemsnit) af et stort antal variable får en fordeling, der efterhånden kommer til at ligne en normalfordeling (sum af normalfordelinger er igen en normalfordeling). Rimelig let at arbejde med, fordi standard programmel er udviklet for normalfordelingen. men som regel er antagelsen ikke specielt vigtig! Undtagelsen er konstruktion af referenceområder 25 / 89

26 Eksempler på pæne normalfordelinger 26 / 89

27 Typisk afvigelse fra normalfordelingen som regel når der er tale om ret lave værdier, f.eks. hormonmålinger (eller immunoglobulin): Histogrammet er skævt, med en hale mod de høje værdier Gennemsnittet er en del større end medianen Løsning: Transformer med en logaritme ligegyldig hvilken: naturlig, 10-tals, 2-tals Tilføj: log2vitd=log2(vitd) (se s. 80) bare man transformerer tilbage med den samme anti-logaritme...dvs. 2 noget 27 / 89

28 Histogram for logaritmerede værdier af vitamin D her 2-tals logaritmen Histogram of vitd2$log2vitd Frequency vitd2$log2vitd igen med fittet overlejret normalfordeling Her har vi - måske - lidt bedre symmetri 28 / 89

29 Referenceområde, baseret på logaritmer gennemsnit=mean(vitd2$log2vitd,na.rm=true) sd=sd(vitd2$log2vitd,na.rm=true) antal=length(vitd2$log2vitd) > cbind(antal,gennemsnit,sd) antal gennemsnit sd [1,] For logaritmen til Vitamin D for irske kvinder finder vi ± = (4.19, 6.72) Dette interval skal tilbagetransformeres med anti-logaritmen: (2 4.19, ) = (18.3, 105.6) nmol/l Sammenlign med (7.6, 88.4) uden transformation, eller de empiriske fraktiler (18.0, 89.1) 29 / 89

30 Skæve fordelinger: Immunoglobulin Summary statistics for 298 personer: summary(rep(igmdata$igm,igmdata$antal)) Min. 1st Qu. Median Mean 3rd Qu. Max Bemærk: Gennemsnittet er noget højere end medianen, så vi har nok en hale med høje værdier (jvf. s. 13) Maximum (og Q3) viser, at det specielt er de øverste 25% af fordelingen, der er trukket op mod de høje værdier. Spredningen er stor i forhold til gennemsnittet - den kan faktisk overhovedet ikke fortolkes! 30 / 89

31 Immunoglobulin, fortsat Histogram Fraktildiagram Frequency Histogram of igmdata$igm igmdata$igm Tydeligt ikke-normalfordelt (bemærk observationer langt ude til højre) Sample Quantiles Normal Q Q Plot Theoretical Quantiles Tydeligt ikke-lineært (hængekøjefacon) 31 / 89

32 Immunoglobulin, log2-transformeret Histogram of igmdata$log2igm Normal Q Q Plot Frequency Sample Quantiles igmdata$log2igm Noget bedre normalfordelingstilpasning Mere lineært Theoretical Quantiles 32 / 89

33 Referenceområde for immunoglobulin Urimelige værdier er i rød kursiv: Ufortolkelige værdier er bare i kursiv Data gennemsnit spredning Referenceområde (median) utransformeret (-0.135, 1.741) log2-transformeret (-2.102, 1.054) tilbagetransformeret (0.695) - (0.233, 2.076) empiriske fraktiler (0.700) - (0.2, 2.0) Sådan foregår tilbagetransfomationen: Referenceområde for logaritmer: (-2.102, 1.054) Tilbagetransformeret: ( , ) = (0.23, 2.08) Lad være med at tilbagetransformere spredningerne! 33 / 89

34 Vigtigheden af normalfordelingen afhænger af formålet med undersøgelsen vigtig ved beskrivelser specielt ved konstruktion af referenceområder ikke så vigtig ved sammenligninger, vurdering af effekter hvor det kun er residualerne, der antages normalfordelte, og hvor antallet af observationer kan redde situationen ikke på nogen måde påkrævet for kovariater! som I ikke ved så meget om endnu / 89

35 Parrede sammenligninger Vi skal se på en situation, hvor vi ønsker at sammenligne to fordelinger/situationer, men hvor observationer fra den ene situation er parret med observationer fra den anden fordeling. Eksempler: Målinger på samme person før og efter en behandling Sammenligning af to grupper/behandlinger, hvor individerne er individuelt matchet på f.eks. køn, alder, bopæl etc. To målemetoder, der benyttes på samme person/dyr/blodprøve 35 / 89

36 Formålet med undersøgelsen kan være flere forskellige: Vurdering af effekten af en behandling (således at man har målinger både før og efter behandling). Sædvanligvis vil man dog her også have en kontrolgruppe, hvis det er muligt (5. uges emne) Sammenligning af to behandlinger, hvor man ved hjælp af matchning eller cross-over har sørget for parrede observationer for behandlingerne Vurdering af, om to målemetoder/apparaturer måler det samme, eller rettere: kvantificering af, hvor stor diskrepans, der ses imellem dem 36 / 89

37 Sammenligning af målemetoder To metoder til bestemmelse af slagvolumen: MF: bestemt ved Doppler ekkokardiografi SV: bestemt ved cross-sectional ekkokardiografi Ubrugelig tabel: person MF SV gennemsnit SD SEM Måler de to målemetoder det samme? Kode for indlæsning s / 89

38 Scatter plot af MF vs. SV med indlagt identitetslinie mfsv$mf mfsv$sv Er der en pæn lineær sammenhæng mellem de to målemetoder? Er de måske endda rimeligt ens? (kode s. 86) 38 / 89

39 Man skal kunne se parringen! Forkert tegning Rigtig tegning flow mf sv 40 mf metode sv Kode s. 87 (kræver omstrukturering af data til langt format) 39 / 89

40 Analyse af parrede data Personen er sin egen kontrol Det giver stor styrke til at opdage evt. forskelle. Se på individuelle differenser men på hvilken skala? Er differensernes størrelse nogenlunde uafhængig af niveauet? Eller er der snarere tale om relative (procentuelle) forskelle: I så fald skal der tages differenser på en logaritmisk skala. Undersøg om differenserne har middelværdi 0: parret T-test 40 / 89

41 Bland-Altman plot Scatter plot af differenser dif=mf-sv mod gennemsnit average=(mf+sv)/2 for den enkelte person (kode s. 86): dif average Ligger differenserne omkring 0? Er der ca. den samme fordeling for alle gennemsnit? 41 / 89

42 Statistisk model for parrede data X i : flowmålingen MF for den i te person Y i : flowmålingen SV for den i te person Differenser D i = X i Y i (i = 1,, 21) uafhængige, normalfordelte med middelværdi δ og spredning σ Bemærk: Kun antagelser om differenser er nødvendige fordi det er et parret design Intet krav om fordeling af selve flowmålingerne! kun af differenserne. 42 / 89

43 Inferens, Statistisk analyse Med udgangspunkt i indsamlede data, hvad kan vi så sige om den sandsynlighedsmekanisme (model, f.eks. de ukendte parametre), der har frembragt disse data? Estimation: Når vi ser disse 21 differenser, hvad kan vi så sige om de to ukendte parametre, δ og σ? Test: Ser der ud til at være systematisk forskel på de to metoder, dvs. er δ = 0? Prædiktion: Hvor store forskelle kan vi forvente i praksis? 43 / 89

44 Gangen i en statistisk analyse Modelkontrol: Er forudsætningerne opfyldt? Burde komme først, men kommer af praktiske grunde efter estimationen. Estimation: Hvilke parameterværdier passer bedst med observationerne? Og hvor sikkert er de bestemt? Modelreduktion (test af hypoteser): Er simplere beskrivelser tilladelige? Passer en simplere model næsten lige så godt? 44 / 89

45 Antagelser for den parrede sammenligning Differenserne D i = X i Y i, i = 1,..., 21: er uafhængige: personerne har ikke noget med hinanden at gøre har samme spredning (varians): vurderes ved det såkaldte Bland-Altman plot af differenser mod gennemsnit (se s. 41) er normalfordelte: vurderes grafisk eller numerisk histogram og fraktildiagram, hmm...kun 21 observationer formelt test? nix... somme tider vigtig, andre gange ikke 45 / 89

46 Fordeling af differenser Box plot og fraktildiagram: Histogram of mfsv$dif Normal Q Q Plot Frequency Sample Quantiles mfsv$dif Theoretical Quantiles Passer normalfordelingen nogenlunde? 46 / 89

47 Estimation Differenserne D i = MF i SV i N (δ, σ 2 ) er 21 uafhængige observationer fra en normalfordeling Maximum likelihood princippet giver her, at parametrene δ og σ estimeres ved henholdsvis gennemsnittet D og den tidligere omtalte spredning s (s. 15). Vi markerer sædvanligvis estimater ved at sætte enˆ(hat) over, altså ˆδ = D (udtales delta-hat) Her finder vi ˆδ = 0.238, men Estimater skal angives med tilhørende usikkerheder! gerne i form af et konfidensinterval 47 / 89

48 Usikkerhed på et estimat Hvad betyder det? F.eks. (som her) usikkerhed på et gennemsnit, som estimat for (skøn over) en ukendt middelværdi. Vi kan tænke på gentagelser af undersøgelsen: Hver gang får vi et nyt estimat (for middelværdien) Vi kan studere fordelingen af sådanne estimater Spredningen i denne fordeling angiver usikkerheden. Den kaldes som regel standard error of the estimate Hvis det er en middelværdi, kaldes den standard error of the mean 48 / 89

49 Altså: Spredning på gennemsnittet kaldes Standard error (of the mean), SEM Hermed angives usikkerheden på gennemsnittet, og der gælder SEM = SD n SEM bliver således mindre, når n bliver større Den bruges til at konstruere konfidensintervaller, som kommer nu / 89

50 Konfidensinterval = Sikkerhedsinterval Interval, der fanger den ukendte parameter (her middelværdien δ) med stor (typisk 95%) sandsynlighed. Hvor kan vi tro på at den faktiske middelværdi δ ligger? (Approksimativt) 95% konfidensinterval for middelværdi D ± 2 SEM Eksakt for normalfordelingen (bortset fra ca. 2 ) Vi siger, at intervallet har dækningsgrad 95%, på engelsk coverage 50 / 89

51 Konfidensinterval for δ = forskel MF-SV 95% konfidensinterval: D ± ca. 2 SEM, eller med et mere præcist 2-tal : t 97.5% (20) = Direkte udregning (se også s. 88) gennemsnit = mean(mfsv$dif) N = length(mfsv$dif) se <- function(x) sqrt(var(x)/length(x)) stderr = se(mfsv$dif) lower <- mean(mfsv$dif) - qt(0.975,20)*se(mfsv$dif) upper <- mean(mfsv$dif) + qt(0.975,20)*se(mfsv$dif) > cbind(n, gennemsnit, stderr, lower, upper) N gennemsnit stderr lower upper [1,] Konfidensintervallet ses at være (-2.93, 3.41) 51 / 89

52 Fortolkning af konfidensinterval (= sikkerhedsinterval) Konfidensinterval for middelværdien af forskellen δ mellem MF og SV blev estimeret til Det betyder: ( 2.93, 3.41) Der kan ikke påvises nogen systematisk forskel (bias) mellem de to typer målinger Vi kan dog heller ikke afvise, at der kan være forskel En evt. bias vil med stor sikkerhed (her 95%) være mindre end. ca (til hver side) 52 / 89

53 Test af hypotese (ofte kaldet nulhypotese) Kan vi nøjes med en simplere model? Kunne en eller flere parametre i en model være en kendt værdi (ofte 0, deraf navnet)? Modelreduktion: Model (nul)hypotese (H 0 ). Kan den forenklede model tænkes at være den rigtige? Eksempelvis: Er der systematisk forskel på de to målemetoder? (δ = 0) Har mænd og kvinder samme middelværdi af blodtrykket? (µ 1 = µ 2 eller µ 1 µ 2 = 0) Er blodtrykket uafhængig af alderen? (hældning β = 0) Er der samme sandsynlighed for farveblindhed hos piger og drenge? (p 1 = p 2 eller p 1 p 2 = 0) 53 / 89

54 Test af hypotese, II Ofte ønsker vi at forkaste hypotesen, fordi vi så har fundet en effekt, f.eks. en forskel på to grupper. Andre gange ønsker man at vise, at der ingen forskel er, og så skal man bruge konfidensintervaller i stedet for! Teststørrelse: En størrelse, der måler diskrepans mellem observation og hypotese Stor diskrepans: Forkast hypotesen, fordi den passer dårligt sammen med data. Men hvor stor? Undersøg om teststørrelsen (diskrepansen) er værre / mere ekstrem end hvad der kan forventes ved tilfældighedernes spil. 54 / 89

55 Teststørrelsens fordeling Teststørrelsen måler diskrepansen mellem observationerne og hypotesen. Selv når hypotesen H 0 er fuldstændig sand, vil vi aldrig opnå fuldstændig overensstemmelse mellem model og observationer (f.eks. ikke nøjagtigt samme gennemsnit for MF og SV). Hvor store vil afvigelserne typisk være, når H 0 er sand? Hvilke værdier af teststørrelsen vil vi typisk få, og med hvilken hyppighed (sandsynlighed)? Det kaldes fordelingen af teststørrelsen, og den kan beregnes, så vi ved, hvad der er normalt og hvad der er unormalt/ekstremt 55 / 89

56 Test af ingen bias mellem MF og SV dvs. test af nulhypotesen H 0 : δ = 0 Vi benytter et T-test på differenserne, og dette fremkommer som brøken estimat - hypoteseværdi standard error for estimat og det viser sig, at denne (under H 0 ) er T-fordelt (Student-fordelt) med et antal frihedsgrader, som er antallet af observationer minus 1 Lille (numerisk) t: God tilpasning Stor (numerisk) t: Dårlig tilpasning 56 / 89

57 T-test for MF vs. SV, fortsat Her finder vi teststørrelsen: t = ˆδ 0 SEM = = t(20) 1.52 Der er 20 frihedsgrader, fordi der er 21 observationer og kun 1 fælles middelværdi. Passer denne værdi (0.158) godt med en t-fordeling med 20 frihedsgrader? Ja, den ligger ret centralt i fordelingen, og vi kan derfor ikke se noget galt med vores hypotese (se næste side). 57 / 89

58 Teknisk note t-fordelingen (Student fordelingen) har en parameter df, der kaldes antallet af frihedsgrader (her: 5, 10, 100). Mange frihedsgrader: Fordelingen ligner normalfordeling Få frihedsgrader: Tungere haler. 58 / 89

59 Parret T-test i praksis Vi vil teste ens middelværdi for MV og SV, med differenser dif Der er flere alternativer til at gøre dette: Ud fra to separate variable: > t.test(mfsv$mf,mfsv$sv,paired=t) Paired t-test data: mfsv$mf and mfsv$sv t = , df = 20, p-value = alternative hypothesis: true difference in means is not equal to 95 percent confidence interval: sample estimates: mean of the differences / 89

60 Parret T-test i praksis, II Ud fra de udregnede differenser: > t.test(mfsv$dif) One Sample t-test data: mfsv$dif t = , df = 20, p-value = alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: sample estimates: mean of x Estimeret differens: 0.238, CI=(-2.932, 3.408) P-værdi: P= / 89

61 Fortolkning af P-værdi P-værdien er sandsynlighed for dette eller værre, altså større diskrepans end den observerede, under nulhypotesen (dvs. hvis nulhypotesen er sand). Hvis der kun er en ganske lille sandsynlighed for at få noget, der er værre end det vi har, så må det være ret slemt, og vi må forkaste. Her finder vi P = 0.88, altså stor sandsynlighed for at få noget, der er værre end det vi har, så nulhypotesen ser rimelig ud: vi kan ikke forkaste. 61 / 89

62 Signifikans Hvis P-værdien er under 0.05, siger man at testet er signifikant på 5% niveau. Man forkaster hypotesen. Signifikansniveauet α vælges sædvanligvis til 5% (α = 0.05), men der er tale om et arbitrært valg. Man bør derfor angive selve P-værdien, og allervigtigst: Angiv estimat med konfidensinterval! Her blev det udregnet til (-2.93, 3.41), så vi kunne med det samme have set, at 0 var en rimelig værdi for middelværdien 62 / 89

63 Test vs. konfidensinterval Der er ækvivalens, i den forstand, at: Hvis konfidensintervallet (sikkerhedsintervallet) indeholder 0, er testet ikke signifikant Hvis konfidensintervallet (sikkerhedsintervallet) ikke indeholder 0, er testet signifikant Her fik vi konfidensintervallet (-2.93, 3.41), med tilhørende P-værdi P=0.88, så vi kan ikke forkaste hypotesen om middelværdi 0 for differenserne. Men var det alt, hvad vi gerne ville vide? Nej, vi vil gerne vide, hvor store forskellene typisk er / 89

64 Limits-of-agreement Hvor store afvigelser vil man typisk se mellem de to metoder for individuelle personer (enkelt individer) Limits of agreement er en speciel betegnelse for normalområdet for differenser, dvs. gennemsnit ± 2 spredninger, for differenserne D ± ca. 2 SD = 0.24 ± = ( 13.68, 14.16) Disse grænser er vigtige for at afgøre om to målemetoder kan erstatte hinanden. Det er nemlig ikke nok, at der ikke er nogen systematisk forskel!! Og her er normalfordelingen vigtig! 64 / 89

65 Repetition: De to slags spredninger SD: spredningen i populationen Standard error of the mean SEM = SD( x) = SD(x) n (eller mere generelt blot standard error) SD bruges til beskrivelser SEM bruges til sammenligninger 65 / 89

66 SD til beskrivelser ( Tabel 1 ) Her tænker man: Gennemsnit Spredning Variable Antal X SD Alder Immunoglobulin Patienterne er nok ca år og har immunoglobulinværdier på ca.... UPS: De kan være negative!! (så der burde være transformeret, eller...) Her er normalfordelingen vigtig! fordi vi udtaler os om enkeltobservationer 66 / 89

67 university of copenhagen Eksempel fra litteraturen Malhotra, Welch, Rosenbaum & Poiesz: 67 / 89 d e pa rt m e n t o f b i o s tat i s t i c s

68 Hvad bør man så gøre? Hvis fordelingen er tydeligt skæv eller på anden måde afviger tydeligt fra normalfordelingen, bør man ikke engang angive gennemsnit og spredning, men snarere: fraktiler: median inter-quartile range, IQR: intervallet mellem 25% og 75% fraktil For helt små materialer angives evt. median og range..og så laver man ikke statistik, men kasuistik 68 / 89

69 SEM til sammenligninger ( Tabel 2 ) Gruppe 1 (n=35) Gruppe 2 (n=65) Gennemsnit Gennemsnit Variable X1 SEM 1 X2 SEM 2 Alder Immunoglobulin Her tænker man: De to grupper ser ens ud rent aldersmæssigt men har måske nok forskellige niveauer af immunoglobulin Her er normalfordelingen ikke så vigtig, fordi det er gennemsnit, vi udtaler os om 69 / 89

70 Central grænseværdisætning Fordelingen af et gennemsnit er pænere end fordelingen af de individuelle observationer (mere normalfordelt) Jo flere observationer, der indgår i gennemsnittet des mere normalfordelt ser det ud des mindre spredning har dets fordeling (standard error of the mean, SEM), dvs. jo mere præcist fanger vi den sande middelværdi Når man har mange observationer, gør det altså ikke så meget med fordelingsantagelsen - så længe man ser på gennemsnit! 70 / 89

71 Gennemsnit af flere og flere - immunoglobulin Øverste linie: Oprindelig fordeling, samt gennemsnit af 4 og 16 Nederste linie (i ny skala): gennemsnit af 16, 64 og / 89

72 Hvis man ikke har mange observationer kan man ikke kontrollere normalfordelingsantagelsen og man bliver ikke reddet af den centrale grænseværdisætning Man kan sige, at Muligheden for at kontrollere (forkaste) normalfordelingsantagelsen vokser med antallet af observationer Vigtigheden af normalfordelingsantagelsen falder med antallet af observationer Så ved små studier kan man blive nødt til at benytte non-parametriske metoder 72 / 89

73 Kontrol af normalfordeling Lidt af et dilemma: 73 / 89

74 Non-parametriske metoder - tests Tests, der ikke bygger på en normalfordelingsantagelse men de er ikke forudsætningsfri Ulemper tab af efficiens (sædvanligvis lille) uklar problemformulering - manglende model, og dermed ingen fortolkelige parametre ofte ingen estimater! og ingen konfidensintervaller kan kun anvendes i simple problemstillinger med mindre man har godt med computerkraft 74 / 89

75 Nonparametrisk one-sample test af middelværdi 0 (parret two-sample test) Sign test, fortegnstest udnytter kun observationernes fortegn, ikke deres størrelse ikke særligt stærkt invariant ved transformation Wilcoxon signed rank test udnytter observationernes fortegn, kombineret med rangordenen af de numeriske værdier stærkere end sign-testet kræver at man kan tale om store og små forskelle kan påvirkes af transformation Men vi får hverken estimat, konfidensinterval eller limits of agreement / 89

76 Nonparametriske parrede tests Dette foretages som tests af middelværdi 0 på differenserne > wilcox.test(mfsv$dif) Wilcoxon signed rank test with continuity correction data: mfsv$dif V = 103, p-value = alternative hypothesis: true location is not equal to 0 Disse giver kun en P-værdi, men man kan i nogen situationer få estimat og konfidensinterval for en pseudo-median. Ingen limits of agreement... Forskellige programmer benytter lidt forskellige teststørrelser! (og benytter approksimationer, som regel for n > 25) 76 / 89

77 APPENDIX Programbidder svarende til diverse slides: Indlæsning af vitamin D datasæt, s Tegninger vedrørende vitamin D, s. 81, 82 Udregning af summary statistics og fraktildiagram, s. 83, 84 Indlæsning af MF-SV data, s. 85 Tegninger vedrørende MF-SV, s. 86, 87 Parret T-test, s. 88 Wilcoxon signed rank test, s / 89

78 Det oprindelige Vitamin D datasæt De første 5 linier (4 observationer): land category VitaminD age bmi sun vitdintake Kode til indlæsning ses på de næste sider Datasættet vitamind.txt ligger på hjemmesiden 78 / 89

79 R-kode til indlæsning Slide 6 vitd <- read.table("vitamin.txt", header=t) Definition af faktorer med karakter-værdier: vitd$country <- factor(vitd$land, levels=c(1,2,4,6), labels=c("dk", "SF", "EI", "PL")) vitd$sunexp <- factor(vitd$sun, levels=1:3, labels=c("avoid sun", "Sometimes in sun", "Prefer sun")) 79 / 89

80 SAS-kode til indlæsning, II Subset, kun med kvinder, og kun med Irske kvinder: vitd1=subset(vitd,category==2) vitd2=subset(vitd1,country=="ei") Definition af logaritmeret variabel: vitd2$log2vitd=log2(vitd2$vitamind) Udskriving af starten og slutningen på datasættet: head(vitd2) tail(vitd2) Printet ses s / 89

81 R-kodning af histogram og Box-plot Slides 9 og 11 myhist <- hist(vitd2$vitamind) multiplier <- myhist$counts / myhist$density mydensity <- density(vitd2$vitamind) mydensity$y <- mydensity$y * multiplier[1] plot(myhist) lines(mydensity) m<-mean(vitd2$vitamind, na.rm=t) std<-sqrt(var(vitd2$vitamind, na.rm=t)) hist(vitd2$vitamind, prob=true, xlab="x-variable", freq=f, main="normal curve over histogram") curve(dnorm(x, mean=m, sd=std), col="darkblue", lwd=2, add=true, yaxt="n") boxplot(vitamind~factor(country), data=vitd1) 81 / 89

82 SAS-kodning af Scatter plot med linier Slide 12 reg.dk = lm(vitd1$vitamind[vitd1$country=="dk"] ~ vitd1$bmi[vitd1$country=="dk"]) reg.ei = lm(vitd1$vitamind[vitd1$country=="ei"] ~ vitd1$bmi[vitd1$country=="ei"]) reg.sf = lm(vitd1$vitamind[vitd1$country=="sf"] ~ vitd1$bmi[vitd1$country=="sf"]) reg.pl = lm(vitd1$vitamind[vitd1$country=="pl"] ~ vitd1$bmi[vitd1$country=="pl"]) color = rep(na, length=length(vitd$country)) mycolor = c("blue", "green","red","black")[vitd1$country] mypch = c(3,1,2,4)[vitd1$country] plot(vitd1$bmi, vitd1$vitamind, ylab="vitamin D", xlab="bmi", pch=mypch, col=mycolor, cex.lab=1.5) legend(40, 80, legend=c("dk", "EI","SF","PL"), pch=c(1,3,2,4), col=c("blue", "darkgreen","red","black"), cex=1.5) abline(reg.dk,col="blue") abline(reg.ei,col="green") abline(reg.sf,col="red") abline(reg.pl,col="black") 82 / 89

83 Udregning af summary statistics Slide 17 Alternative udregninger: gennemsnit=tapply(vitd1$vitamind,vitd1$country,mean,na.rm=true) median=tapply(vitd1$vitamind,vitd1$country,median,na.rm=true) min=tapply(vitd1$vitamind,vitd1$country,min,na.rm=true) max=tapply(vitd1$vitamind,vitd1$country,max,na.rm=true) sd=tapply(vitd1$vitamind,vitd1$country,sd,na.rm=true) antal=tapply(vitd1$vitamind,vitd1$country, function(x) {length(x[!is.na(x)])}) cbind(antal,gennemsnit,median,sd) 83 / 89

84 Specielle fraktiler, og fraktildiagram Slide 21 > quantile(vitd2$vitamind, c(0.025, 0.975)) 2.5% 97.5% Fraktildiagram Slide 24 qqnorm(vitd2$vitamind) qqline(vitd2$vitamind) 84 / 89

85 Datafilen vedr. MF og SV Slide 37 Data-filen mf_sv.txt, (beliggende på hjemmesiden) er en tekstfil med 2 kolonner a 21 linier, en for hver person, med variabelnavne i første linie. Vi indlæser og definerer derefter to nye variable: mfsv <- read.table("mf_sv.txt", header=t) /* definition af nye variable */ mfsv$dif=mfsv$mf-mfsv$sv mfsv$snit=(mfsv$mf+mfsv$sv)/2 85 / 89

86 Scatter plot og Bland-Altman plot Slides 38 og 41 /* Scatter plot */ plot(mfsv$mf ~ mfsv$sv) abline(lm(mfsv$mf ~ mfsv$sv),col="red",lwd=2) /* Bland-Altman plot */ plot(mfsv$snit,mfsv$dif, ylab="dif",xlab="average") abline(0,0,col="red",lwd=2) 86 / 89

87 Box-plot og Spaghetti-plot Slide 39 install.packages("data.table") library(data.table) mfsv$id=1:21 lang <- melt(mfsv, id.vars = c("id"), measure=c("mf","sv"), variable.name = "metode", value.name = "flow") /* Forkert Boxplot */ plot(lang$metode, lang$flow) /* Korrekt Spaghetti-plot */ library(lattice) xyplot(flow~ metode, group = id, data = lang, type = "b") 87 / 89

88 Parret T-test Slide 51 Estimat for differens, med konfidensgrænser, kan fås ved at udføre et parret T-test. Slide 59 og 60 Parret T-test af MV vs. SV, udføres enten direkte: t.test(mfsv$mf,mfsv$sv,paired=t) eller ud fra de udregnede differenser mfsv$dif=mfsv$mf-mfsv$sv: t.test(mfsv$dif) 88 / 89

89 Parret non-parametrisk test af MV vs. SV, med differenser dif Slide 76 wilcox.test(mfsv$dif) Disse giver kun en P-værdi, men man kan i nogen situationer få estimat og konfidensinterval for en pseudo-median ved at tilføje conf.int=true 89 / 89

Basal Statistik. Indhold. Planlægning af undersøgelse. Ide, Problemstilling. Faculty of Health Sciences. Begreber. Parrede sammenligninger i R

Basal Statistik. Indhold. Planlægning af undersøgelse. Ide, Problemstilling. Faculty of Health Sciences. Begreber. Parrede sammenligninger i R Faculty of Health Sciences Indhold Basal Statistik Begreber. Parrede sammenligninger i R Lene Theil Skovgaard 4. februar 2019 Planlægning af undersøgelse, protokol Grafik, Basale begreber Parrede sammenligninger

Læs mere

Basal Statistik. Indhold. Planlægning af undersøgelse. Ide, Problemstilling. Faculty of Health Sciences. Begreber. Parrede sammenligninger.

Basal Statistik. Indhold. Planlægning af undersøgelse. Ide, Problemstilling. Faculty of Health Sciences. Begreber. Parrede sammenligninger. Faculty of Health Sciences Indhold Basal Statistik Begreber. Parrede sammenligninger. Lene Theil Skovgaard 15. januar 2018 Planlægning af undersøgelse, protokol Grafik, Basale begreber Parrede sammenligninger

Læs mere

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 15. januar 2018

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 15. januar 2018 Faculty of Health Sciences Basal Statistik Begreber. Parrede sammenligninger. Lene Theil Skovgaard 15. januar 2018 1 / 91 Indhold Planlægning af undersøgelse, protokol Grafik, Basale begreber Parrede sammenligninger

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Begreber. Parrede sammenligninger. Lene Theil Skovgaard 5. september 2017 1 / 16 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides

Læs mere

Basal Statistik. En- og to-stikprøve problemer. Eksempel på parrede data. Eksempel på parrede data. Faculty of Health Sciences

Basal Statistik. En- og to-stikprøve problemer. Eksempel på parrede data. Eksempel på parrede data. Faculty of Health Sciences Faculty of Health Sciences En- og to-stikprøve problemer One- and two-sample problems: Basal Statistik T-tests. Lene Theil Skovgaard 17. september 2013 1 / 67 Sammenligning af to situationer: Parret t-test

Læs mere

Faculty of Health Sciences. Basal Statistik. T-tests. Lene Theil Skovgaard. 17. september 2013

Faculty of Health Sciences. Basal Statistik. T-tests. Lene Theil Skovgaard. 17. september 2013 Faculty of Health Sciences Basal Statistik T-tests. Lene Theil Skovgaard 17. september 2013 1 / 67 En- og to-stikprøve problemer One- and two-sample problems: Sammenligning af to situationer: Parret t-test

Læs mere

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016 Faculty of Health Sciences Basal Statistik Begreber. Parrede sammenligninger. Lene Theil Skovgaard 6. september 2016 1 / 87 Indhold Planlægning af undersøgelse, protokol Grafik Basale begreber Parrede

Læs mere

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016 Faculty of Health Sciences Basal Statistik Begreber. Parrede sammenligninger. Lene Theil Skovgaard 6. september 2016 1 / 88 APPENDIX Programbidder svarende til diverse slides: Indlæsning af vitamin D datasæt,

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Sundby

Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Sundby Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Sundby Vi betragter et lille uddrag af det såkaldte Sundby95-materiale, der er en stor undersøgelse af københavnernes sundhed. Det totale datasæt

Læs mere

Basal statistik. 16. september 2008

Basal statistik. 16. september 2008 Basal statistik 16. september 2008 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation sammenligning af to grupper uparret t-test

Læs mere

Basal statistik. 18. september 2007

Basal statistik. 18. september 2007 Basal statistik 18. september 2007 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation sammenligning af to grupper uparret t-test

Læs mere

Eksempel: To metoder, som forventes at skulle give samme resultat: MF: Transmitral volumetric flow, bestemt ved Doppler ekkokardiografi

Eksempel: To metoder, som forventes at skulle give samme resultat: MF: Transmitral volumetric flow, bestemt ved Doppler ekkokardiografi En- og to-stikprøve problemer 1 En- og to-stikprøve problemer 2 Basal statistik 13. februar 2007 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation

Læs mere

Basal statistik. 18. september 2007

Basal statistik. 18. september 2007 Basal statistik 18. september 2007 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation sammenligning af to grupper uparret t-test

Læs mere

Basal statistik 19. september Eksempel: To metoder, som forventes at skulle give samme resultat:

Basal statistik 19. september Eksempel: To metoder, som forventes at skulle give samme resultat: En- og to-stikprøve problemer, september 2006 1 Basal statistik 19. september 2006 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Basal statistik. 30. januar 2007

Basal statistik. 30. januar 2007 Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet

Læs mere

Basal statistik. 29. januar 2008

Basal statistik. 29. januar 2008 Basal statistik 29. januar 2008 Deskriptiv statistik Grafik Summary statistics Normalfordelingen Typer af data Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt

Læs mere

Basal Statistik. Medicinsk forskning. Mulig problemstilling. Ide. Faculty of Health Sciences. Begreber. Oversigt.

Basal Statistik. Medicinsk forskning. Mulig problemstilling. Ide. Faculty of Health Sciences. Begreber. Oversigt. Faculty of Health Sciences Medicinsk forskning Basal Statistik Begreber. Oversigt. Lene Theil Skovgaard 3. september 2013 1 / 56 Ide/Interesse Litteratursøgning Problemformulering Planlægning af undersøgelse

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse Faculty of Health Sciences SPSS APPENDIX SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 12. september 2017 med instruktioner til SPSS-analyse svarende til

Læs mere

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22. Faculty of Health Sciences SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 22. januar 2018 1 / 20 SPSS APPENDIX med instruktioner til SPSS-analyse svarende

Læs mere

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse Faculty of Health Sciences SPSS APPENDIX SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 11. februar 2019 med instruktioner til SPSS-analyse svarende til nogle

Læs mere

Basal statistik. 2. september 2008

Basal statistik. 2. september 2008 Basal statistik 2. september 2008 Deskriptiv statistik Grafik Summary statistics Normalfordelingen Typer af data Esben Budtz-Jørgensen, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Klasseøvelser dag 2 Opgave 1

Klasseøvelser dag 2 Opgave 1 Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Forsøgsplanlægning Stikprøvestørrelse

Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 6. november 2007 Forsøgsplanlægning Stikprøvestørrelse 1 41 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 1. uge

Phd-kursus i Basal Statistik, Opgaver til 1. uge Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Wright For 17 patienter er der målt peak expiratory flow rate (maksimal udåndingshastighed, i l/min) på to forskellige måder, dels ved at anvende

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 1. uge

Phd-kursus i Basal Statistik, Opgaver til 1. uge Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Wright For 17 patienter er der målt peak expiratory flow rate (maksimal udåndingshastighed, i l/min) på to forskellige måder, dels ved at anvende

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 4. november 2008 Forsøgsplanlægning Stikprøvestørrelse 1 46 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t. t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program (8.15-10): 1. repetition: fordeling af observatorer X, S 2 og t. 2. konfidens-intervaller, hypotese test, type I og type II fejl, styrke,

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5 02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5 Opgave 5.117, side 171 (7ed: 5.116 side 201 og 6ed: 5.116 side 197) I denne opgave skal vi benytte relationen mellem den log-normale fordeling

Læs mere

Kommentarer til øvelser i basalkursus, 2. uge

Kommentarer til øvelser i basalkursus, 2. uge Kommentarer til øvelser i basalkursus, 2. uge Opgave 2. Vi betragter målinger af hjertevægt (i g) og total kropsvægt (målt i kg) for 10 normale mænd og 11 mænd med hjertesvigt. Målingerne er taget ved

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Phd-kursus i Basal Statistik, Opgaver til 2. uge Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.dat er en let modificeret udgave af oeko.txt på hjemmesiden, blot med variabelnavnet sas.ansat i stedet for sas_ansat.

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

Opgaver til kapitel 3

Opgaver til kapitel 3 Opgaver til kapitel 3 3.1 En løber er interesseret i at undersøge om hendes løbeur er kalibreret korrekt. Hun udmåler derfor en strækning på præcis 1000 m og løber den 16 gange. For hver løbetur noterer

Læs mere

Estimation og usikkerhed

Estimation og usikkerhed Estimation og usikkerhed = estimat af en eller anden ukendt størrelse, τ. ypiske ukendte størrelser Sandsynligheder eoretisk middelværdi eoretisk varians Parametre i statistiske modeller 1 Krav til gode

Læs mere

Forsøgsplanlægning Stikprøvestørrelse

Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 8. november 2011 Videnskabelig hypotese Planlægning af et studie Endpoints Forsøgsplanlægning Stikprøvestørrelse 1 51 Instrumentelle/eksponerings variable Variationskilder

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens Oversigt Oversigt over emner 1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens 2 Konfidensinterval Konfidensinterval for andel Konfidensinterval - normalfordelt stikprøve

Læs mere

Basal statistik. 11.september 2007

Basal statistik. 11.september 2007 Basal statistik 11.september 2007 Statistisk inferens Sandsynligheder Fordelinger og modeller Statistisk analyse Type 1 og 2 fejl, styrke Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab,

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Institut for Epidemiologi og Socialmedicin Institut for Biostatistik. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Opgave 1 Læs afsnit.1 i An Introduction to Medical Statistics, specielt

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Basal statistik. 6. februar 2007

Basal statistik. 6. februar 2007 Basal statistik 6. februar 2007 Statistisk inferens Sandsynligheder Fordelinger Modeller Statistisk analyse Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns

Læs mere

Basal statistik. 6. februar 2007

Basal statistik. 6. februar 2007 Basal statistik 6. februar 2007 Statistisk inferens Sandsynligheder Fordelinger Modeller Statistisk analyse Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Basal statistik. 11.september Sandsynligheder Fordelinger og modeller Statistisk analyse Type 1 og 2 fejl, styrke

Basal statistik. 11.september Sandsynligheder Fordelinger og modeller Statistisk analyse Type 1 og 2 fejl, styrke Basal statistik 11.september 2007 Statistisk inferens Sandsynligheder Fordelinger og modeller Statistisk analyse Type 1 og 2 fejl, styrke Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab,

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten. Opgavebesvarelse, Resting metabolic rate I filen T:\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al.,

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november)

Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) Hjemmeopgave Basal statistik, efterår 2013 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) I forbindelse med en undersøgelse af vitamin D status i Europa, har man

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: ekstrom@life.ku.dk Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration

Læs mere

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere Epidemiologi og biostatistik. Uge 5, torsdag 5. september 003 Morten Frydenberg, Institut for Biostatistik. 1 Analyse af overlevelsesdata (ventetidsdata) Censurering (højre + andet) Kaplan-Meyer kurver

Læs mere

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2 Indhold 1 Sammenligning af 2 grupper 2 1.1 Responsvariabel og forklarende variabel......................... 2 1.2 Afhængige/uafhængige stikprøver............................ 2 2 Sammenligning af 2 middelværdier

Læs mere