Seniorkursus i Biostatistik og Stata, Dag 2

Størrelse: px
Starte visningen fra side:

Download "Seniorkursus i Biostatistik og Stata, Dag 2"

Transkript

1 SENIORKURSUS STATA OG BIOSTATISTIK Aarhus Universitet juni DAGENS TEMA: SAMMENLIGNINGER FORMIDDAG: KONTINUERTE DATA EFTERMIDDAG: KATEGORISKE DATA STATISTISK ANALYSE AF TO UAFHÆNGIGE STIKPRØVER FRA NORMALFORDELTE POPULATIONER Eksempel. Fiskeolie tilskud og blodtryk hos gravide kvinder Gravide kvinder blev randomiseret til en af to behandlingsgrupper. I den ene gruppe modtog kvinderne et tilskud af fiskeolie. Den aden gruppe var en kontorl gruppe. Her: En sammenligning af de to behandlinger med ændring i diastolisk blodtryk, difdia, som udfald (respons variabel). Vi har allerede set histogrammer af ændringens fordeling i hver af de to grupper. Disse plots antyder at den tilfældige variation kan beskrives med normalfordelinger. I går brugte vi dette eksempel til at illustrere tankegangen bag statistiske test. Her repetition med fokus på implementering i Stata Standard analysen af dette problem bygger på følgende statistiske model, som specificerer de antagelser som forudsættes opfyldte I hver gruppe: En stikprøve af uafhængige observationer (her: en differens mellem to blodtryk) fra en normalfordeling med ukendte parametre (middelværdi og spredning): Gruppe Middelv. Varians Kontrol µ σ Fiskeolie De to sæt observationer er indbyrdes uafhængige. µ σ Obs: Den tilfældige variation (variansen eller spredningen) antages at være den samme i de to grupper. Denne antagelses rimelighed skal (også) vurderes. Analysens formål er at kvantificere forskellen mellem den forventede ændring af blodtrykket i de to grupper og vurdere om denne ændring er væsentligt forskellig fra. 3 Modellens antagelser ) Uafhængighed indenfor og mellem stikprøver ) Stikprøver fra to populationer med samme varians (samme spredning) 3) Den tilfældige variationi hver gruppe kan beskrives med en normalfordeling Bemærk: En normalfordeling er fuldstændigt karakteriseret ved middelværdi og varians, så hvis antagelserne er opfyldte og middelværdierne også er ens, kan vi konkludere at fordelingerne er ens Kontrol af antagelser: Ad ) Overvejelserne afhænger af situationen. Her: Er der kvinder som bidrager med flere graviditeter? Ad ) Ser estimaterne forskellige ud? Et formelt test af hypotesen om samme varians kan også beregnes (se nedenfor). Ad 3) Se på histogrammer og Q-Q plots. Formelle test af normalitet har typisk ringe styrke. 4 Seniorkursus i Biostatistik og Stata, Dag

2 Forudsætning 3: Stata qnorm difdia if grp==, title("control") saving(q,replace) qnorm difdia if grp==, title("fish oil") saving(q,replace) graph combine q.gph q.gph difdia 4 - Control difdia 4 - Fish oil Estimation Basal idé: populationsværdierne (parametrene) estimeres af den tilsvarende stikprøvestørrelser. De to variansskøn samles til et fælles estimat (et vægtet gennemsnit af stikprøvernes varianser). Stata udfører de basale beregninger med kommandoen bysort grp: summarize difdia -> grp = control Variable Obs Mean Std. Dev. Min Max difdia > grp = fish oil Variable Obs Mean Std. Dev. Min Max difdia Kontrol: Middelværdi =.9 Fiskeolie: Middelværdi = juni Inverse Normal Michael Væth Inverse Normal 5 6 Spredningerne er ret ens, så et fælles spredningsskøn (pooled estimate) synes naturligt. Hvordan beregnes det? Statistisk teori: Det bedste fælles variansskøn beregnes som et vægtet gennemsnit af stikprøvernes varianser og det tilhørende spredningsskøn anvendes som fælles spredning. Antal frihedsgrader (f = n ) anvendes som vægte ved beregning af de vægted gennemsnit: s f s + f s pooled = s p = f + f Stata s output fra t-test kommandoen indeholder ikke dette estimat, men det kan fås ved at skrive og quietly regress difdia grp display e(rmse) Output: , dvs. s p = 7.96 s = s = s pooled p p quietly foran en kommando medfører at output fra kommandoen ikke vises tekst variablen group kan ikke bruges her 7 Statistisk test: Sammenligning af to uafhængige stikprøvers middelværdier Den forventede ændring i diastolisk blodtryk er en smule højere i fiskeolie. Er dette udtryk for en systematisk effekt? For at vurdere om forskellen kan forklares af den tilfældige variation testges hypotesen H : µ = µ Dvs. den forventede værdi (middelværdien) er de samme i de to populationer. Det sædvanlige ræsonnement: Antag at hypotesen er sand. Den observerede forskel på -.9 må da være et resultat af den tilfældige variation Rimeligheden af denne forklaring vurderes ved at beregne en p-værdi, som er angiver sandsynligheden for at få et resultat som er mindst lige så ekstremt som det aktuelt observerede. 8 Seniorkursus i Biostatistik og Stata, Dag

3 Statistisk test: Sammenligning af to uafhængige stikprøvers middelværdier I går: hypotesen kan testes ved at beregne t x x = = s p + n n.38 Teststørrelsen vurderes i en t-fordeling med n + n frihedsgrader. Det giver en p-værdi på 7%, så forskellen er ikke statistisk signifikant STATA: TWO SAMPLE t-test (ens varianser) Én Stata kommando giver alle resultater pånær det fælles ttest difdia, by(grp) Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] control fish oil combined diff Degrees of freedom: 48 Den testede hypotese Ho: mean(control) - mean(fish oil) = diff = Ha: diff < Ha: diff!= Ha: diff > t = t = t = P < t =.359 P > t =.738 P > t = juni (to sidet) p-værdi Michael Væth s.d. i det samlede materiale Ikke en pooled s.d. Sammenligning af varianser: F-fordelingen Analysen forudsatte samme varians (samme spredning) i de to populationer. For at evaluere denne antagelse kan vi teste hypotesen H : σ = σ Et naturligt test er forholdet mellem de to variansskøn s F = s Hvis hypotesen er sand vil man forvente en værdi tæt på. Både store og små værdier tyder på at varianserne er forskellige. Statistisk teori: Fordelingen af to uafhængige variansestimater følger en F-fordeling if de tilsvarende populationsvarianser er ens (dvs hvis H er sand). En F-fordeling er karakteriseret ved et par af frihedsgrader (frihedsgraderne for de to variansskøn). Ligesom for normalfordelingen, t- fordelinger og chi-fordelinger findes der tabeller over F-fordelinger. 6. juni Michael Væth STATA: SAMMENLIGNING AF TO VARIANSER Stata s kommando sdtest kan bruges til at sammenligne to variansskøn. sdtest difdia, by(grp) Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] control fish oil combined hypotesen Ho: sd(control) ) = sd(fish oil) F(,6) observed = F_obs =.8 F(,6) lower tail = F_L = F_obs =.8 F(,6) upper tail = F_U = /F_obs =.34 Ha: sd() < sd() Ha: sd()!= sd() Ha: sd() > sd() P < F_obs =.6 P < F_L + P > F_U =.43 P > F_obs =.9378 (two sidet) p-værdi 6. juni Michael Væth Seniorkursus i Biostatistik og Stata, Dag

4 Sammenligning af middelværdier når varianserne er forskellige Problem: Hvad skal vi gøre hvis varianserne ikke er ens? Nogle muligheder:. Prøv at opnå varianshomogenitet ved at transformere data på passende vis, f.eks. ved at analysere de log-transformerede data.. Anvend et approksimativt t-test, som ikke forudsætter ens varianser. Det approksimative t-test har formen x x tapprox = s s + n n Hvis hypotesen om ens middelværdier er sand vil fordelingen af denne teststørrelse kunne appproksimeres med en passende t-fordeling. Antal frihedsgrader vil typisk være et ikke-heltal. 3. Use a non-parametric test, e.g. a Wilcoxon-Mann-Whitney test. 3 STATA: TWO SAMPLE t-test (forskellige varianser) Forslag : Stata beregner det approksimative t-test med kommandoen ttest difdia, by(grp) unequal approximative sikkerhedsgrænser Group Obs Mea Std. Err Std. Dev. [95% Conf. Interval] control fish oil combined diff Antal frihedsgrader for det Satterthwaite's degrees of freedom: approksimative t-test Ho: mean(control) - mean(fish oil) = diff = Ha: diff < Ha: diff!= Ha: diff > t = t = t = P < t =.358 P > t =.735 P > t =.648 Approximativt t-test 6. juni (to sidet) p-værdi Michael Væth 4 SAMMENLIGNING AF TO STIKPRØVER: IKKE-PARAMETRISKE METODER Ikke-parametriske metoder eller fordelingsfrie metoder, er en gruppe af statistiske metoder som ikke forudsætter en bestemt parametrisk fordeling i populationen Fordele: Ikke-parametriske metoder bygger på færre og svagere forudsætninger og kan derfor anvendes i flere situationer. Ulemper: Ikke-parametriske metoder er hovedsageligt statistiske test. Statistiske test kan derfor tillægges for stor betydning i forhold til andre dele af den statistiske analyse. For en stor klasse af ikke-parametriske test vil teststørrelsen ikke afhænge at den observerede værdier, men kun af deres indbyrdes størrelsesorden (rangen). Disse metoder kan derfor også anvendes i situationer hvor udfaldet måles på en ordinalskala, f.eks. en komplikation som opgøres på en skala med trinene, +, ++, or TO UAFHÆNGIGE STIKPRØVER: WILCOXON-MANN-WHITNEY RANGSUM TEST Data: To stikprøver med uafhængige observationer Gruppe x, x,, x fra en population med fordeling Gruppe y, y,, y n n fra en population med fordeling N = n + n FX F Hypotese: x erne og y erne er observationer fra den samme (kontinuerte) fordeling, dvs. FX = FY. Alternative hypoteser af særlig interesse: y erne er forskudt mod større (eller mindre) værdier. Teststørrelse (Wilcoxon s rangsum test) T = Sum of range i gruppe, eller T = Sum of range i gruppe Et (to-sidet) test vil forkaste hypotesen for store eller små værdier af T (eller T. ) Obs: De to teststørrelser er ækvivalente, da N( N + ) T = T Y 6 Seniorkursus i Biostatistik og Stata, Dag

5 Wilcoxon s rangsum test (fortsat) Hvis hypotesen er sand kan fordelingen af rangsummen bestemmes fuldstændigt vha. kombinatorik. Fordelingen er symmetrisk og der middelværdi og varians er gives ved E( T ) = n ( N + ) / E( T ) = n ( N + ) / Var( T ) = Var( T ) = n n ( N + ) / Variansformlen forudsætter at de observerede værdier alle er forskellige. Hvis dette ikke er tilfældet (tied data) bruges gennemsnitsrange (midranks) og rangsummens varians bliver mindre. Rangsummens eksakte fordeling under hypotesen er tabelleret for små stikprøver. Obs: p-værdien bliver for stor hvis disse tabeller bruges med tied data. P-værdien: Rangsummens fordeling approksimeres sædvanligvis ved at beregne en standardiserede teststørrelse, hvis fordeling approksimeres med en standard normalfordeling z T E( T ) = eller Var( T ) T E( T ).5 z = Var( T ) 7 Rangsum test med Stata Eksempel. Fiskeolie og diastolisk blodtryk hos gravide. I stedet for t- test kan vi sammenligne de to stikprøver emd et Wilcoxon test. I Stata gøres det med use fishoil.dta ranksum difdia, by(grp) Two-sample Wilcoxon rank-sum (Mann-Whitney) test grp obs rank sum expected control fish oil combined unadjusted variance adjustment for ties adjusted variance Ho: difdia(grp==control) = difdia(grp==fish oil) z = to-sidet p-værdi 6. juni Prob > z =.46 Michael Væth Stata beregner den standardiserede teststørrelse uden kontinuitetskorrektion 8 TO STIKPRØVER MED PARREDE DATA Eksempel: Måling af kropstemperatur Stata filen temp.dta indeholder måling af 96 patienters kropstemperatur Ved hjælp af Rektal Hg termometer, Oral Hg termometer og et elektronisk termometer (Craft-termometer). list id hgrectal hgoral craft in / id hgrectal hgoral craft Data stammer fra en undersøgelse som blev iværksat for at evaluere det elektroniske termometer. Her ser vi kun på de to sæt målinger med Hg termometre. 9 Et plot af 94 par af målinger af oral og rektal temperatur (for to patienter manglede den rektale måling) hgoral Oral Hg versus Rectal Hg hgrectal Identitetslinie Seniorkursus i Biostatistik og Stata, Dag

6 Spørgsmål: Hvad er forskellen mellem oral og rektal kropstemperatur? Hvor meget varierer forskellen fra patient til patient? Situationen ligner et to-stikprøve problem, men her er det de samme patienter som er målt ved begge metoder. Vi har ikke to uafhængige stikprøver, men to parrede stikprøver. Den oplagte analyse. Beregn differensen mellem de to målinger for hver patient. Undersøg om differenserne kan betragtes som en stikprøve fra en normalfordeling og i givet fald beregn middeldifferens, differensernes spredning, sikkerhedsinterval for middelforskel, og et en-stikprøve t- test af hypotesen om at den forventede forskel er. Hvis antagelse om normalfordelte differenser er urimelig, brug i stedet et ikke-parametrisk test. Bemærk: Data kan bruges til at identificere systematiske forskelle mellem de to temperaturer, men gentagne målinger med samme metode er nødvendige hvis man vil udtale sig om metodernes usikkerhed. Hvilke modelovervejelser leder til denne analyse? For en given patient, lad X = en rektal Hg temparatur måling Y = en oral Hg temperature måling D = X Y = forskellen mellem de to målinger (rektal oral) En temperatur måling kan betragtes som en sum af to komponenter X = A + E Y = B + F Her er A = den sande rektale temperatur, dvs. den hypotetiske værdi vi ville få som gennemsnit, hvis eksperimentet blev gentaget mange gange. B = den sande orale temperatur E = den tilfældige målefejl for en rektal temperatur måling med et Hg termometer. F = den tilfældige målefejl for en oral temperatur måling med et Hg termometer. Differensen D kan derfor skrives som D = (A B) + (E F) Det første led, A B, repræsenterer forskellen mellem den sande rektale og den sande orale temperatur for en given patiennt på en given dag. Det andet led, E F, er den samlede effekt af den tilfældige målefejl. 3 I en patient population vil forskellen mellem de sande værdier, A B, Varierer mellem personer og også mellem dage for den samme person. Hvis δ angiver populationens middelforskel, haves A B = δ + C, hvor C repræsenterer inter- og intra-individual variation for forskellen mellem de sande temperaturer Vi har derfor følgende dekomposition af forskellen mellem de to målinger D = X Y = δ + (C + E F) = δ + U, hvor δ er populationens middelværdi og U beskriver den tilfældige variation, som har tre komponenter, inter-individual variation af den sande differens, tilfældig rektal målefejl og tilfældig oral målefejl. Den statistiske model for den oplagte analyse beskriver differenserne som en stikprøve fra en normalfordeling med middelværdi δ og varians Obs: En model for differenserne. Ingen forudsætninger om fordelingen af A og B i populationen 4 σ Seniorkursus i Biostatistik og Stata, Dag

7 Undersøge om antagelserne er rimelige: Uafhængighed: Hver patient bidrager med én differens, så uafhængighed synes rimelig. Samme fordeling: Den forventede forskel mellem to målinger afhænger ikke af temperaturniveauet. Febrile patienter har ikke større forskel end patienter med normal temparatur. Er det en rimeligt antagelse? Den tilfældige variation af differenserne har samme størrelse for alle temperaturnivaeuer. Er det en rimeligt antagelse? Normal fordeling: Er det en rimeligt antagelse? Vigtige plots som man altid bør lave: a. Et plor afy versus X b. Differensen mod gennemsnittet (eller mod summen) c. Histogram af differenserne d. Q-Q plot af differenserne a. b. c. scatter hgoral hgrectal, /// title("oral Hg versus Rectal Hg") /// ylabel(35()4) xlabel(35()4) gene difro = hgrectal-hgoral gene hgmean=(hgrectal+hgoral)/ scatter difro hgmean, /// title("difference versus average") /// ylabel(-.8(.4).6) xlabel(37()4) histogram difro, /// title("rectal Hg - Oral Hg") /// start(-.8) width(.) Betyder at kommandoen fortsætter på næste linie d. qnorm difro, title("q-q plot of difference") 5 6 Plot a: Oral måling versus rektal måling hgoral Oral Hg versus Rectal Hg Plot b: Differens versus gennemsnit. Kaldes ofte et Bland- Altman plot difro difference versus average Kommentarer Hvis der ikke er systematisk forskel på de to målinger vil punkterne fordele sig tilfældig omkring identitetslinien (den røde linie) hgrectal Den rektale temperatur er systematisk højere end den orale temperatur, men den systematiske forskel synes ikke at afhænge af temparaturens størrelse. Punkternes variation omkring en linie med hældning (den sorte linie) synes ikke at afhænge af temperaturens størrelse hgmean Kommentarer Hvis der ikke er systematisk forskel på de to målinger vil punkterne fordele sig tilfældig omkring en vandret linie gennem (den røde linie). Den rektale temperatur er systematisk højere end den orale temperatur, men at den systematiske forskel synes ikke at afhænge af temparaturens størrelse Punkterne varierer omkring en vandret linie gennem (ca.).5 (den sorte 6. juni linie) og variationen er ret konstant Michael Væth omkring denne linie. 8 Seniorkursus i Biostatistik og Stata, Dag

8 Plot c and d: histogrammet og Q-Q plottet for differenserne. Kommentarer Disse plots bruges primært til at vurdere rimeligheden af den normale fordeling Her: Fordelingen er nogenlunde symmetrisk med beskedne afvigelser fra normalfordelingen. Det lidt S-formede forløb i Q-Q plottet tyder på at begge haler er for lange. Det kunne tyde på enkelte meget store afvigelser. Density difro Rectal Hg - Oral Hg Q-Q plot difro of difference 6. juni Michael -.5 Væth Inverse Normal Analyse med Stata: Et parret to-satikprøve problem kan analyseres direkte med kommandoen ttest, dvs. uden først at genere en variabel med differenserne ttest hgrectal=hgoral == er også tilladt Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] hgrectal hgoral diff gennemsnits differens 95% sikkerhedsgrænser for den forventede forskel Ho: mean(hgrectal - hgoral) ) = mean(diff) ) = Ha: mean(diff) ) < Ha: mean(diff) )!= Ha: mean(diff) ) > t = t = t = P < t =. P > t =. P > t =. p-værdi for hypotesen at den forvented eforskel er 3 Analyse (fortsat) Fra outputtet fås følgende estimater ˆ δ =.49 (95% sikkerhedsinterval :.43.56) ˆ σ = ˆ σ = =.3 ( i.e..3.) 95% sikkerhedsgrænser for σ kan også beregnes: σ =.8 σ =.37 L U Konklusion: Rektal Hg temperatur er i gennemsnit.5 grader højere end oral Hg temperatur. Den tilfældige variation (målefejl, inter- og intra-individuel) af differensen har en standard afvigelse på.3 grader. Obs: Sikkerhedsintervallet for den forventede forskel beskriver ikke overensstemmelsen mellem de to metoder. δ Limits of agreement defineres som ˆ δ ± ˆ σ (dvs. gns. diff. ± s.d.). Dette er et approx. 95% prædiktionsinterval. Grænserne er temmeligt brede: -.5 og.3. Det afspejler differensernes relative store variation 3 PARREDE DATA: ABSOLUTE ELLER RELATIVE ÆNDRING (FORSKEL)? Data: en stikprøve på n par af observationer (x,y). Sådanne data optræder i mange situationer: Sammenligning af to målemetoder Sammenling af en før-behandling måling og en efter-behandling måling Studier af inter-observer eller intra-observer variation Problem: Adskiller x erne sig fra y erne? Hvis ja, hvordan? Første idé: Se på differenser (den oplagte analyse ovenfor) MEN skal vi se på absolut eller relativ forskel (ændring)? Absolut ændring = y x y x y Relativ ændring = = x x obs: den relative ændring er blot forholdet korrigeret så svarer til ingen ændring 3 Seniorkursus i Biostatistik og Stata, Dag

9 Absolut eller relativ ændring? Valget bør afspejler den systematiske variations struktur (en empirisk begrundelse). Sammenhængen mellem de to sæt at målinger kan begrunde valget. To simple relationer mellem y og x.. y x + a y x b I situation vil differenserne være relativt stabile. Hvis variationen i data passer med denne sammenhæng vil en absolut ændring være det rigtige valg (fra et statistisk perspektiv). I situation vil forholdene være relativt stabile. Hvis variationen i data passer med denne sammenhæng vil en relativ ændring være det rigtige valg (fra et statistisk perspektiv). Det parrede t-test og det analoge ikke-parametriske er primært beregnet for situation, da disse test er baseret på differenserne. Situation klares sædvanligvis bedst ved at tage logaritmer: y x b betyder at log( y) log( x) + log( b), så relationen mellem log(x) and log(y) er additiv (situation ) med a = log(b) Opsummering: Hvis variationen i en serie af par (x,y) er multiplikativ (situation ) vil den bedste løsning typisk være at beregne differenserne log( ) log( ) log y y x = x og basere den statistiske analyse på disse differenser. Dette svarer til at arbejde med forhold på en log-skala Parede data: Differens af log-værdier versus relativ ændring Hvorfor bruger man ikke den relative ændirng i situation? Eksempele Patient x y (y-x)/x y/x log(y)-log(x) % % Gns %.5 Patient er blot en omvendt version af patient, så samlet set sker der ingenting. Gennemsnit af første måling (x) er magen til gennemsnit af. måling (y). Den relative ændring er i gennemsnit 5%: en svag stigning. Gennemsnittet af forholdene er større end : en svag stigning. Gennemsnittet af differenser af log-værdier = forholdet målt på en logskala er svarende til ingen ændring: Rimeligt. Parede data: Differens af log-værdier versus relativ ændring Det er bekvemt at se på forhold på en log-skala, da f.eks. log( y / x) = log( x / y) TheEn relativ ændirng har ikke denne egenskab y x x y x y Når forholdet y/x er tæt på vil (log = naturlig logaritme) y y y x log( y) log( x) = log = x x x Når forholdet er tæt på (e.g. within ±%) vil forskellen mellem de naturlige logaritme-værdier være cirka lig med den relative ændring. Parrede data med en multiplikativ struktur (situation ) vil typisk også have større variation for store værdier. Analyseres data på en log-skal vil derfor stabilisere variationen og kan betyde en simplere beskrivelse af den tilfældige variation (en variationskoefficient) Seniorkursus i Biostatistik og Stata, Dag

10 Bemærk Valget mellem metoder for normalfordelte data og ikke-parametriske metoder betragtes ofte som det vigtigste problem MEN valget af et passende mål for ændring er ofte meget vigtigere end valget af teststørrelse. Derfor: Lav altid diagnostiske plots! Bemærk dog at af og til er der ikke et klart svar, fordi. Hverken den oprindelige skala eller log-skalaen er fornuftig. Hvis variationen mellem parrene er beskeden, vil det være svært at skelne mellem en additiv struktur og en multiplikativ struktur i data. I sådanne situationer er resultaterne typisk meget ens for utransformerede og log-transformerede data. 3. Den transformation som giver additivitet er ikke den transformation som giver konstant variation. 4. Det hele er bare noget rod! 37 TO PARREDE STIKPRØVER: WILCOXON S SIGNED RANK TEST Basalt problem: Analyse af parrede data uden at forudsætte normalfordelt variation. Data: En stikprøve af n observationspar ( x, y),( x, y),,( xn, yn) Spørgsmål: Er x ernes fordeling forskellig fra y ernes fordeling? Preliminære model overvejelser: For et observationspar kan vi skrive x = α + e y = α + δ + e hvor α og α + δ repræsenterer den forventede værdi af x og y, og hvor og e er tilfældige fejl. e Antag: De tilfældige fejl er uafhængeige mellem par og følger den samme fordeling 38 Hvis fejlledene e og e følger den samme fordeling vil differensen d = y x være symmetrisk fordelt med median (og middelværdi) δ. Statistisk model: De n differenser d betragtes som en, d,, dn tilfældig stikprøve fra en symmetrisk fordeling F med median δ. Estimation: Populationens median estimeres med stikprøvens median Hypotese: x erne og y erne har samme fordeling, dvs. δ =. Fortegnstest (sign test) Hvis medianen er, burde positive og negative differenser være lige hyppige, og antallet af positive differenser følger derfor en binomialfordeling med p =.5 (sml. møntkast). Hvis enkelte differenser er reduceres stikprøvens størrelse med antallet af er. Stata:signtest hgoral=craft 39 Wilcoxon s signed rank sum test Fortegnstestet ser kun på differensernes fortegn. Wilcoxon s signed rank test udnytter både differensernes fortegn og størrelse. Det giver et stærkere test. Basal idé: Sortér differenserne efter størrelsen af de absolutte differenser (dvs. fortegnet ignoreres). Brug summen af de positive differensers range som teststørrelse. Wilcoxon s signed rank-sum test T + = sum af positive differensers range. Når differensernes ordnes efter størrelsen af den numeriske værdi. T Alternativt: brug, som defineres på tilsvarende vis. De to teststørrelser er ækvivalente. Hvis der ikke er ens differenser (no ties) og ingen er, vil teststørrelsen have en symmetrisk fordeling og T n ( n + ) / + E( T ) = n ( n + ) / 4 Var( T ) = n ( n + ) (n + ) / Seniorkursus i Biostatistik og Stata, Dag

11 Ties og er blandt differenserne Gennemsnitrange (mid ranks) bruges hvis nogle differenser har samme værdi. Differenser, som er lig inkluderes ikke i teststørrelsen. Stata bruger en variansformel, som er korrigeret for ties og er. Nuller plejer man at tage højde for ved at ekskludere disse differenser og reducere stikprøvens størrelse tilsvarendeata. P-værdien: Den eksakte fordeling er tabelleret for små stikprøver, men vil være konservative, hvis der er ties. Sædvanligvis bruges en approksimation med en normalfordeling for den standardiserede teststørrelse. Approksimationen er god selv hvis n er. T+ E( T+ ) z = eller Var( T ) + T+ E( T+ ).5 z = Var( T ) Stata beregner denne teststørrelse hvor variansen er korrigeret for ties og er Wilcoxon s signed rank-sum test with Stata Eksempel: Måling af kropstemperatur. De to temperaturmålinger kan sammenlignes med et Wilcoxon signed rank test. signrank hgrectal=hgoral Wilcoxon signed-rank test sign obs sum ranks expected positive negative zero all unadjusted variance adjustment for ties adjustment for zeros adjusted variance Ho: hgrectal = hgoral z = 8.33 Prob > z =. 4 Seniorkursus i Biostatistik og Stata, Dag

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks

Læs mere

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse Øvelser i epidemiologi og biostatistik, 12. april 21 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse 1. Belys ud fra data ved 5 års follow-up den fordom, at der er flere

Læs mere

Note til styrkefunktionen

Note til styrkefunktionen Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H

Læs mere

4. september 2003. π B = Lungefunktions data fra tirsdags Gennemsnit l/min

4. september 2003. π B = Lungefunktions data fra tirsdags Gennemsnit l/min Epidemiologi og biostatistik Uge, torsdag 28. august 2003 Morten Frydenberg, Institut for Biostatistik. og hoste estimation sikkerhedsintervaller antagelr Normalfordelingen Prædiktion Statistisk test (udfra

Læs mere

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges

Læs mere

Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner

Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner Indledning... 1 Hukommelse... 1 Simple beskrivelser... 1 Data manipulation... 2 Estimation af proportioner... 2 Estimation af rater... 2 Estimation

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt

Læs mere

Modul 5: Test for én stikprøve

Modul 5: Test for én stikprøve Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 5: Test for én stikprøve 5.1 Test for middelværdi................................. 1 5.1.1 t-fordelingen.................................

Læs mere

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Århus 6. februar 2014 Morten Frydenberg Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Til disse øvelser har I brug for fishoil1.dta, der indeholder data fra det fiskeolie forsøg vi så på ved

Læs mere

Statistik kommandoer i Stata opdateret 22/ Erik Parner

Statistik kommandoer i Stata opdateret 22/ Erik Parner Statistik kommandoer i Stata opdateret 22/4 2008 Erik Parner Indledning... 1 Simple beskrivelser... 1 Data manipulation... 1 Estimation af proportioner... 2 Estimation af rater... 2 Estimation af Relativ

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

SENIORKURSUS STATA OG BIOSTATISTIK

SENIORKURSUS STATA OG BIOSTATISTIK SENIORKURSUS STATA OG BIOSTATISTIK Aarhus Universitet juni 011 Genopfriskning af statistik Basale tankegange og begreber (i dag) Sammenligninger (i morgen) Sammenhænge (i overmorgen) Brug af programpakken

Læs mere

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende

Læs mere

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt

Læs mere

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller

Læs mere

Basal statistik. 30. januar 2007

Basal statistik. 30. januar 2007 Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse 1. Hvor stor en andel af deltagerne var mænd? Var der samme andel i de tre randomiseringsgrupper?.

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model Epidemiologi og biostatistik. Uge 5, torsdag. marts 1 Morten Frydenberg, Institut for Biostatistik. 1 Analyse af overlevelsesdata (ventetidsdata) Censurering (højre + andet) Kaplan-Meyer kurver Det statistiske

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere Epidemiologi og biostatistik. Uge 5, torsdag 5. september 003 Morten Frydenberg, Institut for Biostatistik. 1 Analyse af overlevelsesdata (ventetidsdata) Censurering (højre + andet) Kaplan-Meyer kurver

Læs mere

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau ypotese test Repetition fra sidst ypoteser Test af middelværdi Test af andel Test af varians Type 1 og type fejl Signifikansniveau Konfidens intervaller Et konfidens interval er et interval, der estimerer

Læs mere

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Institut for Epidemiologi og Socialmedicin Institut for Biostatistik. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Opgave 1 Læs afsnit.1 i An Introduction to Medical Statistics, specielt

Læs mere

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X.

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X. Opgave I I en undersøgelse af et potentielt antibiotikum har man dyrket en kultur af en bestemt mikroorganisme og tilført prøver af organismen til 20 prøverør med et vækstmedium og samtidig har man tilført

Læs mere

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion . februar 00 Ikke parametrisk statistiske test : Ideen bag Epidemiologi og biostatistik. Uge, mandag. februar 00 Morten Frydenberg, Institut for Biostatistik. To grupper: Mann-Whitney / Wilcoxon testet

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative

Læs mere

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 4. november 2008 Forsøgsplanlægning Stikprøvestørrelse 1 46 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl? Module 6: Exercises 6.1 To laboranter....................... 2 6.2 Nicotamid i piller..................... 3 6.3 Karakterer......................... 5 6.4 Blodtryk hos kvinder................... 6 6.5

Læs mere

Forsøgsplanlægning Stikprøvestørrelse

Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 6. november 2007 Forsøgsplanlægning Stikprøvestørrelse 1 41 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

9. Chi-i-anden test, case-control data, logistisk regression.

9. Chi-i-anden test, case-control data, logistisk regression. Biostatistik - Cand.Scient.San. 2. semester Karl Bang Christensen Biostatististisk afdeling, KU kach@biostat.ku.dk, 35327491 9. Chi-i-anden test, case-control data, logistisk regression. http://biostat.ku.dk/~kach/css2014/

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Konfidensinterval for µ (σ kendt)

Konfidensinterval for µ (σ kendt) Program 1. Repetition: konfidens-intervaller. 2. Hypotese test 3. Type I og type II fejl, p-værdi 4. En og to-sidede tests 5. Test for middelværdi (kendt varians) 6. Test for middelværdi (ukendt varians)

Læs mere

Statistik i basketball

Statistik i basketball En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større

Læs mere

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling. Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Statistik og Sandsynlighedsregning 1 Indledning til statistik, kap 2 i STAT Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 5. undervisningsuge, onsdag

Læs mere

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff Course 242/2323 Introducerende Statistik Forelæsning 3: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 22 Danmarks Tekniske Universitet 28 Lyngby Danmark

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik

2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik ... september 1 Epidemiologi og biostatistik. Uge, mandag. september Michael Væth, Institut for Biostatistik. Ikke parametrisk statistiske test : Analyse af overlevelsesdata (ventetidsdata) Censurering

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro Uge 48 II Teoretisk Statistik 7. november 003 Numerisk modelkontrol af diskrete fordelinger: intro Eksempel: kvalitetskontrol Goodness-of-fit test: generel teori Endeligt udfaldsrum Udfaldsrum uden øvre

Læs mere

Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79.

Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79. Olof Palmes Allé 38 8200 Aarhus N Tlf.nr.: 35 87 88 89 E-mail: stil@stil.dk www.stil.dk CVR-nr.: 13223459 Undersøgelse af de nationale tests reliabilitet 26.02.2016 Sammenfatning I efteråret 2014 blev

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006 Dagens program Økonometri Den simple regressionsmodel 5. september 006 Den simple lineære regressionsmodel (Wooldridge kap.4-.6) Eksemplet fortsat: Løn og uddannelse på danske data Funktionel form Statistiske

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Morten Frydenberg 14. marts 2006

Morten Frydenberg 14. marts 2006 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik 1 RESUME: 2 2. gang: 2006 Institut for Biostatistik, Århus Universitet MPH 1. studieår Specialmodul 4 Cand. San. uddannelsen

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen Vigtigste nye emner i.,. og.5 Sandsynlighedsregning. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Siene Danmarks Tekniske Universitet 800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Binomialfordelingen

Læs mere

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/?? Dagens Temaer k normalfordelte obs. rækker i proc glm. Test for lineær regression Test for lineær regression - via proc glm p. 1/?? Proc glm Vi indlæser data i datasættet stress, der har to variable: areal,

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Basal Statistik. En- og to-stikprøve problemer. Eksempel på parrede data. Eksempel på parrede data. Faculty of Health Sciences

Basal Statistik. En- og to-stikprøve problemer. Eksempel på parrede data. Eksempel på parrede data. Faculty of Health Sciences Faculty of Health Sciences En- og to-stikprøve problemer One- and two-sample problems: Basal Statistik T-tests. Lene Theil Skovgaard 17. september 2013 1 / 67 Sammenligning af to situationer: Parret t-test

Læs mere

Faculty of Health Sciences. Basal Statistik. T-tests. Lene Theil Skovgaard. 17. september 2013

Faculty of Health Sciences. Basal Statistik. T-tests. Lene Theil Skovgaard. 17. september 2013 Faculty of Health Sciences Basal Statistik T-tests. Lene Theil Skovgaard 17. september 2013 1 / 67 En- og to-stikprøve problemer One- and two-sample problems: Sammenligning af to situationer: Parret t-test

Læs mere

Besvarelse af opgavesættet ved Reeksamen forår 2008

Besvarelse af opgavesættet ved Reeksamen forår 2008 Besvarelse af opgavesættet ved Reeksamen forår 2008 10. marts 2008 1. Angiv formål med undersøgelsen. Beskriv kort hvordan cases og kontroller er udvalgt. Vurder om kontrolgruppen i det aktuelle studie

Læs mere

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1) Kursus 02402: Besvarelser til øvelsesopgaver i uge 9 Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1) Som model benyttes en binomialfordeling, som beskriver antallet, X, blandt

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts Århus 27. februar 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts Epibasic er nu opdateret til version 2.02 (obs. der er ikke ændret ved arket C-risk) Start med

Læs mere

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger Institut for Økonomi Aarhus Universitet Statistik 1, Forår 2001 Allan Würtz 4. April, 2001 En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger Uniform fordeling Benyttes som model for situationer,

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl Eksamen 2018 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 20-02-2018 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Klasseøvelser dag 2 Opgave 1

Klasseøvelser dag 2 Opgave 1 Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d

Læs mere

Note om Monte Carlo eksperimenter

Note om Monte Carlo eksperimenter Note om Monte Carlo eksperimenter Mette Ejrnæs og Hans Christian Kongsted Økonomisk Institut, Københavns Universitet 9. september 003 Denne note er skrevet til kurset Økonometri på. årsprøve af polit-studiet.

Læs mere

Forelæsning 8: Inferens for varianser (kap 9)

Forelæsning 8: Inferens for varianser (kap 9) Kursus 02402 Introduktion til Statistik Forelæsning 8: Inferens for varianser (kap 9) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere