Seniorkursus i Biostatistik og Stata, Dag 2
|
|
- Christina Vibeke Jepsen
- 8 år siden
- Visninger:
Transkript
1 SENIORKURSUS STATA OG BIOSTATISTIK Aarhus Universitet juni DAGENS TEMA: SAMMENLIGNINGER FORMIDDAG: KONTINUERTE DATA EFTERMIDDAG: KATEGORISKE DATA STATISTISK ANALYSE AF TO UAFHÆNGIGE STIKPRØVER FRA NORMALFORDELTE POPULATIONER Eksempel. Fiskeolie tilskud og blodtryk hos gravide kvinder Gravide kvinder blev randomiseret til en af to behandlingsgrupper. I den ene gruppe modtog kvinderne et tilskud af fiskeolie. Den aden gruppe var en kontorl gruppe. Her: En sammenligning af de to behandlinger med ændring i diastolisk blodtryk, difdia, som udfald (respons variabel). Vi har allerede set histogrammer af ændringens fordeling i hver af de to grupper. Disse plots antyder at den tilfældige variation kan beskrives med normalfordelinger. I går brugte vi dette eksempel til at illustrere tankegangen bag statistiske test. Her repetition med fokus på implementering i Stata Standard analysen af dette problem bygger på følgende statistiske model, som specificerer de antagelser som forudsættes opfyldte I hver gruppe: En stikprøve af uafhængige observationer (her: en differens mellem to blodtryk) fra en normalfordeling med ukendte parametre (middelværdi og spredning): Gruppe Middelv. Varians Kontrol µ σ Fiskeolie De to sæt observationer er indbyrdes uafhængige. µ σ Obs: Den tilfældige variation (variansen eller spredningen) antages at være den samme i de to grupper. Denne antagelses rimelighed skal (også) vurderes. Analysens formål er at kvantificere forskellen mellem den forventede ændring af blodtrykket i de to grupper og vurdere om denne ændring er væsentligt forskellig fra. 3 Modellens antagelser ) Uafhængighed indenfor og mellem stikprøver ) Stikprøver fra to populationer med samme varians (samme spredning) 3) Den tilfældige variationi hver gruppe kan beskrives med en normalfordeling Bemærk: En normalfordeling er fuldstændigt karakteriseret ved middelværdi og varians, så hvis antagelserne er opfyldte og middelværdierne også er ens, kan vi konkludere at fordelingerne er ens Kontrol af antagelser: Ad ) Overvejelserne afhænger af situationen. Her: Er der kvinder som bidrager med flere graviditeter? Ad ) Ser estimaterne forskellige ud? Et formelt test af hypotesen om samme varians kan også beregnes (se nedenfor). Ad 3) Se på histogrammer og Q-Q plots. Formelle test af normalitet har typisk ringe styrke. 4 Seniorkursus i Biostatistik og Stata, Dag
2 Forudsætning 3: Stata qnorm difdia if grp==, title("control") saving(q,replace) qnorm difdia if grp==, title("fish oil") saving(q,replace) graph combine q.gph q.gph difdia 4 - Control difdia 4 - Fish oil Estimation Basal idé: populationsværdierne (parametrene) estimeres af den tilsvarende stikprøvestørrelser. De to variansskøn samles til et fælles estimat (et vægtet gennemsnit af stikprøvernes varianser). Stata udfører de basale beregninger med kommandoen bysort grp: summarize difdia -> grp = control Variable Obs Mean Std. Dev. Min Max difdia > grp = fish oil Variable Obs Mean Std. Dev. Min Max difdia Kontrol: Middelværdi =.9 Fiskeolie: Middelværdi = juni Inverse Normal Michael Væth Inverse Normal 5 6 Spredningerne er ret ens, så et fælles spredningsskøn (pooled estimate) synes naturligt. Hvordan beregnes det? Statistisk teori: Det bedste fælles variansskøn beregnes som et vægtet gennemsnit af stikprøvernes varianser og det tilhørende spredningsskøn anvendes som fælles spredning. Antal frihedsgrader (f = n ) anvendes som vægte ved beregning af de vægted gennemsnit: s f s + f s pooled = s p = f + f Stata s output fra t-test kommandoen indeholder ikke dette estimat, men det kan fås ved at skrive og quietly regress difdia grp display e(rmse) Output: , dvs. s p = 7.96 s = s = s pooled p p quietly foran en kommando medfører at output fra kommandoen ikke vises tekst variablen group kan ikke bruges her 7 Statistisk test: Sammenligning af to uafhængige stikprøvers middelværdier Den forventede ændring i diastolisk blodtryk er en smule højere i fiskeolie. Er dette udtryk for en systematisk effekt? For at vurdere om forskellen kan forklares af den tilfældige variation testges hypotesen H : µ = µ Dvs. den forventede værdi (middelværdien) er de samme i de to populationer. Det sædvanlige ræsonnement: Antag at hypotesen er sand. Den observerede forskel på -.9 må da være et resultat af den tilfældige variation Rimeligheden af denne forklaring vurderes ved at beregne en p-værdi, som er angiver sandsynligheden for at få et resultat som er mindst lige så ekstremt som det aktuelt observerede. 8 Seniorkursus i Biostatistik og Stata, Dag
3 Statistisk test: Sammenligning af to uafhængige stikprøvers middelværdier I går: hypotesen kan testes ved at beregne t x x = = s p + n n.38 Teststørrelsen vurderes i en t-fordeling med n + n frihedsgrader. Det giver en p-værdi på 7%, så forskellen er ikke statistisk signifikant STATA: TWO SAMPLE t-test (ens varianser) Én Stata kommando giver alle resultater pånær det fælles ttest difdia, by(grp) Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] control fish oil combined diff Degrees of freedom: 48 Den testede hypotese Ho: mean(control) - mean(fish oil) = diff = Ha: diff < Ha: diff!= Ha: diff > t = t = t = P < t =.359 P > t =.738 P > t = juni (to sidet) p-værdi Michael Væth s.d. i det samlede materiale Ikke en pooled s.d. Sammenligning af varianser: F-fordelingen Analysen forudsatte samme varians (samme spredning) i de to populationer. For at evaluere denne antagelse kan vi teste hypotesen H : σ = σ Et naturligt test er forholdet mellem de to variansskøn s F = s Hvis hypotesen er sand vil man forvente en værdi tæt på. Både store og små værdier tyder på at varianserne er forskellige. Statistisk teori: Fordelingen af to uafhængige variansestimater følger en F-fordeling if de tilsvarende populationsvarianser er ens (dvs hvis H er sand). En F-fordeling er karakteriseret ved et par af frihedsgrader (frihedsgraderne for de to variansskøn). Ligesom for normalfordelingen, t- fordelinger og chi-fordelinger findes der tabeller over F-fordelinger. 6. juni Michael Væth STATA: SAMMENLIGNING AF TO VARIANSER Stata s kommando sdtest kan bruges til at sammenligne to variansskøn. sdtest difdia, by(grp) Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] control fish oil combined hypotesen Ho: sd(control) ) = sd(fish oil) F(,6) observed = F_obs =.8 F(,6) lower tail = F_L = F_obs =.8 F(,6) upper tail = F_U = /F_obs =.34 Ha: sd() < sd() Ha: sd()!= sd() Ha: sd() > sd() P < F_obs =.6 P < F_L + P > F_U =.43 P > F_obs =.9378 (two sidet) p-værdi 6. juni Michael Væth Seniorkursus i Biostatistik og Stata, Dag
4 Sammenligning af middelværdier når varianserne er forskellige Problem: Hvad skal vi gøre hvis varianserne ikke er ens? Nogle muligheder:. Prøv at opnå varianshomogenitet ved at transformere data på passende vis, f.eks. ved at analysere de log-transformerede data.. Anvend et approksimativt t-test, som ikke forudsætter ens varianser. Det approksimative t-test har formen x x tapprox = s s + n n Hvis hypotesen om ens middelværdier er sand vil fordelingen af denne teststørrelse kunne appproksimeres med en passende t-fordeling. Antal frihedsgrader vil typisk være et ikke-heltal. 3. Use a non-parametric test, e.g. a Wilcoxon-Mann-Whitney test. 3 STATA: TWO SAMPLE t-test (forskellige varianser) Forslag : Stata beregner det approksimative t-test med kommandoen ttest difdia, by(grp) unequal approximative sikkerhedsgrænser Group Obs Mea Std. Err Std. Dev. [95% Conf. Interval] control fish oil combined diff Antal frihedsgrader for det Satterthwaite's degrees of freedom: approksimative t-test Ho: mean(control) - mean(fish oil) = diff = Ha: diff < Ha: diff!= Ha: diff > t = t = t = P < t =.358 P > t =.735 P > t =.648 Approximativt t-test 6. juni (to sidet) p-værdi Michael Væth 4 SAMMENLIGNING AF TO STIKPRØVER: IKKE-PARAMETRISKE METODER Ikke-parametriske metoder eller fordelingsfrie metoder, er en gruppe af statistiske metoder som ikke forudsætter en bestemt parametrisk fordeling i populationen Fordele: Ikke-parametriske metoder bygger på færre og svagere forudsætninger og kan derfor anvendes i flere situationer. Ulemper: Ikke-parametriske metoder er hovedsageligt statistiske test. Statistiske test kan derfor tillægges for stor betydning i forhold til andre dele af den statistiske analyse. For en stor klasse af ikke-parametriske test vil teststørrelsen ikke afhænge at den observerede værdier, men kun af deres indbyrdes størrelsesorden (rangen). Disse metoder kan derfor også anvendes i situationer hvor udfaldet måles på en ordinalskala, f.eks. en komplikation som opgøres på en skala med trinene, +, ++, or TO UAFHÆNGIGE STIKPRØVER: WILCOXON-MANN-WHITNEY RANGSUM TEST Data: To stikprøver med uafhængige observationer Gruppe x, x,, x fra en population med fordeling Gruppe y, y,, y n n fra en population med fordeling N = n + n FX F Hypotese: x erne og y erne er observationer fra den samme (kontinuerte) fordeling, dvs. FX = FY. Alternative hypoteser af særlig interesse: y erne er forskudt mod større (eller mindre) værdier. Teststørrelse (Wilcoxon s rangsum test) T = Sum of range i gruppe, eller T = Sum of range i gruppe Et (to-sidet) test vil forkaste hypotesen for store eller små værdier af T (eller T. ) Obs: De to teststørrelser er ækvivalente, da N( N + ) T = T Y 6 Seniorkursus i Biostatistik og Stata, Dag
5 Wilcoxon s rangsum test (fortsat) Hvis hypotesen er sand kan fordelingen af rangsummen bestemmes fuldstændigt vha. kombinatorik. Fordelingen er symmetrisk og der middelværdi og varians er gives ved E( T ) = n ( N + ) / E( T ) = n ( N + ) / Var( T ) = Var( T ) = n n ( N + ) / Variansformlen forudsætter at de observerede værdier alle er forskellige. Hvis dette ikke er tilfældet (tied data) bruges gennemsnitsrange (midranks) og rangsummens varians bliver mindre. Rangsummens eksakte fordeling under hypotesen er tabelleret for små stikprøver. Obs: p-værdien bliver for stor hvis disse tabeller bruges med tied data. P-værdien: Rangsummens fordeling approksimeres sædvanligvis ved at beregne en standardiserede teststørrelse, hvis fordeling approksimeres med en standard normalfordeling z T E( T ) = eller Var( T ) T E( T ).5 z = Var( T ) 7 Rangsum test med Stata Eksempel. Fiskeolie og diastolisk blodtryk hos gravide. I stedet for t- test kan vi sammenligne de to stikprøver emd et Wilcoxon test. I Stata gøres det med use fishoil.dta ranksum difdia, by(grp) Two-sample Wilcoxon rank-sum (Mann-Whitney) test grp obs rank sum expected control fish oil combined unadjusted variance adjustment for ties adjusted variance Ho: difdia(grp==control) = difdia(grp==fish oil) z = to-sidet p-værdi 6. juni Prob > z =.46 Michael Væth Stata beregner den standardiserede teststørrelse uden kontinuitetskorrektion 8 TO STIKPRØVER MED PARREDE DATA Eksempel: Måling af kropstemperatur Stata filen temp.dta indeholder måling af 96 patienters kropstemperatur Ved hjælp af Rektal Hg termometer, Oral Hg termometer og et elektronisk termometer (Craft-termometer). list id hgrectal hgoral craft in / id hgrectal hgoral craft Data stammer fra en undersøgelse som blev iværksat for at evaluere det elektroniske termometer. Her ser vi kun på de to sæt målinger med Hg termometre. 9 Et plot af 94 par af målinger af oral og rektal temperatur (for to patienter manglede den rektale måling) hgoral Oral Hg versus Rectal Hg hgrectal Identitetslinie Seniorkursus i Biostatistik og Stata, Dag
6 Spørgsmål: Hvad er forskellen mellem oral og rektal kropstemperatur? Hvor meget varierer forskellen fra patient til patient? Situationen ligner et to-stikprøve problem, men her er det de samme patienter som er målt ved begge metoder. Vi har ikke to uafhængige stikprøver, men to parrede stikprøver. Den oplagte analyse. Beregn differensen mellem de to målinger for hver patient. Undersøg om differenserne kan betragtes som en stikprøve fra en normalfordeling og i givet fald beregn middeldifferens, differensernes spredning, sikkerhedsinterval for middelforskel, og et en-stikprøve t- test af hypotesen om at den forventede forskel er. Hvis antagelse om normalfordelte differenser er urimelig, brug i stedet et ikke-parametrisk test. Bemærk: Data kan bruges til at identificere systematiske forskelle mellem de to temperaturer, men gentagne målinger med samme metode er nødvendige hvis man vil udtale sig om metodernes usikkerhed. Hvilke modelovervejelser leder til denne analyse? For en given patient, lad X = en rektal Hg temparatur måling Y = en oral Hg temperature måling D = X Y = forskellen mellem de to målinger (rektal oral) En temperatur måling kan betragtes som en sum af to komponenter X = A + E Y = B + F Her er A = den sande rektale temperatur, dvs. den hypotetiske værdi vi ville få som gennemsnit, hvis eksperimentet blev gentaget mange gange. B = den sande orale temperatur E = den tilfældige målefejl for en rektal temperatur måling med et Hg termometer. F = den tilfældige målefejl for en oral temperatur måling med et Hg termometer. Differensen D kan derfor skrives som D = (A B) + (E F) Det første led, A B, repræsenterer forskellen mellem den sande rektale og den sande orale temperatur for en given patiennt på en given dag. Det andet led, E F, er den samlede effekt af den tilfældige målefejl. 3 I en patient population vil forskellen mellem de sande værdier, A B, Varierer mellem personer og også mellem dage for den samme person. Hvis δ angiver populationens middelforskel, haves A B = δ + C, hvor C repræsenterer inter- og intra-individual variation for forskellen mellem de sande temperaturer Vi har derfor følgende dekomposition af forskellen mellem de to målinger D = X Y = δ + (C + E F) = δ + U, hvor δ er populationens middelværdi og U beskriver den tilfældige variation, som har tre komponenter, inter-individual variation af den sande differens, tilfældig rektal målefejl og tilfældig oral målefejl. Den statistiske model for den oplagte analyse beskriver differenserne som en stikprøve fra en normalfordeling med middelværdi δ og varians Obs: En model for differenserne. Ingen forudsætninger om fordelingen af A og B i populationen 4 σ Seniorkursus i Biostatistik og Stata, Dag
7 Undersøge om antagelserne er rimelige: Uafhængighed: Hver patient bidrager med én differens, så uafhængighed synes rimelig. Samme fordeling: Den forventede forskel mellem to målinger afhænger ikke af temperaturniveauet. Febrile patienter har ikke større forskel end patienter med normal temparatur. Er det en rimeligt antagelse? Den tilfældige variation af differenserne har samme størrelse for alle temperaturnivaeuer. Er det en rimeligt antagelse? Normal fordeling: Er det en rimeligt antagelse? Vigtige plots som man altid bør lave: a. Et plor afy versus X b. Differensen mod gennemsnittet (eller mod summen) c. Histogram af differenserne d. Q-Q plot af differenserne a. b. c. scatter hgoral hgrectal, /// title("oral Hg versus Rectal Hg") /// ylabel(35()4) xlabel(35()4) gene difro = hgrectal-hgoral gene hgmean=(hgrectal+hgoral)/ scatter difro hgmean, /// title("difference versus average") /// ylabel(-.8(.4).6) xlabel(37()4) histogram difro, /// title("rectal Hg - Oral Hg") /// start(-.8) width(.) Betyder at kommandoen fortsætter på næste linie d. qnorm difro, title("q-q plot of difference") 5 6 Plot a: Oral måling versus rektal måling hgoral Oral Hg versus Rectal Hg Plot b: Differens versus gennemsnit. Kaldes ofte et Bland- Altman plot difro difference versus average Kommentarer Hvis der ikke er systematisk forskel på de to målinger vil punkterne fordele sig tilfældig omkring identitetslinien (den røde linie) hgrectal Den rektale temperatur er systematisk højere end den orale temperatur, men den systematiske forskel synes ikke at afhænge af temparaturens størrelse. Punkternes variation omkring en linie med hældning (den sorte linie) synes ikke at afhænge af temperaturens størrelse hgmean Kommentarer Hvis der ikke er systematisk forskel på de to målinger vil punkterne fordele sig tilfældig omkring en vandret linie gennem (den røde linie). Den rektale temperatur er systematisk højere end den orale temperatur, men at den systematiske forskel synes ikke at afhænge af temparaturens størrelse Punkterne varierer omkring en vandret linie gennem (ca.).5 (den sorte 6. juni linie) og variationen er ret konstant Michael Væth omkring denne linie. 8 Seniorkursus i Biostatistik og Stata, Dag
8 Plot c and d: histogrammet og Q-Q plottet for differenserne. Kommentarer Disse plots bruges primært til at vurdere rimeligheden af den normale fordeling Her: Fordelingen er nogenlunde symmetrisk med beskedne afvigelser fra normalfordelingen. Det lidt S-formede forløb i Q-Q plottet tyder på at begge haler er for lange. Det kunne tyde på enkelte meget store afvigelser. Density difro Rectal Hg - Oral Hg Q-Q plot difro of difference 6. juni Michael -.5 Væth Inverse Normal Analyse med Stata: Et parret to-satikprøve problem kan analyseres direkte med kommandoen ttest, dvs. uden først at genere en variabel med differenserne ttest hgrectal=hgoral == er også tilladt Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval] hgrectal hgoral diff gennemsnits differens 95% sikkerhedsgrænser for den forventede forskel Ho: mean(hgrectal - hgoral) ) = mean(diff) ) = Ha: mean(diff) ) < Ha: mean(diff) )!= Ha: mean(diff) ) > t = t = t = P < t =. P > t =. P > t =. p-værdi for hypotesen at den forvented eforskel er 3 Analyse (fortsat) Fra outputtet fås følgende estimater ˆ δ =.49 (95% sikkerhedsinterval :.43.56) ˆ σ = ˆ σ = =.3 ( i.e..3.) 95% sikkerhedsgrænser for σ kan også beregnes: σ =.8 σ =.37 L U Konklusion: Rektal Hg temperatur er i gennemsnit.5 grader højere end oral Hg temperatur. Den tilfældige variation (målefejl, inter- og intra-individuel) af differensen har en standard afvigelse på.3 grader. Obs: Sikkerhedsintervallet for den forventede forskel beskriver ikke overensstemmelsen mellem de to metoder. δ Limits of agreement defineres som ˆ δ ± ˆ σ (dvs. gns. diff. ± s.d.). Dette er et approx. 95% prædiktionsinterval. Grænserne er temmeligt brede: -.5 og.3. Det afspejler differensernes relative store variation 3 PARREDE DATA: ABSOLUTE ELLER RELATIVE ÆNDRING (FORSKEL)? Data: en stikprøve på n par af observationer (x,y). Sådanne data optræder i mange situationer: Sammenligning af to målemetoder Sammenling af en før-behandling måling og en efter-behandling måling Studier af inter-observer eller intra-observer variation Problem: Adskiller x erne sig fra y erne? Hvis ja, hvordan? Første idé: Se på differenser (den oplagte analyse ovenfor) MEN skal vi se på absolut eller relativ forskel (ændring)? Absolut ændring = y x y x y Relativ ændring = = x x obs: den relative ændring er blot forholdet korrigeret så svarer til ingen ændring 3 Seniorkursus i Biostatistik og Stata, Dag
9 Absolut eller relativ ændring? Valget bør afspejler den systematiske variations struktur (en empirisk begrundelse). Sammenhængen mellem de to sæt at målinger kan begrunde valget. To simple relationer mellem y og x.. y x + a y x b I situation vil differenserne være relativt stabile. Hvis variationen i data passer med denne sammenhæng vil en absolut ændring være det rigtige valg (fra et statistisk perspektiv). I situation vil forholdene være relativt stabile. Hvis variationen i data passer med denne sammenhæng vil en relativ ændring være det rigtige valg (fra et statistisk perspektiv). Det parrede t-test og det analoge ikke-parametriske er primært beregnet for situation, da disse test er baseret på differenserne. Situation klares sædvanligvis bedst ved at tage logaritmer: y x b betyder at log( y) log( x) + log( b), så relationen mellem log(x) and log(y) er additiv (situation ) med a = log(b) Opsummering: Hvis variationen i en serie af par (x,y) er multiplikativ (situation ) vil den bedste løsning typisk være at beregne differenserne log( ) log( ) log y y x = x og basere den statistiske analyse på disse differenser. Dette svarer til at arbejde med forhold på en log-skala Parede data: Differens af log-værdier versus relativ ændring Hvorfor bruger man ikke den relative ændirng i situation? Eksempele Patient x y (y-x)/x y/x log(y)-log(x) % % Gns %.5 Patient er blot en omvendt version af patient, så samlet set sker der ingenting. Gennemsnit af første måling (x) er magen til gennemsnit af. måling (y). Den relative ændring er i gennemsnit 5%: en svag stigning. Gennemsnittet af forholdene er større end : en svag stigning. Gennemsnittet af differenser af log-værdier = forholdet målt på en logskala er svarende til ingen ændring: Rimeligt. Parede data: Differens af log-værdier versus relativ ændring Det er bekvemt at se på forhold på en log-skala, da f.eks. log( y / x) = log( x / y) TheEn relativ ændirng har ikke denne egenskab y x x y x y Når forholdet y/x er tæt på vil (log = naturlig logaritme) y y y x log( y) log( x) = log = x x x Når forholdet er tæt på (e.g. within ±%) vil forskellen mellem de naturlige logaritme-værdier være cirka lig med den relative ændring. Parrede data med en multiplikativ struktur (situation ) vil typisk også have større variation for store værdier. Analyseres data på en log-skal vil derfor stabilisere variationen og kan betyde en simplere beskrivelse af den tilfældige variation (en variationskoefficient) Seniorkursus i Biostatistik og Stata, Dag
10 Bemærk Valget mellem metoder for normalfordelte data og ikke-parametriske metoder betragtes ofte som det vigtigste problem MEN valget af et passende mål for ændring er ofte meget vigtigere end valget af teststørrelse. Derfor: Lav altid diagnostiske plots! Bemærk dog at af og til er der ikke et klart svar, fordi. Hverken den oprindelige skala eller log-skalaen er fornuftig. Hvis variationen mellem parrene er beskeden, vil det være svært at skelne mellem en additiv struktur og en multiplikativ struktur i data. I sådanne situationer er resultaterne typisk meget ens for utransformerede og log-transformerede data. 3. Den transformation som giver additivitet er ikke den transformation som giver konstant variation. 4. Det hele er bare noget rod! 37 TO PARREDE STIKPRØVER: WILCOXON S SIGNED RANK TEST Basalt problem: Analyse af parrede data uden at forudsætte normalfordelt variation. Data: En stikprøve af n observationspar ( x, y),( x, y),,( xn, yn) Spørgsmål: Er x ernes fordeling forskellig fra y ernes fordeling? Preliminære model overvejelser: For et observationspar kan vi skrive x = α + e y = α + δ + e hvor α og α + δ repræsenterer den forventede værdi af x og y, og hvor og e er tilfældige fejl. e Antag: De tilfældige fejl er uafhængeige mellem par og følger den samme fordeling 38 Hvis fejlledene e og e følger den samme fordeling vil differensen d = y x være symmetrisk fordelt med median (og middelværdi) δ. Statistisk model: De n differenser d betragtes som en, d,, dn tilfældig stikprøve fra en symmetrisk fordeling F med median δ. Estimation: Populationens median estimeres med stikprøvens median Hypotese: x erne og y erne har samme fordeling, dvs. δ =. Fortegnstest (sign test) Hvis medianen er, burde positive og negative differenser være lige hyppige, og antallet af positive differenser følger derfor en binomialfordeling med p =.5 (sml. møntkast). Hvis enkelte differenser er reduceres stikprøvens størrelse med antallet af er. Stata:signtest hgoral=craft 39 Wilcoxon s signed rank sum test Fortegnstestet ser kun på differensernes fortegn. Wilcoxon s signed rank test udnytter både differensernes fortegn og størrelse. Det giver et stærkere test. Basal idé: Sortér differenserne efter størrelsen af de absolutte differenser (dvs. fortegnet ignoreres). Brug summen af de positive differensers range som teststørrelse. Wilcoxon s signed rank-sum test T + = sum af positive differensers range. Når differensernes ordnes efter størrelsen af den numeriske værdi. T Alternativt: brug, som defineres på tilsvarende vis. De to teststørrelser er ækvivalente. Hvis der ikke er ens differenser (no ties) og ingen er, vil teststørrelsen have en symmetrisk fordeling og T n ( n + ) / + E( T ) = n ( n + ) / 4 Var( T ) = n ( n + ) (n + ) / Seniorkursus i Biostatistik og Stata, Dag
11 Ties og er blandt differenserne Gennemsnitrange (mid ranks) bruges hvis nogle differenser har samme værdi. Differenser, som er lig inkluderes ikke i teststørrelsen. Stata bruger en variansformel, som er korrigeret for ties og er. Nuller plejer man at tage højde for ved at ekskludere disse differenser og reducere stikprøvens størrelse tilsvarendeata. P-værdien: Den eksakte fordeling er tabelleret for små stikprøver, men vil være konservative, hvis der er ties. Sædvanligvis bruges en approksimation med en normalfordeling for den standardiserede teststørrelse. Approksimationen er god selv hvis n er. T+ E( T+ ) z = eller Var( T ) + T+ E( T+ ).5 z = Var( T ) Stata beregner denne teststørrelse hvor variansen er korrigeret for ties og er Wilcoxon s signed rank-sum test with Stata Eksempel: Måling af kropstemperatur. De to temperaturmålinger kan sammenlignes med et Wilcoxon signed rank test. signrank hgrectal=hgoral Wilcoxon signed-rank test sign obs sum ranks expected positive negative zero all unadjusted variance adjustment for ties adjustment for zeros adjusted variance Ho: hgrectal = hgoral z = 8.33 Prob > z =. 4 Seniorkursus i Biostatistik og Stata, Dag
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie
Læs mereKursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks
Læs mereØvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse
Øvelser i epidemiologi og biostatistik, 12. april 21 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse 1. Belys ud fra data ved 5 års follow-up den fordom, at der er flere
Læs mereNote til styrkefunktionen
Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H
Læs mere4. september 2003. π B = Lungefunktions data fra tirsdags Gennemsnit l/min
Epidemiologi og biostatistik Uge, torsdag 28. august 2003 Morten Frydenberg, Institut for Biostatistik. og hoste estimation sikkerhedsintervaller antagelr Normalfordelingen Prædiktion Statistisk test (udfra
Læs mereKommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge
Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges
Læs mereStatistik kommandoer i Stata opdateret 16/3 2009 Erik Parner
Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner Indledning... 1 Hukommelse... 1 Simple beskrivelser... 1 Data manipulation... 2 Estimation af proportioner... 2 Estimation af rater... 2 Estimation
Læs mereNormalfordelingen. Statistik og Sandsynlighedsregning 2
Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på
Læs mereProgram. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger
Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt
Læs mereModul 5: Test for én stikprøve
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 5: Test for én stikprøve 5.1 Test for middelværdi................................. 1 5.1.1 t-fordelingen.................................
Læs mereStatistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar
Århus 6. februar 2014 Morten Frydenberg Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar Til disse øvelser har I brug for fishoil1.dta, der indeholder data fra det fiskeolie forsøg vi så på ved
Læs mereStatistik kommandoer i Stata opdateret 22/ Erik Parner
Statistik kommandoer i Stata opdateret 22/4 2008 Erik Parner Indledning... 1 Simple beskrivelser... 1 Data manipulation... 1 Estimation af proportioner... 2 Estimation af rater... 2 Estimation af Relativ
Læs mereStatistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Læs mereSENIORKURSUS STATA OG BIOSTATISTIK
SENIORKURSUS STATA OG BIOSTATISTIK Aarhus Universitet juni 011 Genopfriskning af statistik Basale tankegange og begreber (i dag) Sammenligninger (i morgen) Sammenhænge (i overmorgen) Brug af programpakken
Læs mereForelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6
Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220
Læs mereKonfidensintervaller og Hypotesetest
Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller
Læs mereLøsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)
Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up
Læs mereEn Introduktion til SAS. Kapitel 5.
En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel
Læs mere1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
Læs mereAnvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]
Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination
Læs mereOpsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller
Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende
Læs mereIkke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Læs mereLogistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π
Læs mereMPH specialmodul Epidemiologi og Biostatistik
MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:
Læs mereProgram. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12
Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt
Læs mereResumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se
Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller
Læs mereBasal statistik. 30. januar 2007
Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet
Læs mereDet kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.
1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;
Læs mereEpidemiologi og Biostatistik
Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag
Læs mereØvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse
Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse 1. Hvor stor en andel af deltagerne var mænd? Var der samme andel i de tre randomiseringsgrupper?.
Læs mereStatistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden
Læs mereOR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model
Epidemiologi og biostatistik. Uge 5, torsdag. marts 1 Morten Frydenberg, Institut for Biostatistik. 1 Analyse af overlevelsesdata (ventetidsdata) Censurering (højre + andet) Kaplan-Meyer kurver Det statistiske
Læs mere3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Læs mereTo samhørende variable
To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen
Læs mereOR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere
Epidemiologi og biostatistik. Uge 5, torsdag 5. september 003 Morten Frydenberg, Institut for Biostatistik. 1 Analyse af overlevelsesdata (ventetidsdata) Censurering (højre + andet) Kaplan-Meyer kurver
Læs mereHypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau
ypotese test Repetition fra sidst ypoteser Test af middelværdi Test af andel Test af varians Type 1 og type fejl Signifikansniveau Konfidens intervaller Et konfidens interval er et interval, der estimerer
Læs mere6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)
Institut for Epidemiologi og Socialmedicin Institut for Biostatistik. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag) Opgave 1 Læs afsnit.1 i An Introduction to Medical Statistics, specielt
Læs mereVi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X.
Opgave I I en undersøgelse af et potentielt antibiotikum har man dyrket en kultur af en bestemt mikroorganisme og tilført prøver af organismen til 20 prøverør med et vækstmedium og samtidig har man tilført
Læs mere24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion
. februar 00 Ikke parametrisk statistiske test : Ideen bag Epidemiologi og biostatistik. Uge, mandag. februar 00 Morten Frydenberg, Institut for Biostatistik. To grupper: Mann-Whitney / Wilcoxon testet
Læs mereReminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model
Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H
Læs mereOpgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1
Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.
Læs mereKvantitative Metoder 1 - Forår 2007. Dagens program
Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative
Læs mereBasal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse
Basal statistik Esben Budtz-Jørgensen 4. november 2008 Forsøgsplanlægning Stikprøvestørrelse 1 46 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder
Læs mereProgram. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration
Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion
Læs mereLogistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder
Læs merea) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?
Module 6: Exercises 6.1 To laboranter....................... 2 6.2 Nicotamid i piller..................... 3 6.3 Karakterer......................... 5 6.4 Blodtryk hos kvinder................... 6 6.5
Læs mereForsøgsplanlægning Stikprøvestørrelse
Basal statistik Esben Budtz-Jørgensen 6. november 2007 Forsøgsplanlægning Stikprøvestørrelse 1 41 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder
Læs mereLøsning til øvelsesopgaver dag 4 spg 5-9
Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for
Læs mereEksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet
Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,
Læs mereOpgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved
Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,
Læs mereProgram. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter
Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede
Læs mereLøsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Læs mere9. Chi-i-anden test, case-control data, logistisk regression.
Biostatistik - Cand.Scient.San. 2. semester Karl Bang Christensen Biostatististisk afdeling, KU kach@biostat.ku.dk, 35327491 9. Chi-i-anden test, case-control data, logistisk regression. http://biostat.ku.dk/~kach/css2014/
Læs mereOpgavebesvarelse, Basalkursus, uge 3
Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt
Læs mereStikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader
Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af
Læs mereKonfidensinterval for µ (σ kendt)
Program 1. Repetition: konfidens-intervaller. 2. Hypotese test 3. Type I og type II fejl, p-værdi 4. En og to-sidede tests 5. Test for middelværdi (kendt varians) 6. Test for middelværdi (ukendt varians)
Læs mereStatistik i basketball
En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større
Læs mereMuligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.
Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side
Læs mereStatistiske modeller
Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder
Læs mereReeksamen i Statistik for Biokemikere 6. april 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på
Læs mereSusanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne
Statistik og Sandsynlighedsregning 1 Indledning til statistik, kap 2 i STAT Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 5. undervisningsuge, onsdag
Læs mereOversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff
Course 242/2323 Introducerende Statistik Forelæsning 3: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 22 Danmarks Tekniske Universitet 28 Lyngby Danmark
Læs mereTema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Læs mere2 Epidemiologi og biostatistik. Uge 5, mandag 26. september 2005 Michael Væth, Institut for Biostatistik
... september 1 Epidemiologi og biostatistik. Uge, mandag. september Michael Væth, Institut for Biostatistik. Ikke parametrisk statistiske test : Analyse af overlevelsesdata (ventetidsdata) Censurering
Læs mereI dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)
I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest
Læs mereUge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro
Uge 48 II Teoretisk Statistik 7. november 003 Numerisk modelkontrol af diskrete fordelinger: intro Eksempel: kvalitetskontrol Goodness-of-fit test: generel teori Endeligt udfaldsrum Udfaldsrum uden øvre
Læs mereGenerelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79.
Olof Palmes Allé 38 8200 Aarhus N Tlf.nr.: 35 87 88 89 E-mail: stil@stil.dk www.stil.dk CVR-nr.: 13223459 Undersøgelse af de nationale tests reliabilitet 26.02.2016 Sammenfatning I efteråret 2014 blev
Læs mereAnalysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Læs mereØkonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006
Dagens program Økonometri Den simple regressionsmodel 5. september 006 Den simple lineære regressionsmodel (Wooldridge kap.4-.6) Eksemplet fortsat: Løn og uddannelse på danske data Funktionel form Statistiske
Læs mereVejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013
Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.
Læs mereNormalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
Læs mereNormalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Læs mereHypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j
Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!
Læs mereKapitel 7 Forskelle mellem centraltendenser
Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens
Læs mereMorten Frydenberg 14. marts 2006
Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik 1 RESUME: 2 2. gang: 2006 Institut for Biostatistik, Århus Universitet MPH 1. studieår Specialmodul 4 Cand. San. uddannelsen
Læs mereEpidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse
Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser
Læs mere12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse
. september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereProdukt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
Læs mereAnvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Læs mereSandsynlighedsregning 2. forelæsning Bo Friis Nielsen
Vigtigste nye emner i.,. og.5 Sandsynlighedsregning. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Siene Danmarks Tekniske Universitet 800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Binomialfordelingen
Læs mereDagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??
Dagens Temaer k normalfordelte obs. rækker i proc glm. Test for lineær regression Test for lineær regression - via proc glm p. 1/?? Proc glm Vi indlæser data i datasættet stress, der har to variable: areal,
Læs mereKapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan
Læs mereBasal Statistik. En- og to-stikprøve problemer. Eksempel på parrede data. Eksempel på parrede data. Faculty of Health Sciences
Faculty of Health Sciences En- og to-stikprøve problemer One- and two-sample problems: Basal Statistik T-tests. Lene Theil Skovgaard 17. september 2013 1 / 67 Sammenligning af to situationer: Parret t-test
Læs mereFaculty of Health Sciences. Basal Statistik. T-tests. Lene Theil Skovgaard. 17. september 2013
Faculty of Health Sciences Basal Statistik T-tests. Lene Theil Skovgaard 17. september 2013 1 / 67 En- og to-stikprøve problemer One- and two-sample problems: Sammenligning af to situationer: Parret t-test
Læs mereBesvarelse af opgavesættet ved Reeksamen forår 2008
Besvarelse af opgavesættet ved Reeksamen forår 2008 10. marts 2008 1. Angiv formål med undersøgelsen. Beskriv kort hvordan cases og kontroller er udvalgt. Vurder om kontrolgruppen i det aktuelle studie
Læs mereOpgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)
Kursus 02402: Besvarelser til øvelsesopgaver i uge 9 Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1) Som model benyttes en binomialfordeling, som beskriver antallet, X, blandt
Læs mereEpidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts
Århus 27. februar 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts Epibasic er nu opdateret til version 2.02 (obs. der er ikke ændret ved arket C-risk) Start med
Læs mereEn oversigt over udvalgte kontinuerte sandsynlighedsfordelinger
Institut for Økonomi Aarhus Universitet Statistik 1, Forår 2001 Allan Würtz 4. April, 2001 En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger Uniform fordeling Benyttes som model for situationer,
Læs mereProgram. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18
Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)
Læs mereLøsning til eksaminen d. 14. december 2009
DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,
Læs mereAnvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Læs mereEksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl
Eksamen 2018 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 20-02-2018 Tid: kl. 09.00-11.00 Bedømmelsesform
Læs mereUge 43 I Teoretisk Statistik, 21. oktober Forudsigelser
Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereKlasseøvelser dag 2 Opgave 1
Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d
Læs mereNote om Monte Carlo eksperimenter
Note om Monte Carlo eksperimenter Mette Ejrnæs og Hans Christian Kongsted Økonomisk Institut, Københavns Universitet 9. september 003 Denne note er skrevet til kurset Økonometri på. årsprøve af polit-studiet.
Læs mereForelæsning 8: Inferens for varianser (kap 9)
Kursus 02402 Introduktion til Statistik Forelæsning 8: Inferens for varianser (kap 9) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby
Læs mereEpidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk
Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.
Læs mereSupplement til kapitel 7: Approksimationen til normalfordelingen, s. 136
Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man
Læs mere