Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017
|
|
- Amanda Mogensen
- 7 år siden
- Visninger:
Transkript
1 Faculty of Health Sciences Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 7. februar / 96
2 Sammenligning af grupper Sammenligning af to grupper: T-test Dimensionering af undersøgelser Sammenligning af flere end to grupper: Ensidet variansanalyse Tosidet variansanalyse Hjemmesider: : Siden er lidt teknisk 2 / 96
3 Vitamin D eksemplet Er der forskel på vitamin D status for kvinder i Danmark og Irland? Hvis der er en forskel på 5 nmol/l, vil det være af interesse. Kode s / 96
4 Praktisk håndtering af data Der er tale om 94 datalinier, en for hver kvinde, men to variable for hver kvinde: Land (DK, EI), repræsenteret ved country (1,4) Vitamin D status, vitd (Serum 25(OH)D, nmol/l) Summary statistics, opdelt efter land (kode s. 83) Analysis Variable : vitd Vitamin D N country Obs N Mean Std Dev Minimum Maximum DK EI / 96
5 Model for uparret sammenligning Antagelser: Alle observationerne er uafhængige personerne har ikke noget med hinanden at gøre Der er samme spredning(varians) i de to grupper bør checkes/sandsynliggøres Observationerne følger en normalfordeling i hver gruppe, med hver deres middelværdi, µ 1 hhv. µ 2 og det er disse 2 middelværdier (µ 1 og µ 2 ), vi gerne vil sammenligne 5 / 96
6 Normalfordelingsmodel for to grupper Bemærk: Selv hvis hver gruppe er eksakt normalfordelt: er det totalt set slet ikke en normalfordeling!! men en blanding af to 6 / 96
7 Typisk output fra et uparret t-test Kode s. 84 The TTEST Procedure Variable: vitd (Vitamin D) country N Mean Std Dev Std Err Minimum Maximum DK EI Diff (1-2) country Method Mean 95% CL Mean Std Dev DK EI Diff (1-2) Pooled Diff (1-2) Satterthwaite Method Variances DF t Value Pr > t Pooled Equal Satterthwaite Unequal Equality of Variances Method Num DF Den DF F Value Pr > F Folded F / 96
8 Kommentarer til output Først nogle summary statistics for hvert land Derefter konfidensintervaller (CI) for de to middelværdi-estimater, samt for deres differens i 2 forskellige udgaver, afhængig af, om spredningerne(varianserne) kan antages at være ens eller ej. Herefter 2 forskellige udgaver af T-testet, igen afhængig af, om spredningerne kan antages at være ens eller ej. Under alle omstændigheder er P = 0.85, dvs. vi kan ikke afvise, at middelværdierne er ens. Til sidst et test for ens varianser (spredninger), som ikke forkastes, idet P= / 96
9 Hvad er det, der udregnes? Estimat for forskel i middelværdier: ˆµ 1 ˆµ 2 = Ȳ1 Ȳ2 = = 0.84 nmol/l med tilhørende usikkerhed ( 1 St.Err.(Ȳ1 Ȳ2) = pooled SD + 1 ) = 4.51 n 1 n 2 og teststørrelse T = Ȳ 1 Ȳ2 = St.Err.(Ȳ1 Ȳ2) = 0.19 som under H 0 er t-fordelt med 92 frihedsgrader 9 / 96
10 Hvad betyder teststørrelsens fordeling? - under H 0 Vi forestiller os mange ens undersøgelser af stikprøver på 94 kvinder fra samme land (svarende til H 0 : ingen landeforskel): 1. Fordel tilfældigt 53 i en gruppe, 41 i en anden, = t 1 2. Fordel tilfældigt 53 i en gruppe, 41 i en anden, = t 2 3. Fordel tilfældigt 53 i en gruppe, 41 i en anden, = t 3 osv. osv. Fordeling af t erne?... kan udregnes til t(92)... Vores faktiske T sammenlignes nu med denne fordeling, Passer den pænt? 10 / 96
11 Fortolkning af P-værdi t-fordelingen (Student fordelingen) med 92 frihedsgrader: Teststørrelsen ses at ligge meget centralt i fordelingen Arealet af området med værre teststørrelser kaldes halesandsynligheden og det er også P-værdien, her / 96
12 Konklusion Der ser ikke ud til at være forskel på vitamin D status i de to lande Vi fandt nemlig en teststørrelse, der passer pænt med dem, vi ville finde, hvis vi havde valgt kvinder fra samme land, altså hvor forskellene udelukkende var tilfældige Men kan vi nu være sikker på, at der ikke er nogen forskel? Nej, konfidensintervallet siger, at forskellen mellem de to lande med 95% sandsynlighed ligger mellem 8.13 i Danmarks favør og 9.81 i Irlands favør. Vi kan altså ikke udelukke en forskel på 5 nmol/l, som var det, vi ønskede at finde ud af... Vi skal måske prøve en større undersøgelse / 96
13 Signifikansbegrebet Statistisk signifikans afhænger af: sand forskel antal observationer den tilfældige variation, dvs. den biologiske variation signifikansniveau Videnskabelig signifikans afhænger af: størrelsen af den påviste forskel 13 / 96
14 Tænkt eksempel To aktive behandlinger: A og B, vs. Placebo: P Resultater fra to trials: 1. trial: A signifikant bedre end P (n=100) 2. trial: B ikke signifikant bedre end P (n=50) Konklusion: A er bedre end B??? Nej, ikke nødvendigvis. 14 / 96
15 Hvis der ikke er signifikans kan det skyldes At der ikke er en forskel At forskellen er så lille, at den er vanskelig at opdage At variationen er så stor, at en evt. forskel drukner At materialet er for lille til at kunne påvise nogensomhelst forskel af interesse. Kan vi så konkludere, at der ikke er forskel? Nej!!, ikke nødvendigvis Se på konfidensintervallet for forskellen 15 / 96
16 Risiko for fejlkonklusioner Signifikansniveauet α (sædvanligvis 0.05) angiver den risiko, vi er villige til at løbe for at forkaste en sand nulhypotese, også betegnet som fejl af type I. accept forkast H 0 sand 1-α α fejl af type I H 0 falsk β 1-β fejl af type II styrke 1-β kaldes styrken, den angiver sandsynligheden for at forkaste en falsk hypotese. 16 / 96
17 Styrke Men hvad betyder H 0 falsk? Hvor store forskelle er der? Styrken er en funktion af forskellen - og af antallet af observationer Styrkefunktion: Hvis forskellen er xx, hvad er så styrken, dvs. sandsynligheden for at opdage denne forskel på 5% niveau? 17 / 96
18 Vigtigt Styrken udregnes for at dimensionere en undersøgelse Når resultaterne er i hus, præsenteres i stedet konfidensintervaller Post-hoc styrkebetragtninger giver kun mening, hvis man skal i gang med en ny undersøgelse - som f.eks. for vitamin D, fordi resultatet var inkonklusivt 18 / 96
19 Dimensionering af undersøgelser Hvor mange patienter skal vi medtage? Dette afhænger naturligvis af datas beskaffenhed, samt af, hvad man ønsker at opnå: Hvilken forskel i respons er vi interesserede i at opdage? Fastsæt MIREDIF (mindste relevante differens) Med hvilken sandsynlighed (styrke = power)? På hvilket signifikansniveau? Hvor stor er spredningen (den biologiske variation)? 19 / 96
20 Hvordan skaffer man de nødvendige oplysninger? Klinisk relevant forskel (MIREDIF) Dette er noget, man fastsætter ud fra teoretiske/praktiske overvejelser om, hvilken forskel, der skønnes at være stor nok til at være vigtig. Det er altså ikke noget, man skal regne sig frem til! Her var vi interesseret i at kunne påvise forskellen, hvis den oversteg 5 nmol/l Styrke: bør være stor, mindst 80% Signifikansniveau: Sædvanligvis 5% I tilfælde af mange sammenligninger, eller hvis det kan have fatale konsekvenser at forkaste en sand hypotese, bør det sættes lavere, f.eks. 1% Spredning: Dette er det sværeste, se næste side 20 / 96
21 Fornuftigt gæt på spredning kan være ganske vanskeligt og kræver sædvanligvis et pilot-studie. Her har vi oplysninger fra T-testet (se s. 7 og kode s.84): The TTEST Procedure Variable: vitd (Vitamin D) country N Mean Std Dev Std Err Minimum Maximum DK EI Diff (1-2) country Method 95% CL Std Dev DK EI Diff (1-2) Pooled Diff (1-2) Satterthwaite For at være på den sikre side, bør vi vælge et spredningsskøn på 25 eller 28, hvorimod let kan vise sig at være for lavt 21 / 96
22 Output fra dimensionering Kode s. 85 The POWER Procedure Two-sample t Test for Mean Difference Fixed Scenario Elements Distribution Normal Method Exact Mean Difference 5 Alpha 0.05 Computed N Per Group Std Nominal Actual N Per Index Dev Power Power Group Vi skal altså op på ca. 500 personer fra hvert land for at kunne detektere en forskel af den relevante størrelse. 22 / 96
23 Vigtigheden af antagelserne for uparret sammenligning Uafhængighed: meget vigtig Hvis enkelte målinger (en lille procentdel) viser sig at stamme fra samme person eller nært beslægtede individer, gør det næppe nogen stor skade, men hvis designet er parret, eller der konsekvent er flere målinger på hvert individ, kan det have dramatiske konsekvenser Kodeordet her er gentagne målinger = repeated measurements Ens spredninger: relativt vigtig, specielt hvis grupperne ikke har nogenlunde samme størrelse Normalfordelingen: ikke så vigtig, specielt hvis grupperne har nogenlunde samme størrelse (afvigelse mindre end en faktor 1.5) 23 / 96
24 Hvis antagelserne (slet) ikke holder Uafhængighed: Brug metoder fra repeated measurements Ens spredninger: Brug test og konfidensintervaller, der er angivet med Sattertwaite (Welch test) Transformer outcome variabel Normalfordeling: Transformer outcome variabel Lav et ikke-parametrisk test 24 / 96
25 Nonparametrisk uparret sammenligning Mann-Whitney test tester om sandsynligheden for, at den ene gruppe resulterer i større værdier end den anden, er 0.5 eller om medianerne er ens (hvis der kun er tale om en forskydning) Her giver Mann-Whitney P=0.91, men intet konfidensinterval (kode s.86) Permutationstest en ide, der kan benyttes i mange sammenhænge / 96
26 Pitman s test: Permutationstest...et alternativt nonparametrisk test konstrueret ved hjælp af resampling Fremgangsmåde: Bland alle vitamin-d observationer fra de to lande sammen Fordel dem tilfældigt ud i to grupper af størrelse 53 og 41 Udregn et passende test, f.eks. T-testet og et estimat for forskellen Gør ovenstående mange gange og se på fordelingen af de fremkomne størrelser: Hvordan er fordelingen af vores estimater? Hvordan passer vores T-teststørrelse i denne fordeling? Kode og output s / 96
27 Husk at skelne parret fra uparret Som regel gør det ingen synderlig forskel i P-værdi om man benytter parametriske eller non-parametriske metoder. Men det er vigtigt at respektere sit design! Eks: Målemetoderne MF og SV (fra forelæsningen sidste uge): Parret T-test: t = 0.16, f = 20 P = 0.88 Sikkerhedsinterval: (-2.93 cm 3, 3.41 cm 3 ) Uparret T-test (galt): t = 0.04, f = 40 P = 0.97 Sikkerhedsinterval: ( cm 3, cm 3 ) 27 / 96
28 T-test kontra non-parametrisk alternativ T-test giver pr. automatik et konfidensinterval for forskellen på middelværdierne Man skal sno sig - og have stor tålmodighed - for at få et konfidensinterval baseret på et non-parametrisk test T-testet er lidt stærkere, dvs. man kan nøjes med lidt færre observationer - men det er jo fordi man lægger en antagelse ind i stedet for... Man skal ikke være så bange for normalfordelingsantagelsen, for det er i virkeligheden kun gennemsnittene, der behøver at være pænt normalfordelte, og det er de sædvanligvis, når man har mange observationer i hver gruppe Det er kun, hvis man skal udtale sig om enkeltindivider, at man skal være forsigtig med normalfordelingsantagelsen, altså ved prediktioner. 28 / 96
29 Vitamin D i alle 4 lande Kode s. 82 Polen synes at ligge lavere, både i niveau og spredning. 29 / 96
30 Sammenligning af alle 4 lande Vi har set, at Danmark og Irland ikke adskiller sig signifikant fra hinanden Er det simpelthen sådan, at alle landene er mere eller mindre identisk mht vitamin D status? Man kunne sammenligne alle landene parvis, men det er farligt pga risikoen for massesignifikans (kommer senere...) I stedet kan man se på hypotesen om ens middelværdier for alle lande under et: H 0 : µ 1 = µ 2 = µ 3 = µ 4 (= µ) Det kaldes ensidet variansanalyse eller one-way anova 30 / 96
31 Ensidet variansanalyse, ANOVA ensidet: fordi der kun er et inddelingskriterium, f.eks. som her country variansanalyse: fordi man sammenligner variansen mellem grupper med variansen indenfor grupper Varianser indenfor grupper: Analysis Variable : vitd Vitamin D N country Obs N Mean Std Dev Variance DK SF EI PL Poolet gennemsnit: = Varians mellem de 4 gennemsnit: = / 96
32 Antagelser for ensidet ANOVA Alle observationer er uafhængige (personerne går ikke igen flere gange, er ikke tvillinger o.l.) Der er samme spredning (samme varians, dvs. biologisk variation) i alle grupper Inden for hver gruppe er observationerne normalfordelt Disse antagelser bør checkes efter estimationen, og før fortolkningen. 32 / 96
33 Ensidet ANOVA i praksis Data skal være sat op i 2 kolonner, en med outcome (vitd) og en med klassifikationsvariablen (country). Kode s. 88 Den typiske start på outputtet (den mindre brugbare del): The GLM Procedure Dependent Variable: vitd Vitamin D Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total Dette er en såkaldt variansanalysetabel, som her giver testet for ens middelværdier, men som generelt ikke kan bruges til så fordærdeligt meget. 33 / 96
34 Output, fortsat Nu den mere brugbare del: R-Square Coeff Var Root MSE vitd Mean Source DF Type III SS Mean Square F Value Pr > F country <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept B <.0001 country DK B country EI B country PL B <.0001 country SF B... Parameter 95% Confidence Limits Intercept country DK country EI country PL country SF.. 34 / 96
35 Bemærkninger til output, I Spredningen σ s, Root MSE: Den poolede variation indenfor de 3 grupper (within groups) F Value: Teststørrelsen for test af ens middelværdier i de 4 grupper, med tilhørende P-værdi: P < , dvs. de 4 middelværdier kan ikke antages at være ens. Vi forkaster nulhypotesen om ens middelværdier, hvis F er stor, dvs. hvis variationen mellem grupper er for stor i forhold til variationen indenfor grupper. 35 / 96
36 Bemærkninger til output, II Estimater: Intercept svarer til niveauet for referencegruppen (sidste gruppe, alfabetisk eller numerisk), dvs. Finland (SF) Estimatet ud for f.eks. country DK er forskellen i niveau mellem DK og SF (referencegruppen) Bemærk: Ved omkodning af grupper kan man få vilkårlige forskelle frem. Dette er årsagen til, at man risikerer at få en NOTE om noget med en singulær matrix... og den er altså ikke farlig 36 / 96
37 Modelantagelse 1: Uafhængighed Dette er noget, man skal vide ingen tvillinger, søskende etc. kun en observation for hver person (ellers hører det hjemme under emnet Korrelerede målinger, kursets sidste emne) Hvis observationerne er korrelerede (afhængige af hinanden), kan man få ganske betydelige fejl i sin analyse, hovedsagelig i form af forkerte standard errors, forkerte konfidensintervaller og P-værdier, og dermed forkerte konklusioner. 37 / 96
38 Modelantagelse 2: Identiske spredninger i grupperne Kaldes som regel varianshomogenitet, og checkes ud fra Box plot (eller Scatter plot), se s. 29 Test af hypotese om ens varianser (sædvanligvis Levenes test, se næste side) Residualer tegnet op mod predikterede (=forventede=fittede) værdier, skal være jævnt 38 / 96
39 Levenes test for identiske spredninger Vi har allerede set, at Polen måske har mindre spredning end de andre tre lande - men det kunne jo være en tilfældighed: (kode s. 89) Levene s Test for Homogeneity of vitd Variance ANOVA of Squared Deviations from Group Means Sum of Mean Source DF Squares Square F Value Pr > F country Error Ved sammenligning af de 4 variansestimater fås en P-værdi på P=0.0008, og altså kraftig signifikans! Dette vil vi gerne gøre noget ved lige om lidt. 39 / 96
40 Modelantagelse 3: Normalfordelingsantagelsen Det er antaget, at observationerne følger en normalfordeling inden for hver gruppe. Dette kan checkes: ved at tegne histogrammer eller fraktildiagrammer for hver gruppe (kun hvis man har rigtig mange observationer) ved at tegne histogram eller fraktildiagram for residualerne = observation - fittet værdi som her blot er observation minus det relevante gruppegennemsnit Det er ikke nogen god ide at lave normalfordelingstest Hvis man har mange observationer, bliver det stort set altid forkastet - uden at det betyder noget i praksis Hvis man har få observationer, bliver det stort set altid godkendt - uden at man derved har påvist at der er tale om en normalfordeling 40 / 96
41 Modelkontrol: Diagnostics Panel Kode s / 96
42 Bemærkninger til Diagnostics Panel Foreløbig beskæftiger vi os kun med første søjle (S1) på s. 41 Figur (R1,S1): residualer mod predikterede værdier Har de samme spredning? Næh, den stiger vist lidt med den predikterede værdi Figur (R2-R3,S1): Fraktildiagram og histogram af residualerne: Ser de normalfordelte ud? Næsten, dog lidt hængekøje =skævhed=hale mod højre 42 / 96
43 Hvad gør vi ved forskellen i spredninger? Er det slemt? Tja, ikke at dømme ud fra grafikken... Kan vi slippe for forudsætningen ligesom for T-testet? Ja: vi kan lave et welch test i stedet for (kode s. 91) Welch s ANOVA for vitd Source DF F Value Pr > F country <.0001 Error Vi kan altså godt føle os sikre på den fundne forskel - men vi få ikke revideret vores sammenligninger landene imellem / 96
44 Konklusion...? Modellen er ikke helt rimelig F-test viser helt klart en forskel på middelværdien af vitamin D i de fire lande, men var det i virkeligheden det, vi gerne ville vide? Eller ville vi hellere vide, hvilke lande, der adskiller sig fra hvilke andre? 44 / 96
45 Multiple sammenligninger Parvise t-test giver problemer med massesignifikans Hvis man sammenligner k grupper (lande) parvist, er der m = k(k 1)/2 mulige test, hver med signifikansniveau α = Den totale risiko for at begå en type 1 fejl er derfor reelt væsentlig højere, men hvor høj? Hvis testene var uafhængige af hinanden (det er de dog ikke), ville signifikansniveauet være: 1 (1 α) m, f.eks. som her, for k=4: / 96
46 Type 1 fejl ved uafhængige multiple sammenligninger Øverste graf: Alle grupper sammenlignes med alle andre Nederste graf: Alle grupper sammenlignes med en enkelt kontrolgruppe 46 / 96
47 Korrektion for multiple sammenligninger Bonferroni Sidak benytter signifikansniveau α m stærkt konservativ, dvs. for høje P-værdier (lav styrke) benytter signifikansniveau 1 (1 α) 1 m α m for små m lidt mindre konservativ, men stadig ret lav styrke Tukey eller Games-Howell Dunnett 47 / 96 sidstnævnte i tilfælde af uens varianser (findes ikke i SAS) giver større styrke korrigerer kun for test mod referencegruppe (typisk en kontrolgruppe eller tid 0 )
48 Hvilken korrektion skal man vælge? Dette er et meget vanskeligt spørgsmål, fordi: Der findes rigtig mange med hver deres fordele og ulemper og hvilke (hvor mange) tests skal man korrigere for? dem i denne publikation? alle de, der vedrører dette projekt? hele min videnskabelige produktion? mine kollegers?..? 48 / 96
49 Hvilken korrektion skal man vælge?, II Jeg bruger oftest Tukey (eller Dunnett), fordi: Den sikrer lav type 1 fejls risiko Den tillader forskelle i gruppestørrelse men den tillader ikke vilkårlige sammenligninger, f.eks. Polen mod gruppen bestående af de 3 andre (i så fald skal man bruge Scheffee) Hvis det ikke drejer sig om en 1-way anova, kan man altid pr. håndkraft benytte Bonferroni eller Sidak. 49 / 96
50 Tukey korrektion for vitamin D Kode s. 92 Least Squares Means Adjustment for Multiple Comparisons: Tukey-Kramer country vitd LSMEAN LSMEAN Number DK EI PL SF Least Squares Means for effect country Pr > t for H0: LSMean(i)=LSMean(j) Dependent Variable: vitd i/j < <.0001 Difference Simultaneous 95% Between Confidence Limits for i j Means LSMean(i)-LSMean(j) /
51 Kommentarer til Tukey korrektion Selv om Tukey-korrektionen ikke er optimal pga de uens varianser, er P-værdierne så tydelige, at vi kan tillade os at konkludere, at: Land nr. 3 (Polen) adskiller sig signifikant fra de 3 øvrige. Herudover er der ingen forskelle, dvs. Danmark, Irland og Finland adskiller sig ikke parvist fra hinanden 51 / 96
52 ANOVA vs Multiple Sammenligninger (MS) Kan man risikere, at ANOVA er insignifikant, men at parvise tests findes signifikante? Ja, nemt, fordi ANOVA er et svagt test pga mange frihedsgrader Også efter Tukey-korrektion? Formentlig Kan man risikere at ANOVA er signifikant, uden at der er nogensomhelst parvise T-tests, der er signifikante? Formentlig kun, hvis de er Tukey-korrigerede...? Er vi overhovedet interesseret i ANOVA; eller skal vi bare gå direkte til MS? Det kunne vi godt, men de laves i praksis i tilslutning til ANOVA en, såe / 96
53 Hvis antagelserne ikke holder Vægtet analyse (Welch s test, som vi så tidligere) Transformation (ofte logaritmer) kan afhjælpe såvel variansinhomogenitet som dårlig normalfordelingstilpasning Non-parametrisk sammenligning Kruskal-Wallis test Permutationstest Husk: Antagelserne er ikke altid lige vigtige, vigtigst når man skal udtale sig om enkeltindivider 53 / 96
54 Non-parametrisk Kruskal-Wallis test Udvidelse af Mann-Whitney testet til flere end 2 grupper (kode s.93): Kruskal-Wallis Test Chi-Square DF 3 Pr > Chi-Square <.0001 Bemærk: Dette er et approksimativt test Man kan også få en eksakt vurdering af teststørrelsen (se side 93), men pas på i tilfælde af store materialer (som f.eks. her) Det tager forfærdeligt lang tid - dagevis 54 / 96
55 Sammenligning af Finland og Polen...som om vi kun havde disse to lande, dvs. et T-test: The TTEST Procedure Variable: vitd (Vitamin D) country N Mean Std Dev Std Err Minimum Maximum 2:SF :PL Diff (1-2) country Method Mean 95% CL Mean Std Dev 2:SF :PL Diff (1-2) Pooled Diff (1-2) Satterthwaite Method Variances DF t Value Pr > t Pooled Equal <.0001 Satterthwaite Unequal <.0001 Equality of Variances Method Num DF Den DF F Value Pr > F Folded F Hvorfor mon der er den forskel? Kan de godt lide sol i Finland? 55 / 96
56 Solvaner i Finland og Polen Vi definerer en variabel sol som 0 Solhadere: Folk, der undgår solen (sunexp=1) 1 Solelskere: Folk, der godt kan lide solen (sunexp=2,3) En simpel optælling af solelskere: Finland: 40 ud af 54, dvs. 74.1% Polen: 39 ud af 65, dvs. 60.0% Kan denne forskel i sol-præferencer være forklaringen på forskellen i Vitamin-D? 56 / 96
57 Solvanernes betydning Kode s / 96
58 Tosidet variansanalyse: Additiv model Tosidet, fordi der nu er to inddelingskriterier: Land: Finland, Polen Solvaner: Kan lide / kan ikke lide Additiv betyder: Uden interaktion Vi vil sammenligne folk fra Finland og Polen, der har samme præference for sol, dvs. for fastholdt værdi af solvaner, dvs. 14 finner vs. 26 polakker, der ikke kan lide sol 40 finner vs. 39 polakker, der godt kan lide sol og disse to forskelle pooles så til en fælles effekt af sol. Vi siger, at vi (vi korrigerer for solvaner). 58 / 96
59 Output fra 2-sidet ANOVA af Vitamin D Kode s. 95 Class Level Information Class Levels Values country 2 2:SF 6:PL sol 2 ja nej Number of Observations Used 119 R-Square Coeff Var Root MSE vitd Mean Source DF Type III SS Mean Square F Value Pr > F country <.0001 sol Standard Parameter Estimate Error t Value Pr > t 95% Confidence Limits Intercept B < country 2:SF B < country 6:PL B..... sol ja B sol nej B / 96
60 Fortolkning af 2-sidet ANOVA Effekter: Finland vs. Polen, for fastholdte solvaner: Finland estimeres til at ligge nmol/l højere end Polen, med 95% CI: (8.71, 19.95) Dette afviger noget fra T-testet (s. 55), hvor vi fik estimatet 15.43, med 95% CI: (9.51, 21.35). Vi fik her indsnævret konfidensintervallet en anelse fordi vi fjernede noget af residualvariationen Folk, der kan lide sol har et 7.83 højere niveau end de fra samme land, som ikke kan lide sol, med 95% CI: (1.91, 13.76), P= / 96
61 Modelkontrolplots Kode s / 96
62 Den additive model Observationer og predikterede værdier Predikterede værdier svarende til sol-gruppe er forbundet 62 / 96
63 Vurderinger af sol-effekt Effekten af sol kunne tænkes at afhænge af landet (breddegraden eller vejret) Før antog vi, at effekten var den samme i begge lande (additivitet=parallelle linier på plottet s. 62) Vi opdeler nu efter land (helt separate T-tests): Vitamin D for solelskere vs. solhadere: i Finland: (5.64), 95% CI: (0.48, 23.10), P=0.04 i Polen: 5.21 (3.11), 95% CI: (-1.01, 11.42), P=0.10 Er de to vurderinger af solvanernes betydning forskellige? I så fald siger vi, at der er interaktion 63 / 96
64 Modellen med interaktion Er der forskel på sol-effekten? Ikke så meget, ser det ud til... så her er nok ikke nogen interaktion. 64 / 96
65 Vekselvirkning = Interaktion Tænkt eksempel: To inddelingskriterier: køn og rygestatus Outcome: FEV 1 Effekten af rygning afhænger af køn Forskellen på kønnene afhænger af rygestatus 65 / 96
66 Mulige forklaringer biologisk kønsforskel på effekt af rygning holder vist ikke i praksis, men eksemplet er jo også blot tænkt måske ryger kvinderne ikke helt så meget antal pakkeår confounder for køn måske virker rygningen som en relativ (%-vis) nedsættelse af FEV 1 kunne undersøges ved en longitudinel undersøgelse 66 / 96
67 Eksempel: Rygnings effekt på fødselsvægt 67 / 96
68 Interaktion mellem mængden og varigheden af rygningen Der er effekt af mængden, men kun hvis man har røget længe. Der er effekt af varigheden, og denne effekt øges med mængden. Effekten af mængden afhænger af... og effekten af varigheden afhænger af / 96
69 Interaktion mellem solvaner og land? Kode s. 96 Dependent Variable: vitd Vitamin D R-Square Coeff Var Root MSE vitd Mean Source DF Type III SS Mean Square F Value Pr > F country <.0001 sol country*sol Standard Parameter Estimate Error t Value Pr > t 95% Confidence Limits Intercept B < country 2:SF B country 6:PL B..... sol ja B sol nej B..... country*sol 2:SF ja B country*sol 2:SF nej B..... country*sol 6:PL ja B..... country*sol 6:PL nej B / 96
70 Fortolkning af estimater Betydningen af de enkelte estimater, fra outputtet på forrige side: Intercept=29.44: Det estimerede niveau (her blot gennemsnittet) af vitamin D for referencegruppen, dvs. solhadere fra Polen. country 2:SF=9.82: Finlands forspring frem for Polen for sol-referencegruppen, dvs. for solhadere sol ja=5.21: Effekten af at kunne lide sol vs. at hade den, for country-referencegruppen, dvs. for polakker 70 / 96
71 Estimater, fortsat country*sol 2:SF ja=6.59: Den ekstra effekt af soldyrkning i Finland i forhold til i Polen, eller Den ekstra fordel af at være finne, blandt soldykere i forhold til blandt solhadere Den totale effekt af solen i Finland er således =11.80, som vi også fandt før, se s. 63 Denne ekstra effekt er ikke signifikant, men konfidensintervallet er (-5.50, 18.67), altså meget bredt, set i relation til effekternes størrelse, så vi kan faktisk ikke afgøre, om der er interaktion eller ej!! 71 / 96
72 Estimater Referenceniveauerne er: country=6:pl, sol=nej (de sidste i den alfabetiske rækkefølge) Denne gruppe har et forventet vitamin D niveau på intercept=29.44 For de andre niveauer skal der adderes et eller flere ekstra led, som angivet i skemaet: country solelsker? Finland Polen ja =51.05 = nej =39.26 Disse estimater er de predikterede værdier, som her også blot er gennemsnittene 72 / 96
73 Fokus på effekt af sol Soldyrkere vs. solhadere, stadig kun Finland og Polen: Model estimat CI indeholder kun solvaner (3.63, 16.51) (T-test) solvaner 7.83 (1.91, 13.76) og country solvaner, kun SF (0.48, 23.10) solvaner, kun PL 5.21 (-1.01, 11.42) Confounding mellem land og sol (se s. 56) giver forskellen i de to første linier. De to sidste linier viser den insignifikante interaktion (P=0.28) 73 / 96
74 Sammenligning af Danmark og Irland (ganske som Finland vs. Polen, s. 57 og 94) 74 / 96
75 Sammenligning af Danmark og Irland Prediktion i interaktionsmodel, dvs. gennemsnit (se tilsvarende s. 64) 75 / 96
76 Fokus på effekt af sol Soldyrkere vs. solhadere, nu for Danmark og Irland: Model estimat CI indeholder kun solvaner (-9.276, 9.079) solvaner (-9.658, 9.702) og country solvaner, kun DK (-4.869, ) solvaner, kun EI ( , 3.124) Her er ingen confounding (de to første linier giver stort set det samme), men en tydelig interaktion (modsatrettede effekter for Danmark og Irland) 76 / 96
77 Fokus på effekt af land dvs. forskel mellem Danmark og Irland: Model estimat CI indeholder kun land (-9.808, 8.125) solvaner (-9.943, 8.255) og land DK vs. EI, solelskere 5.42 (-6.12, 16.95) DK vs. EI, solhadere (-27.85, 0.61) Helt analogt til forrige side ses her ingen confounding, men tydelig interaktion. 77 / 96
78 Interaktion mellem solvaner og land? for Danmark og Irland: Class Level Information Class Levels Values country 2 1:DK 4:EI sol 2 ja nej Number of Observations Used 94 R-Square Coeff Var Root MSE vitd Mean Source DF Type III SS Mean Square F Value Pr > F country sol country*sol Standard Parameter Estimate Error t Value Pr > t 95% Confidence Limits Intercept B < country 1:DK B country 4:EI B..... sol ja B sol nej B..... country*sol 1:DK ja B country*sol 1:DK nej B..... country*sol 4:EI ja B..... country*sol 4:EI nej B / 96
79 Kommentarer til Danmark vs. Irland Der er næsten interaktion (P=0.0503) men effekterne er modsatrettede! - mystisk... Forskellen i sol-effekt kan være fra ca. 0 og helt op til en forskel på 38.1, svarende til, at danskere får en effekt på 38.1 nmaol/l mere ud af at dyrke sol i forhold til Irland Det er godt nok en meget stor forskel... vi ved ikke ret meget om den 79 / 96
80 Effekt af sol, alle 4 lande Class Level Information Class Levels Values country 4 DK EI PL SF sol Number of Observations Read 213 Source DF Type III SS Mean Square F Value Pr > F country <.0001 sol country*sol Standard Parameter Estimate Error t Value Pr > t Intercept B <.0001 country DK B country EI B country PL B <.0001 country SF B... sol B sol B... country*sol DK B country*sol DK B... country*sol EI B country*sol EI B... country*sol PL B country*sol PL B... country*sol SF B... country*sol SF B / 96
81 APPENDIX med SAS-programbidder svarende til nogle af slides T-tests mv.: s Ensidet ANOVA: s Tosidet ANOVA: s / 96
82 Boxplots Slide 3 proc sgplot data=women; where country in (1,4); vbox vitd / category=country; run; Slide 29 proc sgplot data=women; vbox vitd / category=country; run; 82 / 96
83 Summary statistics Slide 4 proc means data=women; where country in (1,4); class country; var vitd; run; where-sætningen udvælger de to lande, vi vil se på 83 / 96
84 Uparret T-test Slide 7 proc ttest data=women; where country in (1,4); class country; var vitd; run; where-sætningen udvælger de to lande, vi vil se på 84 / 96
85 Dimensionering i SAS Slide 22 proc power; twosamplemeans test=diff meandiff=5 stddev=20,28 npergroup=. power=0.8,0.9; run; Bemærk, at man kan foretage adskillige dimensioneringer på samme tid 85 / 96
86 Nonparametrisk uparret test i SAS Slide 25 Mann-Whitney test eller Kruskal-Wallis test (approksimation for n > 25) proc npar1way wilcoxon data=women; where country in (1,4); class country; * exact hl; var vitd; run; For små samples kan sætningen "exact hl;" give et eksakt test, men her ville det tage frygtelig lang tid 86 / 96
87 Permutationstest i SAS Slide 26 proc npar1way scores=data data=women; where country in (1,4); class country; var vitd; run; med output: Data Scores Two-Sample Test Statistic Z One-Sided Pr > Z Two-Sided Pr > Z Data Scores One-Way Analysis Chi-Square DF 1 Pr > Chi-Square / 96
88 Ensidet ANOVA i SAS Slide 33 proc glm data=women; class country; model vitd=country / solution clparm; run; 88 / 96
89 Levenes test for identiske spredninger Slide 39 Benyt hovtest i means-sætningen: proc glm data=women; class country; model vitd=country / solution clparm; means country /hovtest; run; 89 / 96
90 Modelkontrolplots for Vitamin D eksemplet Slide 41 Med ODS-systemet og option plots=all: ods graphics on; proc glm plots=all data=women; class country; model vitd=country / solution clparm; run; ods graphics off; 90 / 96
91 Welch test - ANOVA for uens varianser Slide 43 Option welch i means-sætningen: proc glm data=women; class country; model vitd=country / solution clparm; means country / welch; run; 91 / 96
92 Tukey korrektion for vitamin D Slide 50 Option adjust=tukey i lsmeans-sætningen: proc glm data=women; class country; model vitd=country / solution clparm; LSMEANS country / ADJUST=TUKEY pdiff cl; run; 92 / 96
93 Non-parametrisk Kruskal-Wallis test Slide 54 proc npar1way wilcoxon data=women; class country; var vitd; run; Bemærk: Man kan også få en eksakt vurdering af teststørrelsen ved at tilføje linien exact hl; men pas på i tilfælde af store materialer 93 / 96
94 Box-plot, opdelt efter to kategorier Slide 57 proc sgplot data=women; where country in (2,6); vbox vitd / category=country group=sol; run; category angiver X-aksen group angiver farven 94 / 96
95 Additiv tosidet ANOVA dvs. uden interaktion Slide 59, 61 og 62 ods graphics on; proc glm plots=all data=women; where country in (2,6); class country sol; model vitd=country sol / solution clparm; run; ods graphics off; 95 / 96
96 Tosidet ANOVA med interaktion Slide 69 og 64 ods graphics on; proc glm plots=all data=women; where country in (2,6); class country sol; model vitd=country sol country*sol / solution clparm; run; ods graphics off; 96 / 96
Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences
Faculty of Health Sciences Sammenligning af grupper Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 7. februar 2017 Sammenligning af to grupper: T-test Dimensionering af undersøgelser
Læs mereBasal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences
Faculty of Health Sciences Sammenligning af grupper Basal Statistik Sammenligning af grupper, Variansanalyse Sammenligning af to grupper: T-test Dimensionering af undersøgelser Sammenligning af flere end
Læs mereFaculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 12. september / 116
Faculty of Health Sciences Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 12. september 2017 1 / 116 Sammenligning af grupper Sammenligning af to grupper: T-test Dimensionering
Læs mereBasal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences
Faculty of Health Sciences Sammenligning af grupper Basal Statistik Sammenligning af grupper, Variansanalyse Sammenligning af to grupper: T-test Dimensionering af undersøgelser Sammenligning af flere end
Læs mereFaculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 10. september / 116
Faculty of Health Sciences Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 10. september 2018 1 / 116 Sammenligning af grupper Sammenligning af to grupper: T-test Dimensionering
Læs mereSPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse
Faculty of Health Sciences SPSS APPENDIX SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 12. september 2017 med instruktioner til SPSS-analyse svarende til
Læs mereFaculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.
Faculty of Health Sciences SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 22. januar 2018 1 / 20 SPSS APPENDIX med instruktioner til SPSS-analyse svarende
Læs mereSPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse
Faculty of Health Sciences SPSS APPENDIX SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 11. februar 2019 med instruktioner til SPSS-analyse svarende til nogle
Læs mereHypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j
Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!
Læs mereFaculty of Health Sciences. Basal Statistik. T-tests. Lene Theil Skovgaard. 17. september 2013
Faculty of Health Sciences Basal Statistik T-tests. Lene Theil Skovgaard 17. september 2013 1 / 67 En- og to-stikprøve problemer One- and two-sample problems: Sammenligning af to situationer: Parret t-test
Læs mereBasal Statistik. En- og to-stikprøve problemer. Eksempel på parrede data. Eksempel på parrede data. Faculty of Health Sciences
Faculty of Health Sciences En- og to-stikprøve problemer One- and two-sample problems: Basal Statistik T-tests. Lene Theil Skovgaard 17. september 2013 1 / 67 Sammenligning af to situationer: Parret t-test
Læs mereOpgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1
Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.
Læs mereBesvarelse af vitcap -opgaven
Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.
Læs mereVejledende besvarelse af hjemmeopgave
Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2013 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) I forbindelse med en undersøgelse af vitamin
Læs mereFaculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse i R. Lene Theil Skovgaard. 11. februar / 116
Faculty of Health Sciences Basal Statistik Sammenligning af grupper, Variansanalyse i R Lene Theil Skovgaard 11. februar 2019 1 / 116 Sammenligning af grupper Sammenligning af to grupper: T-test Dimensionering
Læs mereBasal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences
Faculty of Health Sciences Sammenligning af grupper Basal Statistik Sammenligning af grupper, Variansanalyse i R Lene Theil Skovgaard 11. februar 2019 1 / 116 Sammenligning af to grupper: T-test Dimensionering
Læs mereDet kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.
1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;
Læs mereLineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Læs mere1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
Læs mereVejledende besvarelse af hjemmeopgave, efterår 2018
Vejledende besvarelse af hjemmeopgave, efterår 2018 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (30. oktober.-1. november). Der er foretaget en del undersøgelser af krigsveteraner og
Læs mereBasal Statistik Variansanalyse. 24 september 2013
Basal Statistik Variansanalyse 24 september 2013 Michael Gamborg Institut for sygdomsforebyggelse Københavns Universitetshospital michael.orland.gamborg@regionh.dk Lene Theil Skovgaard biostat.ku.dk/~lts/basal/overheads/anova.pdf
Læs mereOpgavebesvarelse, Basalkursus, uge 2
Opgavebesvarelse, Basalkursus, uge 2 Opgave 1. Filen "space.txt" fra hjemmesiden ser således ud: salt pre post 1 71 61 1 65 59 1 52 47 1 68 65......... 0 52 77 0 54 80 0 52 79 Data indlæses i 3 kolonner,
Læs mereNormalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Læs mere1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.
Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller
Læs mereVejledende besvarelse af hjemmeopgave, efterår 2017
Vejledende besvarelse af hjemmeopgave, efterår 2017 Udleveret 3. oktober 2017, afleveres senest ved øvelserne i uge 44 (31. okt.-2. nov. 2017) På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_2/hjemmeopgave/hjemmeopgave.txt
Læs mereØvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger
Øvelser til basalkursus, 5. uge Opgavebesvarelse: Knogledensitet hos unge piger I alt 112 piger har fået målt knogledensitet (bone mineral density, bmd) i 11-års alderen (baseline værdi). Pigerne er herefter
Læs mereMultipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model
Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ
Læs mereØvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger
Øvelser til basalkursus, 5. uge Opgavebesvarelse: Knogledensitet hos unge piger I alt 112 piger har fået målt knogledensitet (bone mineral density, bmd) i 11-års alderen (baseline værdi). Pigerne er herefter
Læs mereEksamen i Statistik for Biokemikere, Blok januar 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for Biokemikere, Blok 2 2008 09 19. januar 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet
Læs mereVariansanalyse i SAS. Institut for Matematiske Fag December 2007
Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse
Læs mereReeksamen i Statistik for Biokemikere 6. april 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på
Læs mereVejledende besvarelse af hjemmeopgave, forår 2016
Vejledende besvarelse af hjemmeopgave, forår 2016 Udleveret 1. marts, afleveres senest ved øvelserne i uge 13 (29. marts-1. april) Denne opgave fokuserer på at beskrive niveauet af hormonet AMH (højt niveau
Læs mereEn Introduktion til SAS. Kapitel 5.
En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel
Læs mereVejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013
Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.
Læs mereVariansanalyse i SAS 1. Institut for Matematiske Fag December 2007
Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 1 Ensidet variansanalyse Bartlett s test Tukey s test PROC
Læs mereDagens Tekst. Sammenligning Flere Grupper F Basal Statistik Variansanalyse. Basal Statistik - Variansanalyse 1
Basal Statistik Variansanalyse Judith L. Jacobsen, PhD. Lene Theil Skovgaard http://staff.pubhealth.ku.dk/~lts/basal09_1/ jlj@statcon.dk Dagens Tekst ANOVA Ikke-parametriske test Fordelingsantagelse En-sidet
Læs mereMPH specialmodul Epidemiologi og Biostatistik
MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:
Læs mereAnvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Læs mereProgram. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12
Program 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Ensidet variansanalyse: analyse af grupperede data Nedbrydningsrate for tre typer af opløsningsmidler (opgave 13.8 side 523) Sorption
Læs mereOpgavebesvarelse, brain weight
Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12
Læs mereGenerelle lineære modeller
Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal
Læs mereVejledende besvarelse af hjemmeopgave, forår 2017
Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave.txt ligger data fra 400 fødende kvinder. Der er tale om et uddrag
Læs mereBasal statistik. 30. oktober 2007
Basal statistik 30. oktober 2007 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Kovariansanalyse Parametriseringer Lene Theil Skovgaard, Biostatistisk Afdeling
Læs mereAnvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Læs mereBasal statistik. 30. oktober Den generelle lineære model
Basal statistik 30. oktober 2007 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Kovariansanalyse Parametriseringer Lene Theil Skovgaard, Biostatistisk Afdeling
Læs mereBesvarelse af opgave om Vital Capacity
Besvarelse af opgave om Vital Capacity I filen cadmium.txt ligger observationer fra et eksempel omhandlende lungefunktionen hos arbejdere i cadmium industrien (hentet fra P. Armitage & G. Berry: Statistical
Læs merek normalfordelte observationsrækker (ensidet variansanalyse)
k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er
Læs mereReeksamen i Statistik for biokemikere. Blok
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er
Læs mereBasal statistik. 30. september 2008
Basal statistik 30. september 2008 Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Peter Dalgaard, Biostatistisk Afdeling Institut for
Læs mereProgram. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger
Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt
Læs mereKlasseøvelser dag 2 Opgave 1
Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d
Læs mereIndhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9
Indhold 1 Ensidet variansanalyse 2 1.1 Estimation af middelværdier............................... 3 1.2 Estimation af standardafvigelse............................. 3 1.3 F-test for ens middelværdier...............................
Læs mereEksamen i Statistik for biokemikere. Blok
Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)
Læs mereBasal statistik. 2. oktober Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol
Basal statistik 2. oktober 2007 Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Lene Theil Skovgaard, Biostatistisk Afdeling Institut
Læs mereForelæsning 11: Envejs variansanalyse, ANOVA
Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Læs merePhd-kursus i Basal Statistik, Opgaver til 2. uge
Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.txt på hjemmesiden indeholder datamateriale til belysning af forskellen i sædkvalitet mellem SAS-ansatte og mænd, der lever
Læs mereEksamen Bacheloruddannelsen i Medicin med industriel specialisering
Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform
Læs mereTo-sidet varians analyse
To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),
Læs mereBasal statistik. 16. september 2008
Basal statistik 16. september 2008 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation sammenligning af to grupper uparret t-test
Læs mereForsøgsplanlægning Stikprøvestørrelse
Basal statistik Esben Budtz-Jørgensen 6. november 2007 Forsøgsplanlægning Stikprøvestørrelse 1 41 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder
Læs mereVejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014
Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke
Læs mereOpgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved
Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,
Læs mereKommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge
Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges
Læs mere3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Læs meremen nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Læs mereCLASS temp medie; MODEL rate=temp medie/solution; RUN;
Ugeopgave 2.1 Bakterieprøver fra patienter transporteres ofte til laboratoriet ved stuetemperatur samt mere eller mindre udsat for luftens ilt. Dette er især uheldigt for prøver som indeholder anaerobe
Læs mereKapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan
Læs mereTovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner
Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner I modsætning til envejs-anova kan flervejs-anova udføres selv om der er kun én
Læs mereResumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se
Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller
Læs mereTypiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium?
variansanalyse 1 variansanalyse 2 Basal statistik 27. februar 2007 Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Judith Jacobsen Statcon
Læs mereBasal statistik 3. oktober Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium?
variansanalyse, oktober 2006 1 Basal statistik 3. oktober 2006 Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Lene Theil Skovgaard
Læs mereKapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet
Læs mereBasal statistik. 18. september 2007
Basal statistik 18. september 2007 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation sammenligning af to grupper uparret t-test
Læs mereBasal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse
Basal statistik Esben Budtz-Jørgensen 4. november 2008 Forsøgsplanlægning Stikprøvestørrelse 1 46 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder
Læs mereModul 11: Simpel lineær regression
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................
Læs mereVejledende besvarelse af hjemmeopgave, forår 2015
Vejledende besvarelse af hjemmeopgave, forår 2015 En stikprøve bestående af 65 mænd og 65 kvinder er blevet undersøgt med henblik på at se på en evt. sammenhæng mellem kropstemperatur og puls. På hjemmesiden
Læs mereVejledende besvarelse af hjemmeopgave, efterår 2016
Vejledende besvarelse af hjemmeopgave, efterår 2016 Udleveret 4. oktober, afleveres senest ved øvelserne i uge 44 (1.-4. november) Normal aktivitet af enzymet plasma kolinesterase er en forudsætning for
Læs mereEnsidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese
Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet
Læs mereProgram. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren
Faculty of Life Sciences Program Sammenligning af grupper Ensidet ANOVA Claus Ekstrøm E-mail: ekstrom@life.ku.dk Sammenligning af to grupper: tre eksempler Sammenligning af mere end to grupper: ensidet
Læs mereBasal statistik. 18. september 2007
Basal statistik 18. september 2007 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation sammenligning af to grupper uparret t-test
Læs meren r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1
(a) Denne opgave bygger på resultaterne fra 2 forsøg med epo-behandling af for tidligt fødte børn, idet gruppe 1 og 3 stammer fra første forsøg, mens gruppe 2 og 4 stammer fra det andet. Det må antages,
Læs merek UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)
Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalse, ANOVA Peder Bacher DTU Compute, Dnamiske Sstemer Bgning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lngb Danmark e-mail:
Læs mereEksamen i Statistik for biokemikere. Blok
Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2007. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 8 sider.
Læs mereProgram: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Læs mereBasal statistik 19. september Eksempel: To metoder, som forventes at skulle give samme resultat:
En- og to-stikprøve problemer, september 2006 1 Basal statistik 19. september 2006 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation
Læs mereLøsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Læs mereBasal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder
Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 Parret sammenligning, målemetoder med logaritmer Tosidet variansanalyse
Læs mereFaculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015
Faculty of Health Sciences Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 1 / 84 Logaritmer og kovariansanalyse Parret sammenligning, målemetoder med logaritmer Tosidet
Læs mereKursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S
Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed
Læs mereReeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl
Reeksamen 2018 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 13-08-2018 Tid: kl. 09.00-11.00 Bedømmelsesform
Læs mereNaturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1
Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen
Læs mereEksempel: To metoder, som forventes at skulle give samme resultat: MF: Transmitral volumetric flow, bestemt ved Doppler ekkokardiografi
En- og to-stikprøve problemer 1 En- og to-stikprøve problemer 2 Basal statistik 13. februar 2007 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation
Læs mereBasal Statistik - SPSS
Faculty of Health Sciences Basal Statistik - SPSS Begreber. Parrede sammenligninger. Lene Theil Skovgaard 5. september 2017 1 / 16 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides
Læs mere(studienummer) (underskrift) (bord nr)
Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)
Læs mereBasal statistik. 21. oktober 2008
Basal statistik 21. oktober 2008 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Parametriseringer Kovariansanalyse Esben Budtz-Jørgensen, Biostatistisk Afdeling
Læs mereModelkontrol i Faktor Modeller
Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk
Læs mereInstitut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6
Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået
Læs mereSidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion
VARIANSANALYSE 2 Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: (Analysis of variance) med interaktion Problem: Hvordan håndterer vi forsøg, hvor effekten er forårsaget af to faktorer og en evt.
Læs mereBasal Statistik - SPSS
Faculty of Health Sciences Basal Statistik - SPSS Korrelerede målinger. Lene Theil Skovgaard 8. april 2019 1 / 21 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Plots: s. 3, 4,
Læs mereVejledende besvarelse af hjemmeopgave, forår 2018
Vejledende besvarelse af hjemmeopgave, forår 2018 Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.marts) I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige
Læs mere