Faculty of Life Scieces Program Esidet variasaalyse Normalfordelige Claus Ekstrøm E-mail: ekstrom@life.ku.dk Esidet variasaalyse (oe-way ANOVA) Hvilke type data? Hvad er problemstillige? Variatio mellem grupper og idefor grupper Residualer Normalfordelige Histogram og tæthed Sadsyligheder Symmetri, cetrum og spredig Slide Statistisk Dataaalyse (Uge - 00) ANOVA. Normalfordelige Atibiotika og edbrydig af orgaisk materiale Tegiger Data Fem typer atibiotika og e kotrolbehadlig 36 kvier iddelt i seks grupper. Foder tilsat atibiotikum Gødig gravet ed i poser og mægde af orgaisk materiale målt efter 8 uger For spiramyci: ku fire brugbare måliger Formål Påvirker atibiotika edbrydige af orgaisk materiale? Hvis kotrolmåligere ligger lavere ed de adre, tyder det på at atibiotika hæmmer edbrydige. Me hvor meget lavere skal de ligge for at vi ka drage de koklusio? Det får vi ikke svar på i dag... Orgaic material Data Orgaic material Parallelle boxplot boxplot(org~treat) Slide 3 Statistisk Dataaalyse (Uge - 00) ANOVA. Normalfordelige Slide 4 Statistisk Dataaalyse (Uge - 00) ANOVA. Normalfordelige
Gruppegeemsit og -sprediger Type j ȳ j s j Cotrol 6.603 0.9 α-cyperm. 6.895 0.7 Erofloxaci 6.70 0.6 Febedaz. 6.833 0.4 Ivermecti 6 3.00 0.09 Spiramyci 4.855 0.054 Orgaic material Hvad ka vi se fra tegiger og tal? Ka vi kokludere at der er forskel på gruppere? Populatioer, stikprøver og estimater Populatio vs. stikprøve De 34 kvier er e stikprøve fra populatioe af kvier Faktisk forestiller vi os seks delpopulatioer: kvier der får behadlig, kvier der får behadlig, osv. E kvie fra gruppe j er repræsetativ for de pågældede populatio Vil drage koklusioer om populatioere på grudlag af stikprøvere Middelværdi/geemsit i populatio: α j er populatiosgeemsit for kvier fra gruppe j Stikprøvegeemsittet ȳ j er estimat for α j : ˆα j = ȳ j Hvorda ka vi udtrykke at der ikke er oge effekt af atibiotika? Slide 5 Statistisk Dataaalyse (Uge - 00) ANOVA. Normalfordelige Slide 6 Statistisk Dataaalyse (Uge - 00) ANOVA. Normalfordelige Notatio k er atal grupper, her k = 6 j er atal obs. i gruppe j, her = = 5 = 6, 6 = 4. g(i) agiver gruppe for observatio i. For eksempel g() = = g(6) = cotrol, eller g(3) = = g(34) = Spiramyci g() = = g(6) =, g(3) = = g(34) = 6. Stikprøvegeemsit og -spredig i gruppe j: ȳ j = j y i s j = i:g(i)=j j (y i ȳ j ) i:g(i)=j Altså: ȳ j er geemsit af de observatioer i der har g(i) = j, dvs. kommer fra gruppe j. Sammevejet stikprøvespredig Hvis der er ogelude samme variatio i gruppere: beregig af et fælles stikprøvespredig... som er et estimat for e fælles spredig i populatioere Sammevejet eller pooled stikprøvespredig: s = k k ( j )sj j= ( = 5 s 8 + 5 s + + 3 ) s 6 = 0.7 Bemærk: Variasere lægges samme ikke spredigere. Slide 7 Statistisk Dataaalyse (Uge - 00) ANOVA. Normalfordelige Slide 8 Statistisk Dataaalyse (Uge - 00) ANOVA. Normalfordelige
Orgaic material Variatio idefor og mellem grupper Variatio idefor grupper pukter vs. fuldt optruke liiestykker ( ) SS e = i= yi ȳ g(i) Variatio mellem grupper Fuldt optruke liieestykker vs. stiplet liie SS grp = k j= j (ȳ j ȳ) Total variatio Pukter vs. stiplet liie SS total = i=(y i ȳ) Variatioe mellem grupper skal ses ift. variatioe idefor grupper! Residualer mm. Husk residualer fra lieære regressio: r i = y i ˆα ˆβ x i. Esidet ANOVA: Residualer (hvor meget skyder vi galt?) r i = y i ȳ g(i) = observatio estimat Residualkvadratsumme er etop SS e : ) SS e = yi ȳ g(i) = i=( i= Beregig af spredigsestimat udfra residualkvadratsum: s = r i = ri k df e Såda er det altid! i= r i i= Slide 9 Statistisk Dataaalyse (Uge - 00) ANOVA. Normalfordelige Slide 0 Statistisk Dataaalyse (Uge - 00) ANOVA. Normalfordelige Uparrede og parrede stikprøver Esidet variasaalyse: resumé Uparrede forsøgsdesigs: grupper esidet variasaalyse. Parrede forsøgsdesig: Hvad gør vi her? Hvad vil vi? Hvorfor er parrede forsøg smarte? Observatioere iddelt i k grupper, fx. svarede til forskellige behadliger, sorter, aldersgrupper,... Formål: sammeligig af gruppere Opdelig af total variatio i variatio mellem grupper og variatio idefor grupper Sammevejet spredigsestimat, s Ka ikke kokludere om der er forskel på gruppere udfra tegiger og gruppegeemsit alee. Vi skal have e statistisk model for data! Slide Statistisk Dataaalyse (Uge - 00) ANOVA. Normalfordelige Slide Statistisk Dataaalyse (Uge - 00) ANOVA. Normalfordelige
Hvorfor skal vi lære om ormalfordelige (u)? Har set tre typer af data/eksperimeter med kotiuerte data: Orgaic material Esidet ANOVA Digestibility % 65 70 75 80 85 90 95 00 Lieær regressio E stikprøve: Blood pressure 96 9 9 08 6 8 0 05 94 0 5 0 5 0 5 30 35 Stearic acid % Vi skal bruge ormalfordelige for alle tre forsøgstyper/datatyper! Vægt af krabber 6 krabber på e bestemt alder vejet: y,...,y 6. R: ȳ =.76, s =.5 Histogram ormeret så det samlede areal af rektagler er Graf for f, hvor f er tæthede for ormalfordelige f (y) = Desity 0.00 0.05 0.0 0.5 8 0 4 6 8 0 Weight ( exp (y.76) π.5.5 ) Grafe for f er e fi approksimatio af histogrammet. Slide 3 Statistisk Dataaalyse (Uge - 00) ANOVA. Normalfordelige Slide 4 Statistisk Dataaalyse (Uge - 00) ANOVA. Normalfordelige Sadsyligheder Husk: for stadardiseret histogram er relativ frekves = areal af rektagel, fx. atal krabber mellem 4 g og 5 g 6 = 0. Tilsvarede for tæthede: sadsylighede for at e observatio falder i itervallet fra a til b er lig arealet uder kurve, fx. b P(4 < Y < 5) = f (y)dy = 0.3 a De to sadsyligheder er ikke es: populatio vs. stikprøve. Hvis populatiosværdier er fordelt som tæthede beskriver, så vil histogram for stikprøve fra populatioe lige tæthede Normalfordeligstæthed som model for histogrammet Normalfordelig med middelværdi µ og spredig σ Udskift tallee.76 og.5 med µ og σ > 0: ( f (y) = exp ) (y µ) πσ σ Vi siger at e variabel Y er ormalfordelt med middelværdi µ og spredig σ hvis b P(a < Y < b) = f (y)dy. a for alle a og b, dvs. for alle itervaller. Vi skriver Y N(µ,σ ). Bemærk: σ ikke σ i dee otatio. Altså: hvis Y er ormalfordelt med middelværdi 3 og spredig, så er Y N(3,4). Slide 5 Statistisk Dataaalyse (Uge - 00) ANOVA. Normalfordelige Slide 6 Statistisk Dataaalyse (Uge - 00) ANOVA. Normalfordelige
Symmetri cetrum spredig Desity f(y) 0.0 0. 0.4 0.6 0.8 Slide 7 Statistisk Dataaalyse (Uge - 00) ANOVA. Normalfordelige N(,0.5) N(0,) N(,) N(0,4) 6 4 0 4 6 y Dages hovedpukter Esidet variasaalyse: sammeligig af middelværdi for k grupper Variatio mellem grupper / variatio idefor grupper Populatio og tæthed vs. stikprøve og histogram Sadsylighed lig areal uder tæthed Tæthed for ormalfordelig: symmetri, cetrum og spredig På osdag (og måske æste madag): Egeskaber for ormalfordelige Hvorda kotrollerer vi, at data er ormalfordelt? Hvorfor lige etop ormalfordelige? Tyvstarter ved øvelsere i dag med at udersøge egeskaber vha. simulatio af N-fordelte variable (opgave 4.3). Slide 8 Statistisk Dataaalyse (Uge - 00) ANOVA. Normalfordelige