Faculty of Life Sciece Program Statitik ifere E ekelt tikprøve og lieær regreio Stat. modeller, etimatio og kofideitervaller Clau Ektrøm E-mail: ektrom@life.ku.dk Fordelig af geemit Statitik ifere for e ekelt tikprøve tatitik model etimatio og præciio af etimater t-fordelige kofideitervaller Statitik ifere for lieær regreio Slide 2 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Geemittet Krabbedata: Itereet i de geemitlige vægt i populatioe µ Har e tikprøve på 162 krabber: y 1,...,y 162. Stikprøvetørreler, ȳ = 12.76 og = 2.25. Specielt, ˆµ = ȳ = 12.76 Me: Hvor meget ka tole på dette etimat? Hvor præcit er det? Hvad ville der ke hvi vi idamlede 162 adre krabber? Hvi vi bruger ormalfordelige, ka vi faktik vare meget præcit på die pørgmål! Vil lave kofideiterval for µ. Dette kræver e tatitik model. Fordelig af geemit Hitogrammer over geemit af tk. N(0, 1)-fordelte variable. Deity 0.0 0.5 1.0 1.5 2.0 = 10 1.0 0.5 0.0 0.5 1.0 y Deity 0.0 0.5 1.0 1.5 2.0 = 25 1.0 0.5 0.0 0.5 1.0 y Middelværdi? Spredig? fordelig? Slide 3 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 4 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere
Fordelig af geemit De cetrale græeværdiætig Huk fra idt at um af to ormalfordelte variable og kalerig af ormalfordelte variable ige er ormalfordelt. Udvidele til um af uafhægige N(µ,σ 2 )-variable: y 1 + y 2 + + y N(µ,σ 2 ) ȳ = 1 (y 1 + y 2 + + y ) N(µ,σ 2 /) Altå: ˆµ = ȳ er ormalfordelt med middelværdi µ og predig σ/. Det fortæller o om variatioe af ȳ! Et af hovedreultatere idefor tatitik og årage til at ormalfordelige er å pokker vigtig. De cetrale græeværdiætig Lad Y 1,...,Y være uafhægige variable med amme fordelig med middelværdi µ og predig σ. Så er Specielt Ȳ = 1 Y i N(µ,σ 2 /) (Ȳ ) µ P σ/ z Φ(z) Slide 5 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 6 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Statitik model Etimatio Hitogram og N-tæthed QQ-plot Deity 0.00 0.05 0.10 0.15 Sample Quatile 8 10 12 14 16 18 20 8 10 12 14 16 18 20 Weight Theoretical Quatile Statitik model: y 1,...,y 162 er uafhægige og y i N(µ,σ 2 ) Normalfordelt Alle y i har amme middelværdi og amme predig Uafhægighed deler ikke iformatio Statitik model: Parametre i modelle y 1,...,y 162 N(µ,σ 2 ) uafhægige middelværdie µ geemittet i populatioe predige σ predige i populatioe Etimatio: populatioparametree etimere ved tikprøvetørrelere. ˆµ = ȳ det er faktik LS etimatet ˆσ = Slide 7 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 8 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere
Præciio af ˆµ Etimatet ˆµ iger ikke oget om præciioe. Me vi ved jo at d(ȳ) = σ/ ȳ ligger i µ ± 1.96 σ/ med 95% adylighed. å ȳ rammer rigtigt i geemit og bliver mere og mere præcit jo tørre bliver. Åh-åh: keder ikke σ ku etimatet! Stadard error af ȳ etimeret predig: SE(ȳ) = / ȳ ligger i µ±??? / med 95% adylighed. Fraktile kal ædre for at tage højde i uikkerhede i etimatet for σ. Deity 0.0 0.1 0.2 0.3 0.4 t-fordelige df = 1,4 og N(0,1) Stadardierig (ȳ µ) z = N(0,1), σ Fordelige ædre hvi σ ertatte med : (ȳ µ) T = t 1 4 2 0 2 4 T t-fordelige med 1 frihedgrader. Bredere haler ed N(0, 1) Liger N(0,1) mere og mere år df voker Slide 9 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 10 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Skål Kofideiterval for µ Øl Goet = Studet Hvi t 0.975, 1 er 97.5%-fraktile i t 1 -fordelige: ( ) (ȳ µ) P t 1,0.975 < < t 1,0.975 = 0.95. Hvi vi flytter rudt og iolerer µ: ( P ȳ t 1,0.975 < µ < ȳ + t 1,0.975 ) = 0.95 Altå: itervallet ȳ ± t 1,0.975 eller ˆµ ± t 1,0.975 SE(ˆµ) ideholder populatiomiddelværdie µ med h. 95%. Itervallet kalde et 95% kofideiterval for µ. Slide 11 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 12 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere
Kofideitervaller: krabbedata Kofideitervaller: fortolkig Huk: = 162, ȳ = 12.75 og = 2.25. Fraktiler: > qt(0.975,161) [1] 1.974808 > qt(0.95,161) [1] 1.654373 Bereg: Stadard error, SE( ˆµ)? 95% kofideiterval? 90% kofideiterval? 95%-kofideiterval for µ ȳ ± t 1,0.975 = ˆµ ± t 1,0.975 SE(ˆµ) Fortolkig: itervallet ideholder med 95% adylighed populatiogeemittet µ. Hvorda berege et 90%-kofideiterval? Bliver det bredere eller mallere? Hvad ker der hvi tikprøvetørrele voker? Bliver det tilvarede kofideiterval bredere eller mallere? Slide 13 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 14 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Kofideitervaller: fortolkig Hvi vi getog ekperimetet mage gage, å ville 95% af CI ere ideholde populatiogeemittet. Kofideitervaller for 50 dataæt fra N(0, 1). 95%, =10 75%, =10 95%, =40 Reumé: e tikprøve Statitik model: y 1,...,y 162 er uafhægige og y i N(µ,σ 2 ) Parametre, µ og σ: geemit og predig i populatioe Etimater: ˆµ = ȳ og ˆσ = Fordelig af etimat: ˆµ ormalfordelt med middelværdi µ og predig σ/ Stadard error, dv. etimeret predig for etimat: SE(ˆµ) = / 95%-kofideiterval: ȳ ± t 1,0.975 = ˆµ ± t 1,0.975 SE(ˆµ) Vi ka køre præci de amme pukter igeem for lieær regreio og eidet variaaalye (og mage adre modeller). µ µ µ Slide 15 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 16 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere
Hvorfor kal vi lære om ormalfordelige (u)? Har et tre typer af data/ekperimeter med kotiuerte data: Orgaic material 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 Eidet ANOVA Co Alp Er Fe Ive Spi Digetibility % 65 70 75 80 85 90 95 100 Lieær regreio E tikprøve: Blood preure 96 119 119 108 126 128 110 105 94 0 5 10 15 20 25 30 35 Stearic acid % Vi kal bruge ormalfordelige for alle tre forøgtyper/datatyper! Statitik model og parametre Statitik model: afvigelere fra de rette liie er ormalfordelt y i = α + β x i + e i, Atagelere er: Alle y i er ormalfordelte Middelværdie af y i er α + β x i Alle y i har amme predig Uafhægighed Parametre (populatiotørreler) Skærig α og hældig β Spredig σ om de rette liie e 1,...,e N(0,σ 2 ) uafhægige Slide 17 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 18 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Etimatio og fordelig af etimater Stadard error og kofideitervaller Etimatere ˆβ og ˆα å I allerede i uge 1... Etimat for predig: 1 = 2 (y i ˆα ˆβ x i ) 2 1 = 2 ˆβ og ˆα er ormalfordelte: ˆβ N (β, σ 2 ) ( 1, ˆα N (α,σ 2 SS + x 2 )), = x Ige: Etimatere rammer rigtigt i geemit, med e præciio der voker år voker. r 2 i (x i x) 2. Fordeliger: ˆβ N (β, σ 2 ) ( 1, ˆα N (α,σ 2 + x 2 )) Stadard error etimerede prediger SE( ˆβ) = 95% kofideitervaller: SSx, ˆβ ± t 0.975, 2 SE( ˆβ), SE(ˆα) = 1 + x 2 ˆα ± t 0.975, 2 SE(ˆα) Bemærk: t-fordelige med 2 frihedgrader fordi der er 2 middelværdiparametre. Samme om æver i formel for, df e! Slide 19 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 20 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere
Steariyredata Dage hovedpukter > model1 = lm(ford~yre) > ummary(model1) Coefficiet: Etimate Std. Error t value Pr(> t ) (Itercept) 96.53336 1.67518 57.63 1.24e-10 *** yre -0.93374 0.09262-10.08 2.03e-05 *** Reidual tadard error: 2.97 o 7 degree of freedom Cetrale græeværdiætig hvorfor er de cetral? Statitik model og parametre Etimater, fordelig af etimater, tadard error Kofideitervaller: etimat ± t-fraktil SE(etimat) og fortolkig Aalye: Statitik model? Fortolkig af parametre? Etimater? Kofideitervaller? Slide 21 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Slide 22 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere Ordlite Egelk average/mea cofidece iterval degree of freedom (df) leat quare method ample tadard deviatio (d) tadard error (SE) Dak geemit kofideiterval frihedgrader midte kvadrater metode tikprøve predig etimeret predig for etimat Slide 23 Statitik Dataaalye 1 (Uge 3-1 2010) Statitik ifere