Program Konfideninterval og hypoteetet en enkelt normalfordelt tikprøve Helle Sørenen E-mail: helle@math.ku.dk I dag: Lidt repetition fra i mandag Konfideninterval for µ the baic Tet af nulhypotee om µ the baic Øvele: ammenligning af to diæter (måke ført tordag) Flere nye (og vankelige?) begreber i dag! StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 1 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 2 / 22 Ekempel: hjerneceller ho marvin Ekempel: hjerneceller ho marvin Fra hvert af 30 marvin har man tilfældigt udvalgt en hjernecelle fra et betemt område og optalt antallet af dendritic branch egment. Reultater: Sidte uge: 38 42 25 35 35 33 48 53 17 21 38 29 49 26 41 26 35 38 44 24 25 45 28 31 46 32 39 59 53 19 Middelværdi og predning i populationen af marvin: µ og σ Stikprøvegennemnit og tikprøvepredning etimater for populationtørrelerne: ˆµ = ȳ = 35.8 og ˆσ = = 10.8. Hvor præcit er etimatet ȳ for µ? Hvor meget kan vi tole på det? Er det rimeligt at antage at data tammer fra en normalfordeling? 40 35 30 25 P e r c 20 e n t 15 10 5 0 20 30 40 50 60 count Hitogram og tæthed for N(ȳ,): 60 50 40 c o u n t 30 20 10-3 -2-1 0 1 2 3 Normal Quantile QQ-plot: ret linie? StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 3 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 4 / 22
Ekempel: hjerneceller ho marvin Normalfordelingen Statitik model: y 1,...,y n er normalf. med middelværdi µ og predning σ. Både µ og σ er ukendte tal (populationværdier), om vi etimerer vha. data: ˆµ = ȳ = 35.8, ˆσ = = 10.8 Specielt intereeret i populationmiddelværdien/-gennemnittet µ. Nogle værdier af µ er i modtrid med data, andre er ikke. Konfideninterval for µ: interval der indeholder værdier af populationmiddelværdien der ikke er i modtrid med data. Tet af hypotee: forkning indikerer at der gennemnitligt er 41 dendritic branch egment i en hjernecelle fra mu. Tyder data på en forkel mellem mu og marvin? StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 5 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 6 / 22 Normalfordelingen Normalfordelingen: andynlighed for µ ± kσ N(µ,σ): normalfordeling med middelværdi µ og predning σ. Huk: µ er centrum af fordelingen og rykker den til højre/ventre σ betemmer bredden af fordelingen Sandynlighed for at havne i interval er netop arealet under normalfordelingkurven, over intervallet. 95% andynlighed i intervallet µ ± 2σ. Lidt mere præcit: Check tabel B4. P(µ 1.96σ X µ + 1.96σ) = 0.95 Tranformation: Hvi X N(µ,σ) å er Z = (X µ)/σ N(0,1). Denity 99.7% 95% 68% σ StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 7 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 8 / 22
Fordeling af gennemnit Hvi y 1,...,y n N(µ,σ) å er ȳ N(µ,σ/ n). Specielt har ȳ predning σ/ n. Etimeret predning for ȳ er SE(ȳ) = / n (SE = tandard error) Denity 0.0 0.5 1.0 1.5 2.0 n = 10 1.0 0.5 0.0 0.5 1.0 y Denity 0.0 0.5 1.0 1.5 2.0 n = 25 1.0 0.5 0.0 0.5 1.0 y Konfideninterval for µ når σ er kendt Nu kal vi kæde tingene ammen... Vi har at å Hvi vi iolerer µ: Intervallet Z = ȳ µ σ/ n N(0,1) ( 0.95 = P( 1.96 < Z < 1.96) = P 1.96 < ȳ µ ) σ/ n < 1.96 0.95 = P (ȳ 1.96 n σ < µ < ȳ + 1.96 n σ ) ȳ ± 1.96 σ n kalde et 95% konfideninterval for µ i ituationen hvor σ er kendt. StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 9 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 10 / 22 Problem!... og en løning Se tabel 7.4 på ide 179 for fortolkning! Gentagele af dataindamling. Problem: Vi kan kun beregne intervallet ȳ ± 1.96 σ n hvi σ er et kendt tal og det er det næten aldrig... Hvi vi ertatter σ med det etimat er der tørre uikkerhed å intervallet kal være (lidt) bredere. Der gælder at dv. t-fordelt med n 1 frihedgrader. Se figur ide 181 og tabel B5 ide 463. T = ȳ µ / n t n 1 Bemærk: vi dividerede med n 1 i definitionen af derfor n 1 frihedgrader her. Konfideninterval for µ når σ er ukendt Lad t n 1,0.975 -være 97.5%-fraktilen i t n 1 -fordelingen. For ekempel er t 29,0.975 = 2.045. Så er Intervallet ( 0.95 = P t n 1,0.975 < ȳ µ ) < t n 1,0.975 ( ) 0.95 = P ȳ t n 1,0.975 < µ < ȳ + t n 1,0.975 n n ȳ ± t n 1,0.975 n kalde et 95% konfideninterval for µ i ituationen hvor σ er ukendt. Huk: ȳ,, n og t n 1,0.975 er alle kendte tal! Marvinene? StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 11 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 12 / 22
SKÅL fordi vi har lavet et konfideninterval og fordi... Øl Goet = Student Nulhypotee Huk at vi antager at vore obervationer y 1,...,y n er N(µ,σ)-fordelt. Antag at tidligere forkning har indikeret at antallet dendritic branch egment ho mu i gennemnit er 41. Tyder vore data på at marvin adkiller ig fra mu hvad angår antallet af dendritic branch egment? Hvi der ikke er forkel på mu og marvin har vi µ = 41. Vi vil tete hypoteen (nulhypoteen) at populationmiddelværdien er 41: H 0 : µ = 41 Hypoteen er en ektra retriktion på den tatitike model: I modellen: y i N(µ,σ) Under H 0 : y i N(41,σ) StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 13 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 14 / 22 Ideen i et hypoteetet Ideen i et hypoteetet Hypotee H 0 : µ = 41. Mere generelt, H 0 : µ = µ 0 for et kendt tal µ 0. Vi har etimatet bedte gæt ˆµ = ȳ. Hvi ȳ ligger langt fra 41, tyder det på at H 0 er falk. Hvi ȳ ligger tæt 41, tyder det ikke på at H 0 er falk. Men hvad er langt fra og hvad er tæt på? Værdien ˆµ = 35.8 alene er ikke nok kal tage højde for variationen i data! Skylde forkellen mellem 35.8 og 41 en reel forkel eller kylde den blot tilfældigheder? Hvad ville der ke hvi vi gentog ekperimentet (anden tikprøve)? Måler langt fra v. tæt på på følgende måde: Hvi H 0 virkelig er and dv. µ er 41 hvor andynligt er det å at få et ȳ der ligger lige å langt eller længere fra 41 end de 35.8 om vi faktik fik? Hvi det er meget uandynligt at få noget der ligger længere væk, å tyder det på at hypoteen er falk. Hvi det er ret andynligt at få noget der ligger længere væk, å tyder det ikke på at hypoteen er falk. Dette er grundtanken i hypoteetetet! Lad o være mere præcie... StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 15 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 16 / 22
t-tettørrelen Statitik model: y i N(µ,σ 2 ). Hypotee, H 0 : µ = µ 0. Huk at ˆµ = ȳ er normalfordelt med middelværdi µ og predning σ/ n. Hvi hypoteen H 0 : µ = µ 0 er and: ˆµ = ȳ er normalfordelt med middelværdi µ 0 og predning σ/ n. Standardiér og ertat σ med : Vi fik ȳ = 35.8 og = 10.78. Så T = ȳ µ 0 / n = ȳ µ 0 SE(ȳ) t n 1 T = 35.8 41 10.8/ 30 = 2.64 Kan nu bruge t-fordelingen til at ige om dette er langt fra eller tæt på nul! p-værdi og konkluion på tet p-værdien er andynligheden hvi H 0 er and for at få en værdi af T der ligger lige å langt eller længere væk fra nul end det vi fik: t(29) tæthed 0.0 0.1 0.2 0.3 0.4 p = P ( T 2.64 ) = 2 P ( T 2.64 ) = 0.013, 4 2 0 2 4 T tettørrele Hvi H 0 er and er det altå ikke ærligt andynligt at få en å tor værdi af T om vi fik H 0 afvie. Skiller normalt ved 5%. p < 0.05: H 0 afvie p 0.05: H 0 kan ikke afvie Værdien 0.013 kommer fra proc ttet. StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 17 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 18 / 22 Signifikanniveau og kritike værdier Øvele: ammenligning af to diæter Hvi vi bruger de 5% om ignifikanniveau, å bliver det afgørende om T er tørre eller mindre end 97.5%-fraktilen i t n 1 -fordelingen. Fra tabel B5 ved vi at t 29,0.975 er 2.045. Hvi den oberverede værdi af T var ±2.045 ville vi altå præci få p-værdien 5%. Vore p-værdi bliver derfor mindre. Fra tabellen får vi endda: Konkluion: 0.01 < p < 0.02 Vi har med en vi ikkerhed (p = 0.013) påvit at marvin og mu ikke har amme antal dendritic branch egment i gennemnit. For marvin er populationgennemnittet etimeret til 35.8 med 95%-konfideninterval (31.8, 39.8). Data fra Table 8.3 (ide 222): 20 par af peroner. Parret å peronerne i et par har amme køn, (cirka) amme vægt, amme motionniveau, amme... De to peroner i et par at på hver in diæt: diæt 1 og 2. Vægttab efter diæt regitreret for alle 40 peroner. Ønker: y 1,...,y n N(µ,σ) hvor µ og σ er en for alle i. Hvad kal være vore reponvariabel, dv. vore y 1? Hvad er n? Hvad er fortolkningen af µ? Hvilken hypotee er vi intereeret i? Hvilke tørreler har vi brug for, for at kunne beregne etimater, konfideninterval og udføre tet? Hvorfor har man parret peronerne? StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 19 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 20 / 22
Hypoteetet: vigtige begreber mm. Reumé Vigtige begreber: Hypotee/nulhypotee, H 0. Tettørrele p-værdi Signifikanniveau Afvier eller afvier ikke H 0. Statitik model: y 1,...,y n N(µ,σ). Konfideninterval for µ. Interval der med en vi ikkerhed indeholder de værdier af µ der ikke er i modtrid med data. 95%-konfideninterval: ȳ ± t n 1,0.975 n Tet af hypotee Hypotee, H 0 : µ = µ 0. Tettørrele, T = ȳ µ 0 / n t n 1 p-værdi, p = 2 P ( T T ob ) Hypoteen kan afvie hvi p < 0.05, eller ikke. StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 21 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 22 / 22