Program. Konfidensinterval og hypotesetest en enkelt normalfordelt stikprøve. Eksempel: hjerneceller hos marsvin. Eksempel: hjerneceller hos marsvin

Relaterede dokumenter
Program. Statistik og Sandsynlighedsregning 2 Normalfordelingens venner og bekendte. χ 2 -fordelingen

Kursus Introduktion til Statistik. Oversigt, Inferens for gennemsnit (One-sample setup)

6.7 Capital Asset Pricing Modellen

I dag. Binomialfordelingen Sandsynlighedsregning og statistik. Eksempel: cornflakessmagning. Binomialfordelingen

Program. Statistisk inferens En enkelt stikprøve og lineær regression Stat. modeller, estimation og konfidensintervaller. Fordeling af gennemsnit

Geometrisk nivellement. Landmålingens fejlteori - Lektion 7 - Repetition - Fejlforplantning ved geometrisk nivellement. Modellen.

Statistik Lektion 8. Test for ens varians

Hypotesetest. Hypotesetest og kritiske værdier Type 1 og Type 2 fejl Styrken af en test Sammenligning af to populationer

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Vanskelige vilkår for generationsskifte med nye regler - Afskaffelse af formueskattekursen samt svækkelse af sikkerheden trods bindende svar

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program

Faldmaskine. Esben Bork Hansen Amanda Larssen Martin Sven Qvistgaard Christensen. 23. november 2008

Termodynamik - Statistisk fysik - Termodynamiske relationer - Fri energi - Entropi

Estimation og test i normalfordelingen

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Matematisk modellering og numeriske metoder

Opgaver til kapitel 3

Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot

Løsning eksamen d. 15. december 2008

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Statistik og Sandsynlighedsregning 2

Uge 10 Teoretisk Statistik 1. marts 2004

Statistik og Sandsynlighedsregning 2

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Sammenhængen mellem strækning og tid Farten angiver den tilbagelagte strækning i et tidsrum. Farten kan bestemmes ved brug af formlen:

Nanostatistik: Test af hypotese

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Brugerundersøgelse 2013 Plejebolig

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

BRUGERUNDERSØGELSE 2015 PLEJEBOLIG LANGGADEHUS

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Nanostatistik: Konfidensinterval

StatDataN: Test af hypotese

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Hjemmeopgave 1 Makroøkonomi, 1. årsprøve, foråret 2005 Vejledende besvarelse

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Normalfordelingen og Stikprøvefordelinger

Statistik Lektion 4. Variansanalyse Modelkontrol

Er der tvivl, om hvorvidt den sne, der retningslinier for tiltag mod alvorlige

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Selkirk Rex i Danmark

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Proteinkemi Grp. P1 Side 1 af 63

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

StatDataN: Plot af data

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

En Introduktion til SAS. Kapitel 5.

Produkt og marked - matematiske og statistiske metoder

BRUGERUNDERSØGELSE 2014 PLEJEBOLIG. Dr. Ingrids Hjem. Sundheds- og Omsorgsforvaltningen - Brugerundersøgelse 2014: Plejebolig 1

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Modelkontrol i Faktor Modeller

Tema. Dagens tema: Indfør centrale statistiske begreber.

Den stokastiske variabel X angiver levetiden i timer for en elektrisk komponent. Tæthedsfunktionen for den stokastiske variabel er givet ved

Kvantitative Metoder 1 - Forår Dagens program

Hvorfor er normalfordelingen så normal?

Må vi lege doktor? En folder til forældre om seksuel udvikling blandt børn i alderen 0-6 år

Nanostatistik: Opgavebesvarelser

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Undervisningsmiljøvurdering Style og Wellness College

SHARKY varmeenergimålere

Kvantitative Metoder 1 - Forår Dagens program

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Afdækning af nyankomne elevers sprog og erfaringer

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Note om Monte Carlo metoden

Eksamen i Statistik for biokemikere. Blok

Module 9: Residualanalyse

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Kogebog: 5. Beregn F d

Højde af kvinder 2 / 18

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Konfidensintervaller og Hypotesetest

Samtaleark. Del 1: Elevens sprog. Spørgsmål til eleven. Noter og observationer under samtalen. Angiv elevens stærkeste sprog:

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Forelæsning 4: Konfidensinterval for middelværdi (og spredning)

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Transkript:

Program Konfideninterval og hypoteetet en enkelt normalfordelt tikprøve Helle Sørenen E-mail: helle@math.ku.dk I dag: Lidt repetition fra i mandag Konfideninterval for µ the baic Tet af nulhypotee om µ the baic Øvele: ammenligning af to diæter (måke ført tordag) Flere nye (og vankelige?) begreber i dag! StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 1 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 2 / 22 Ekempel: hjerneceller ho marvin Ekempel: hjerneceller ho marvin Fra hvert af 30 marvin har man tilfældigt udvalgt en hjernecelle fra et betemt område og optalt antallet af dendritic branch egment. Reultater: Sidte uge: 38 42 25 35 35 33 48 53 17 21 38 29 49 26 41 26 35 38 44 24 25 45 28 31 46 32 39 59 53 19 Middelværdi og predning i populationen af marvin: µ og σ Stikprøvegennemnit og tikprøvepredning etimater for populationtørrelerne: ˆµ = ȳ = 35.8 og ˆσ = = 10.8. Hvor præcit er etimatet ȳ for µ? Hvor meget kan vi tole på det? Er det rimeligt at antage at data tammer fra en normalfordeling? 40 35 30 25 P e r c 20 e n t 15 10 5 0 20 30 40 50 60 count Hitogram og tæthed for N(ȳ,): 60 50 40 c o u n t 30 20 10-3 -2-1 0 1 2 3 Normal Quantile QQ-plot: ret linie? StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 3 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 4 / 22

Ekempel: hjerneceller ho marvin Normalfordelingen Statitik model: y 1,...,y n er normalf. med middelværdi µ og predning σ. Både µ og σ er ukendte tal (populationværdier), om vi etimerer vha. data: ˆµ = ȳ = 35.8, ˆσ = = 10.8 Specielt intereeret i populationmiddelværdien/-gennemnittet µ. Nogle værdier af µ er i modtrid med data, andre er ikke. Konfideninterval for µ: interval der indeholder værdier af populationmiddelværdien der ikke er i modtrid med data. Tet af hypotee: forkning indikerer at der gennemnitligt er 41 dendritic branch egment i en hjernecelle fra mu. Tyder data på en forkel mellem mu og marvin? StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 5 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 6 / 22 Normalfordelingen Normalfordelingen: andynlighed for µ ± kσ N(µ,σ): normalfordeling med middelværdi µ og predning σ. Huk: µ er centrum af fordelingen og rykker den til højre/ventre σ betemmer bredden af fordelingen Sandynlighed for at havne i interval er netop arealet under normalfordelingkurven, over intervallet. 95% andynlighed i intervallet µ ± 2σ. Lidt mere præcit: Check tabel B4. P(µ 1.96σ X µ + 1.96σ) = 0.95 Tranformation: Hvi X N(µ,σ) å er Z = (X µ)/σ N(0,1). Denity 99.7% 95% 68% σ StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 7 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 8 / 22

Fordeling af gennemnit Hvi y 1,...,y n N(µ,σ) å er ȳ N(µ,σ/ n). Specielt har ȳ predning σ/ n. Etimeret predning for ȳ er SE(ȳ) = / n (SE = tandard error) Denity 0.0 0.5 1.0 1.5 2.0 n = 10 1.0 0.5 0.0 0.5 1.0 y Denity 0.0 0.5 1.0 1.5 2.0 n = 25 1.0 0.5 0.0 0.5 1.0 y Konfideninterval for µ når σ er kendt Nu kal vi kæde tingene ammen... Vi har at å Hvi vi iolerer µ: Intervallet Z = ȳ µ σ/ n N(0,1) ( 0.95 = P( 1.96 < Z < 1.96) = P 1.96 < ȳ µ ) σ/ n < 1.96 0.95 = P (ȳ 1.96 n σ < µ < ȳ + 1.96 n σ ) ȳ ± 1.96 σ n kalde et 95% konfideninterval for µ i ituationen hvor σ er kendt. StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 9 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 10 / 22 Problem!... og en løning Se tabel 7.4 på ide 179 for fortolkning! Gentagele af dataindamling. Problem: Vi kan kun beregne intervallet ȳ ± 1.96 σ n hvi σ er et kendt tal og det er det næten aldrig... Hvi vi ertatter σ med det etimat er der tørre uikkerhed å intervallet kal være (lidt) bredere. Der gælder at dv. t-fordelt med n 1 frihedgrader. Se figur ide 181 og tabel B5 ide 463. T = ȳ µ / n t n 1 Bemærk: vi dividerede med n 1 i definitionen af derfor n 1 frihedgrader her. Konfideninterval for µ når σ er ukendt Lad t n 1,0.975 -være 97.5%-fraktilen i t n 1 -fordelingen. For ekempel er t 29,0.975 = 2.045. Så er Intervallet ( 0.95 = P t n 1,0.975 < ȳ µ ) < t n 1,0.975 ( ) 0.95 = P ȳ t n 1,0.975 < µ < ȳ + t n 1,0.975 n n ȳ ± t n 1,0.975 n kalde et 95% konfideninterval for µ i ituationen hvor σ er ukendt. Huk: ȳ,, n og t n 1,0.975 er alle kendte tal! Marvinene? StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 11 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 12 / 22

SKÅL fordi vi har lavet et konfideninterval og fordi... Øl Goet = Student Nulhypotee Huk at vi antager at vore obervationer y 1,...,y n er N(µ,σ)-fordelt. Antag at tidligere forkning har indikeret at antallet dendritic branch egment ho mu i gennemnit er 41. Tyder vore data på at marvin adkiller ig fra mu hvad angår antallet af dendritic branch egment? Hvi der ikke er forkel på mu og marvin har vi µ = 41. Vi vil tete hypoteen (nulhypoteen) at populationmiddelværdien er 41: H 0 : µ = 41 Hypoteen er en ektra retriktion på den tatitike model: I modellen: y i N(µ,σ) Under H 0 : y i N(41,σ) StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 13 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 14 / 22 Ideen i et hypoteetet Ideen i et hypoteetet Hypotee H 0 : µ = 41. Mere generelt, H 0 : µ = µ 0 for et kendt tal µ 0. Vi har etimatet bedte gæt ˆµ = ȳ. Hvi ȳ ligger langt fra 41, tyder det på at H 0 er falk. Hvi ȳ ligger tæt 41, tyder det ikke på at H 0 er falk. Men hvad er langt fra og hvad er tæt på? Værdien ˆµ = 35.8 alene er ikke nok kal tage højde for variationen i data! Skylde forkellen mellem 35.8 og 41 en reel forkel eller kylde den blot tilfældigheder? Hvad ville der ke hvi vi gentog ekperimentet (anden tikprøve)? Måler langt fra v. tæt på på følgende måde: Hvi H 0 virkelig er and dv. µ er 41 hvor andynligt er det å at få et ȳ der ligger lige å langt eller længere fra 41 end de 35.8 om vi faktik fik? Hvi det er meget uandynligt at få noget der ligger længere væk, å tyder det på at hypoteen er falk. Hvi det er ret andynligt at få noget der ligger længere væk, å tyder det ikke på at hypoteen er falk. Dette er grundtanken i hypoteetetet! Lad o være mere præcie... StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 15 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 16 / 22

t-tettørrelen Statitik model: y i N(µ,σ 2 ). Hypotee, H 0 : µ = µ 0. Huk at ˆµ = ȳ er normalfordelt med middelværdi µ og predning σ/ n. Hvi hypoteen H 0 : µ = µ 0 er and: ˆµ = ȳ er normalfordelt med middelværdi µ 0 og predning σ/ n. Standardiér og ertat σ med : Vi fik ȳ = 35.8 og = 10.78. Så T = ȳ µ 0 / n = ȳ µ 0 SE(ȳ) t n 1 T = 35.8 41 10.8/ 30 = 2.64 Kan nu bruge t-fordelingen til at ige om dette er langt fra eller tæt på nul! p-værdi og konkluion på tet p-værdien er andynligheden hvi H 0 er and for at få en værdi af T der ligger lige å langt eller længere væk fra nul end det vi fik: t(29) tæthed 0.0 0.1 0.2 0.3 0.4 p = P ( T 2.64 ) = 2 P ( T 2.64 ) = 0.013, 4 2 0 2 4 T tettørrele Hvi H 0 er and er det altå ikke ærligt andynligt at få en å tor værdi af T om vi fik H 0 afvie. Skiller normalt ved 5%. p < 0.05: H 0 afvie p 0.05: H 0 kan ikke afvie Værdien 0.013 kommer fra proc ttet. StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 17 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 18 / 22 Signifikanniveau og kritike værdier Øvele: ammenligning af to diæter Hvi vi bruger de 5% om ignifikanniveau, å bliver det afgørende om T er tørre eller mindre end 97.5%-fraktilen i t n 1 -fordelingen. Fra tabel B5 ved vi at t 29,0.975 er 2.045. Hvi den oberverede værdi af T var ±2.045 ville vi altå præci få p-værdien 5%. Vore p-værdi bliver derfor mindre. Fra tabellen får vi endda: Konkluion: 0.01 < p < 0.02 Vi har med en vi ikkerhed (p = 0.013) påvit at marvin og mu ikke har amme antal dendritic branch egment i gennemnit. For marvin er populationgennemnittet etimeret til 35.8 med 95%-konfideninterval (31.8, 39.8). Data fra Table 8.3 (ide 222): 20 par af peroner. Parret å peronerne i et par har amme køn, (cirka) amme vægt, amme motionniveau, amme... De to peroner i et par at på hver in diæt: diæt 1 og 2. Vægttab efter diæt regitreret for alle 40 peroner. Ønker: y 1,...,y n N(µ,σ) hvor µ og σ er en for alle i. Hvad kal være vore reponvariabel, dv. vore y 1? Hvad er n? Hvad er fortolkningen af µ? Hvilken hypotee er vi intereeret i? Hvilke tørreler har vi brug for, for at kunne beregne etimater, konfideninterval og udføre tet? Hvorfor har man parret peronerne? StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 19 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 20 / 22

Hypoteetet: vigtige begreber mm. Reumé Vigtige begreber: Hypotee/nulhypotee, H 0. Tettørrele p-værdi Signifikanniveau Afvier eller afvier ikke H 0. Statitik model: y 1,...,y n N(µ,σ). Konfideninterval for µ. Interval der med en vi ikkerhed indeholder de værdier af µ der ikke er i modtrid med data. 95%-konfideninterval: ȳ ± t n 1,0.975 n Tet af hypotee Hypotee, H 0 : µ = µ 0. Tettørrele, T = ȳ µ 0 / n t n 1 p-værdi, p = 2 P ( T T ob ) Hypoteen kan afvie hvi p < 0.05, eller ikke. StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 21 / 22 StatBK (Uge 2, tirdag) Konfideninterval og hypoteetet 22 / 22