StatDataN: Test af hypotese

Relaterede dokumenter
Nanostatistik: Test af hypotese

Nanostatistik: Konfidensinterval

StatDataN: Plot af data

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Nanostatistik: Opgavebesvarelser

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Kvantitative Metoder 1 - Forår 2007

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Nanostatistik: Opgaver

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Produkt og marked - matematiske og statistiske metoder

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Statistik og Sandsynlighedsregning 2

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

1 Hb SS Hb Sβ Hb SC = , (s = )

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Uge 10 Teoretisk Statistik 1. marts 2004

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Sandsynlighedsregning

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Susanne Ditlevsen Institut for Matematiske Fag susanne

Estimation og konfidensintervaller

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Hypotesetests, fejltyper og p-værdier

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Løsning eksamen d. 15. december 2008

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Preben Blæsild og Jens Ledet Jensen

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Statistiske principper

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Hvorfor er normalfordelingen så normal?

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Kvantitative Metoder 1 - Forår Dagens program

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Basal statistik. 6. februar 2007

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Løsning til eksaminen d. 29. maj 2009

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Basal statistik. 11.september 2007

Basal statistik. 6. februar 2007

Personlig stemmeafgivning

Konfidensintervaller og Hypotesetest

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Definition. Definitioner

Statistiske modeller

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Højde af kvinder 2 / 18

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Note om Monte Carlo metoden

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Basal statistik. 11.september Sandsynligheder Fordelinger og modeller Statistisk analyse Type 1 og 2 fejl, styrke

Forelæsning 9: Inferens for andele (kapitel 10)

Kapitel 12 Variansanalyse

Kvantitative Metoder 1 - Efterår Dagens program

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

(studienummer) (underskrift) (bord nr)

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Statistik og Sandsynlighedsregning 1. IH kapitel 6

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

StatDataN: Middelværdi og varians

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Om hypoteseprøvning (1)

Kvantitative Metoder 1 - Efterår Dagens program

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Opgaver til kapitel 3

Løsning til eksaminen d. 14. december 2009

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Kapitel 12 Variansanalyse

statistik statistik viden fra data statistik viden fra data Jens Ledet Jensen Aarhus Universitetsforlag Aarhus Universitetsforlag

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Transkript:

StatDataN: Test af hypotese JLJ StatDataN: Test af hypotese p. 1/69

Repetition n uafhængige gentagne målinger: Fordelingsundersøgelse: Pindediagram / Histogram qq-plot Parameter: egenskab ved fordeling af stokastiske variabel Skøn over parameter: unbiased, lille varians Binomial: ˆp = X Normal: ˆµ = X, variansestimat = s 2 = 1 n 1 n i=1 (x i x) 2 Maximum likelihood estimation: find θ som maximerer ss for det observerede som funktion af θ StatDataN: Test af hypotese p. 2/69

Spørgsmål Er Peter større end Søren? Er danske mænd federe end danske kvinder? Er en mønt fair? Virker to medicinpræparater lige godt? StatDataN: Test af hypotese p. 3/69

Hypotese Ex: Skal vi acceptere et fifty-fifty væddemål baseret på kast med mønt? Hypotese: p = 2 1, p = P(krone) Ex: Medicinalfirma hævder at nyt præparat er bedre end det hidtil anvendte Forbrugeren: teste dette udsagn Forbruger er konservativ: vil ikke opgive det velprøvede præparat medmindre nye er klart bedre Hypotese: Nye præparat har samme effekt som gamle Alternativ: Nye præparat er bedre Ex: Tyngdeaccelerationen er målt i København til 9.81m/s 2. Vi vil undersøge om undergrunden under Ribe er anderledes end i Kbh Hypotese: tyngdeaccelerationen i Ribe er 9.81m/s 2 StatDataN: Test af hypotese p. 4/69

Hypotese Hypotese: Et udsagn om værdien af en parameter i modellen (Ex: θ = θ 0 ) Alternativ: alternative værdier af parameteren (Ex1: θ θ 0, Ex2: θ > θ 0 ) Parameter θ P θ data vurdere udsagn om θ Vi ved ikke om en hypotese er sand eller falsk Indsamlede data skal bruges til at træffe en kvalificeret afgørelse StatDataN: Test af hypotese p. 5/69

Lysmålinger Omkring 1880 målte Simon Newcomb lyset hastighed over en afstand på 7400m. Nedenstående målinger skal lægges til 24800 og er tiden i nanosekunder. Den sande værdi med moderne måleteknikker er 33.02. 28 22 36 26 28 28 26 24 32 30 27 24 33 21 36 32 31 25 24 25 28 36 27 32 34 30 25 26 26 25 23 21 30 33 29 27 29 28 22 26 27 16 31 29 36 32 28 40 19 37 23 32 29 24 25 27 24 16 29 20 28 27 39 23 Spørgsmål: Målte Newcomb rigtigt? Model: X 1,...,X 64 N(µ,5 2 ). Hypotese: Er µ = 33.02? Vis plot: spreder punkterne sig omkring 33.02? Varians = 5 2 = måleusikkerhed StatDataN: Test af hypotese p. 6/69

Lysmålinger Spreder punkterne sig omkring 33.02? Er x = 27.75 tæt på 33.02? Hvis µ = 33.02 er X N(33.02, 5 2 ) Er 27.75 et typisk udfald fra en N(33.02, 5 2 /64) fordeling? Acceptområde: intervallet [33.02 2 5 8, 33.02 + 25 8 ] Forkastelsesområde: alt andet: [, 33.02 2 5 8 ] [33.02 + 25 8, ] StatDataN: Test af hypotese p. 7/69

Lysmålinger Mulige fejl: Newcomb målte rigtigt, men vi siger at han målte forkert Newcomb målte forkert, men vi siger at han målte rigtigt Hvis Newcomb målte rigtigt, hvad er da sandsynligheden for at vi forkaster µ = 33.02? P( X 33.02 > 28 5 ) = Φ( 2) + (1 Φ(2)) = 0.046 Hvis Newcomb målte forkert, lad os sige µ = 28, hvad er da sandsynligheden for at vi forkaster µ = 33.02? P( N(28, (5/8) 2 ) 33.02 > 2 5 8 ) = 1 StatDataN: Test af hypotese p. 8/69

Lysmålinger Hvis Newcomb målte rigtigt, hvad er da sandsynligheden for at få en værdi af X der ligger længere væk fra 33.02 end 27.75 gør? P( X 33.02 > (33.02 27.75) = 2Φ( 5.27/(5/8)) = 0.000 StatDataN: Test af hypotese p. 9/69

Test af en hypotese Baseret på observation af X 1,X 2,...,X n ønsker vi at sige enten: vi accepterer hypotesen eller: vi forkaster hypotesen Test: deler udfaldsrummet op i en del hvor vi accepterer og en del hvor vi forkaster hypotese resultat af test sand falsk accepterer fint fejl af type II forkaster fejl af type I fint StatDataN: Test af hypotese p. 10/69

Test af en hypotese sandsynlighed hypotese sand hypotese falsk forkastelsesområde α = 5% β =? Ex:55% acceptområde 1 α = 95% 1 β =? Ex:45% α vælges af os β afhænger af n og alternativet α = fejl af type I = niveau af test Sprogbrug: Test på niveau 5% β kaldes styrken StatDataN: Test af hypotese p. 11/69

p-værdi Intuitivt kan vi altid rangordne udfald og tale om at ét udfald er værre end et andet udfald for hypotesen Hvis x 1 og x 2 er to udfald og der findes et niveau α så at x 1 ligger i forkastelsesområdet og x 2 ligger i acceptområdet så er x 1 værre end x 2 p-værdi for en observation x er sandsynligheden, beregnet under hypotesen, for at få en værdi af X der er lige så slem eller værre end den faktisk observerede x StatDataN: Test af hypotese p. 12/69

p-værdi p-værdien for observationen x = p(x) = P H (værdi af X der er lige så slem eller værre end x) Vis R-plot StatDataN: Test af hypotese p. 13/69

Cartoon StatDataN: Test af hypotese p. 14/69

Normalfordeling: test for µ = 0, σ 2 kendt Ex: Diffusion med drift µ (ukendt) og diffusionskoefficient σ 2 (kendt). Observerer position til tid 1. X 1,...,X n uafhængige N(µ,σ 2 )-fordelte Estimat for µ: ˆµ = X = 1 n n i=1 X i Hypotese: ingen kræfter påvirker partiklen, dvs µ = 0 Alternativ: µ 0 Intuitivt: Hvis X er tæt på nul tror vi på µ = 0, hvis X er langt fra nul tror vi ikke på at µ = 0 Acceptområde: c < X < c Forkastelsesområde: X c StatDataN: Test af hypotese p. 15/69

Teste µ = 0 Test på niveau 5% - hvad skal c være? Når µ = 0 er X N(0, n 1σ2 ) n n X σ N(0, n 1σ2 ( σ )2 ) = N(0, 1) Niveau = P( X c) = P( n σ X = 2[1 Φ( n σ c)] u p : Φ(u p ) = p eller 1 Φ(u p ) = 1 p n σ c) n σ 0.05 Niveau 5%: 1 Φ( c) = 2 = 0.025 = 1 0.975 n σ c = u 0.975 c = σ n u 0.975, u 0.975 = 1.96 StatDataN: Test af hypotese p. 16/69

Acceptområde Acceptområde: X < σ n u 0.975 eller n σ X < u 0.975 Forkastelsesområde: n σ X u 0.975 p-værdi: observeret værdi = x ss for noget der er værre end x = P H ( X x ) = 2[1 Φ( n σ x )] StatDataN: Test af hypotese p. 17/69

Styrke SS (=styrke) for at forkaste under alternativ: µ 0 X N(µ, σ2 n ) P( X c) = P( X c) + P( X c) ( ) ( n n n = P σ ( X µ) ( c µ) + P σ σ ( X µ) ( ) ( ) n n = Φ ( c µ) + 1 Φ (c µ) σ σ n σ ) (c µ) Med c = σ n u 0.975 fås ( Φ u 0.975 n σ µ ) + 1 Φ ( u 0.975 n σ µ ) Vis plot: µ fast / n fast StatDataN: Test af hypotese p. 18/69

Resume Model: X 1,...X n uafhængige N(µ,σ 2 )-fordelte, σ 2 kendt Hypotese: µ = 0 Alternativ: µ 0 n Beregn Z = X, σ observerede værdi = z Accept: z < u 0.975 Forkast: z u 0.975 p-værdi: 2[1 Φ( z )] StatDataN: Test af hypotese p. 19/69

Data-eksempel I en produktion af kobbertråd tages med passende mellemrum 9 stykker ud af ens længde og stykkerne vejes. Man ved af erfaring at måleusikkerheden er σ 2 = 0.000074. Man tilstræber en produkstandard svarende til en vægt på 18.441g. Her er 9 målinger fratrukket 18.441 (vis qqplot): 0.016-0.007 0.003 0.020 0.012 0.006 0.011-0.001 0.002 Beregninger: n = 9, x i = 0.062, x = 0.00689 z = 9 0.00689 0.000074 = 2.40 u 0.975 = 1.96 Konklusion: da 2.40 > 1.96 forkaster vi hypotesen om at middelværdien er 0 StatDataN: Test af hypotese p. 20/69

Teste µ = µ 0, σ 2 kendt I diffusionseksemplet kan vi være interesseret i at teste at der kun er én kendt kraft som påvirker partiklen, svarende til en bestemt drift µ 0 Model: X 1,...,X n uafhængige, X i N(µ,σ 2 ) Hypotese: µ = µ 0 Alternativ: µ µ 0 Lad X i = X i µ 0 N( µ,σ 2 ), µ = µ µ 0 Bemærk at X = X µ0 Så skal vi teste µ = 0 mod µ 0 Beregn Z = n σ ( X µ 0 ) observerede værdi z accept: z < u 0.975, forkast: z u 0.975 p-værdi: 2[1 Φ( z )] StatDataN: Test af hypotese p. 21/69

Tyngdeacceleration i Ribe En bestemt experimentel opstilling til måling af tyngdeaccelerationen giver anledning til en måleusikkerhed på σ = 0.1m/s 2. Hvis den sande tyngdeacceleration er µ vil en måling X være normalfordelt med middelværdi µ og varians σ 2 For at teste om tyngdeaccelerationen i Ribe er den samme som i København, nemlig 9.81m/s 2, foretages 10 målinger. Data er 9.69 9.67 10.03 9.92 9.85 9.90 9.82 9.75 9.80 10.04 Se qq-plot n = 10, x = 10 1 x i = 98.47, x = 9.847, µ 0 = 9.81, u 0.975 = 1.96 z = 10 9.847 9.81 0.1 = 1.17 Da 1.17 < 1.96 accepterer vi hypotesen at tyngdeaccelerationen i Ribe er 9.81m/s 2 StatDataN: Test af hypotese p. 22/69

Ensidet test for µ = 0, σ 2 kendt I diffusionseksemplet vil vi teste at ingen kræfter påvirker partiklen (µ = 0) mod alternativet at der er en kraft fra den ene side svarende til µ > 0 Intuitivt: Hvis X er tæt på nul eller er negativ tror vi på at µ = 0. Hvis X er stor og positiv tror vi ikke længere på at µ = 0 når alternativet er µ > 0 Acceptområde: X < c Forkastelsesområde: X c Hvad skal c være for at få test på niveau 5%? X c Z = n X σ n σ c, Z N(0, 1) P H (Z u 0.95 ) = 0.95, vælg n σ c = u 0.95 Accept: Z < u 0.95, Forkast: Z u 0.95 StatDataN: Test af hypotese p. 23/69

Ensidet test for µ = µ 0, σ 2 kendt Model: X 1,...,X n uafhængige, X i N(µ,σ 2 ) Hypotese: µ = µ 0 Alternativ: µ > µ 0 Beregn Z = n σ ( X µ 0 ) Accept: Z < u 0.95 Forkast: Z u 0.95 p-værdi: et observeret gennemsnit y er værre for hypotesen end et observeret gennemsnit x hvis y > x og y > 0 p-værdi = 1 Φ ( n ) σ ( x µ 0) hvis x > µ 0 1 hvis x µ 0 StatDataN: Test af hypotese p. 24/69

Cartoon StatDataN: Test af hypotese p. 25/69

Kast med en mønt: teste p = 1 2 Model: X 1,...,X n uafhængige, P(X i = 1) = p, P(X i = 0) = 1 p Hypotese: p = 1 2 Alternativ: p 1 2 Estimat for p: ˆp = 1 n n i=1 X i = X = observeret frekvens Intuitivt: hvis ˆp er tæt på 1 2 så tror vi på at p = 1 2 ellers ikke StatDataN: Test af hypotese p. 26/69

Teste p = 1 2 Ex: n = 6 Forkastelsesområde Niveau F 1 = { 0 6, 6 6 } ( 6 0) ( 1 2 )6 + ( ) 6 6 ( 1 2 )6 = 1 32 0.031 F 2 = F 1 { 1 6, 5 6 } 1 32 + ( ) 6 1 ( 1 2 )6 + ( ) 6 5 ( 1 2 )6 = 7 32 0.22 F 3 = F 2 { 2 6, 4 6 } 7 32 + ( ) 6 2 ( 1 2 )6 + ( ) 6 4 ( 1 2 )6 = 22 32 0.69 Ex: n = 8 Forkastelsesområde Niveau F 1 = { 0 8, 8 8 } ( 8 0) ( 1 2 )8 + ( ) 8 8 ( 1 F 2 = F 1 { 1 8, 7 8 } 1 128 + ( ) 8 1 ( 1 2 )8 + ( ) 8 7 ( 1 F 3 = F 2 { 2 8, 6 8 } 9 128 + ( ) 8 2 ( 1 2 )8 + ( ) 8 6 ( 1 2 )8 = 1 2 )8 = 9 2 )8 = 37 128 0.008 128 0.070 128 0.29 StatDataN: Test af hypotese p. 27/69

Teste p = 1 2 Ex: n = 10 Forkastelsesområde Niveau F 1 = { 0 10, 10 10 } = 1 512 0.002 F 2 = F 1 { 1 10, 9 10 } = 11 512 0.021 F 3 = F 2 { 2 10, 8 10 } = 56 512 0.11 Vis illustrationer i R Vi har et begrænset antal mulige niveauer for testet StatDataN: Test af hypotese p. 28/69

Teste p = 1 2 X = n i=1 X i Forkaster hvis X k eller X n k Niveau = α(k) = 2F binom(n, 1 2 )(k) (F er fordelingsfunktionen, dvs F(x) = P(X x)) p-værdi = ss for at få noget der ligger længere væk fra 1 2 end observationen x = { 2Fbinom(n, 1 2 )(x ) hvis x < n 2 2(1 F binom(n, 1 2 )(x 1)) hvis x > n 2 StatDataN: Test af hypotese p. 29/69

Teste p = 1 2 Normalfordelingsapproximation: X N( 1 2, 1 4n ) (centrale grænseværdisætning) X = n i=1 X i N( n 2, n 4 ) Beregn z = x 1 2 n 2 n/4 hvis x > n 2 x + 1 2 n 2 n/4 hvis x < n 2 Forkaster hypotesen p = 2 1 z u 0.975 på niveau 5% hvis p-værdi = 2[1 Φ( z )] StatDataN: Test af hypotese p. 30/69

Fødsler i London I perioden 1629-1710 fødtes der n = 938223 børn i London Fordelt efter køn: Drenge: 484282, piger: 453841 Vi vil teste at drenge- og pigefødsler er lige hyppige. Vi kan betragte antallet af drenge som binomialfordelt, og vil teste at p = 1 2 Teststørrelse: z = 484282 1 2 938223 2 = 31.3 938223/4 Vi har således en klar forkastelse af hypotesen: 31.3 >> 1.96 p-værdi: 2[1 Φ(31.3)] = 4.7 10 215 StatDataN: Test af hypotese p. 31/69

Ny forelæsning StatDataN: Test af hypotese p. 32/69

Ærteforsøg I 1865 lavede Mendel et forsøg med selvbefrugtning af 10 ærteplanter. Kimbladenes farve bestemmes af to allelle gener A og B. AA og AB: gule kimblade, BB: grønne kimblade Ifølge Mendel skal forholdet mellem gule og grønne kimblade være 3:1. Data: n = 478 planter, x = 355 gule Model: X binomial(478,p). Hypotese: p = 3 4 Alternativ: p 3 4. StatDataN: Test af hypotese p. 33/69

Metode Test: deler de mulige udfald op i et acceptområde og i et forkastelsesområde Intuitivt: accepterer hvis x er tæt på np 0, forkaster hvis x er langt fra np 0 Størrelsen af forkastelsområdet bestemmes af det valgte niveau for testet: α = P p=p0 (X forkastelsesområdet) = sandsynligheden for fejl af type I StatDataN: Test af hypotese p. 34/69

Metode p-værdi: sandsynligheden under p = p 0 for at få en værdi af X der ligger længere væk fra np 0 end den faktiske observation { x 2F = binom(n,p0 )(x ) hvis x < np 0 2(1 F binom(n,p0 )(x 1)) hvis x > np 0 n = 478, p 0 = 3 4, np 0 = 358.5 x = 355 < 358.5 2F binom(478, 3 )(355) = 0.75 4 StatDataN: Test af hypotese p. 35/69

Teste p = p 0 Model: X 1,...,X n uafhængige, P(X i = 1) = p, P(X i = 0) = 1 p Hypotese: p = p 0 Alternativ: p p 0 Exact { p-værdi: 2F = binom(n,p0 )(x ) hvis x < np 0 2(1 F binom(n,p0 )(x 1)) hvis x > np 0 StatDataN: Test af hypotese p. 36/69

Teste p = p 0 Normalfordelingsapproximation: X = n i=1 X i N(np 0,np 0 (1 p 0 )) Beregn x 1 np 2 0 hvis x > np 0 np0 (1 p z = 0 ) hvis x < np 0 x + 1 2 np 0 np0 (1 p 0 ) Forkaster hypotesen p = p 0 på niveau 5% hvis z u 0.975 p-værdi = 2[1 Φ( z )] Vis approximation i R Regel: np 0 > 5 og n(1 p 0 ) > 5 StatDataN: Test af hypotese p. 37/69

Ærteforsøg I 1865 lavede Mendel et forsøg med selvbefrugtning af 10 ærteplanter. Kimbladenes farve bestemmes af to allelle gener A og B. AA og AB: gule kimblade, BB: grønne kimblade Ifølge Mendel skal forholdet mellem gule og grønne kimblade være 3:1. Data: n = 478 planter, x = 355 gule Vi kan betragte antallet af gule som binomialfordelte og vil teste at p = 3 4 Teststørrelse = 355+1 2 4783 4 = 0.32 34 478 (1 34 ) Da 0.32 < 1.96 accepterer vi Mendels hypotese om forholdet 3:1 StatDataN: Test af hypotese p. 38/69

Cartoon StatDataN: Test af hypotese p. 39/69

Opgave x 1,...,x 100 er uafhængige målinger fra en N(µ, 1) fordeling x = 10.196 Vil teste µ = 10 mod alternativet µ 10 Vil I acceptere hypotesen? StatDataN: Test af hypotese p. 40/69

σ 2 ukendt Experiment: En kugle slippes 1m over bordplade og tidspunkt hvor den rammer bordplade registreres: stopur startes og stoppes Teori: 1m = 1 2 9.81m s t 2 2 t = 2 9.81 s = 0.45s Måleusikkerheder: højdemåling, start og stop af ur Usikkerheder beskrives ofte ved normalfordelingen, X N(µ,σ 2 ) σ beskriver størrelsen af usikkerhederne Lille σ: godt" experiment Teste µ = 0.45s Næsten ethvert experiment vil involvere en måleusikkerhed og typisk er σ 2 ikke kendt StatDataN: Test af hypotese p. 41/69

Teste µ = µ 0, σ 2 ukendt Hvordan tester vi µ = µ 0 med σ 2 ukendt? σ 2 kendt: Test på niveau 5%. Alternativ: µ µ 0 Beregn: Z = n X µ 0 σ, X = 1 n n 1 X i Accept: Z < u 0.975, Forkast: Z u 0.975 σ 2 ukendt?: Naturligt at erstatte σ 2 med et skøn T = n X µ s 0 2 hvor s 2 = n 1 1 n i=1 (X i X) 2 er vores skøn over variansen σ 2 StatDataN: Test af hypotese p. 42/69

Typiske værdier af T Kan vi sige hvornår T har en normal værdi og hvornår den har en usædvanlig stor værdi? Ja, hvis n = 10 sætter vi grænsen ved 2.26. Når µ = µ 0 vil vi i 5% af tilfældene få en T -værdi med T 2.26 n = 20: 2.09 n = 50: 2.01 n = 100: 1.98 Husk: P( Z 1.96) = 0.05, Z N(0, 1) Intuitivt: T er skalainvariant fordeling afhænger ikke af σ, men kun af n T = ( X µ 0 )/σ s2 /σ 2 StatDataN: Test af hypotese p. 43/69

t-fordelingen Definition: Hvis Z N(0, 1), W χ 2 [f]/f, uafhængige, så siges Z W at have en t-fordeling med f frihedsgrader Z W t[f] Vi har Z = X µ 0 σ N(0, 1) og σ s2 χ 2 [n 1]/(n 1) og derfor 2 T = ( X µ 0 )/σ t[n 1] s2 /σ 2 Vis tæthed i R F t[f] ( ): fordelingsfunktionen for en t[f]-fordeling ss for at ligge til venstre for x er F t[f] (x) t 0.975 [f]: 97.5% fraktilen i en t[f]-fordeling ss for at ligge til højre for t 0.975 [f] er 2.5% StatDataN: Test af hypotese p. 44/69

Opsummering Model: X 1,...,X n uafhængige, X i N(µ,σ 2 ) Hypotese: µ = µ 0 Alternativ: µ µ 0 Beregn T = n X µ s 0 2 observerede værdi t accept: t < t 0.975 [n 1] forkast: t t 0.975 [n 1] p-værdi: 2[1 F t[n 1] ( z )] t 0.975 [9] = 2.262157 Dataeksempel! StatDataN: Test af hypotese p. 45/69

Simon Newcomb: lysets hastighed Omkring 1880 målte Simon Newcomb lyset hastighed over en afstand på 7400m. Nedenstående målinger skal lægges til 24800 og er tiden i nanosekunder. Den sande værdi med moderne måleteknikker er 33.02. 28 22 36 26 28 28 26 24 32 30 27 24 33 21 36 32 31 25 24 25 28 36 27 32 34 30 25 26 26 25 23 21 30 33 29 27 29 28 22 26 27 16 31 29 36 32 28 40 19 37 23 32 29 24 25 27 24 16 29 20 28 27 39 23 n = 64, x = 64 1 x i = 1776, x = 1776 64 = 27.75, s 2 = 1 64 63 1 (x i x) 2 = 25.84 t = n x 33.02 s = 64 27.75 33.02 25.84 = 8.29, t 0.975 [63] = 2.00 Da 8.29 < 2.00 accepterer vi ikke at Newcomb har målt rigtigt. p-værdi = 2[1 F t[63] (8.29)] = 1.1 10 11 StatDataN: Test af hypotese p. 46/69

Teste to middelværdier ens Experiment: I Kbh foretages n uafhængige målinger til bestemmelse af tyngdeaccelerationen. I Ribe foretages m uafhængige målinger med samme forsøgsopstilling. Teste at tyngdeaccelerationen er den samme de to steder X 1,...,X n uafhængige, X i N(µ 1,σ 2 ) Y 1,...,Y m uafhængige, Y i N(µ 2,σ 2 ) Hypotese: µ 1 = µ 2 Alternativ: µ 1 µ 2 StatDataN: Test af hypotese p. 47/69

Teste µ 1 = µ 2 X = n 1 n i=1 X i, Ȳ = m 1 m i=1 Y i s 2 x = n 1 1 n i=1 (X i X) 2, s 2 y = m 1 1 m i=1 (Y i Ȳ )2 Intuitivt: X tæt på Ȳ : så tror vi på at µ 1 = µ 2, ellers ikke Hvad er tæt på? Under hypotesen er E( X Ȳ ) = µ 1 µ 2 = 0 V ( X Ȳ ) = σ2 n + σ2 m X Ȳ N(0,σ2 ( n 1 + m 1 X )) eller Ȳ N(0, 1) σ2 ( 1 + 1 ) n m Baserer acceptområdet på X Ȳ σ2 ( 1 n + 1 m ) StatDataN: Test af hypotese p. 48/69

Teste µ 1 = µ 2 σ 2 X Ȳ kendt: Beregn Z = σ2 ( 1 + 1 ) n m Accept: z < u 0.975, Φ(u 0.975 ) = 0.975 Forkast: z u 0.975 p-værdi = 2[1 Φ( z )] σ 2 ukendt: fælles variansestimat: s 2 X Ȳ Beregn T = t[n + m 2] s2 ( 1 + 1 ) n m Accept: t < t 0.975 [n + m 2], F t[f] (t 0.975 [f]) = 0.975 Forkast: t t 0.975 [n + m 2] p-værdi = 2[1 F t[n+m 2] ( t )] StatDataN: Test af hypotese p. 49/69

Fælles variansskøn s 2 x = n 1 1 n i=1 (X i X) 2 n 1 1 χ2 [n 1] s 2 y = m 1 1 m i=1 (Y i Ȳ )2 m 1 1 χ2 [m 1] s 2 1 { = n n+m 2 i=1 (X i X) 2 + m i=1 (Y i Ȳ )2} = (n 1)s 2 x+(m 1)s 2 y n+m 2 n+m 2 1 χ2 [n + m 2] Derfor t[n + m 2] fordeling Dataeksempel StatDataN: Test af hypotese p. 50/69

Michelsons lysmålinger Michelson målte lyshastigheden 100 gange i 1879 og 23 gange i 1882. Data er (fratrukket 299000 km/s, sande lyshastighed er 710.5 på denne skala) 1879: 826 716 876 1046... 926 776 786 846 1882: 883 816 778 796... 797 851 809 723 Vis qq-plot Teste at Michelson måler det samme i de to år n = 100, x = 828.40, s 2 x = 6242.7 m = 23, ȳ = 756.22, s 2 y = 11473.5 OBS! s 2 = 99 6242.7+22 11473.5 100+23 2 = 7193.7, t = 828.40 756.22 = 3.68 7193.7( 1 100 + 1 23 ) Da 3.68 >> t 0.975 [121] = 1.98 forkaster vi hypotesen om at de to experimenter er sammenlignelige (p-værdi=2[1 F t[121] (3.68) = 0.0003) StatDataN: Test af hypotese p. 51/69

Michelsons lysmålinger Opgave: Lad os nu for hver af de to experimenter teste at data er i overensstemmelse med den korrekte værdi for lyshastigheden StatDataN: Test af hypotese p. 52/69

Michelsons lysmålinger 1879: t = 100 828.40 710.5 6242.7 = 0.000 = 14.92, t 0.975 [99] = 1.98, p-værdi 1882: t = 23 756.22 710.5 11473.5 = 2.05, t 0.975 [22] = 2.07, p-værdi = 0.053 StatDataN: Test af hypotese p. 53/69

Cartoon StatDataN: Test af hypotese p. 54/69

Teste µ 1 = µ 2, σ 2 x σ 2 y Model: X 1,...,X n uafhængige, X i N(µ 1,σ 2 x) Y 1,...,Y m uafhængige, Y i N(µ 2,σ 2 y) To forskellige målemetoder, så σ 2 x σ 2 y Hypotese: µ 1 = µ 2 Alternativ: µ 1 µ 2 Under hypotesen er E( X Ȳ ) = µ 1 µ 2 = 0 V ( X Ȳ ) = σ2 x n + σ2 y m X Ȳ N(0, σ2 x n + σ2 y m ) eller X Ȳ σ 2 x n + σ2 y m N(0, 1) StatDataN: Test af hypotese p. 55/69

Teste µ 1 = µ 2, σ 2 x σ 2 y Vi estimerer de to varianser ved s 2 x = n 1 1 n i=1 (X i X) 2, s 2 y = m 1 1 n i=1 (Y i Ȳ )2 Teststørelse: T = X Ȳ s 2 x n + s2 y m Denne er ikke exact t-fordelt, men vi kan bruge en t-fordeling som approximation T t[f], f = ( ) s 2 2 xn + s2 y m (s 2 x )2 n 2 (n 1) + (s2 y )2 m 2 (m 1) Accept: t < t 0.975 [f], Forkast: t t 0.975 [f] StatDataN: Test af hypotese p. 56/69

Michelsons lysmålinger n = 100, x = 828.40, s 2 x = 6242.7 m = 23, ȳ = 756.22, s 2 y = 11473.5 s 2 x og s 2 y ser noget forskellige ud s2 y s 2 x p-værdi på 4%) = 1.84 (Test giver Teststørrelse: t = 828.40 756.22 frihedsgrader: f = (6242.7 6242.7 100 +11473.5 23 100 +11473.5 23 ) 2 (6242.7) 2 100 2 99 +(11473.5)2 23 2 22 t 0.975 [f]: 2.05 (før: 1.98) p-værdi: 0.0050 (før: 0.0003) = 3.05 (før: t = 3.68) = 27.75 (før: f = 121) Konklusion: Det rigtige her er nok at sige σ 2 x σ 2 y, men vi får stadig en kraftig forskel mellem de to experimenter StatDataN: Test af hypotese p. 57/69

To normalfordelinger: teste σ 2 x = σ 2 y Model: X 1,...,X n uafhængige, X i N(µ 1,σ 2 x) Y 1,...,Y m uafhængige, Y i N(µ 2,σ 2 y) Hypotese: Alternativ: σ 2 x = σ 2 y σ 2 x σ 2 y Under hypotesen er s 2 x s σ2 xχ 2 [n 1]/(n 1) 2 y σyχ 2 2 [m 1]/(m 1) = χ2 [n 1]/(n 1) χ 2 [m 1]/(m 1) per definition af en F -fordeling: = F[n 1,m 1] StatDataN: Test af hypotese p. 58/69

F fordeling Hvis V 1 χ 2 [f 1 ] og V 2 χ 2 [f 2 ], V 1 og V 2 uafhængige, så siges V 1/f 1 V 2 /f 2 at have en F -fordeling med f 1 frihedsgrader i tælleren og f 2 frihedsgrader i nævneren. Dette skrives V 1 /f 1 V 2 /f 2 F[f 1,f 2 ] ss for at ligge til venstre for x er F F[f1,f 2 ](x) Der er 97.5% sandsynlighed for at ligge til venstre for F 0.975 [f 1,f 2 ] vigtigt: F 0.025 [f 1,f 2 ] = 1 F 0.975 [f 2,f 1 ] StatDataN: Test af hypotese p. 59/69

To normalfordelinger: teste σ 2 x = σ 2 y Teststørrelse: W = s2 x s 2 y F[n 1,m 1] Accept: F α/2 [n 1,m 1] < w < F 1 α/2 [n 1,m 1] Forkast: w F α/2 [n 1,m 1] eller w F 1 α/2 [n 1,m 1] { 2F p-værdi: [n 1,m 1] (w) w < 1 2(1 F [n 1,m 1] (w)) w > 1 Ex: Michelsons lysmålinger: n = 100, s 2 x = 6242.7, m = 23, s 2 y = 11473.5 w = 11473.5 6242.7 = 0.54 p-værdi = 2F [99,22] (0.54) = 0.043 StatDataN: Test af hypotese p. 60/69

Teste µ 1 µ 2 = δ 0 Model: X 1,...,X n uafhængige, X i N(µ + δ,σ 2 ) Y 1,...,Y m uafhængige, Y i N(µ,σ 2 ) Hypotese: δ = δ 0 Alternativ: δ δ 0 Hvis vi lader X i = X i δ skal vi som før teste µ 1 = µ 2 Under hypotesen er E( X Ȳ δ 0) = µ + δ 0 µ δ 0 = 0 V ( X Ȳ δ 0) = σ2 n + σ2 m X Ȳ δ 0 N(0,σ 2 ( n 1 + m 1 )) eller X Ȳ δ 0 N(0, 1) ) σ2 ( 1 n + 1 m StatDataN: Test af hypotese p. 61/69

Teste µ 1 µ 2 = δ 0 Variansestimat: s 2 1 { = n n+m 2 i=1 (X i X) 2 + m i=1 (Y i Ȳ )2} Beregn T = X Ȳ δ 0 t[n + m 2] s2 ( 1 + 1 ) n m Accept: t < t 0.975 [n + m 2], F t[f] (t 0.975 [f]) = 0.975 Forkast: t t 0.975 [n + m 2] p-værdi = 2[1 F t[n+m 2] ( t )] StatDataN: Test af hypotese p. 62/69

Fedme Ex: Overvægt ved sessionsmåling (BMI>30) 1. halvdel 2003: n 1 = 11527, x 1 = 795 2. halvdel 2003: n 2 = 13000, x 2 = 871 Kurven er knækket, færre fede unge; Fedmen har kulmineret" (Søndagsavisen, 18/1/2003) Er der en forskel mellem de to halvår? ˆp 1 = 11527 795 = 0.069, ˆp 2 = 13000 871 = 0.067 Er ˆp 1 tæt på ˆp 2? Model: X 1 binomial(n 1,p 1 ), X 2 binomial(n 2,p 2 ), uafhængige Hypotese: p 1 = p 2 (fælles værdi p) Alternativ: p 1 p 2 StatDataN: Test af hypotese p. 63/69

To binomialfordelinger. Teste p 1 = p 2 Under hypotesen har vi E(ˆp 1 ˆp 2 ) = n 1p 1 n 1 n 2p 2 n 2 = p 1 p 2 = p p = 0 V (ˆp 1 ˆp 2 ) = n 1p 1 (1 p 1 ) = ( n 1 1 + n 1 2 )p(1 p) Lad Z = n 2 1 ˆp 1 ˆp 2 p(1 p)( 1 n 1 + 1 n 2 ) E( Z) = 0, V ( Z) = 1 + n 2p 2 (1 p 2 ) n 2 2 Normalfordelingsapproximation: Z N(0, 1) StatDataN: Test af hypotese p. 64/69

To binomialfordelinger. Teste p 1 = p 2 p er ukendt: Estimat for p under hypotesen: (X 1 + X 2 ) binomial(n 1 + n 2,p), ˆp = X 1+X 2 n 1 +n 2 Beregn: Z = ˆp 1 ˆp 2 ˆp(1 ˆp)( 1 n 1 + 1 n 2 ) Accept: z < u 0.975 Forkast: z u 0.975 p-værdi: 2[1 Φ( z )] Sessionsfedme: ˆp 1 = 0.06897, ˆp 2 = 0.06700, ˆp = 0.06793, z = 0.61 Konklusion: ingen grund til at tro der er sket en ændring StatDataN: Test af hypotese p. 65/69

Approksimation Regel: n 1ˆp > 5, n 2ˆp > 5, n 1 (1 ˆp) > 5, n 2 (1 ˆp) > 5 B > 30 B < 30 F03 795 10732 11527 E03 825 11434 12259 B > 30 B < 30 F03 813 10713 11527 E03 865 11394 12259 StatDataN: Test af hypotese p. 66/69

ABO-blodtype For at undersøge om frekvensen af fænotype A indenfor ABO-blodtypen havde ændret sig over tid undersøgte man 651 tilfældig valgte børn under 16 år og 1151 tilfældig valgte ældre over 65 år. A ikke A total under 16 år 250 401 651 over 65 år 496 655 1151 Vi vil betragte dette som to uafhængige binomialfordelte målinger og teste p 1 = p 2 StatDataN: Test af hypotese p. 67/69

ABO-blodtype n 1 = 651, ˆp 1 = 250 651 = 0.384 n 2 = 1151, ˆp 2 = 496 1151 = 0.431 ˆp = 250+496 651+1151 = 0.414 0.384 0.431 Testtørrelse: z = = 1.946 0.414(1 0.414)( 1 + 1 ) 651 1151 u 0.975 : 1.96 p-værdi: 2[1 Φ(1.946)] = 0.052 Konklusion: Ikke noget klart svar på accept eller forkastelse StatDataN: Test af hypotese p. 68/69

Approksimation Regel: n 1ˆp > 5, n 2ˆp > 5, n 1 (1 ˆp) > 5, n 2 (1 ˆp) > 5 A ikke A < 16 250 401 651 > 65 496 655 1151 A ikke A < 16 270 381 651 > 65 476 674 1151 StatDataN: Test af hypotese p. 69/69