StatDataN: Test af hypotese

StatDataN: Test af hypotese JLJ StatDataN: Test af hypotese p. 1/69

Repetition n uafhængige gentagne målinger: Fordelingsundersøgelse: Pindediagram / Histogram qq-plot Parameter: egenskab ved fordeling af stokastiske variabel Skøn over parameter: unbiased, lille varians Binomial: ˆp = X Normal: ˆµ = X, variansestimat = s 2 = 1 n 1 n i=1 (x i x) 2 Maximum likelihood estimation: find θ som maximerer ss for det observerede som funktion af θ StatDataN: Test af hypotese p. 2/69

Spørgsmål Er Peter større end Søren? Er danske mænd federe end danske kvinder? Er en mønt fair? Virker to medicinpræparater lige godt? StatDataN: Test af hypotese p. 3/69

Hypotese Ex: Skal vi acceptere et fifty-fifty væddemål baseret på kast med mønt? Hypotese: p = 2 1, p = P(krone) Ex: Medicinalfirma hævder at nyt præparat er bedre end det hidtil anvendte Forbrugeren: teste dette udsagn Forbruger er konservativ: vil ikke opgive det velprøvede præparat medmindre nye er klart bedre Hypotese: Nye præparat har samme effekt som gamle Alternativ: Nye præparat er bedre Ex: Tyngdeaccelerationen er målt i København til 9.81m/s 2. Vi vil undersøge om undergrunden under Ribe er anderledes end i Kbh Hypotese: tyngdeaccelerationen i Ribe er 9.81m/s 2 StatDataN: Test af hypotese p. 4/69

Hypotese Hypotese: Et udsagn om værdien af en parameter i modellen (Ex: θ = θ 0 ) Alternativ: alternative værdier af parameteren (Ex1: θ θ 0, Ex2: θ > θ 0 ) Parameter θ P θ data vurdere udsagn om θ Vi ved ikke om en hypotese er sand eller falsk Indsamlede data skal bruges til at træffe en kvalificeret afgørelse StatDataN: Test af hypotese p. 5/69

Lysmålinger Omkring 1880 målte Simon Newcomb lyset hastighed over en afstand på 7400m. Nedenstående målinger skal lægges til 24800 og er tiden i nanosekunder. Den sande værdi med moderne måleteknikker er 33.02. 28 22 36 26 28 28 26 24 32 30 27 24 33 21 36 32 31 25 24 25 28 36 27 32 34 30 25 26 26 25 23 21 30 33 29 27 29 28 22 26 27 16 31 29 36 32 28 40 19 37 23 32 29 24 25 27 24 16 29 20 28 27 39 23 Spørgsmål: Målte Newcomb rigtigt? Model: X 1,...,X 64 N(µ,5 2 ). Hypotese: Er µ = 33.02? Vis plot: spreder punkterne sig omkring 33.02? Varians = 5 2 = måleusikkerhed StatDataN: Test af hypotese p. 6/69

Lysmålinger Spreder punkterne sig omkring 33.02? Er x = 27.75 tæt på 33.02? Hvis µ = 33.02 er X N(33.02, 5 2 ) Er 27.75 et typisk udfald fra en N(33.02, 5 2 /64) fordeling? Acceptområde: intervallet [33.02 2 5 8, 33.02 + 25 8 ] Forkastelsesområde: alt andet: [, 33.02 2 5 8 ] [33.02 + 25 8, ] StatDataN: Test af hypotese p. 7/69

Lysmålinger Mulige fejl: Newcomb målte rigtigt, men vi siger at han målte forkert Newcomb målte forkert, men vi siger at han målte rigtigt Hvis Newcomb målte rigtigt, hvad er da sandsynligheden for at vi forkaster µ = 33.02? P( X 33.02 > 28 5 ) = Φ( 2) + (1 Φ(2)) = 0.046 Hvis Newcomb målte forkert, lad os sige µ = 28, hvad er da sandsynligheden for at vi forkaster µ = 33.02? P( N(28, (5/8) 2 ) 33.02 > 2 5 8 ) = 1 StatDataN: Test af hypotese p. 8/69

Lysmålinger Hvis Newcomb målte rigtigt, hvad er da sandsynligheden for at få en værdi af X der ligger længere væk fra 33.02 end 27.75 gør? P( X 33.02 > (33.02 27.75) = 2Φ( 5.27/(5/8)) = 0.000 StatDataN: Test af hypotese p. 9/69

Test af en hypotese Baseret på observation af X 1,X 2,...,X n ønsker vi at sige enten: vi accepterer hypotesen eller: vi forkaster hypotesen Test: deler udfaldsrummet op i en del hvor vi accepterer og en del hvor vi forkaster hypotese resultat af test sand falsk accepterer fint fejl af type II forkaster fejl af type I fint StatDataN: Test af hypotese p. 10/69

Test af en hypotese sandsynlighed hypotese sand hypotese falsk forkastelsesområde α = 5% β =? Ex:55% acceptområde 1 α = 95% 1 β =? Ex:45% α vælges af os β afhænger af n og alternativet α = fejl af type I = niveau af test Sprogbrug: Test på niveau 5% β kaldes styrken StatDataN: Test af hypotese p. 11/69

p-værdi Intuitivt kan vi altid rangordne udfald og tale om at ét udfald er værre end et andet udfald for hypotesen Hvis x 1 og x 2 er to udfald og der findes et niveau α så at x 1 ligger i forkastelsesområdet og x 2 ligger i acceptområdet så er x 1 værre end x 2 p-værdi for en observation x er sandsynligheden, beregnet under hypotesen, for at få en værdi af X der er lige så slem eller værre end den faktisk observerede x StatDataN: Test af hypotese p. 12/69

p-værdi p-værdien for observationen x = p(x) = P H (værdi af X der er lige så slem eller værre end x) Vis R-plot StatDataN: Test af hypotese p. 13/69

Cartoon StatDataN: Test af hypotese p. 14/69

Normalfordeling: test for µ = 0, σ 2 kendt Ex: Diffusion med drift µ (ukendt) og diffusionskoefficient σ 2 (kendt). Observerer position til tid 1. X 1,...,X n uafhængige N(µ,σ 2 )-fordelte Estimat for µ: ˆµ = X = 1 n n i=1 X i Hypotese: ingen kræfter påvirker partiklen, dvs µ = 0 Alternativ: µ 0 Intuitivt: Hvis X er tæt på nul tror vi på µ = 0, hvis X er langt fra nul tror vi ikke på at µ = 0 Acceptområde: c < X < c Forkastelsesområde: X c StatDataN: Test af hypotese p. 15/69

Teste µ = 0 Test på niveau 5% - hvad skal c være? Når µ = 0 er X N(0, n 1σ2 ) n n X σ N(0, n 1σ2 ( σ )2 ) = N(0, 1) Niveau = P( X c) = P( n σ X = 2[1 Φ( n σ c)] u p : Φ(u p ) = p eller 1 Φ(u p ) = 1 p n σ c) n σ 0.05 Niveau 5%: 1 Φ( c) = 2 = 0.025 = 1 0.975 n σ c = u 0.975 c = σ n u 0.975, u 0.975 = 1.96 StatDataN: Test af hypotese p. 16/69

Acceptområde Acceptområde: X < σ n u 0.975 eller n σ X < u 0.975 Forkastelsesområde: n σ X u 0.975 p-værdi: observeret værdi = x ss for noget der er værre end x = P H ( X x ) = 2[1 Φ( n σ x )] StatDataN: Test af hypotese p. 17/69

Styrke SS (=styrke) for at forkaste under alternativ: µ 0 X N(µ, σ2 n ) P( X c) = P( X c) + P( X c) ( ) ( n n n = P σ ( X µ) ( c µ) + P σ σ ( X µ) ( ) ( ) n n = Φ ( c µ) + 1 Φ (c µ) σ σ n σ ) (c µ) Med c = σ n u 0.975 fås ( Φ u 0.975 n σ µ ) + 1 Φ ( u 0.975 n σ µ ) Vis plot: µ fast / n fast StatDataN: Test af hypotese p. 18/69

Resume Model: X 1,...X n uafhængige N(µ,σ 2 )-fordelte, σ 2 kendt Hypotese: µ = 0 Alternativ: µ 0 n Beregn Z = X, σ observerede værdi = z Accept: z < u 0.975 Forkast: z u 0.975 p-værdi: 2[1 Φ( z )] StatDataN: Test af hypotese p. 19/69

Data-eksempel I en produktion af kobbertråd tages med passende mellemrum 9 stykker ud af ens længde og stykkerne vejes. Man ved af erfaring at måleusikkerheden er σ 2 = 0.000074. Man tilstræber en produkstandard svarende til en vægt på 18.441g. Her er 9 målinger fratrukket 18.441 (vis qqplot): 0.016-0.007 0.003 0.020 0.012 0.006 0.011-0.001 0.002 Beregninger: n = 9, x i = 0.062, x = 0.00689 z = 9 0.00689 0.000074 = 2.40 u 0.975 = 1.96 Konklusion: da 2.40 > 1.96 forkaster vi hypotesen om at middelværdien er 0 StatDataN: Test af hypotese p. 20/69

Teste µ = µ 0, σ 2 kendt I diffusionseksemplet kan vi være interesseret i at teste at der kun er én kendt kraft som påvirker partiklen, svarende til en bestemt drift µ 0 Model: X 1,...,X n uafhængige, X i N(µ,σ 2 ) Hypotese: µ = µ 0 Alternativ: µ µ 0 Lad X i = X i µ 0 N( µ,σ 2 ), µ = µ µ 0 Bemærk at X = X µ0 Så skal vi teste µ = 0 mod µ 0 Beregn Z = n σ ( X µ 0 ) observerede værdi z accept: z < u 0.975, forkast: z u 0.975 p-værdi: 2[1 Φ( z )] StatDataN: Test af hypotese p. 21/69

Tyngdeacceleration i Ribe En bestemt experimentel opstilling til måling af tyngdeaccelerationen giver anledning til en måleusikkerhed på σ = 0.1m/s 2. Hvis den sande tyngdeacceleration er µ vil en måling X være normalfordelt med middelværdi µ og varians σ 2 For at teste om tyngdeaccelerationen i Ribe er den samme som i København, nemlig 9.81m/s 2, foretages 10 målinger. Data er 9.69 9.67 10.03 9.92 9.85 9.90 9.82 9.75 9.80 10.04 Se qq-plot n = 10, x = 10 1 x i = 98.47, x = 9.847, µ 0 = 9.81, u 0.975 = 1.96 z = 10 9.847 9.81 0.1 = 1.17 Da 1.17 < 1.96 accepterer vi hypotesen at tyngdeaccelerationen i Ribe er 9.81m/s 2 StatDataN: Test af hypotese p. 22/69

Ensidet test for µ = 0, σ 2 kendt I diffusionseksemplet vil vi teste at ingen kræfter påvirker partiklen (µ = 0) mod alternativet at der er en kraft fra den ene side svarende til µ > 0 Intuitivt: Hvis X er tæt på nul eller er negativ tror vi på at µ = 0. Hvis X er stor og positiv tror vi ikke længere på at µ = 0 når alternativet er µ > 0 Acceptområde: X < c Forkastelsesområde: X c Hvad skal c være for at få test på niveau 5%? X c Z = n X σ n σ c, Z N(0, 1) P H (Z u 0.95 ) = 0.95, vælg n σ c = u 0.95 Accept: Z < u 0.95, Forkast: Z u 0.95 StatDataN: Test af hypotese p. 23/69

Ensidet test for µ = µ 0, σ 2 kendt Model: X 1,...,X n uafhængige, X i N(µ,σ 2 ) Hypotese: µ = µ 0 Alternativ: µ > µ 0 Beregn Z = n σ ( X µ 0 ) Accept: Z < u 0.95 Forkast: Z u 0.95 p-værdi: et observeret gennemsnit y er værre for hypotesen end et observeret gennemsnit x hvis y > x og y > 0 p-værdi = 1 Φ ( n ) σ ( x µ 0) hvis x > µ 0 1 hvis x µ 0 StatDataN: Test af hypotese p. 24/69

Kast med en mønt: teste p = 1 2 Model: X 1,...,X n uafhængige, P(X i = 1) = p, P(X i = 0) = 1 p Hypotese: p = 1 2 Alternativ: p 1 2 Estimat for p: ˆp = 1 n n i=1 X i = X = observeret frekvens Intuitivt: hvis ˆp er tæt på 1 2 så tror vi på at p = 1 2 ellers ikke StatDataN: Test af hypotese p. 26/69

Teste p = 1 2 Ex: n = 6 Forkastelsesområde Niveau F 1 = { 0 6, 6 6 } ( 6 0) ( 1 2 )6 + ( ) 6 6 ( 1 2 )6 = 1 32 0.031 F 2 = F 1 { 1 6, 5 6 } 1 32 + ( ) 6 1 ( 1 2 )6 + ( ) 6 5 ( 1 2 )6 = 7 32 0.22 F 3 = F 2 { 2 6, 4 6 } 7 32 + ( ) 6 2 ( 1 2 )6 + ( ) 6 4 ( 1 2 )6 = 22 32 0.69 Ex: n = 8 Forkastelsesområde Niveau F 1 = { 0 8, 8 8 } ( 8 0) ( 1 2 )8 + ( ) 8 8 ( 1 F 2 = F 1 { 1 8, 7 8 } 1 128 + ( ) 8 1 ( 1 2 )8 + ( ) 8 7 ( 1 F 3 = F 2 { 2 8, 6 8 } 9 128 + ( ) 8 2 ( 1 2 )8 + ( ) 8 6 ( 1 2 )8 = 1 2 )8 = 9 2 )8 = 37 128 0.008 128 0.070 128 0.29 StatDataN: Test af hypotese p. 27/69

Teste p = 1 2 Ex: n = 10 Forkastelsesområde Niveau F 1 = { 0 10, 10 10 } = 1 512 0.002 F 2 = F 1 { 1 10, 9 10 } = 11 512 0.021 F 3 = F 2 { 2 10, 8 10 } = 56 512 0.11 Vis illustrationer i R Vi har et begrænset antal mulige niveauer for testet StatDataN: Test af hypotese p. 28/69

Teste p = 1 2 X = n i=1 X i Forkaster hvis X k eller X n k Niveau = α(k) = 2F binom(n, 1 2 )(k) (F er fordelingsfunktionen, dvs F(x) = P(X x)) p-værdi = ss for at få noget der ligger længere væk fra 1 2 end observationen x = { 2Fbinom(n, 1 2 )(x ) hvis x < n 2 2(1 F binom(n, 1 2 )(x 1)) hvis x > n 2 StatDataN: Test af hypotese p. 29/69

Teste p = 1 2 Normalfordelingsapproximation: X N( 1 2, 1 4n ) (centrale grænseværdisætning) X = n i=1 X i N( n 2, n 4 ) Beregn z = x 1 2 n 2 n/4 hvis x > n 2 x + 1 2 n 2 n/4 hvis x < n 2 Forkaster hypotesen p = 2 1 z u 0.975 på niveau 5% hvis p-værdi = 2[1 Φ( z )] StatDataN: Test af hypotese p. 30/69

Fødsler i London I perioden 1629-1710 fødtes der n = 938223 børn i London Fordelt efter køn: Drenge: 484282, piger: 453841 Vi vil teste at drenge- og pigefødsler er lige hyppige. Vi kan betragte antallet af drenge som binomialfordelt, og vil teste at p = 1 2 Teststørrelse: z = 484282 1 2 938223 2 = 31.3 938223/4 Vi har således en klar forkastelse af hypotesen: 31.3 >> 1.96 p-værdi: 2[1 Φ(31.3)] = 4.7 10 215 StatDataN: Test af hypotese p. 31/69

Ny forelæsning StatDataN: Test af hypotese p. 32/69

Ærteforsøg I 1865 lavede Mendel et forsøg med selvbefrugtning af 10 ærteplanter. Kimbladenes farve bestemmes af to allelle gener A og B. AA og AB: gule kimblade, BB: grønne kimblade Ifølge Mendel skal forholdet mellem gule og grønne kimblade være 3:1. Data: n = 478 planter, x = 355 gule Model: X binomial(478,p). Hypotese: p = 3 4 Alternativ: p 3 4. StatDataN: Test af hypotese p. 33/69

Metode Test: deler de mulige udfald op i et acceptområde og i et forkastelsesområde Intuitivt: accepterer hvis x er tæt på np 0, forkaster hvis x er langt fra np 0 Størrelsen af forkastelsområdet bestemmes af det valgte niveau for testet: α = P p=p0 (X forkastelsesområdet) = sandsynligheden for fejl af type I StatDataN: Test af hypotese p. 34/69

Metode p-værdi: sandsynligheden under p = p 0 for at få en værdi af X der ligger længere væk fra np 0 end den faktiske observation { x 2F = binom(n,p0 )(x ) hvis x < np 0 2(1 F binom(n,p0 )(x 1)) hvis x > np 0 n = 478, p 0 = 3 4, np 0 = 358.5 x = 355 < 358.5 2F binom(478, 3 )(355) = 0.75 4 StatDataN: Test af hypotese p. 35/69

Teste p = p 0 Model: X 1,...,X n uafhængige, P(X i = 1) = p, P(X i = 0) = 1 p Hypotese: p = p 0 Alternativ: p p 0 Exact { p-værdi: 2F = binom(n,p0 )(x ) hvis x < np 0 2(1 F binom(n,p0 )(x 1)) hvis x > np 0 StatDataN: Test af hypotese p. 36/69

Teste p = p 0 Normalfordelingsapproximation: X = n i=1 X i N(np 0,np 0 (1 p 0 )) Beregn x 1 np 2 0 hvis x > np 0 np0 (1 p z = 0 ) hvis x < np 0 x + 1 2 np 0 np0 (1 p 0 ) Forkaster hypotesen p = p 0 på niveau 5% hvis z u 0.975 p-værdi = 2[1 Φ( z )] Vis approximation i R Regel: np 0 > 5 og n(1 p 0 ) > 5 StatDataN: Test af hypotese p. 37/69

Ærteforsøg I 1865 lavede Mendel et forsøg med selvbefrugtning af 10 ærteplanter. Kimbladenes farve bestemmes af to allelle gener A og B. AA og AB: gule kimblade, BB: grønne kimblade Ifølge Mendel skal forholdet mellem gule og grønne kimblade være 3:1. Data: n = 478 planter, x = 355 gule Vi kan betragte antallet af gule som binomialfordelte og vil teste at p = 3 4 Teststørrelse = 355+1 2 4783 4 = 0.32 34 478 (1 34 ) Da 0.32 < 1.96 accepterer vi Mendels hypotese om forholdet 3:1 StatDataN: Test af hypotese p. 38/69

Opgave x 1,...,x 100 er uafhængige målinger fra en N(µ, 1) fordeling x = 10.196 Vil teste µ = 10 mod alternativet µ 10 Vil I acceptere hypotesen? StatDataN: Test af hypotese p. 40/69

σ 2 ukendt Experiment: En kugle slippes 1m over bordplade og tidspunkt hvor den rammer bordplade registreres: stopur startes og stoppes Teori: 1m = 1 2 9.81m s t 2 2 t = 2 9.81 s = 0.45s Måleusikkerheder: højdemåling, start og stop af ur Usikkerheder beskrives ofte ved normalfordelingen, X N(µ,σ 2 ) σ beskriver størrelsen af usikkerhederne Lille σ: godt" experiment Teste µ = 0.45s Næsten ethvert experiment vil involvere en måleusikkerhed og typisk er σ 2 ikke kendt StatDataN: Test af hypotese p. 41/69

Teste µ = µ 0, σ 2 ukendt Hvordan tester vi µ = µ 0 med σ 2 ukendt? σ 2 kendt: Test på niveau 5%. Alternativ: µ µ 0 Beregn: Z = n X µ 0 σ, X = 1 n n 1 X i Accept: Z < u 0.975, Forkast: Z u 0.975 σ 2 ukendt?: Naturligt at erstatte σ 2 med et skøn T = n X µ s 0 2 hvor s 2 = n 1 1 n i=1 (X i X) 2 er vores skøn over variansen σ 2 StatDataN: Test af hypotese p. 42/69

Typiske værdier af T Kan vi sige hvornår T har en normal værdi og hvornår den har en usædvanlig stor værdi? Ja, hvis n = 10 sætter vi grænsen ved 2.26. Når µ = µ 0 vil vi i 5% af tilfældene få en T -værdi med T 2.26 n = 20: 2.09 n = 50: 2.01 n = 100: 1.98 Husk: P( Z 1.96) = 0.05, Z N(0, 1) Intuitivt: T er skalainvariant fordeling afhænger ikke af σ, men kun af n T = ( X µ 0 )/σ s2 /σ 2 StatDataN: Test af hypotese p. 43/69

t-fordelingen Definition: Hvis Z N(0, 1), W χ 2 [f]/f, uafhængige, så siges Z W at have en t-fordeling med f frihedsgrader Z W t[f] Vi har Z = X µ 0 σ N(0, 1) og σ s2 χ 2 [n 1]/(n 1) og derfor 2 T = ( X µ 0 )/σ t[n 1] s2 /σ 2 Vis tæthed i R F t[f] ( ): fordelingsfunktionen for en t[f]-fordeling ss for at ligge til venstre for x er F t[f] (x) t 0.975 [f]: 97.5% fraktilen i en t[f]-fordeling ss for at ligge til højre for t 0.975 [f] er 2.5% StatDataN: Test af hypotese p. 44/69

Opsummering Model: X 1,...,X n uafhængige, X i N(µ,σ 2 ) Hypotese: µ = µ 0 Alternativ: µ µ 0 Beregn T = n X µ s 0 2 observerede værdi t accept: t < t 0.975 [n 1] forkast: t t 0.975 [n 1] p-værdi: 2[1 F t[n 1] ( z )] t 0.975 [9] = 2.262157 Dataeksempel! StatDataN: Test af hypotese p. 45/69

Simon Newcomb: lysets hastighed Omkring 1880 målte Simon Newcomb lyset hastighed over en afstand på 7400m. Nedenstående målinger skal lægges til 24800 og er tiden i nanosekunder. Den sande værdi med moderne måleteknikker er 33.02. 28 22 36 26 28 28 26 24 32 30 27 24 33 21 36 32 31 25 24 25 28 36 27 32 34 30 25 26 26 25 23 21 30 33 29 27 29 28 22 26 27 16 31 29 36 32 28 40 19 37 23 32 29 24 25 27 24 16 29 20 28 27 39 23 n = 64, x = 64 1 x i = 1776, x = 1776 64 = 27.75, s 2 = 1 64 63 1 (x i x) 2 = 25.84 t = n x 33.02 s = 64 27.75 33.02 25.84 = 8.29, t 0.975 [63] = 2.00 Da 8.29 < 2.00 accepterer vi ikke at Newcomb har målt rigtigt. p-værdi = 2[1 F t[63] (8.29)] = 1.1 10 11 StatDataN: Test af hypotese p. 46/69

Teste to middelværdier ens Experiment: I Kbh foretages n uafhængige målinger til bestemmelse af tyngdeaccelerationen. I Ribe foretages m uafhængige målinger med samme forsøgsopstilling. Teste at tyngdeaccelerationen er den samme de to steder X 1,...,X n uafhængige, X i N(µ 1,σ 2 ) Y 1,...,Y m uafhængige, Y i N(µ 2,σ 2 ) Hypotese: µ 1 = µ 2 Alternativ: µ 1 µ 2 StatDataN: Test af hypotese p. 47/69

Teste µ 1 = µ 2 X = n 1 n i=1 X i, Ȳ = m 1 m i=1 Y i s 2 x = n 1 1 n i=1 (X i X) 2, s 2 y = m 1 1 m i=1 (Y i Ȳ )2 Intuitivt: X tæt på Ȳ : så tror vi på at µ 1 = µ 2, ellers ikke Hvad er tæt på? Under hypotesen er E( X Ȳ ) = µ 1 µ 2 = 0 V ( X Ȳ ) = σ2 n + σ2 m X Ȳ N(0,σ2 ( n 1 + m 1 X )) eller Ȳ N(0, 1) σ2 ( 1 + 1 ) n m Baserer acceptområdet på X Ȳ σ2 ( 1 n + 1 m ) StatDataN: Test af hypotese p. 48/69

Teste µ 1 = µ 2 σ 2 X Ȳ kendt: Beregn Z = σ2 ( 1 + 1 ) n m Accept: z < u 0.975, Φ(u 0.975 ) = 0.975 Forkast: z u 0.975 p-værdi = 2[1 Φ( z )] σ 2 ukendt: fælles variansestimat: s 2 X Ȳ Beregn T = t[n + m 2] s2 ( 1 + 1 ) n m Accept: t < t 0.975 [n + m 2], F t[f] (t 0.975 [f]) = 0.975 Forkast: t t 0.975 [n + m 2] p-værdi = 2[1 F t[n+m 2] ( t )] StatDataN: Test af hypotese p. 49/69

Fælles variansskøn s 2 x = n 1 1 n i=1 (X i X) 2 n 1 1 χ2 [n 1] s 2 y = m 1 1 m i=1 (Y i Ȳ )2 m 1 1 χ2 [m 1] s 2 1 { = n n+m 2 i=1 (X i X) 2 + m i=1 (Y i Ȳ )2} = (n 1)s 2 x+(m 1)s 2 y n+m 2 n+m 2 1 χ2 [n + m 2] Derfor t[n + m 2] fordeling Dataeksempel StatDataN: Test af hypotese p. 50/69

Michelsons lysmålinger Michelson målte lyshastigheden 100 gange i 1879 og 23 gange i 1882. Data er (fratrukket 299000 km/s, sande lyshastighed er 710.5 på denne skala) 1879: 826 716 876 1046... 926 776 786 846 1882: 883 816 778 796... 797 851 809 723 Vis qq-plot Teste at Michelson måler det samme i de to år n = 100, x = 828.40, s 2 x = 6242.7 m = 23, ȳ = 756.22, s 2 y = 11473.5 OBS! s 2 = 99 6242.7+22 11473.5 100+23 2 = 7193.7, t = 828.40 756.22 = 3.68 7193.7( 1 100 + 1 23 ) Da 3.68 >> t 0.975 [121] = 1.98 forkaster vi hypotesen om at de to experimenter er sammenlignelige (p-værdi=2[1 F t[121] (3.68) = 0.0003) StatDataN: Test af hypotese p. 51/69

Michelsons lysmålinger Opgave: Lad os nu for hver af de to experimenter teste at data er i overensstemmelse med den korrekte værdi for lyshastigheden StatDataN: Test af hypotese p. 52/69

Michelsons lysmålinger 1879: t = 100 828.40 710.5 6242.7 = 0.000 = 14.92, t 0.975 [99] = 1.98, p-værdi 1882: t = 23 756.22 710.5 11473.5 = 2.05, t 0.975 [22] = 2.07, p-værdi = 0.053 StatDataN: Test af hypotese p. 53/69

Teste µ 1 = µ 2, σ 2 x σ 2 y Model: X 1,...,X n uafhængige, X i N(µ 1,σ 2 x) Y 1,...,Y m uafhængige, Y i N(µ 2,σ 2 y) To forskellige målemetoder, så σ 2 x σ 2 y Hypotese: µ 1 = µ 2 Alternativ: µ 1 µ 2 Under hypotesen er E( X Ȳ ) = µ 1 µ 2 = 0 V ( X Ȳ ) = σ2 x n + σ2 y m X Ȳ N(0, σ2 x n + σ2 y m ) eller X Ȳ σ 2 x n + σ2 y m N(0, 1) StatDataN: Test af hypotese p. 55/69

Teste µ 1 = µ 2, σ 2 x σ 2 y Vi estimerer de to varianser ved s 2 x = n 1 1 n i=1 (X i X) 2, s 2 y = m 1 1 n i=1 (Y i Ȳ )2 Teststørelse: T = X Ȳ s 2 x n + s2 y m Denne er ikke exact t-fordelt, men vi kan bruge en t-fordeling som approximation T t[f], f = ( ) s 2 2 xn + s2 y m (s 2 x )2 n 2 (n 1) + (s2 y )2 m 2 (m 1) Accept: t < t 0.975 [f], Forkast: t t 0.975 [f] StatDataN: Test af hypotese p. 56/69

Michelsons lysmålinger n = 100, x = 828.40, s 2 x = 6242.7 m = 23, ȳ = 756.22, s 2 y = 11473.5 s 2 x og s 2 y ser noget forskellige ud s2 y s 2 x p-værdi på 4%) = 1.84 (Test giver Teststørrelse: t = 828.40 756.22 frihedsgrader: f = (6242.7 6242.7 100 +11473.5 23 100 +11473.5 23 ) 2 (6242.7) 2 100 2 99 +(11473.5)2 23 2 22 t 0.975 [f]: 2.05 (før: 1.98) p-værdi: 0.0050 (før: 0.0003) = 3.05 (før: t = 3.68) = 27.75 (før: f = 121) Konklusion: Det rigtige her er nok at sige σ 2 x σ 2 y, men vi får stadig en kraftig forskel mellem de to experimenter StatDataN: Test af hypotese p. 57/69

To normalfordelinger: teste σ 2 x = σ 2 y Model: X 1,...,X n uafhængige, X i N(µ 1,σ 2 x) Y 1,...,Y m uafhængige, Y i N(µ 2,σ 2 y) Hypotese: Alternativ: σ 2 x = σ 2 y σ 2 x σ 2 y Under hypotesen er s 2 x s σ2 xχ 2 [n 1]/(n 1) 2 y σyχ 2 2 [m 1]/(m 1) = χ2 [n 1]/(n 1) χ 2 [m 1]/(m 1) per definition af en F -fordeling: = F[n 1,m 1] StatDataN: Test af hypotese p. 58/69

F fordeling Hvis V 1 χ 2 [f 1 ] og V 2 χ 2 [f 2 ], V 1 og V 2 uafhængige, så siges V 1/f 1 V 2 /f 2 at have en F -fordeling med f 1 frihedsgrader i tælleren og f 2 frihedsgrader i nævneren. Dette skrives V 1 /f 1 V 2 /f 2 F[f 1,f 2 ] ss for at ligge til venstre for x er F F[f1,f 2 ](x) Der er 97.5% sandsynlighed for at ligge til venstre for F 0.975 [f 1,f 2 ] vigtigt: F 0.025 [f 1,f 2 ] = 1 F 0.975 [f 2,f 1 ] StatDataN: Test af hypotese p. 59/69

To normalfordelinger: teste σ 2 x = σ 2 y Teststørrelse: W = s2 x s 2 y F[n 1,m 1] Accept: F α/2 [n 1,m 1] < w < F 1 α/2 [n 1,m 1] Forkast: w F α/2 [n 1,m 1] eller w F 1 α/2 [n 1,m 1] { 2F p-værdi: [n 1,m 1] (w) w < 1 2(1 F [n 1,m 1] (w)) w > 1 Ex: Michelsons lysmålinger: n = 100, s 2 x = 6242.7, m = 23, s 2 y = 11473.5 w = 11473.5 6242.7 = 0.54 p-værdi = 2F [99,22] (0.54) = 0.043 StatDataN: Test af hypotese p. 60/69

Teste µ 1 µ 2 = δ 0 Model: X 1,...,X n uafhængige, X i N(µ + δ,σ 2 ) Y 1,...,Y m uafhængige, Y i N(µ,σ 2 ) Hypotese: δ = δ 0 Alternativ: δ δ 0 Hvis vi lader X i = X i δ skal vi som før teste µ 1 = µ 2 Under hypotesen er E( X Ȳ δ 0) = µ + δ 0 µ δ 0 = 0 V ( X Ȳ δ 0) = σ2 n + σ2 m X Ȳ δ 0 N(0,σ 2 ( n 1 + m 1 )) eller X Ȳ δ 0 N(0, 1) ) σ2 ( 1 n + 1 m StatDataN: Test af hypotese p. 61/69

Teste µ 1 µ 2 = δ 0 Variansestimat: s 2 1 { = n n+m 2 i=1 (X i X) 2 + m i=1 (Y i Ȳ )2} Beregn T = X Ȳ δ 0 t[n + m 2] s2 ( 1 + 1 ) n m Accept: t < t 0.975 [n + m 2], F t[f] (t 0.975 [f]) = 0.975 Forkast: t t 0.975 [n + m 2] p-værdi = 2[1 F t[n+m 2] ( t )] StatDataN: Test af hypotese p. 62/69

Fedme Ex: Overvægt ved sessionsmåling (BMI>30) 1. halvdel 2003: n 1 = 11527, x 1 = 795 2. halvdel 2003: n 2 = 13000, x 2 = 871 Kurven er knækket, færre fede unge; Fedmen har kulmineret" (Søndagsavisen, 18/1/2003) Er der en forskel mellem de to halvår? ˆp 1 = 11527 795 = 0.069, ˆp 2 = 13000 871 = 0.067 Er ˆp 1 tæt på ˆp 2? Model: X 1 binomial(n 1,p 1 ), X 2 binomial(n 2,p 2 ), uafhængige Hypotese: p 1 = p 2 (fælles værdi p) Alternativ: p 1 p 2 StatDataN: Test af hypotese p. 63/69

To binomialfordelinger. Teste p 1 = p 2 Under hypotesen har vi E(ˆp 1 ˆp 2 ) = n 1p 1 n 1 n 2p 2 n 2 = p 1 p 2 = p p = 0 V (ˆp 1 ˆp 2 ) = n 1p 1 (1 p 1 ) = ( n 1 1 + n 1 2 )p(1 p) Lad Z = n 2 1 ˆp 1 ˆp 2 p(1 p)( 1 n 1 + 1 n 2 ) E( Z) = 0, V ( Z) = 1 + n 2p 2 (1 p 2 ) n 2 2 Normalfordelingsapproximation: Z N(0, 1) StatDataN: Test af hypotese p. 64/69

To binomialfordelinger. Teste p 1 = p 2 p er ukendt: Estimat for p under hypotesen: (X 1 + X 2 ) binomial(n 1 + n 2,p), ˆp = X 1+X 2 n 1 +n 2 Beregn: Z = ˆp 1 ˆp 2 ˆp(1 ˆp)( 1 n 1 + 1 n 2 ) Accept: z < u 0.975 Forkast: z u 0.975 p-værdi: 2[1 Φ( z )] Sessionsfedme: ˆp 1 = 0.06897, ˆp 2 = 0.06700, ˆp = 0.06793, z = 0.61 Konklusion: ingen grund til at tro der er sket en ændring StatDataN: Test af hypotese p. 65/69

Approksimation Regel: n 1ˆp > 5, n 2ˆp > 5, n 1 (1 ˆp) > 5, n 2 (1 ˆp) > 5 B > 30 B < 30 F03 795 10732 11527 E03 825 11434 12259 B > 30 B < 30 F03 813 10713 11527 E03 865 11394 12259 StatDataN: Test af hypotese p. 66/69

ABO-blodtype For at undersøge om frekvensen af fænotype A indenfor ABO-blodtypen havde ændret sig over tid undersøgte man 651 tilfældig valgte børn under 16 år og 1151 tilfældig valgte ældre over 65 år. A ikke A total under 16 år 250 401 651 over 65 år 496 655 1151 Vi vil betragte dette som to uafhængige binomialfordelte målinger og teste p 1 = p 2 StatDataN: Test af hypotese p. 67/69

ABO-blodtype n 1 = 651, ˆp 1 = 250 651 = 0.384 n 2 = 1151, ˆp 2 = 496 1151 = 0.431 ˆp = 250+496 651+1151 = 0.414 0.384 0.431 Testtørrelse: z = = 1.946 0.414(1 0.414)( 1 + 1 ) 651 1151 u 0.975 : 1.96 p-værdi: 2[1 Φ(1.946)] = 0.052 Konklusion: Ikke noget klart svar på accept eller forkastelse StatDataN: Test af hypotese p. 68/69

Approksimation Regel: n 1ˆp > 5, n 2ˆp > 5, n 1 (1 ˆp) > 5, n 2 (1 ˆp) > 5 A ikke A < 16 250 401 651 > 65 496 655 1151 A ikke A < 16 270 381 651 > 65 476 674 1151 StatDataN: Test af hypotese p. 69/69