Statistiske test. Efteråret 2010 Jens Friis, AAU. Hjemmeside :

Statistiske test Efteråret 00 Jes Friis, AAU Hjemmeside : http://akaaudk/jfj

Kotiuerte fordeliger Defiitio: Tæthedsfuktio E sadsylighedstæthedsfuktio på R er e itegrabel fuktio f : R [0; [ hvor f d = Defiitio: Kotiuert fordelig E kotiuert sadsylighedsfordelig er e sadsylighedsfordelig, som har e sadsylighedstæthedsfuktio f : fuktioe F f t dt kaldes fordeligsfuktioe for e kotiuert fordelig på R Defiitio: middelværdi,varias og spredig Lad X være e stokastisk variabel med tæthedfuktio f Middelværdi : μ=ex= f d Varias : σ =EX-μ = Spredige er σ f d

Normalfordelige er det klassiske eksempel på e kotiuert fordelig Her er tæthedsfuktioe givet ved f e Middelværdie er μ og spredige σ De stokastiske variabel med dee tæthedsfuktio siges at være Nμ, σ fordelt De ormalfordelte stokastiske variabel, som har middelværdi 0 og varias, kaldes sædvaligvis U, og de tilhørede tæthedsfuktio for φ, dvs at e De tilsvarede fordeligsfuktio kaldes for Ф, dvs at t dt

Der gælder følgede : a b b U a P b X a P Ma ka derfor klare sig med kedskab til værdier af Ф, som er tabellagt og idlagt i de fleste computersystemer Udersøgelse af om et observatiossæt ka betragtes som Normalfordelt: Apgar- fødselsvægt SPSS eller BMI Geogear SPSS

Ma kue også have idført ormalfordelige således : Defiitio E stokastisk variabel U siges at være u-fordelt eller N0, -fordelt, hvis tæthedsfuktioe for U er givet ved e Sætig: EU = 0 og V = Defiitio E stokastisk variabel X = μ + σu, hvor μ R og σ R +, siges at være Nμ, σ -fordelt Sætig: EX = μ og VX = σ

Sætig De Nμ, σ fordelte stokastiske variabel X har tæthedsfuktioe e f Bevis: ' e f P U U P X P F

Hvorfor er ormalfordelige iteresset? Ja, det er de, fordi geemsittet af æste alle måliger tilærmelsesvis er ormalfordelt Mere præcist, så gælder de cetrale græseværdisætig : Lad X, X, X være idbyrdes uafhægige stokastiske variable, der følger samme fordelig med middelværdi og spredig Da er X / tilærmelsesvis N0, - fordelt Ma ka vise, at hvis X er b,p-fordelt, er X tilærmelsesvis ormalfordelt Nµ, σ for, hvor µ = p og σ = p-p Hvad var det u lige biomialfordelige er for oget?

Biomialfordelige Et basiseksperimet beskrives af et udfaldsrum E med to udfald succes s og fiasko f, dvs E={s,f}, hvor Ps=p og Pf=-p Basiseksperimemtet getages gage uafhægigt af hiade Hvis X beteger atal succes i de getagelser gælder der P X q q p q p q, q 0,, Sætig: EX=p ; VX=p-p Eks 5 uafhægige kast med e terig X er atal 6 ere P X 5 q q 6 q 5 6 5q, q 0,,5 q 0 3 4 5 PX=q 0,40 0,46 0,6 0,03 0,003 0,000 Se også SPSS: poisbi6idlagtesav

Heraf følger, at hvis X biomialfordelt b, p er X p p p tilærmelsesvis N 0, -fordelt Lad os u edelig komme til χ -fordelige Defiitio Lad X, X, X er idbyrdes uafhægige N0, fordelte stokastiske variable Summe siges at være χ - fordelt med frihedsgrader i X i Sætig E stokastisk variabel, som er χ - fordelt med frihedsgrader, har tæthedsfuktioe f / / e,, 0 / hvor r r e 0 d

X p Atag at X bp, N0, χ, f = p p X p p p Hvis ma har e stikprøve, som er biomialfordelt f stikprøve med svarmulighedere ja/ej ka ma beytte et χ -test, hvis ma øsker at teste hypotese Ho : p = p 0 De alterative hypotese er H : p p 0 Atal ja Atal ej ialt observeret - forvetet p 0 -p 0 p p 0 0 p0 p 0 p0 p0 p0 p p 0 0 p 0 p0 p p 0 0 som tilærmelsesvis er χ fordelt med frihedsgrad Dvs regle er, at ma udreger observeret forvetet forvetet Det er klart, at store værdier er kritiske for accept af hypotese

Accept af hypoteser Ma arbejder med et såkaldt sigifikasiveau, som sædvaligvis er 5% eller % Sigifikasiveauet er sadsylighede for at forkaste e rigtig hypotese Ma ka da begå to fejl : type : forkaste e rigtig hypotese type : acceptere e hypotese selv om de er forkert For at kue bedømme et tests styrke skal ma studere sadsylighede for at begå fejl af type Det er ofte ret kompliceret, og idgår ormalt ikke i idledede statistikkurser

Eksempel på χ -test med frihedsgrad I e meigsmålig har ma spurgt 500 vælgere om de vil stemme på Socialdemokratiet, hvis der var valg u Resultatet blev Atal ja Atal ej Ialt 465 035 500 Afviger dette resultat sigifikat fra hypotese, at 30% vil stemme på partiet? Formuleret mere matematisk: X beteger atal stemmer på partiet og modelle er, at X b500, p og ulhypotese er H 0 : p = /3 H : p /3 Følgede tabel udreges : Atal ja Atal ej I alt observeret 465 035 500 forvetet 500 000 500 465 500 500 035 000 000 3675 Da 95% s fraktile er 3,84 accepteres hypotese på et sigifikasiveau på 5%

Multiomialfordelige X = X, X, X k siges, at være multiomialfordelt b,p,p p k, hvis p +p + p k = og P!!! X k, X, X k k p p pk, hvor + + k = k På samme måde som ved biomialfordelige ka ma se på et basiseksperimet som getages gage uafhægigt af hiade I stedet for succes eller fiasko er der k svarmuligheder Dvs at X er atal svar på kategori X - - - - - - - - - - - - - - - - - - - - - - - - - - - - - k X k

Som ved biomialfordelige ka ma teste, at de ekelte sadsylighedsparametre atager give værdier, dvs at modelle er X=X, X, X k er multiomialfordelt b,p,p p k, og ulhypotese er H0 : p = p 0, p = p 0, p k = p 0k og H : p p 0, p p 0, p k p 0k Ige ka ma lave et χ - test, her med k- frihedsgrader Ige er det observeret forvetet forvetet E tommelfigerregel er, at for at avede testet skal alle forvetede værdier være større ed 5

Eksempel : Medel avlede bøer, som gav følgede udbytte form\ farve gule grøe Rude 35 08 katede 0 3 Da de stammede fra e krydsig af dobbelte heterozygotiske bøer, skulle udbyttet være i forholdet 9 : 3 : 3 : Som model ka avedes e multiomialfordelig b556, p, p, p 3, p 4 Nulhypotese er 9 3 3 H 0 : p, p, p3, p4 6 6 6 6 Følgede tabel udreges : i 3 4 sum observeret 35 0 08 3 556 forvetet 3,75 04,5 04,5 34,75 556

Eksempel fortsat: χ testet med 3 frihedsgrader udreges : 35 3,75 3,75 004,75 04,75 08 04,75 04,75 3 34,75 34,75 0,470 Da 95% s fraktile er 7,8 accepteres hypotese på et sigifikasiveau på 5%

Sammeligig af flere multiomialfordeliger eller test for uafhægighed Model : X = X, X, X k b,p,p p k X = X, X, X k b,p,p p k X m = X m, X m, X m b m,p m,p m p mk Nulpypotese : H 0 : p = p = = p m p = p = = p m p k = p k = = p mk H : forskellige pr kategori Som test avedes ige : observeret forvetet forvetet som er χ fordelt med f = m-k- frihedsgrader Også her bør de forvetede værdier være større ed 5

Lad os lige se på e kotigestabel over de observerede : i \ j j k sum j k i ij i m m mj mk m sum j k = Læg mærke til, at det forvetede atal i celle i,j er j j i i Ma udreger søjlefrekves gage rækkefrekves gage samlet atal, altså tester ma uafhægighed af de to iddeligskreterier

Eksempel : For mage år side lavede Dask Skakuio e læserudersøgelse for deres medlemsblad Ma spurgte bla om Hvad foretrækker du? sæt kryds at partiere briges adskilt fra referater og yheder at partiere briges samme med referater og yheder 3 ved ikke Spillere blev iddelt i spillerstyrke og resultatet blev: svar /styrke 3 sum 5 43 3 6 30 97 48 3 36 98 5 59 4 39 67 30 36 sum 0 305 79 504

Hvis ma vil teste om svaree er uafhægig af spillerstyrke er de fælles skø over p ere 0 305 p, p, p3 504 504 79 504 Tabelle med de forvetede ka udreges : svar styrke 3 sum 4,54 36,95 9,56 6 35,38 89,563 3,98 48 3 37,857 96,0 4,93 59 4 3,387 8,30,37 36 sum 0 305 79 504 0 504 305 504 79 504 Idet 6 4,54 ; 6 36,9536, 37 Da χ = 4,98 og f=4-3-=6 og 95% s fraktile er,59 forkastes hypotese med et sigifikasiveau på 5%

Eksempel : for e del år side udersøgte ma om flere gage straffede persoer havde e é-ægget eller to-ægget tvillige bror/søster Resultatet blev : observeret krimiel ikke krimiel sum é ægget 0 3 3 to ægget 5 7 sum 8 30 H 0 : fordelige på krimiel/ikke krimiel ed de samme for é- og to ægget De forvetede bliver forvetet ikke krimiel sum é ægget 5, 7,8 3 to ægget 6,8 0, 7 sum 8 30 Χ = 3,0, f = -- = Da 95% s fraktile er 3,84 forkastes hypotese med et sigifikas på 5% Da 99% s fraktile er 6,63 ka også forkaste på et sigifikasiveau på %

Hvorfor er der det atal frihedsgrader? Ved hjælp af de såkaldte spaltigssætig ka ma vise : Hvis X, X, X 3,X er N0, - fordelte, og der k lieære båd mellem dem er χ fordelt med - k frihedsgrader i X i I tilfældet med e m k tabel er der m k k m + = m k frihedsgrader Beviser for dee sætig ligger lagt ud over gymasieiveau Et sidste eksempel : rygig og apgar-tal : vha SPSS

u-test ved ormalfordelte observatioer Lad X, X, X er idbyrdes uafhægige Nμ, σ - fordelt stokastiske variable Der gælder da, at Xi i X er Nμ,, σ / fordelt Har ma derfor et observatiossæt,,, som atages at være Nμ, σ fordelt, hvor σ er kedt, ka hypotese H 0 : μ = μ 0 med H : μ μ 0 testes med teststørrelse 0 u, som uder H 0 er N0, fordelt Acceptområder er mellem / fraktile og / fraktile, hvor er sigifikasiveauet

Nu er det sjældet, at ma keder variase i et observatiossæt Der er der oftest tale om et approksimativt u-test Eks I e meigsmålig har ma spurgt 500 vælgere om de vil stemme på Socialdemokratiet, hvis der var valg u Resultatet blev Atal ja Atal ej Ialt 465 035 500 Afviger dette resultat sigifikat fra hypotese, at 30% vil stemme på partiet? Formuleret mere matematisk: X beteger atal stemmer på partiet og modelle er, at X b500, p og ulhypotese er H 0 : p = 0,30 H : p 0,30 Vi ved at uder H0 er X er approksimativt N5000,30,500030 030 Teststørrelse udreges 465 5000,30 5000,30 030 5 0,845 35 - fordelt Da 97,5% s fraktile er,96 accepteres hypotese på et sigifikasiveau på 5%

t-test ved ormalfordelte observatioer Lad X, X, X er idbyrdes uafhægige Nμ, σ - fordelt stokastiske variable Der gælder da, at Xi i X er Nμ,, σ / fordelt Har ma derfor et observatiossæt,,, som atages at være Nμ, σ fordelt, hvor σ er ukedt, skal både μ og σ estimeres Har ma et kokret observatiossæt,,, er estimatet for μ : for σ : s i i i og Laver ma e tilsvarede teststørrelse som ved u-testet, har ma følgede situatio:

Hypotese H 0 : μ = μ 0 med H : μ μ 0 øskes testet Teststørrelse bliver t 0 s Det ses, at i X i X er e stokastisk variabel, og derfor er t ikke ormalfordelt Ma ka vise, at estimatore s for σ er σ χ - fordelt med - frihedsgrader Testore t følger e såkaldt t-fordelig med - frihedsgrader t-fordelige kovergere mod N0, fordelige for gåede mod uedelig t-fordeliges tæthedsfuktio er også symmetrisk om 0 Ellers fugerer alt som ved u-testet

Eksempel: Ved produktio af piller har ma målt icotamid-idholdet i 0 piller Idholdet skal være 5mg Ved stikprøve på 0 piller fik ma følgede resultater:,67 3,9 3,40 3,56 3,76 3,83 3,95 4, 4,50 4,64 4,87 5,05 5,35 5,73 5,79 5,80 6, 6,97 5,36 7, Model : X i Nμ, σ for i= til 0 er uafhægige stokastiske variable H 0 : μ = 5, H : μ 5 Parametree estimeres = 4,799 ; s =,587 Teststørrelse bliver 4,797 5 t,587 0 0,737 Da,5% s fraktile er -,093 for 9 frihedsgrader, accepters hypotese

Sammeligig af to ormalfordelte obsevatiosrækker På 3 hude har ma målt ph-værdie i arterielt blod før og efter idådige af CO Ædrer idådige af CO ph-værdie? Nr ormal CO differes 7,4 7,6 0,6 7,5 7,30 0, 3 7,36 7,6 0,0 4 7,43 7,39 0,04 5 7,43 7,38 0,05 6 7,5 6,69 0,46 7 7,50 7,3 0,8 8 7,34 7,6 0,08 9 7,45 7,3 0, 0 7,4 7,06 0,36 7,53 7,34 0,9 7,48 7,8 0,0 3 7,4 7,9 0,3 Model for differese: X i er uafh Nμ, σ - fordelt for i=, 3 H 0 : μ = 0 ; H : μ 0 Estimater : = 0,838 s = 0,0476 Teststørrelse udreges t 0,838 0 0,0476 3 5,566 Da 97,5% s fraktile er,79 for frihedsgrader forkastes hypotese 99,5% s fraktile er 3,055 og hypotese vil også blive forkastet på % s sigifikasiveau

Lieær regressio Atag at Y i for i = til er uafhægige Nμ i, σ -fordelte således at i i Ma ka vise at estimatere for parametree er ; * * i i i i i y y y * * i i i y y Ma ka også vise, at estimatore for β er - fordelt, N i i Ma ka derfor teste hypotese H 0 : β = β 0 med teststørrelse i i t * 0 * som er t-fordelt med - frihedsgrader uder H 0 Hvis β 0 = 0 tester ma uafhægighed af og y værdiere

Eksempel : Ma for 8 patieter målt kreatiiidholdet i blodet før og efter dødes idtræde Er der e sammehæg? Dataee ka ses i e ecelfil Der er e pæ lieær sammehæg og parametree estimeres *,04 ; *,0 ; * s 0,000 ; SSD i, 485 8 i Ma vil gere teste hypotese H 0 : β = t,0,000 0,000,485 0,3 som er t-fordelt med 6 frihedsgrader Da 97,5% s fraktile er,056 accepteres hypotese Dataee er aalyseret vha SPSS : kreatiisav