Statistiske test. Efteråret 2010 Jens Friis, AAU. Hjemmeside :

Relaterede dokumenter
Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk!

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

antal gange krone sker i første n kast = n

29. januar Epidemiologi og biostatistik Forelæsning 2 Uge 1, torsdag 2. februar 2006 Michael Væth, Afdeling for Biostatistik.

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Motivation. En tegning

Generelle lineære modeller

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.

Estimation ved momentmetoden. Estimation af middelværdiparameter

24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik.

Løsninger til kapitel 7

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning)

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

Vejledende besvarelser til opgaver i kapitel 15

Stikprøvefordelinger og konfidensintervaller

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

9. Binomialfordelingen

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

Den flerdimensionale normalfordeling

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff

Diskrete og kontinuerte stokastiske variable

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 15. februar 2006

Maja Tarp AARHUS UNIVERSITET

Skitse til notat om hvor de forskellige sandsynlighedsfordelinger kan tænkes at komme fra

Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Modul 14: Goodness-of-fit test og krydstabelanalyse

Sammenligning af to grupper

Matematisk Modellering 1 Hjælpeark

Uge 40 I Teoretisk Statistik, 30. september 2003

Kvantitative metoder 2

Velkommen. Program. Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R. Praktiske ting og sager

Hovedpointer fra SaSt

STATISTIKNOTER Simple normalfordelingsmodeller

x-klasserne Gammel Hellerup Gymnasium

Program. Middelværdi af Y = t(x ) Transformationssætningen

Hvorfor er det lige at vi skal lære det her?

Konfidens intervaller

Asymptotisk optimalitet af MLE

Teoretisk Statistik, 9. februar Beskrivende statistik

Opsamling. Lidt om det hele..!

Tests for forskel i central tendens for data på ordinal- og intervalskala. Typer af statistiske test:

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

IMFUFA TEKST NR TEKSTER fra ROSKILDE UNIVERSITETSCENTER. Jørgen Larsen

Susanne Ditlevsen Institut for Matematiske Fag susanne

Sammensatte hypoteser i en polynomialfordeling

Matematik A. Højere handelseksamen. Tirsdag den 26. maj 2015 kl hhx151-mat/a

Test i polynomialfordelingen

Morten Frydenberg version dato:

Tema. Dagens tema: Indfør centrale statistiske begreber.

Oversigt. 1 Fordelingen for gennemsnittet t-fordelingen. 3 Den statistiske sprogbrug og formelle ramme

Vejledende opgavebesvarelser

STATISTISKE GRUNDBEGREBER

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave december 2007

Statistiske Modeller 1: Notat 1

Sandsynlighedsteori 1.2 og 2 Uge 5.

Nogle Asymptotiske Resultater. Jens Ledet Jensen Matematisk Institut, Aarhus Universitet. 1 Indledning 1

(VIDENSKABSTEORI) STATISTIK (EKSPERIMENTELT ARBEJDE)

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

Introduktion til Statistik

RESEARCH PAPER. Nr. 2, En model for lagerstørrelsen som determinant for købs- og brugsadfærden for et kortvarigt forbrugsgode.

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Projekt 9.10 St. Petersborg paradokset

Konfidensintervaller og Hypotesetest

STATISTISKE GRUNDBEGREBER

STATISTIK x-klasserne Gammel Hellerup Gymnasium

STATISTISKE GRUNDBEGREBER

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

Renteformlen. Erik Vestergaard

Asymptotisk estimationsteori

vejer (med fortegn). Det vil vi illustrere visuelt og geometrisk for (2 2)-matricer og (3 3)-matricer i enote 6.

Sandsynlighedsregning

Variansanalyse. på normalfordelte observationer af Jens Friis

STATISTISKE GRUNDBEGREBER

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Projekt 4.8 De reelle tal og 1. hovedsætning om kontinuerte funktioner

Supplement til Kreyszig

Undersøgelse af numeriske modeller

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Sandsynlighedsregning og statistisk

6 Populære fordelinger

Hypotesetest. Hypotesetest og kritiske værdier Type 1 og Type 2 fejl Styrken af en test Sammenligning af to populationer

Sandsynlighedsregning i biologi

Eksempel 10.1 En autoregressiv proces af orden 1 (ofte blot kaldet en AR(1)- proces) pårhar et opdateringsskema (10.1) med funktionen. for y R.

Nanostatistik: Opgavebesvarelser

Transkript:

Statistiske test Efteråret 00 Jes Friis, AAU Hjemmeside : http://akaaudk/jfj

Kotiuerte fordeliger Defiitio: Tæthedsfuktio E sadsylighedstæthedsfuktio på R er e itegrabel fuktio f : R [0; [ hvor f d = Defiitio: Kotiuert fordelig E kotiuert sadsylighedsfordelig er e sadsylighedsfordelig, som har e sadsylighedstæthedsfuktio f : fuktioe F f t dt kaldes fordeligsfuktioe for e kotiuert fordelig på R Defiitio: middelværdi,varias og spredig Lad X være e stokastisk variabel med tæthedfuktio f Middelværdi : μ=ex= f d Varias : σ =EX-μ = Spredige er σ f d

Normalfordelige er det klassiske eksempel på e kotiuert fordelig Her er tæthedsfuktioe givet ved f e Middelværdie er μ og spredige σ De stokastiske variabel med dee tæthedsfuktio siges at være Nμ, σ fordelt De ormalfordelte stokastiske variabel, som har middelværdi 0 og varias, kaldes sædvaligvis U, og de tilhørede tæthedsfuktio for φ, dvs at e De tilsvarede fordeligsfuktio kaldes for Ф, dvs at t dt

Der gælder følgede : a b b U a P b X a P Ma ka derfor klare sig med kedskab til værdier af Ф, som er tabellagt og idlagt i de fleste computersystemer Udersøgelse af om et observatiossæt ka betragtes som Normalfordelt: Apgar- fødselsvægt SPSS eller BMI Geogear SPSS

Ma kue også have idført ormalfordelige således : Defiitio E stokastisk variabel U siges at være u-fordelt eller N0, -fordelt, hvis tæthedsfuktioe for U er givet ved e Sætig: EU = 0 og V = Defiitio E stokastisk variabel X = μ + σu, hvor μ R og σ R +, siges at være Nμ, σ -fordelt Sætig: EX = μ og VX = σ

Sætig De Nμ, σ fordelte stokastiske variabel X har tæthedsfuktioe e f Bevis: ' e f P U U P X P F

Hvorfor er ormalfordelige iteresset? Ja, det er de, fordi geemsittet af æste alle måliger tilærmelsesvis er ormalfordelt Mere præcist, så gælder de cetrale græseværdisætig : Lad X, X, X være idbyrdes uafhægige stokastiske variable, der følger samme fordelig med middelværdi og spredig Da er X / tilærmelsesvis N0, - fordelt Ma ka vise, at hvis X er b,p-fordelt, er X tilærmelsesvis ormalfordelt Nµ, σ for, hvor µ = p og σ = p-p Hvad var det u lige biomialfordelige er for oget?

Biomialfordelige Et basiseksperimet beskrives af et udfaldsrum E med to udfald succes s og fiasko f, dvs E={s,f}, hvor Ps=p og Pf=-p Basiseksperimemtet getages gage uafhægigt af hiade Hvis X beteger atal succes i de getagelser gælder der P X q q p q p q, q 0,, Sætig: EX=p ; VX=p-p Eks 5 uafhægige kast med e terig X er atal 6 ere P X 5 q q 6 q 5 6 5q, q 0,,5 q 0 3 4 5 PX=q 0,40 0,46 0,6 0,03 0,003 0,000 Se også SPSS: poisbi6idlagtesav

Heraf følger, at hvis X biomialfordelt b, p er X p p p tilærmelsesvis N 0, -fordelt Lad os u edelig komme til χ -fordelige Defiitio Lad X, X, X er idbyrdes uafhægige N0, fordelte stokastiske variable Summe siges at være χ - fordelt med frihedsgrader i X i Sætig E stokastisk variabel, som er χ - fordelt med frihedsgrader, har tæthedsfuktioe f / / e,, 0 / hvor r r e 0 d

X p Atag at X bp, N0, χ, f = p p X p p p Hvis ma har e stikprøve, som er biomialfordelt f stikprøve med svarmulighedere ja/ej ka ma beytte et χ -test, hvis ma øsker at teste hypotese Ho : p = p 0 De alterative hypotese er H : p p 0 Atal ja Atal ej ialt observeret - forvetet p 0 -p 0 p p 0 0 p0 p 0 p0 p0 p0 p p 0 0 p 0 p0 p p 0 0 som tilærmelsesvis er χ fordelt med frihedsgrad Dvs regle er, at ma udreger observeret forvetet forvetet Det er klart, at store værdier er kritiske for accept af hypotese

Accept af hypoteser Ma arbejder med et såkaldt sigifikasiveau, som sædvaligvis er 5% eller % Sigifikasiveauet er sadsylighede for at forkaste e rigtig hypotese Ma ka da begå to fejl : type : forkaste e rigtig hypotese type : acceptere e hypotese selv om de er forkert For at kue bedømme et tests styrke skal ma studere sadsylighede for at begå fejl af type Det er ofte ret kompliceret, og idgår ormalt ikke i idledede statistikkurser

Eksempel på χ -test med frihedsgrad I e meigsmålig har ma spurgt 500 vælgere om de vil stemme på Socialdemokratiet, hvis der var valg u Resultatet blev Atal ja Atal ej Ialt 465 035 500 Afviger dette resultat sigifikat fra hypotese, at 30% vil stemme på partiet? Formuleret mere matematisk: X beteger atal stemmer på partiet og modelle er, at X b500, p og ulhypotese er H 0 : p = /3 H : p /3 Følgede tabel udreges : Atal ja Atal ej I alt observeret 465 035 500 forvetet 500 000 500 465 500 500 035 000 000 3675 Da 95% s fraktile er 3,84 accepteres hypotese på et sigifikasiveau på 5%

Multiomialfordelige X = X, X, X k siges, at være multiomialfordelt b,p,p p k, hvis p +p + p k = og P!!! X k, X, X k k p p pk, hvor + + k = k På samme måde som ved biomialfordelige ka ma se på et basiseksperimet som getages gage uafhægigt af hiade I stedet for succes eller fiasko er der k svarmuligheder Dvs at X er atal svar på kategori X - - - - - - - - - - - - - - - - - - - - - - - - - - - - - k X k

Som ved biomialfordelige ka ma teste, at de ekelte sadsylighedsparametre atager give værdier, dvs at modelle er X=X, X, X k er multiomialfordelt b,p,p p k, og ulhypotese er H0 : p = p 0, p = p 0, p k = p 0k og H : p p 0, p p 0, p k p 0k Ige ka ma lave et χ - test, her med k- frihedsgrader Ige er det observeret forvetet forvetet E tommelfigerregel er, at for at avede testet skal alle forvetede værdier være større ed 5

Eksempel : Medel avlede bøer, som gav følgede udbytte form\ farve gule grøe Rude 35 08 katede 0 3 Da de stammede fra e krydsig af dobbelte heterozygotiske bøer, skulle udbyttet være i forholdet 9 : 3 : 3 : Som model ka avedes e multiomialfordelig b556, p, p, p 3, p 4 Nulhypotese er 9 3 3 H 0 : p, p, p3, p4 6 6 6 6 Følgede tabel udreges : i 3 4 sum observeret 35 0 08 3 556 forvetet 3,75 04,5 04,5 34,75 556

Eksempel fortsat: χ testet med 3 frihedsgrader udreges : 35 3,75 3,75 004,75 04,75 08 04,75 04,75 3 34,75 34,75 0,470 Da 95% s fraktile er 7,8 accepteres hypotese på et sigifikasiveau på 5%

Sammeligig af flere multiomialfordeliger eller test for uafhægighed Model : X = X, X, X k b,p,p p k X = X, X, X k b,p,p p k X m = X m, X m, X m b m,p m,p m p mk Nulpypotese : H 0 : p = p = = p m p = p = = p m p k = p k = = p mk H : forskellige pr kategori Som test avedes ige : observeret forvetet forvetet som er χ fordelt med f = m-k- frihedsgrader Også her bør de forvetede værdier være større ed 5

Lad os lige se på e kotigestabel over de observerede : i \ j j k sum j k i ij i m m mj mk m sum j k = Læg mærke til, at det forvetede atal i celle i,j er j j i i Ma udreger søjlefrekves gage rækkefrekves gage samlet atal, altså tester ma uafhægighed af de to iddeligskreterier

Eksempel : For mage år side lavede Dask Skakuio e læserudersøgelse for deres medlemsblad Ma spurgte bla om Hvad foretrækker du? sæt kryds at partiere briges adskilt fra referater og yheder at partiere briges samme med referater og yheder 3 ved ikke Spillere blev iddelt i spillerstyrke og resultatet blev: svar /styrke 3 sum 5 43 3 6 30 97 48 3 36 98 5 59 4 39 67 30 36 sum 0 305 79 504

Hvis ma vil teste om svaree er uafhægig af spillerstyrke er de fælles skø over p ere 0 305 p, p, p3 504 504 79 504 Tabelle med de forvetede ka udreges : svar styrke 3 sum 4,54 36,95 9,56 6 35,38 89,563 3,98 48 3 37,857 96,0 4,93 59 4 3,387 8,30,37 36 sum 0 305 79 504 0 504 305 504 79 504 Idet 6 4,54 ; 6 36,9536, 37 Da χ = 4,98 og f=4-3-=6 og 95% s fraktile er,59 forkastes hypotese med et sigifikasiveau på 5%

Eksempel : for e del år side udersøgte ma om flere gage straffede persoer havde e é-ægget eller to-ægget tvillige bror/søster Resultatet blev : observeret krimiel ikke krimiel sum é ægget 0 3 3 to ægget 5 7 sum 8 30 H 0 : fordelige på krimiel/ikke krimiel ed de samme for é- og to ægget De forvetede bliver forvetet ikke krimiel sum é ægget 5, 7,8 3 to ægget 6,8 0, 7 sum 8 30 Χ = 3,0, f = -- = Da 95% s fraktile er 3,84 forkastes hypotese med et sigifikas på 5% Da 99% s fraktile er 6,63 ka også forkaste på et sigifikasiveau på %

Hvorfor er der det atal frihedsgrader? Ved hjælp af de såkaldte spaltigssætig ka ma vise : Hvis X, X, X 3,X er N0, - fordelte, og der k lieære båd mellem dem er χ fordelt med - k frihedsgrader i X i I tilfældet med e m k tabel er der m k k m + = m k frihedsgrader Beviser for dee sætig ligger lagt ud over gymasieiveau Et sidste eksempel : rygig og apgar-tal : vha SPSS

u-test ved ormalfordelte observatioer Lad X, X, X er idbyrdes uafhægige Nμ, σ - fordelt stokastiske variable Der gælder da, at Xi i X er Nμ,, σ / fordelt Har ma derfor et observatiossæt,,, som atages at være Nμ, σ fordelt, hvor σ er kedt, ka hypotese H 0 : μ = μ 0 med H : μ μ 0 testes med teststørrelse 0 u, som uder H 0 er N0, fordelt Acceptområder er mellem / fraktile og / fraktile, hvor er sigifikasiveauet

Nu er det sjældet, at ma keder variase i et observatiossæt Der er der oftest tale om et approksimativt u-test Eks I e meigsmålig har ma spurgt 500 vælgere om de vil stemme på Socialdemokratiet, hvis der var valg u Resultatet blev Atal ja Atal ej Ialt 465 035 500 Afviger dette resultat sigifikat fra hypotese, at 30% vil stemme på partiet? Formuleret mere matematisk: X beteger atal stemmer på partiet og modelle er, at X b500, p og ulhypotese er H 0 : p = 0,30 H : p 0,30 Vi ved at uder H0 er X er approksimativt N5000,30,500030 030 Teststørrelse udreges 465 5000,30 5000,30 030 5 0,845 35 - fordelt Da 97,5% s fraktile er,96 accepteres hypotese på et sigifikasiveau på 5%

t-test ved ormalfordelte observatioer Lad X, X, X er idbyrdes uafhægige Nμ, σ - fordelt stokastiske variable Der gælder da, at Xi i X er Nμ,, σ / fordelt Har ma derfor et observatiossæt,,, som atages at være Nμ, σ fordelt, hvor σ er ukedt, skal både μ og σ estimeres Har ma et kokret observatiossæt,,, er estimatet for μ : for σ : s i i i og Laver ma e tilsvarede teststørrelse som ved u-testet, har ma følgede situatio:

Hypotese H 0 : μ = μ 0 med H : μ μ 0 øskes testet Teststørrelse bliver t 0 s Det ses, at i X i X er e stokastisk variabel, og derfor er t ikke ormalfordelt Ma ka vise, at estimatore s for σ er σ χ - fordelt med - frihedsgrader Testore t følger e såkaldt t-fordelig med - frihedsgrader t-fordelige kovergere mod N0, fordelige for gåede mod uedelig t-fordeliges tæthedsfuktio er også symmetrisk om 0 Ellers fugerer alt som ved u-testet

Eksempel: Ved produktio af piller har ma målt icotamid-idholdet i 0 piller Idholdet skal være 5mg Ved stikprøve på 0 piller fik ma følgede resultater:,67 3,9 3,40 3,56 3,76 3,83 3,95 4, 4,50 4,64 4,87 5,05 5,35 5,73 5,79 5,80 6, 6,97 5,36 7, Model : X i Nμ, σ for i= til 0 er uafhægige stokastiske variable H 0 : μ = 5, H : μ 5 Parametree estimeres = 4,799 ; s =,587 Teststørrelse bliver 4,797 5 t,587 0 0,737 Da,5% s fraktile er -,093 for 9 frihedsgrader, accepters hypotese

Sammeligig af to ormalfordelte obsevatiosrækker På 3 hude har ma målt ph-værdie i arterielt blod før og efter idådige af CO Ædrer idådige af CO ph-værdie? Nr ormal CO differes 7,4 7,6 0,6 7,5 7,30 0, 3 7,36 7,6 0,0 4 7,43 7,39 0,04 5 7,43 7,38 0,05 6 7,5 6,69 0,46 7 7,50 7,3 0,8 8 7,34 7,6 0,08 9 7,45 7,3 0, 0 7,4 7,06 0,36 7,53 7,34 0,9 7,48 7,8 0,0 3 7,4 7,9 0,3 Model for differese: X i er uafh Nμ, σ - fordelt for i=, 3 H 0 : μ = 0 ; H : μ 0 Estimater : = 0,838 s = 0,0476 Teststørrelse udreges t 0,838 0 0,0476 3 5,566 Da 97,5% s fraktile er,79 for frihedsgrader forkastes hypotese 99,5% s fraktile er 3,055 og hypotese vil også blive forkastet på % s sigifikasiveau

Lieær regressio Atag at Y i for i = til er uafhægige Nμ i, σ -fordelte således at i i Ma ka vise at estimatere for parametree er ; * * i i i i i y y y * * i i i y y Ma ka også vise, at estimatore for β er - fordelt, N i i Ma ka derfor teste hypotese H 0 : β = β 0 med teststørrelse i i t * 0 * som er t-fordelt med - frihedsgrader uder H 0 Hvis β 0 = 0 tester ma uafhægighed af og y værdiere

Eksempel : Ma for 8 patieter målt kreatiiidholdet i blodet før og efter dødes idtræde Er der e sammehæg? Dataee ka ses i e ecelfil Der er e pæ lieær sammehæg og parametree estimeres *,04 ; *,0 ; * s 0,000 ; SSD i, 485 8 i Ma vil gere teste hypotese H 0 : β = t,0,000 0,000,485 0,3 som er t-fordelt med 6 frihedsgrader Da 97,5% s fraktile er,056 accepteres hypotese Dataee er aalyseret vha SPSS : kreatiisav