2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Relaterede dokumenter
Maple 11 - Chi-i-anden test

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium

3. Trekantsberegninger. Gør rede for cosinusrelationen i vilkårlige trekanter.

Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode

Personlig stemmeafgivning

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Flemmings Maplekursus 1. Løsning af ligninger

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM

Spørgeskemaundersøgelser og databehandling

Skriv punkternes koordinater i regnearket, og brug værktøjet To variabel regressionsanalyse.

for gymnasiet og hf 2017 Karsten Juul

Schweynoch, Se eventuelt

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Tema. Dagens tema: Indfør centrale statistiske begreber.

for gymnasiet og hf 2016 Karsten Juul

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

q-værdien som skal sammenlignes med den kritiske Chi-i-Anden værdi p-værdien som skal sammenlignes med signifikansniveauet.

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

χ 2 test Formål med noten... 2 Goodness of fit metoden (GOF) ) Eksempel 1 er stikprøven repræsentativ for køn? (1 frihedsgrad)...

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Preben Blæsild og Jens Ledet Jensen

Stamoplysninger til brug ved prøver til gymnasiale uddannelser

Statistik viden eller tilfældighed

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Kapitel 8 Chi-i-anden (χ 2 ) prøven

2. lektion. Indtastning af matematiske udtryk i matematikmode Når man indtaster et udtryk i matematikmode skal man altid skrive alle gangetegn.

Estimation og konfidensintervaller

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

J E T T E V E S T E R G A A R D

Statistiske modeller

for matematik pä B-niveau i hf

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

c) For, er, hvorefter. Forklar.

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Susanne Ditlevsen Institut for Matematiske Fag susanne

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2)

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Nanostatistik: Opgavebesvarelser

Normalfordelingen og Stikprøvefordelinger

Statistik i basketball

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Stikprøver, binomialtest og chi^2 test er nogle af de punkter som denne note kommer ind på. Det er et supplement til Vejen til Matematik

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Kvantitative Metoder 1 - Efterår Dagens program

Kapitel 7 Forskelle mellem centraltendenser

Undervisningsbeskrivelse. Stamoplysninger til brug ved prøver til gymnasiale uddannelser. Oversigt over gennemførte undervisningsforløb.

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Konfidensintervaller og Hypotesetest

Nspire opskrifter (Ma)

Hvad er meningen? Et forløb om opinionsundersøgelser

Løsning til eksaminen d. 14. december 2009

Kvantitative metoder 2

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Kommentarer til øvelser i basalkursus, 2. uge

Undervisningsbeskrivelse

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2)

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Test nr. 5 af centrale elementer 02402

Note om Monte Carlo metoden

Statistik II 1. Lektion. Analyse af kontingenstabeller

Kønsproportion og familiemønstre.

Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008

R / RStudio. Intro til R / RStudio

Simulering af stokastiske fænomener med Excel

GL. MATEMATIK B-NIVEAU

Undervisningsbeskrivelse

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Vejledende løsninger til opgaver i kapitel 6

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

a) For at bestemme a og b i y=ax+b defineres to lister med data fra opgaven År d 0, 1, 2, 3, 4, 5, 6 :

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Definition. Definitioner

Kvantitative metoder 2

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Om hypoteseprøvning (1)

Aktivitetsmappe for introkurset til Naturvidenskabeligt grundforløb 2008

Matematik B STX 18. maj 2017 Vejledende løsning De første 6 opgaver løses uden hjælpemidler

Transkript:

2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900. http://en.wikipedia.org/wiki/chi-squared_distribution http://en.wikipedia.org/wiki/pearson%27s_chi-squared_test Græske bogstaver: c: chi [udtales "ki"] n: ny (antal frihedsgrader 2 -fordelingen) m: my (middelværdi i en fordeling) s: sigma (spredning i en fordeling) Vi definerer en stokastisk variabel, som er Vi beregner middelværdi og spredning (generelt): (1.1) (1.2) -fordelingen har og Test af sandsynlighederne med integralregning: NB: angiver "ProbabilityDensityFunction" (tæthedsfunktionen for fordelingen) angiver "CumulativeDistributionFunction" (kumulerede sandsynlighedsfordeling) 2 -fordelingen skal være 100%, dvs. 1: 1 (1.3)

2 Grafer over frihedsgrader) Hvordan ser grafen for 2 -fordelingen ud? Vi vil gerne tegne graferne i samme koordinatsystem. Først beregnes alle graferne, og gemmes i variablen hhv.. Og graferne skal have forskellig farvetone. Derefter tegnes alle graferne i samme koordinatsystem med kommandoen : 2 -fordelingen:

0 0 2 4 6 8 10 x PDF for Chi2-fordelingen med antal frihedsgrader fra 1 (rød) til 10 (blå) Kumulerede sandsynlighed CDF for 2 -fordelingen:

1 0 0 2 4 6 8 10 x CDF for Chi2-fordelingen med antal frihedsgrader fra 1 (rød) til 10 (blå) -test for "Goodness of fit" (passer data med forventning?) Eksempel 129 side 188-189 i Grundbogen B2 Givet en tabel med 3 hændelser: Hændelse Observer et hyppighe d (ved testen) 16 31 53 Forvente de frekvens (teoretisk

værdi) Vi skal undersøge om de observerede hyppigheder stemmer med de forventede! Antal frihedsgrader i en "Goodness of fit"-test = Tabellen skrives op igen, så tallene ligger i nogle variable, så vi kan regne videre på dem: (3.1.1) Hændelse Observer et hyppighe d (ved testen) Forvente de frekvens (teoretisk værdi) Nulhypotesen HYP 0 er, at testens resultat stemmer med de teoretisk givne sandsynligheder. Signifikansniveau = 5%. Antal udførelser af forsøget: : (3.1.2) teststørrelsen beregnes med formlen i faktaboks 11 side 186:

0.3700000000 (3.1.3) Vi ønsker at beregne sandsynligheden: Dette tal kaldes -værdien. 0.8311042839 Konklusion: Der er hele 83% sandsynlighed for at testen har en -værdi større end 0.37 Nulhypotesen HYP 0 kan altså ikke forkastes på f.eks. 5% signifikansniveau. EKSTRA: Man kan oprette en funktion, som beregner sandsynligheden: (3.1.4) 0.8311042839 (3.1.1.1) Hvis signifikansniveauet er 5%, kan vi beregne hvor stor Q skulle være for at forkaste nulhypotesen: NB: Så skal den kumulerede sandsynlighed være 0.95, dvs. 1-0.05. Altså er den kritiske værdi 5.991464547 (3.1.1.2) (3.1.1.3) Test af sandsynlighederne med integralregning. Sandsynligheden for den kritiske mængde skal være 5%, dvs. 0.05: Dette ønskes illustreret grafisk: 0.05000000000 (3.1.1.4) Grafen over 2 -fordelingens frekvensfunktion:

Grafen over den kritiske mængde: Graferne tegnes i samme koordinatsystem: 0 0 2 4 6 8 10 x Kritisk mængde er markeret med rødt Hvis Q lander i det røde område (den kritiske mængde), så forkastes nulhypotesen. Ovenfor fik vi teststørrelsen til 0.37, så den ligger absolut ikke i den røde kritiske mængde. Opgave 5037 side 104 Genetik: Mendels eksperiment med ærteblomster side 150-152 i Arbejdsbogen B2 Hændelse Observeret hyppighed 5474 1850

(ved testen) Forventede frekvens (teoretisk værdi givet ved Mendels love for arvelighed) Antal frihedsgrader = 2-1=1, da der kun er 2 mulige udfald: (3.2.1) Hændelse Observeret hyppighed (ved testen) Forventede frekvens (teoretisk værdi givet ved Mendels love for arvelighed) Nulhypotesen HYP 0 er, at observationerne stemmer med Mendels love. Signifikansniveau = 5%. teststørrelsen beregnes med formlen i faktaboks 11 side 186: 1 (3.2.2) (3.2.3)

0.2628800291 (3.2.4) Vi ønsker at beregne sandsynligheden: Dette tal kaldes -værdien. 0.6081484044 Nulhypotesen HYP 0 kan altså ikke forkastes, da der er hele 61% sandsynlighed for at testen har en -værdi større end 0.26. Dvs. på 5% signifikansniveau må man acceptere Mendels love for arvelighed. (3.2.5) Hvis signifikansniveauet er 5%, kan vi beregne hvor stor Q skulle være for at forkaste nulhypotesen: NB: Så skal den kumulerede sandsynlighed være 0.95, dvs. 1-0.05. Altså er den kritiske værdi 3.841456066 (3.2.6) (3.2.7)

1 0 0 2 4 6 8 10 x Hvis Q lander i det røde område (den kritiske mængde), så forkastes nulhypotesen. Ovenfor fik vi teststørrelsen til 0.26, så den ligger absolut ikke i den røde kritiske mængde. Opgave 5028 (valg) side 100 i Arbejdsbog B2 Hændelse Observeret hyppighed (ved testen) 250 180 450 120 Forventede frekvens (stemmeproce nt ved sidste valg) 0.27 0.16 0.39 0.18

Antal frihedsgrader = 4-1=3, da der kun er 4 mulige udfald: (3.3.1) Hændelse Observeret hyppighed (ved testen) Forventede frekvens (stemmeproce nt ved sidste valg) a) Antal personer, som deltager er 1000: Den samlede sandsynlighed er 1: (3.3.1.1) 1.00 (3.3.1.2) b) Forventede hyppigheder: Hændels e Forvente t hyppighe d (ved testen) 160\ (3.3.2.2) 270.00(3.3.2.1).00 3\ (3.3.2.3) 1\ 90.00 (3.3.2.4) 80.00 c)

Nulhypotesen : Stemmefordelingen har ikke ændret sig siden sidste valg. Signifikansniveau = 5%. d) -test: teststørrelsen beregnes med formlen i faktaboks 11 side 186: + 33.21225071 (3.3.4.1) Vi ønsker at beregne sandsynligheden: Dette tal kaldes -værdien. Sandsynligheden er altså nærmest 0! (3.3.4.2) Hvis signifikansniveauet er 5%, kan vi beregne hvor stor Q skulle være for at forkaste nulhypotesen: NB: Så skal den kumulerede sandsynlighed være 0.95, dvs. 1-0.05. Altså er den kritiske værdi: 7.814728288 (3.3.4.3) (3.3.4.4) Da Q-værdien er 33.2, som er langt over den kritiske værdi på 7.81, så er det meget usandsynligt, at nulhypotesen holder. må derfor forkastes. Dvs. stemmefordelingen har med stor sandsynlighed ændret sig siden valget.

0 0 10 20 30 40 x Der er således kun 5% sandsynlighed for at lande i det røde område (den kritisks mængde). -testen gav Q-værdien 33.2, så det er utrolig usandsynligt, at ramme så langt ude. Derfor må nulhypotesen forkastes! Stemmefordelingen har altså ændret sig. -test for "uafhængighed" (er to parametre uafhængige af hinanden?) Vi ønsker at undersøge, om rygning er uafhængig af køn. Obser vered e hyppi ghede N (ikke rygere ) L (0-10 cigaretter pr. dag) M (over 10 cigaretter pr. dag)

r Drenge 90 80 30 Piger 125 75 50 Dataene fra tabellen ovenfor indtastes, så vi kan regne videre med dem i Maple, og der tilføjes vandrette og lodrette summer: Obser vered e hyppi ghede r N (ikke rygere) L (0-10 cigaretter pr. dag) M (over 10 cigaretter pr. dag) Sum Drenge (4.1) (4.2) (4.3) (4.4) Piger (4.5) (4.6) (4.7) (4.8) Sum (4.9) (4.10) (4.11) (4.12) Nulhypotese : rygevaner er uafhængig af køn. Signifikansniveau = 5%. Vi vil nu beregne de forventede antal personer i hver kategori:

Forve ntede hyppi ghede r N (ikke rygere) L (0-10 cigaretter pr. dag) M (over 10 cigaretter pr. dag) Sum Drenge (4.13) (4.14) (4.15) 200 (4.16) Piger (4.17) (4.18) (4.19) 250 (4.20) Sum 80 (4.23) 215 (4.21) 155 (4.22) 450 (4.24) Antal frihedsgrader i en uafhængighedstest er:

Nu kan de 2 tabeller sammenlignes: (4.25) teststørrelsen beregnes med formlen i faktaboks 11 side 186: (4.26) Vi ønsker at beregne sandsynligheden: Dette tal kaldes -værdien. 0.0682313663 Da -værdien er ca. 6.8%, som er (lidt) større end signifikansniveauet på 5%, kan nulhypotesen ikke forkastes. (4.27) Så vi må acceptere, at rygning er uafhængig af køn. Men det var tæt på, at vi kunne forkaste nulhypotesen! Hvis signifikansniveauet er 5%, kan vi beregne hvor stor Q skulle være for at forkaste nulhypotesen: NB: Så skal den kumulerede sandsynlighed være 0.95, dvs. 1-0.05. Altså er den kritiske værdi: 5.991464547 (4.28) (4.29) Da Q-værdien er 5.4, som er mindre end den kritiske værdi, så må nulhypotesen accepteres.

0 0 2 4 6 8 10 x Kritisk mængde er markeret med rødt Der er således kun 5% sandsynlighed for at lande i det røde område (den kritisks mængde). -testen gav Q-værdien 5.4, så det er tæt på den kritiske mængde, men dog til venstre for denne. Men trods alt udenfor dne kritiske mængde, derfor kan nulhypotesen ikke forkastes. Simulering, hvor et forsøg gentages mange gange Med Maple kan man simpelt simulere, at et eksperiment udføres mange gange. Kør nedenstående med forskellige værdier af AntalTests: (5.1) AntalTests er det antal gange som testen udføres.

Nu laves simuleringen: (5.2) Plot af simuleringen: 0 0 2 4 6 8 10 Plot af den forventede fordeling:

0 0 2 4 6 8 10 Plot i samme koordinatsystem:

0 0 2 4 6 8 10