Torben Rønne. Statistik. med TI InterActive

Transkript

1 Torben Rønne Statistik med TI InterActive

2 Indholdsfortegnelse 1 Beskrivende statistik Middelværdi, kvartilsæt og boksplot Histogram og sumkurve Varians og spredning... 9 Normalfordelingen Gauss-kurven At afgøre om en stikprøve er normalfordelt Tilnærmelser til normalfordelingen Statistisk undersøgelse Udvælgelse af stikprøver Hypotesetest χ -test χ -fordelingen Goodness-of-fit Uafhængighed Opgaver... 35

3 1 Beskrivende statistik Med den beskrivende statistik ønsker man at trække den væsentligste information ud af et talmateriale og præsentere den på en overskuelig måde. Dette kan ske ved brug af tabeller eller grafer, men det kan også ske ved at angive nogle nøgletal for talmaterialet, fx middelværdien. Sådanne nøgletal kaldes statistiske deskriptorer. 1.1 Middelværdi, kvartilsæt og boksplot Emilie har fået 10 karakterer: 4, 0, 0, 7, 7, 10, 4, 4, 7 og 0. Disse tal kaldes i statistik for observationer, der tilsammen udgør et observationssæt. Vi kan udregne middelværdien x : x = = Emilies karakterer har således en middelværdi (=gennemsnit) på 4.9. Andre vigtigste statistiske deskriptorer er det såkaldte kvartilsæt, der består af tre tal: den nedre kvartil, medianen og den øvre kvartil. For at finde disse tre tal, opstilles karaktererne i rækkefølge med det mindste først: Medianen er det midterste tal. I dette tilfælde består talmaterialet af et lige antal tal, og derfor vil to tal være midterste, i dette tilfælde 4 og 4. Medianen er så gennemsnittet af disse to tal, dvs. medianen er 4. Den nedre kvartil er medianen af tallene mindre end medianen, dvs. medianen af den nederste halvdel af tallene. I dette tilfælde er den nederste halvdel (dvs. tallene mindre end medianen): og medianen af disse tal er 0. Den nedre kvartil er derfor. Den øvre kvartil er medianen af tallene større end medianen, dvs. medianen af den øverste halvdel af tallene. I dette tilfælde er den øverste halvdel (dvs. tallene større end medianen): og medianen af disse tal er 7. Den øvre kvartil er derfor 7. Kvartilsættet skrives således: (; 4; 7). Det fortæller, at (ca.) 5 % af alle Emilies karakterer er 0 eller derunder, at (ca.) 50 % af hendes karakterer er 4 eller derunder, og at (ca.) 75 % af hendes karakterer er 7 eller derunder. For at bestemme middelværdi og kvartilsæt i TI InterActive, indtastes talmaterialet i en liste, og Stat Calculation Tools åbnes og der vælges One-Variable Statistics og X list markeres med L1. 3

4 Trykkes på Calculate vises statistikken. De relevante punkter kan markeres, og der trykkes Save Results. TI-InterActive viser, at middelværdien x = 4.9, den mindste karakter er, den nedre kvartil er Q1 =, medianen er 4, den øvre kvartil er Q3 = 7 og den største karakter er 10. Disse resultater kan præsenteres i et boksplot. Her angives netop kvartilsættet og den mindste og største værdi. I TI InterActive laves et boksplot således: Åben grafvinduet, tryk på fanebladet med Stat Plots og tryk dernæst på punkterne. Vælg Regular Box Plot og sæt XList til L1 i Stat Plot Styles. Tryk OK. Sæt et flueben, og boksplottet er tegnet. Bemærk koordinatsystemets grænser på boksplottet. Af boksplottet fremgår, at den mindste karakter er 0, hvilket også er den nedre kvartil. Medianen er 4, den øvre kvartil er 7 og den største karakter er 10. 4

5 1. Histogram og sumkurve På en vej med 60 km/t fartbegrænsning har politiet målt 100 bilisters fart (i km/t): Hvis man har et observationssæt bestående af et stort antal observationer, kan man med fordel inddele observationerne i grupper, så observationssættet bliver lettere at overskue. Vi kan fx vælge at gruppere observationerne i intervaller med intervalbredden 5, så de enkelte intervaller bliver 30 35, 35 40, 40 45, osv. Normalt vælger man, at højre endepunkt er med i intervallet, så fx 40 er med i intervallet Med hyppigheden af et interval forstås det antal gange, en observation forekommer i intervallet. Med frekvensen af et interval menes den brøkdel (ofte angivet i procent) af det samlede antal observationer, som observationerne i intervallet udgør. Hvis vi betegner det samlede antal observationer med N, kan frekvensen af et interval bestemmes med formlen: hyppighed frekvens =. N Vi kan opstille en hyppigheds- og frekvenstabel over observationssættet: Interval Hyppighed Frekvens % % % % % % % % % % % % Sum % Vi vil nu arbejde videre med observationssættet i TI InterActive. I Lister indtastes intervalmidtpunkterne i L1 og hyppigheden i L: 5

6 Grafvinduet åbnes, og Histogram vælges. Der tastes som vist. Sæt et flueben i Use Frequency. Sæt Class Edge til 30 (angiver et begyndelsespunkt for intervallerne) og sæt Class Width til intervalbredden. Vælg endelig skraveret i Fill Pattern, og tryk OK. Ved at ændre lidt på grafvinduet, fås et histogram: Et histogram er ofte en god måde at præsentere et talmateriale grafisk på. I et histogram svarer et areal til en bestemt hyppighed eller frekvens. I dette tilfælde er intervalbredden den samme for alle intervaller, og vi har derfor markeret hyppigheden på y-aksen. TI InterActive har svært ved at håndtere histogrammer, hvor intervalbredden ikke er den samme for alle intervaller. Intervallet kaldes typeintervallet, fordi dette interval har det højeste rektangel. Ved den kumulerede hyppighed til et tal x forstås antallet af observationer, der er mindre end eller lig med x. Tilsvarende er den kumulerede frekvens af et tal x den brøkdel af samtlige observationer, der er mindre end eller lig med x. Nedenfor er tabellen fra før udvidet, så også den kumulerede hyppighed og den kumulerede frekvens er medtaget. Talværdien x er for alle intervaller valgt som højre endepunkt i intervallet, dvs. x er det største tal i intervallet. At den kumulerede frekvens til intervallet er 7 % betyder således, at 7 % af samtlige observationer er på 45 km/t eller mindre. 6

7 Interval Hyppighed Frekvens Kumuleret hyppighed Kumuleret frekvens % % % 4 4 % % 7 7 % % % % 5 5 % % % % % % % % % % % % % % % Denne tabel kan med fordel laves i TI InterActive. I Lister indskrives interval-begyndelsespunkterne i L1, interval-endepunkterne i L og hyppigheden i L3. I L4 beregnes frekvensen (dobbeltklik på L4 og skriv L3/sumlist(L3) under Formula. sumlist lægger alle tallene sammen i en liste. I dette tilfælde er sumlist(l3)=100). I L5 beregnes den kumulerede hyppighed (skriv cumsum(l3)) og i L6 beregnes den kumulerede frekvens (skriv cumsum(l4)). Ud fra denne tabel kan vi lave en sumkurve i TI InterActive. Hertil bruges interval-endepunkterne i L og den kumulerede frekvens i L6. Vælg graf, og vælg xy Line i Stat Plots. Grafvinduet rettes til, og vi har nu en sumkurve: 7

8 Ud fra sumkurven kan vi besvare nogle spørgsmål: a) Hvor stor en del af bilisterne kørte lovlydigt, dvs. højst 60 km/t? På sumkurven aflæses dette til ca. 45 % af bilisterne. b) Hvor stor en del af bilisterne kørte mindst 70 km/t? På sumkurven aflæses, at ca. 85 % af bilisterne højst kørte 70 km/t. Derfor må svaret være, at ca. 15 % kørte mindst 70 km/t. c) Hvor hurtigt kørte den langsomste halvdel af bilisterne? På sumkurven starter vi på y-aksen ved 50 % = 0.5. Derudfra finder vi den x-værdi, der svarer hertil. Dette ses at være ca. 6 km/t. Altså kørte den langsomste halvdel højst 6 km/t. Sumkurven kan også bruges til at bestemme kvartilsættet: Af sumkurven kan vi aflæse, at den nedre kvartil er 55, medianen er 6 og den øvre kvartil er 68. Kvartilsættet kan derfor angives: (55; 6; 68). Sagt på dansk betyder dette kvartilsæt, at 5 % af bilisterne kørte højst 55 km/t, at 50 % af bilisterne højst kørte 6 km/t, og at 75 % af bilisterne højst kørte 68 km/t. Det sidste betyder, at 5 % af bilisterne kørte hurtigere end 68 km/t. 8

9 1.3 Varians og spredning To HF-kursister har bestået HF-eksamen. Deres eksamensbeviser ser således ud: Allan: Bettina: Dansk A, mdt. -3 Dansk A, mdt. 0 Dansk A, skr. 00 Dansk A, skr. 4 Matematik B, mdt. 1 Matematik B, mdt. 7 Matematik B, skr. 1 Matematik B, skr. 7 Engelsk B, mdt. 00 Engelsk B, mdt. 4 Engelsk B, skr. 00 Engelsk B, skr. 4 Samfundsfag B 4 Samfundsfag B 4 Biologi B 10 Biologi B 4 Billedkunst C 10 Billedkunst C 7 Kultur- og samfund 4 Kultur- og samfund 4 Naturvidensk. Faggr. 1 Naturvidensk. Faggr. 7 Eksamensprojekt 0 Eksamensprojekt 4 Store Skriftlig Opgave 0 Store Skriftlig Opgave 7 Vi kan beregne de to elevers gennemsnit (middeltal): Allan: x = = Bettina: x = = Begge elever har fået 13 karakterer, og begge har et gennemsnit på 5. Alligevel er de to fordelinger meget forskellige. Det ses tydeligt på histogrammerne, ligesom boksplottet illustrerer forskellen: Allan har fået mange ekstreme karakterer og ingen 7 ere, mens Bettina har fået mange karakterer omkring midten på 4 eller 7. 9

10 Vi vil nu indføre en ny statistisk deskriptor til at måle spredningen, nemlig variansen. Vi ser på, hvor langt der er fra de forskellige observationer til middeltallet. Afstanden mellem karakteren 0 og middeltallet 5 er den samme som afstanden mellem karakteren 10 og middeltallet 5. Da imidlertid 0-5=-5 og 10-5=5, har vi et fortegnsproblem. Det klares ved at kvadrere forskellen, dvs. at opløfte forskellen i anden. Kvadratet på forskellen mellem 0 og 5 er (0 5) = ( 5) = 5, og kvadratet på forskellen mellem 10 og 5 er (10 5) = 5 = 5, altså det samme. Gennemsnittet af kvadraterne kaldes variansen. Vi kan beregne variansen for de to elever: ( 3 5) + (0 5) + (0 5) + (0 5) + ( 5) (1 5) Allan: v = = ( 5) + (4 5) + (4 5) + (4 5) + (4 5) (7 5) Bettina: v = = Variansen er størst for Allan, hvis karakterer ligger spredt langt væk fra middelværdien. I stedet for variansen anvendes normal den statistiske deskriptor spredningen σ ( sigma ), der er defineret som kvadratroden af variansen. Vi kan beregne spredningen for de to elever: Allan: σ = 7.38 = 5. 3 og Bettina: σ =.77 = Spredningen er lige som variansen et mål for, hvor spredt et givet observationssæt ligger i forhold til middelværdien. Jo større spredning, jo længere væk fra middeltallet ligger de fleste observationer. Oversigt over statistiske deskriptorer: Givet et observationssæt x 1, x,..., xn. De enkelte tal x i kaldes observationer. x1 + x xn Middelværdi x =. n Median Den midterste af observationerne, hvis de stilles op i rækkefølge med den mindste først. Hvis der er to midterste, bruges et gennemsnit. Nedre kvartil Øvre kvartil Kvartilsæt Varians Spredning Den midterste af den mindste halvdel af observationerne Den midterste af den øverste halvdel af observationerne Består af nedre kvartil, median og øvre kvartil ( x1 x) + ( x x) ( xn x) v = n σ = v 10

11 TI InterActive kan bestemme spredningen ved at lave One-Variable Statistics på en liste. Spredningen betegnes σx. For at få en større forståelse for hvilke informationer spredningen af et observationssæt giver, kigger vi igen lidt nærmere på talmaterialet fra politiets fartkontrol. Når man laver statistik på grupperede observationer, bruger man interval-midtpunkterne, idet man går ud fra, at observationerne fordeler sig jævnt i intervallet. Derfor indtaster vi interval-midtpunkterne i L1 og hyppigheden i L. Vi laver One-Variable Statistics på L1 med Frequency L: Det ses, at middelværdien er x = 60.7 km/t og spredningen er σ = 10. km/t. Vi er interesserede i hvor stor en del af observationerne der ligger mindre end én spredning fra middelværdien, dvs. ligger i intervallet [ x σ ; x + σ ]=[50.5; 70.9]. En optælling af talmaterialet viser, at det gør 71 af de 100 biler, dvs. 71 % af observationerne. Tilsvarende kan vi undersøge hvor stor en del af observationerne, der ligger mindre end to spredninger fra middelværdien, dvs. ligger i intervallet [ x σ ; x + σ ]=[40.3; 81.1]. Her viser en optælling af talmaterialet, at det gør 94 ud af de 100 biler, dvs. 94 % af observationerne. Ovenstående resultater er ikke tilfældige. For et observationssæt bestående af mange observationer, der er indsamlet på tilfældig vis, kan man som en hovedregel gå ud fra, at ca. 68 % af alle observationer ligger mindre end én spredning fra middelværdien ca. 95 % af alle observationer ligger mindre end to spredninger fra middelværdien. Vi kan se, at talmaterialet i politiets fartkontrol nogenlunde opfylder ovenstående hovedregel. Hvis talmaterialet havde bestået af 1000 målinger i stedet for 100, ville hovedreglen sandsynligvis have passet bedre. I næste kapitel skal vi se, at hovedreglen præcist er opfyldt for et talmateriale, der er normalfordelt. 11

12 Normalfordelingen.1 Gauss-kurven En ung fødselslæge ønsker at få viden om fødselsvægte. Hun har derfor udvalgt en stikprøve ved at føre statistik over de seneste 100 fødselsvægte (kun højre endepunkt er med i hvert interval): Vægt i kg Antal Lægen har tegnet histogrammet over fordelingen her til højre: Denne fordeling er karakteristisk for en normalfordeling. En normalfordeling er kendetegnet ved, at der er mange observationer i midten jo længere væk fra midten, jo færre observationer der er symmetri omkring midten Histogrammet får derved form som en klokke. Lægen laver en statistisk analyse af datasættet i TI InterActive. Det ses, at middelværdien for fødselsvægtene er 3.3 kg og spredningen er 0.79 kg. Grafen for en normalfordeling med middelværdi 3.5 og spredning 0.75 er tegnet sammen med histogrammet. Grafen og histogrammet ses at passe rimeligt pænt sammen. Vi skal i næste afsnit se en bedre metode til at afgøre, om en stikprøve med god tilnærmelse er normalfordelt, og hvad middelværdien og spredningen i så fald er. Hvis fødselslægen kan konkludere, at fødselsvægtene er normalfordelt med middelværdi 3.5 kg og spredningen 0.75 kg, har hun dermed lavet en statistisk model over fødselsvægte. Vi skal om lidt se, hvordan hun kan bruge denne model til at lave forudsigelser om fødselsvægte. Mange forskellige observationssæt viser sig ved nærmere eftersyn at være normalfordelte, fx højde, vægt, intelligenskvotient, karakterer eller fravær. De fleste observationer ligger i midten og jo længere væk fra midten, jo færre observationer. 1

13 Omkring år 1800 fandt den tyske matematiker C. F. Gauss ( ) frem til en matematisk beskrivelse af en normalfordeling: ( x µ ) 1 σ ( ) f x = e, πσ hvor µ ( my ) er middelværdien og σ er spredningen af normalfordeling. I TI InterActive er denne funktion gemt som normalpdf(x,µ,σ). Grafen for en normalfordeling kaldes en Gauss-kurve. Til højre er tegnet tre forskellige grafer med forskellige middelværdi og spredning. Bemærk at Gauss-kurven har maksimum i middelværdien µ og er symmetrisk omkring µ. Spredningen σ fortæller noget om, hvor spredt værdierne ligger. For en normalfordeling gælder at 68, % af alle værdierne ligger inden for én spredningsafstand fra middelværdien, 95,4 % af alle værdierne ligger inden for to spredninger fra middelværdien. For enhver middelværdi µ og spredning σ får man en ny fordeling. Normalfordelingen er således en hel familie af fordelinger, der kan bruges til at beskrive mange forskellige slags observationssæt. De to karakteristiske størrelser for en normalfordeling er middelværdien µ og spredningen σ. Vi indfører nu en ny skrivemåde, idet vi kort og godt kalder den egenskab, som vi kigger på, for X. X kan stå for fødselsvægt, højde eller noget tredje. Kravet er blot, at X skal give et tal, som vi ikke på forhånd kan forudsige. Vi kan ikke forudsige fødselsvægten på et tilfældigt barn eller højden på en tilfældig person. Men hvis fødselsvægte og højder er normalfordelte, kan vi bestemme sandsynligheden. X kaldes i sandsynlighedsteori for en stokastisk variabel, hvor stokastisk netop betyder tilfældigt. At en stokastisk variabel X er normalfordelt med middelværdien µ og spredningen σ skrives kort X N(µ,σ). På samme måde som et bestemt areal i et histogram svarer til en bestemt frekvens, vil et areal under Gauss-kurven svarer til en bestemt sandsynlighed. Man kan vise, at det samlede areal mellem Gauss-kurven og x-aksen er 1 (=100 %). 13

14 Eksempel 1 På et sygehus giver nyfødte børn med enten meget lille eller meget stor fødselsvægte ofte anledning til problemer. Derfor ønsker fødselslægen svar på følgende spørgsmål om fødselsvægte: 1. Hvad er sandsynligheden for, at et barn vejer mellem 1 kg og kg ved fødslen?. Hvad er sandsynligheden for, at et barn vejer højst 1 kg ved fødslen? 3. Hvad er sandsynligheden for, at et barn vejer mindst 5.5 kg ved fødslen? Fødselslægen indfører betegnelsen X for fødselsvægt. På baggrund af de undersøgelser, der er vist i afsnit., konkluderer fødselslægen, at X N(3.5, 0.75). Spørgsmål 1 besvares ved at bestemme arealet mellem Gauss-kurven og x-aksen i [1;]. Dette gøres i TI InterActive. Grafen for normalpdf(x,µ,σ µ,σ) tegnes, og arealet bestemmes. Af grafen fremgår, at sandsynligheden for, at et barn ved fødslen vejer mellem 1 kg og kg, er ca. 4.5 %. En anden måde at bestemme dette i TI InterActive er ved direkte at bestemme integralet En tredje måde er at bruge normalcdf(a,b,µ,σ), som giver sandsynligheden for at få et resultat mellem a og b, når man betragter en normalfordeling med middelværdi µ og spredning σ: Heldigvis giver alle tre måder samme resultat! Notationen P(1 X ) = % er en kort skrivemåde for sandsynligheden for, at X ligger mellem 1 og, er 4,644 %. Denne skrivemåde vil vi benytte fremover. Spørgsmål kan med denne skrivemåde formuleres: Hvad er P(X 1)? Det kan besvares ved at benytte en af de tre måder ovenfor. Idet vil P(X 1) = 0.13 %, dvs. sandsynligheden for, at et barn vejer højst 1 kg, er ca %. Det sidste spørgsmål kan formuleres: Hvad er P(X 5.5)? Dvs. P(X 5.5) = 0.13 %, dvs. sandsynligheden for, at et barn vejer mindst 5.5 kg, er ca %. Fødselslægen har hermed besvaret de spørgsmål, hun ønskede. Bemærk at det sidste spørgsmål umuligt kunne besvares, hvis ikke lægen havde kunnet bruge en normalfordeling, som hun kunne regne på. For i stikprøven er der slet ingen børn med en fødselsvægt på over 5.5 kg. 14

15 . At afgøre om en stikprøve er normalfordelt Fødselslægen ønsker at afgøre, om stikprøven på 100 fødselsvægte er normalfordelt. Derfor beregner hun den kumulerede frekvens og tegner sumkurven: Vægt i kg Kum. Frekvens % % 5 % 16 % 38 % 64 % 84 % 95 % 99 % 100 % For mere præcist at afgøre, om fødselsvægtene er normalfordelte, vender vi os mod udseendet af grafen for den kumulerede sandsynlighed P(X t) ( sandsynligheden for højst t ), når X N(µ,σ). Udseendet afhænger af µ og σ. Da normalfordelingen er symmetrisk omkring µ, vil P(X µ)=0.5. Desuden kan man vise, at P(X µ σ)=0.159 og P(X µ σ)=0.03. På grund af symmetrien af normalfordelingen gælder tilsvarende, at P(X µ+σ)= = og at P(X µ+σ)= = Grafen for P(X t) har følgende udseende: 15

16 De to s-formede kurver ovenfor grafen for sumkurven og den kumulerede sandsynlighed P(X t) ser umiddelbart ret ens ud, hvilket bestyrker troen på, at stikprøven med fødselsvægte er normalfordelt. Imidlertid er det ret vanskeligt at se, om de to kurver faktisk er ens. Derfor har man konstrueret et specielt koordinatsystem på et såkaldt normalfordelingspapir. Dette koordinatsystem er konstrueret så snedigt, at grafen for P(X t) bliver en ret linje, netop når X er normalfordelt. Normalfordelingspapiret kan derfor bruges til at genkende normalfordelinger. På normalfordelingspapiret er x-aksen inddelt normalt, mens y-aksen er ændret. For at den s- formede kurve kan blive rettet ud, er værdierne i midten af y-aksen trykket sammen, mens værdierne i enderne er strukket ud. 16

17 Sygehuslægen kan nu ved hjælp af normalfordelingspapiret afgøre, om stikprøven med fødselsvægte er normalfordelt. Som ved sumkurven indtegnes punkterne med højre intervalendepunkt som x og den kumulerede frekvens som y. Med undtagelse af de to første punkter ligger de øvrige punkter med meget god tilnærmelse på en ret linje, så lægen kan konkludere, at stikprøven med god tilnærmelse er normalfordelt. Middelværdien aflæses til µ = 3.5 kg og spredningen til σ = (µ+σ) µ = = 0.75 kg. Observationerne kan godt være tilnærmelsesvist normalfordelt, selv om de første og sidste punkter ikke ligger helt på en ret linje. Ved de få observationerne betyder tilfældigheder meget, fx ville endnu en stor nyfødt med en fødselsvægt på over 5 kg jo forrykke billedet. Derimod betyder en ekstra nyfødt med en fødselsvægt på 3. kg ikke alverden for det samlede billede, fordi der i forvejen er mange i dette interval af fødselsvægte. Når man på normalfordelingspapiret undersøger, om et talmateriale er normalfordelt, skal man derfor tage følgende to punkter med i betragtning: Punkterne i midterområdet betyder mest, da de stammer fra de fleste observationer. Jo færre punkter, jo større variation omkring en ret linje kan man forvente. 17

18 Eksempel Normalfordelingspapiret kan også bruges til at bestemme sandsynligheder for en normalfordeling. Fødselslægen kan besvare de tre spørgsmål fra eksempel 1 ved hjælp af normalfordelingspapiret: 1. Hvad er sandsynligheden for, at et barn vejer mellem 1 kg og kg ved fødslen?. Hvad er sandsynligheden for, at et barn vejer højst 1 kg ved fødslen? 3. Hvad er sandsynligheden for, at et barn vejer mindst 5.5 kg ved fødslen? Som i eksempel 1 lader vi X betegne fødselsvægten. Da den kumulerede sandsynlighed P(X t) ( sandsynligheden for højst t ) er afsat på y-aksen, kan spørgsmål besvares direkte ved aflæsning på normalfordelingspapiret: P(X 1) = 0.15 %. For at besvare spørgsmål 1 aflæses desuden P(X ) = 5.0 %. Derfor er P(1 X ) = P(X ) P(X 1) = 5.0 % 0.15 % = 4.85 %. Endelig aflæses P(X 5.5) = % for at besvare spørgsmål 3. Derfor er P(X 5.5) = 1 P(X 5.5) = 100 % % = 0.15 %. Vi bemærker den pæne overensstemmelse med resultaterne i eksempel 1. Eksempel 3 I stedet for at tegne sumkurven på normalfordelingspapir for at undersøge, om fødselsvægtene er normalfordelt, kan sygehuslægen også gøre det i TI InterActive. Tricket til at rette y-aksen ud, så grafen for P(X t) bliver en ret linje, netop når X er normalfordelt, består i at anvende invnorm ( den inverse standardnormalfordeling ) på alle y-værdier. Herved kommer grafen for den kumulerede sandsynlighed P(X t) til at se således ud, når X er normalfordelt: 18

19 Med dette trick kan sygehuslægen nu afgøre, om fødselsvægtene er normalfordelt. I TI InterActive indtastes i L1 det højre endepunkt i hvert delinterval og i L indtastes den kumulerede frekvens. Bemærk at yderværdierne med kumuleret frekvens på hhv. 0 og 1 undlades. I L3 indtastes invnorm( ), hvor der i parentesen skrives tallet i L. Desværre kan TI InterActive ikke udføre denne proces på hele listen, så man er nødt til at skrive det i alle felter i L3. Herefter laves lineære regression på L1 og L3: og regressionslinjen og punkterne tegnes. Det ses, at punkterne med god tilnærmelse ligger på en ret linje. Sygehuslægen kan derfor konkludere, at stikprøven med fødselsvægtene er normalfordelt. Da de midterste punkter skal have størst vægt, fordi de stammer fra de fleste observationer, fjerner fødselslægen de to første punkter og det sidste for at undersøge, om de øvrige punkter ligger bedre på en ret linje. Det ses at være tilfældet. Ligningen for denne regression benyttes: For at bestemme middelværdien og spredningen for normalfordelingen, løses ligningerne Løsning på den første ligning viser, at middelværdien µ = 3.5 kg. Forskellen mellem de to løsninger er netop spredning σ, dvs. σ = 0.75 kg. Fødselslægen konkluderer efter denne undersøgelse, at fordelingen er fødselsvægte er normalfordelt med middelværdien µ = 3.5 kg og spredningen σ = 0.75 kg. 19

20 .3 Tilnærmelser til normalfordelingen Da Gauss fandt frem til den matematiske beskrivelse af normalfordelingen omkring år 1800, var hans formål at beskrive den måleusikkerhed, der er forbundet med enhver måling. På den tid arbejdede fysikere bl.a. med at beskrive kometers baner, og det var af største betydning at få styr på måleusikkerhederne. Gauss opdagede, at enhver måling kan beskrives som den sande værdi for målingen + tilfældig variation og at den tilfældige variation er normalfordelt med middelværdien µ=0. Forståelsen af, at den tilfældige variation er normalfordelt, hjalp fysikerne til at bestemme den sande værdi for målingen med meget større præcision end tidligere. Spredningen af den tilfældige variation σ kan opfattes som måleusikkerheden. Udgangspunktet for normalfordelingen var således fysiske målinger og måleusikkerheder. Midt i 1800-tallet begyndte man imidlertid også at anvende normalfordelingen på såkaldte moralske observationer, som man kaldte det, fx kriminalitet eller druk. Det vidste sig snart, at også her kunne normalfordelingen beskrive observationerne på en god måde. Man udviklede en teori om et gennemsnitsmenneske, som hele befolkningen (eller dele heraf, fx ved at inddele i socialklasser eller alder) kunne beskrives ud fra ved hjælp af en tilfældig variation, der er normalfordelt. Den matematiske forklaring på, at mange forskellige typer observationer er normalfordelte, blev givet i første halvdel af 1800-tallet, hvor den franske matematiker P. LaPlace ( ) beviste den centrale grænseværdisætning. Meget løst sagt siger sætningen, at hvis man betragter et antal uafhængige observationer, der alle stammer fra samme fordeling (ikke nødvendigvis normalfordelingen), så vil summen af observationerne med god tilnærmelse være normalfordelt, når antallet af observationer er stort nok. Den centrale grænseværdisætning kan forklare, at mange forskellige typer observationer nærmer sig en normalfordeling, når antallet af observationer stort. Ofte kan vi nemlig opfatte en observation som summen af en række små tilfældige påvirkninger. Eksempelvis kan højder opfattes på denne måde, idet det enkelte menneskes højde er resultatet af en lang række små tilfældige påvirkninger, fx arv fra forældre (gener), opvækstvilkår, spisevaner osv. Derfor vil højder være normalfordelt med god tilnærmelse. I sidste halvdel af 1800-tallet lavede englænderen F. Galton ( ) en stor undersøgelse om sammenhængen mellem forældres og børns højde. Med forældrenes højde på x-aksen og børnenes højde på y-aksen fandt han, at den bedste rette linje havde en hældning under 1. Dette betyder, at børn af høje forældre ikke i gennemsnit bliver så høje som deres forældre. Derfor kaldte han den bedste rette linje for regressionslinjen, da regression betyder tilbagegang. Vi benytter stadig navnet regression, som regel uden at tænke over betydningen. Teorien for lineær regression, dvs. teorien om at bestemme den bedste rette linje gennem et antal målepunkter, blev i øvrigt udviklet af Gauss i forbindelse med hans undersøgelser af, at tilfældige variationer er normalfordelte. Han bestemte formler til at beregne a og b for ligningen for den bedste rette linje. Det er disse formler, som TI InterActive bruger, når programmet laver regression. 0

21 3 Statistisk undersøgelse Statistik opdeles i beskrivende statistik og konkluderende statistik. I den beskrivende statistik trækker man som omtalt i kapitel 1 den væsentligste information ud af et talmateriale ved at lave grafer eller ved at angive nogle statistiske deskriptorer. I den konkluderende statistik går man videre og laver konklusioner om en større gruppe på baggrund af en stikprøve. I kapitel lavede fødselslægen en konklusion om alle fødselsvægte på baggrund af en stikprøve. Et andet eksempel på konkluderende statistik er opinionsundersøgelser, hvor en mindre del af befolkningen spørges, og hvor der på baggrund af denne stikprøve laves konklusioner, som antages at være dækkende for hele befolkningen. Resten af denne note handler om, hvordan sådanne konklusioner kan laves. 3.1 Udvælgelse af stikprøver Ved en population forstås den gruppe, man ønsker at udtale sig om. Ved en stikprøve forstås en (større eller mindre) del af populationen, som man spørger. Spørgsmålet er, hvordan stikprøven skal vælges, for at man ud fra stikprøven kan konkludere noget om hele populationen? Det vigtigste er, at stikprøven er repræsentativ for population. Det betyder, at stikprøven skal have samme sammensætning som populationen. Ellers kan man jo ikke på baggrund af stikprøven sige noget fornuftigt om populationen. Det store spørgsmål er selvfølgelig, hvordan man sikrer sig, at stikprøven bliver repræsentativ. Her er nogle bud: Stikprøven skal være tilfældigt udvalgt Stikprøven skal have en vis størrelse Stil præcise spørgsmål, der ikke kan fortolkes Undgå systematiske fejl (se eksempel 1 og nedenfor) Undgå skjulte variable (se eksempel 3 nedenfor) På Handelshøjskolen og lignende steder undervises meget i, hvordan en stikprøve kan udvælges. Her nøjes vi med at sige, at en stikprøve skal udvælges tilfældigt. I praksis benyttes dog ofte det såkaldte stratificeringsprincip, hvor stikprøven ordnes, så alle relevante områder i stikprøven har samme sammensætning som i populationen (fx med hensyn til aldersfordeling, køn, geografisk fordeling etc.). Fordelen ved stratificering er, at metoden ofte er billigere og lettere håndterbar. Stikprøvens størrelse har betydning. Skal man undersøge, hvilke politiske partier befolkningen stemmer på, er det ikke nok at spørge 10 borgere, hvad de stemmer på. I så fald bliver tilfældigheden for stor til, at man kan konkludere noget. Undersøgelser over hele befolkningen skal normalt baseres på en stikprøve med 1500 personer. Eksempel 1 (Systematisk fejl) På et gymnasium ønsker man at undersøge, hvor mange elever der er overvægtige. Man udtager derfor en stikprøve bestående af de første 0 personer, der selv melder sig. Ingen af de 0 personer er overvægtige. Denne stikprøve er ikke repræsentativ for populationen (=gymnasiet), fordi overvægtige ikke ønsker at skilte med deres overvægt og derfor ikke melder sig selv. Man taler om en systematisk fejl: Man har spurgt nogle andre end dem, man påstår. 1

22 Eksempel (Systematisk fejl) Et berømt eksempel på en systematisk fejl i en stikprøveundersøgelse fandt sted i 1936 i USA, hvor der var præsidentvalg mellem Landon og Roosevelt. Et analyseinstitut udvalgte en stikprøve bestående af borgere i hele USA ud fra adresser i telefonbøger, og sendte spørgeskemaer ud til 10 mio. Der kom mio. spørgeskemaer tilbage, og en analyse viste, at Landon ville vinde præsidentvalget. Imidlertid vandt Roosevelt. Den systematiske fejl skete her i forbindelse med udvælgelsen af stikprøven. I 1936 havde kun velstillede borgere telefon, og ved at vælge stikprøven ud fra telefonbøger valgte man således kun blandt velstillede borgere. Stikprøven var således ikke repræsentativ for populationen (=hele USA's befolkning). Det er faktisk ikke helt let at udvælge en repræsentativ stikprøve på tilfældig vis. Går man ned på gågaden en formiddag og spørger tilfældige forbipasserende, kan man næppe tale om en repræsentativ stikprøve: De fleste mennesker er på arbejde eller i uddannelse om formiddagen, så man får sikkert en overvægt af pensionister og arbejdsløse i sin stikprøve. Det bedste er nok at gøre som Gallup og lignende analyseinstitutter, som udvælger stikprøven ud fra en adresseliste. På den enkelte adresse spørger de så efter den person i husstanden over 18 år, der næste gang har fødselsdag. Eksempel 3 (Skjult variabel) En undersøgelse viste for nogle år siden, at der er en sammenhæng mellem et lands sundhedsudgifter og antallet af overvægtige: Jo større sundhedsudgifter, jo flere overvægtige. Umiddelbart lyder dette mærkeligt, men hvis man tænker efter, kan man godt forklare det. I et velhavende land bruges flere penge på sundhedsudgifter end i et fattigt land. Samtidig er der flere overvægtige i et velhavende land end i et fattigt land. Sammenhængen kan derfor forklares med en skjult variabel, nemlig landets velstand. En skjult variabel er en variabel, der kan forklare undersøgelsens resultat, men som ikke er nævnt. Bemærk at man i statistik kun udtaler sig om sammenhænge, ikke om årsagssammenhænge. Selv om man i statistik kan påvise en sammenhæng mellem et lands sundhedsudgifter og antallet af overvægtige, har man jo ikke sagt, at årsagen til flere overvægtige skal findes i de øgede sundhedsudgifter. Et sødt eksempel på en fejlagtig opfattelse af sammenhænge og årsagssammenhænge er den lille dreng, der har opdaget, at isen smelte hurtigere ved stranden end hjemme i stuen. Drengen tror derfor, at sandet får isen til at smelte hurtigere. Eksempel 4 I Skive Folkeblad har man lavet en opinionsundersøgelse på netudgaven af avisen. Populationen er formentlig borgere i Skive og opland, dvs. man ønsker at undersøge, hvad disse borgere mener om efterløn. Stikprøven består af 918 personer. Disse personer er udvalgt ved at de selv har klikket på spørgeskemaet på netavisen. Dette rejser tvivl om stikprøvens repræsentativitet.

23 3. Hypotesetest En statistisk undersøgelse begynder med at fastlægge, hvad man vil undersøge og hvad populationen er. Derefter udvælges en repræsentativ stikprøve som beskrevet i afsnittet ovenfor, og data indsamles. For at få overblik over observationssættet laver man typisk beskrivende statistik, så de vigtigste informationer fra stikprøven trækkes frem. Det sidste skridt er så at slutte fra stikprøven til populationen, dvs. på baggrund af stikprøven at konkludere noget om hele populationen. Det sidste skridt foregår ved et såkaldt hypotesetest. Ved en hypotese forstås en antagelse om populationen, der enten er sand eller falsk. Denne hypotese ønsker vi at undersøge ud fra stikprøven, dvs. vi ønsker at teste, om hypotesen kan accepteres eller forkastes. Dette kaldes et hypotesetest. Den hypotese, der forekommer mest rimelig (eller som man gerne vil modbevise), kaldes nulhypotesen H 0. Kun hvis beregninger ud fra stikprøven viser, at nulhypotesen fører frem til noget urimeligt, forkastes H 0. Ellers accepteres H 0. Der skal altså være belæg i stikprøven for, at nulhypotesen er falsk, før den forkastes, og dermed er en forkastelse af nulhypotesen stærkere end en accept. Hvis nulhypotesen accepteres, har vi ikke bevist dens rigtighed. Vi kan blot ikke afvise den på baggrund af stikprøven. Spørgsmålet er så, hvor urimeligt det skal være, som nulhypotesen fører frem til, før den forkastes? Eksempel 5 Julia-Maria spiller Ludo og har nu slået 14 gange uden at få en sekser. Hun er overbevist om, at terningen er falsk. Hun opstiller derfor en nulhypotese H 0 : Terningen har samme sandsynlighed for at slå et bestemt antal øjne, som hun ønsker at modbevise. Julia-Maria antager nu, at H 0 er sand. Hun opfatter sine 14 slag som en stikprøve. Hun beregner 5 14 sandsynligheden for at slå 14 gange uden at få en sekser til ( ) = , dvs. 7,8 %. Dette er sandsynligheden for at være mindst lige så uheldig som Julia-Maria (dvs. mindst lige så ekstrem som stikprøven under forudsætning af, at H 0 er sand), og den kaldes testsandsynligheden eller p- værdien. Da testsandsynlighed p er større end 5 %, vil man normalt acceptere H 0. Nok har Julia- Maria været uheldig, men ikke så uheldig, at hun kan konkludere, at terningen er falsk. 6 I eksemplet ovenfor beregnede Julia-Maria p-værdien ved hjælp af sandsynlighedsregning. Men tit er det svært eller umuligt at beregne p-værdien. Derfor benytter man ofte én af to metoder: Hvis antallet af observationer er stort, kan man ofte tilnærme med en normalfordeling (se afsnit.3). På den måde kan man beregne en tilnærmet p-værdi. Den anden metode går ud på at lave en computersimulation, som gentages et stort antal gange. I eksemplet ovenfor kan en computer simulere 14 slag med en fair terning (dvs. nulhypotesen antages sand). Gentages simuleringen gange, kan man med rimelighed udtale sig om, hvor ofte man kan forvente at få nul seksere ved 14 slag med en fair terning, og dermed kan p-værdien bestemmes. 3

24 Den modsatte hypotese af nulhypotesen H 0 kaldes den alternative hypotese H 1. Når H 0 forkastes, accepteres samtidig H 1. Vi opstiller den generelle situation i en tabel: H 0 accepteres H 0 forkastes H 0 sand Korrekt Type 1 fejl H 0 falsk Type fejl Korrekt Der er to muligheder for at begå fejl i et hypotesetest: 1. H 0 forkastes, selv om den er sand (kaldes type 1 fejl). H 0 accepteres, selv om den er falsk (type fejl). Begge fejl skal selvfølgelig undgås. I forbindelse med et hypotesetest beregnes testsandsynligheden (p-værdien), som er sandsynligheden for at opnå et mindst lige så ekstremt resultat som stikprøven under forudsætning af, at H 0 er sand. Jo højere p-værdi, jo mere troværdig er H 0, da en høj p-værdi betyder, at stikprøven er ret sandsynlig, hvis H 0 er sand. Omvendt betyder en lav p-værdi, at stikprøven er ret usandsynlig, hvis H 0 er sand. Da stikprøven jo forelægger, er konklusionen derfor, at H 0 forkastes. For at afgøre, om H 0 skal accepteres eller forkastes, skal man på forhånd have fastlagt et signifikansniveau α. Hvis H 0 fører frem til en p-værdi, der er mindre end signifikansniveauet α, forkastes H 0 ; ellers accepteres H 0. p α H 0 forkastes p > α H 0 accepteres Sandsynligheden for at lave en type 1 fejl er netop det valgte signifikansniveau α, dvs. α er sandsynligheden for at forkaste H 0, når den er sand. Derfor bør α vælges så lav som muligt. Men et lav signifikansniveau α vil omvendt øge sandsynligheden for en type fejl. Traditionelt vælges α = 5 % som signifikansniveau. Ved strengere test (fx i forbindelse med godkendelse af ny medicin, hvor nulhypotesen H 0 er, at medicinen ikke virker) kan man vælge et signifikansniveau på α = 1 %. Så bliver sandsynligheden for at godkende medicin, der ikke virker, lav (type 1 fejl). Men omvendt øges sandsynligheden for ikke at godkende medicin, der faktisk virker (type fejl). 4

25 4 χ -test 4.1 χ -fordelingen Omkring år 1900 udledte den britiske statistiker K. Pearson ( ) χ fordelingen (udtales ki i anden ), som viser sig at være særdeles velegnet i forbindelse med hypotesetest. I sine overvejelser betragtede Pearson f uafhængige normalfordelte stokastiske variable med middelværdi 0 og spredning 1. Han nåede frem til at kalde fordelingen af summen af kvadraterne af disse f stokastiske variable for en χ fordeling med f frihedsgrader. Ved snedige beregninger fandt Pearson frem til, at en χ - fordeling med f frihedsgrader kan beskrives ved funktionen med regneforskriften f x f ( x) = k x e, x > 0, hvor k er en konstant, der sikrer, at det samlede areal mellem x-aksen og grafen for f(x) er 1 (= 100 %). Vi vil ikke følge Pearsons udledning af regneforskriften her, men blot konstatere, at sådan ser den ud. Funktionen er gemt i TI InterActive som chisquarepdf(x,f), hvor f er antallet af frihedsgrader. I koordinatsytemet er tegnet fire grafer for χ -fordelingen med f=1, f=, f=4 og f=8 frihedsgrader. I modsætning til normalfordelingen er χ -fordelingen skæv. Hvis en stokastisk variabel X er χ -fordelt med f frihedsgrader, skriver vi kort X χ (f). Eksempel 1 Lad X χ (3), dvs. X er en stokastisk variabel, der er χ -fordelt med 3 frihedsgrader. Vi vil bestemme sandsynligheden P(X 4) samt bestemme det tal t, hvor P(X t)=0.05. I TI Interactive kan sandsynligheden bestemmes som et areal: 5

26 I TI InterActive kan man også bruge chisquarecdf(a,b,f) til at bestemme arealet mellem a og b: Den lille forskel i de to måder skyldes, at arealet på grafen kun er fundet i intervallet [4; 0] og ikke i [4; [. Derfor mangler lidt areal ved grafen. Men begge måder viser, at P(X 4) = 6.1 %. For bestemme det tal t, hvor P(X t)=0.05, løses ligningen i TI InterActive: Løsningen til P(X t)=0.05 er altså t= Til venstre er løsningen skraveret på grafen for χ (3). 4. Goodness-of-fit Ved et Goodness-of-fit test (GOF) tester man, om en fordeling er som forventet. Eksempel Til studentereksamen i matematik i 009 blev givet følgende beståede karakterer: Karakter I alt Antal Dette kaldes den observerede fordeling. Kilde: Ifølge undervisningsministeriet tilstræbes følgende fordeling for de beståede karakterer: Karakter Fordeling 10 % 5 % 30 % 5 % 10 % Hvis de givne karakterer skulle følge denne fordeling, ville vi forvente følgende karakterer: Karakter I alt Antal Dette kaldes den forventede fordeling. 6

27 Den forventede fordeling findes ved at gange det samlede antal beståede karakterer med den forventede procentandel. Da 10 % af de samlede karakterer forventes at opnå karakteren 0, bliver det forventede antal med karakteren 0: = Tilsvarende beregnes de øvrige forventede karakterer. Vi vil teste, om den observerede fordeling svarer til den forventede fordeling. Nulhypotese H 0 : Den observerede fordeling svarer til den forventede fordeling. Teststørrelsen Q = ( ) Q = 3681 ( observeret forventet) forventet ( ) ( ) , hvor står for sum, beregnes: ( ) ( ) = Hvis de observerede og forventede størrelser var ens, ville Q= 0. Jo større Q bliver, jo dårligere kan nulhypotesen accepteres. Pearson viste, at Q med god tilnærmelse er χ -fordelt. I sine observeret forventet overvejelser tilnærmede han fordelingen af med en normalfordeling med forventet middelværdi 0 og spredning 1. Tilnærmelsen skete ved brug af den centrale grænseværdisætning, se afsnit.3. Tilnærmelsen er god, hvis det samlede antal observationer er mindst 60 og alle forventede værdier er mindst 5. Antallet af frihedsgrader skulle man forvente var antallet af inddelinger, men faktisk er antallet af frihedsgrader én mindre end antallet af inddelinger. I dette tilfælde er antallet af inddelinger 5 (=antal beståede karakterer), så antal frihedsgrader er 4. Dette kan forklares ved, at de karakterer ikke kan fordeles frit mellem de fem inddelinger. Hvis de 4 inddelinger er lagt fast, så er den sidste inddeling nødt til at indeholde resten, dvs. der er 4 frie variable. Testsandsynligheden (p-værdien) angiver som nævnt i afsnit 3. sandsynligheden for at få et resultat, der er mere ekstremt (dvs. ringere) end det observerede. Med X χ (4) bestemmes derfor sandsynligheden P(X Q). Dette gøres i TI InterActive: 7 Testsandsynligheden (p-værdien) er således , dvs. uhyre lille. Det er altså uhyre usandsynligt at nå frem til den observerede karakterfordeling, hvis nulhypotesen H 0 er sand. På signifikansniveau α = 5 % forkaster vi derfor hypotesen: Karakterfordelingen i matematik ved studentereksamen følger ikke den anbefalede karakterfordeling. 7

28 Eksempel 3 I TI InterActive laves et goodness-of-fit test bedst i regneark (spreadsheet). Fra eksempel så vi, at Til studentereksamen i matematik i 009 blev givet følgende beståede karakterer: Karakter I alt Antal Dette kaldes den observerede fordeling. Kilde: Ifølge undervisningsministeriet tilstræbes følgende fordeling for de beståede karakterer: Karakter Fordeling 10 % 5 % 30 % 5 % 10 % I TI InterActives kan goodness-of-fit testen laves således: Klik på Spreedsheet, og indtast skemaet nedenfor. I celle B3 skrives =g*0.1, så beregner TI InterActive selv den forventede værdi. I celle C3 skrives =g*0.5 osv. For at beregne teststørrelsen Q skrives i celle B5 =(b-b3)^/b3. Dette svarer til formlen ( observeret forventet). Stil derefter cursoren i nederste højre hjørne og træk hen til celle F5 og forventet slip: TI InterActive har selv beregnet de forskellige bidrag til Q. Til slut markeres B5-F5 og der trykkes på sumsymbolet Σ: TI har nu beregnet Q-værdien Q = Den lille afvigelse i forhold til eksempel skyldes afrundinger. Bemærk at de observerede værdier altid er hele tal, mens de forventede værdier gerne må være decimaltal. Vi kan bruge tabellen med de enkelte bidrag til teststørrelsen Q til at analysere, hvilke karakterer der særligt ikke følger den anbefalede fordeling. Af tabellen kan vi se, at det i høj grad er karakteren 0, der ikke passer med den forventede fordeling. Der gives for mange 0. Også karaktererne 10 og 1 gives ikke som forventet, idet der gives for få 10 og for mange 1 i forhold til det forventede. 8

29 Oversigt over goodness-of-fit test (test om fordeling er som forventet) Samlet N observationer fordelt på k kategorier: Observeret fordeling: 1 3 k I alt Observationer O 1 O O 3 O k N Nulhypotese H 0 : Sandsynlighed for inddeling i er p i. Forventet fordeling: 1 3 k I alt Forventet E 1 E E 3 E k N hvor den forventede observation E i = N pi. ( O1 E1) ( O E ) ( O3 E3) ( Ok Ek ) Teststørrelsen udregnes: Q = E1 E E3 Ek Jo tættere Q er på 0, jo bedre overensstemmelse mellem observerede og forventede fordeling. Med god tilnærmelse gælder: Q χ (f), hvor antal frihedsgrader f = k 1. Betingelser for at tilnærmelsen er god: 1. N 60. Alle E i 5 Testsandsynligheden (p-værdien) beregnes: p = P(X Q). Testsandsynligheden angiver troværdigheden af nulhypotesen. Jo lavere p-værdi, jo lavere troværdighed har H 0. Hvis p α (signifikansniveauet), forkastes hypotesen, ellers accepteres den. I TI InterActive beregnes p-værdien som chisquarecdf(q,,f). 9

30 4.3 Uafhængighed Man kan teste, om to variable er uafhængige. Eksempel 4 Man hører til tider, at det er lettere at bestå en eksamen på handelsskolen end på gymnasiet. I tabellen nedenfor er anført antal ikke-beståede karakterer og antal beståede karakterer ved studentereksamen 009 på henholdsvis Skive Gymnasium og Skive Handelsskole: Ikke-bestået Bestået I alt Skive Gymnasium Skive Handelsskole Samlet Dette er den observerede fordeling. Kilde: Vi ønsker at teste, om der er uafhængighed mellem skoleform (gymnasium/handelsskole) og karakter (bestået/ikke-bestået), dvs. om det er lige sandsynligt at bestå en eksamen på de to skoler. Nulhypotese H 0 : Sandsynligheden for at bestå en eksamen er uafhængig af skoleform. Vi antager, at H 0 er sand, og beregner under denne forudsætning ( under nulhypotesen ) den forventede fordeling: Ikke-bestået Bestået I alt Skive Gymnasium Skive Handelsskole Samlet Det forventede antal ikke-beståede på Skive Gymnasium beregnes ud fra, at andelen af elever på 634 Skive Gymnasium er, og af disse forventes 411 ikke at bestå. Derfor er det forventede antal ikke-beståede på Skive Gymnasium 411 = = På samme måde findes de øvrige forventede værdier. Som ved Goodness-of-fit (afsnit 4.) beregnes teststørrelsen Q = ( ) Q = 55.4 ( ) ( ) ( ) ( observeret forventet) forventet = : Omkring 190 viste den engelske statistiker R. A. Fisher ( ), at også ved uafhængighedstest er Q med god tilnærmelse χ -fordelt. Som ved goodness-of-fit er tilnærmelsen god, når antallet af observationer er mindst 60 og alle forventede værdier er mindst 30

31 5. Antallet af frihedsgrader bestemmes af antal rækker og søjler i tabellen: I dette tilfælde er der to mulige skoleformer (gymnasium/handelsskole) og to mulige karakterer (bestået/ikke-bestået), dvs. der er tale om en x-tabel med rækker og søjler. Antallet af frihedsgrader er lig med (antal rækker 1) (antal søjler 1), dvs. ( 1) ( 1) = 1 frihedsgrad. Testsandsynligheden (p-værdien) P(X Q) bestemmes i TI InterActive: Da p-værdien er større end signifikansniveauet på 5 %, accepteres nulhypotesen: Sandsynligheden for at bestå en eksamen er uafhængig af, om man går på gymnasiet eller handelsskolen. I stedet for at beregne p-værdien kunne man bestemme den kritiske værdi Q kritisk, som er den højeste værdi af teststørrelsen, der accepteres på 5 % signifikansniveau. Qkritiskkan beregnes ved at løse ligningen P(X Qkritisk )=0.05. Dette gøres selvfølgelig i TI InterActive: Nulhypotesen kan således accepteres på 5 % signifikansniveau, så længe teststørrelsen Q er under den kritiske værdi på Da teststørrelsen er 1.66, accepteres nulhypotesen. Hvis teststørrelsen ligger i acceptmængden, er sandsynligheden for stikprøven større end 5 %, givet at nulhypotesen er sand. Vi tror derfor på nulhypotesen. Acceptmængde = [0; [. Hvis teststørrelsen ligger i den kritiske mængde, er sandsynligheden for stikprøven mindre end 5%, givet at nulhypotesen er sand. Vi tror derfor ikke på nulhypotesen og forkaster den. Kritisk mængde = [ ; [. Bemærkning I eksempel 4 kan man også sige, at man tester for homogenitet (ensfordeling) mellem de to skoleformer. I praksis udføres de to test på samme måde, og det er tit svært at se forskel. Teoretisk afhænger forskellen af udgangspunktet: Hvis man begynder med det samlede antal (dvs. de 1006 karakterer i Skive), der så derefter inddeles efter skoleform, tester man for uafhængighed. Hvis udgangspunktet derimod er de to skoleformer, der er givet, tester man for homogenitet. 31

32 Eksempel 5 TI InterActive kan lave næsten hele arbejdet, når testet er et uafhængighedstest. Fra eksempel 4 har vi den observerede fordeling: Ikke-bestået Bestået I alt Skive Gymnasium Skive Handelsskole Samlet Denne fordeling indtastes i TI-InterActive (indtastes observeret:=[43,6099;168,3696]) I Statistical Tests & Intervals (bemærk pilen på figuren) vælges Chi-square test, og under Observed Matrix og Expected Matrix vælges passende navne. Marker Draw Result og tryk Calculate (se figuren herunder). TI InterActive har beregnet teststørrelsen Q (kaldes X ), testsandsynligheden (pværdien) p og antallet af frihedsgrader df. Desuden har TI InterActive tegnet χ - fordelingen med 1 frihedsgrad og skraveret det areal, der svarer til p. Den forventede fordeling kan også vises, idet man blot skriver forventet (+enter), så vises den:. 3

Vis mere