Torben Rønne. Statistik. med TI InterActive

Størrelse: px
Starte visningen fra side:

Download "Torben Rønne. Statistik. med TI InterActive"

Transkript

1 Torben Rønne Statistik med TI InterActive

2 Indholdsfortegnelse 1 Beskrivende statistik Middelværdi, kvartilsæt og boksplot Histogram og sumkurve Varians og spredning... 9 Normalfordelingen Gauss-kurven At afgøre om en stikprøve er normalfordelt Tilnærmelser til normalfordelingen Statistisk undersøgelse Udvælgelse af stikprøver Hypotesetest χ -test χ -fordelingen Goodness-of-fit Uafhængighed Opgaver... 35

3 1 Beskrivende statistik Med den beskrivende statistik ønsker man at trække den væsentligste information ud af et talmateriale og præsentere den på en overskuelig måde. Dette kan ske ved brug af tabeller eller grafer, men det kan også ske ved at angive nogle nøgletal for talmaterialet, fx middelværdien. Sådanne nøgletal kaldes statistiske deskriptorer. 1.1 Middelværdi, kvartilsæt og boksplot Emilie har fået 10 karakterer: 4, 0, 0, 7, 7, 10, 4, 4, 7 og 0. Disse tal kaldes i statistik for observationer, der tilsammen udgør et observationssæt. Vi kan udregne middelværdien x : x = = Emilies karakterer har således en middelværdi (=gennemsnit) på 4.9. Andre vigtigste statistiske deskriptorer er det såkaldte kvartilsæt, der består af tre tal: den nedre kvartil, medianen og den øvre kvartil. For at finde disse tre tal, opstilles karaktererne i rækkefølge med det mindste først: Medianen er det midterste tal. I dette tilfælde består talmaterialet af et lige antal tal, og derfor vil to tal være midterste, i dette tilfælde 4 og 4. Medianen er så gennemsnittet af disse to tal, dvs. medianen er 4. Den nedre kvartil er medianen af tallene mindre end medianen, dvs. medianen af den nederste halvdel af tallene. I dette tilfælde er den nederste halvdel (dvs. tallene mindre end medianen): og medianen af disse tal er 0. Den nedre kvartil er derfor. Den øvre kvartil er medianen af tallene større end medianen, dvs. medianen af den øverste halvdel af tallene. I dette tilfælde er den øverste halvdel (dvs. tallene større end medianen): og medianen af disse tal er 7. Den øvre kvartil er derfor 7. Kvartilsættet skrives således: (; 4; 7). Det fortæller, at (ca.) 5 % af alle Emilies karakterer er 0 eller derunder, at (ca.) 50 % af hendes karakterer er 4 eller derunder, og at (ca.) 75 % af hendes karakterer er 7 eller derunder. For at bestemme middelværdi og kvartilsæt i TI InterActive, indtastes talmaterialet i en liste, og Stat Calculation Tools åbnes og der vælges One-Variable Statistics og X list markeres med L1. 3

4 Trykkes på Calculate vises statistikken. De relevante punkter kan markeres, og der trykkes Save Results. TI-InterActive viser, at middelværdien x = 4.9, den mindste karakter er, den nedre kvartil er Q1 =, medianen er 4, den øvre kvartil er Q3 = 7 og den største karakter er 10. Disse resultater kan præsenteres i et boksplot. Her angives netop kvartilsættet og den mindste og største værdi. I TI InterActive laves et boksplot således: Åben grafvinduet, tryk på fanebladet med Stat Plots og tryk dernæst på punkterne. Vælg Regular Box Plot og sæt XList til L1 i Stat Plot Styles. Tryk OK. Sæt et flueben, og boksplottet er tegnet. Bemærk koordinatsystemets grænser på boksplottet. Af boksplottet fremgår, at den mindste karakter er 0, hvilket også er den nedre kvartil. Medianen er 4, den øvre kvartil er 7 og den største karakter er 10. 4

5 1. Histogram og sumkurve På en vej med 60 km/t fartbegrænsning har politiet målt 100 bilisters fart (i km/t): Hvis man har et observationssæt bestående af et stort antal observationer, kan man med fordel inddele observationerne i grupper, så observationssættet bliver lettere at overskue. Vi kan fx vælge at gruppere observationerne i intervaller med intervalbredden 5, så de enkelte intervaller bliver 30 35, 35 40, 40 45, osv. Normalt vælger man, at højre endepunkt er med i intervallet, så fx 40 er med i intervallet Med hyppigheden af et interval forstås det antal gange, en observation forekommer i intervallet. Med frekvensen af et interval menes den brøkdel (ofte angivet i procent) af det samlede antal observationer, som observationerne i intervallet udgør. Hvis vi betegner det samlede antal observationer med N, kan frekvensen af et interval bestemmes med formlen: hyppighed frekvens =. N Vi kan opstille en hyppigheds- og frekvenstabel over observationssættet: Interval Hyppighed Frekvens % % % % % % % % % % % % Sum % Vi vil nu arbejde videre med observationssættet i TI InterActive. I Lister indtastes intervalmidtpunkterne i L1 og hyppigheden i L: 5

6 Grafvinduet åbnes, og Histogram vælges. Der tastes som vist. Sæt et flueben i Use Frequency. Sæt Class Edge til 30 (angiver et begyndelsespunkt for intervallerne) og sæt Class Width til intervalbredden. Vælg endelig skraveret i Fill Pattern, og tryk OK. Ved at ændre lidt på grafvinduet, fås et histogram: Et histogram er ofte en god måde at præsentere et talmateriale grafisk på. I et histogram svarer et areal til en bestemt hyppighed eller frekvens. I dette tilfælde er intervalbredden den samme for alle intervaller, og vi har derfor markeret hyppigheden på y-aksen. TI InterActive har svært ved at håndtere histogrammer, hvor intervalbredden ikke er den samme for alle intervaller. Intervallet kaldes typeintervallet, fordi dette interval har det højeste rektangel. Ved den kumulerede hyppighed til et tal x forstås antallet af observationer, der er mindre end eller lig med x. Tilsvarende er den kumulerede frekvens af et tal x den brøkdel af samtlige observationer, der er mindre end eller lig med x. Nedenfor er tabellen fra før udvidet, så også den kumulerede hyppighed og den kumulerede frekvens er medtaget. Talværdien x er for alle intervaller valgt som højre endepunkt i intervallet, dvs. x er det største tal i intervallet. At den kumulerede frekvens til intervallet er 7 % betyder således, at 7 % af samtlige observationer er på 45 km/t eller mindre. 6

7 Interval Hyppighed Frekvens Kumuleret hyppighed Kumuleret frekvens % % % 4 4 % % 7 7 % % % % 5 5 % % % % % % % % % % % % % % % Denne tabel kan med fordel laves i TI InterActive. I Lister indskrives interval-begyndelsespunkterne i L1, interval-endepunkterne i L og hyppigheden i L3. I L4 beregnes frekvensen (dobbeltklik på L4 og skriv L3/sumlist(L3) under Formula. sumlist lægger alle tallene sammen i en liste. I dette tilfælde er sumlist(l3)=100). I L5 beregnes den kumulerede hyppighed (skriv cumsum(l3)) og i L6 beregnes den kumulerede frekvens (skriv cumsum(l4)). Ud fra denne tabel kan vi lave en sumkurve i TI InterActive. Hertil bruges interval-endepunkterne i L og den kumulerede frekvens i L6. Vælg graf, og vælg xy Line i Stat Plots. Grafvinduet rettes til, og vi har nu en sumkurve: 7

8 Ud fra sumkurven kan vi besvare nogle spørgsmål: a) Hvor stor en del af bilisterne kørte lovlydigt, dvs. højst 60 km/t? På sumkurven aflæses dette til ca. 45 % af bilisterne. b) Hvor stor en del af bilisterne kørte mindst 70 km/t? På sumkurven aflæses, at ca. 85 % af bilisterne højst kørte 70 km/t. Derfor må svaret være, at ca. 15 % kørte mindst 70 km/t. c) Hvor hurtigt kørte den langsomste halvdel af bilisterne? På sumkurven starter vi på y-aksen ved 50 % = 0.5. Derudfra finder vi den x-værdi, der svarer hertil. Dette ses at være ca. 6 km/t. Altså kørte den langsomste halvdel højst 6 km/t. Sumkurven kan også bruges til at bestemme kvartilsættet: Af sumkurven kan vi aflæse, at den nedre kvartil er 55, medianen er 6 og den øvre kvartil er 68. Kvartilsættet kan derfor angives: (55; 6; 68). Sagt på dansk betyder dette kvartilsæt, at 5 % af bilisterne kørte højst 55 km/t, at 50 % af bilisterne højst kørte 6 km/t, og at 75 % af bilisterne højst kørte 68 km/t. Det sidste betyder, at 5 % af bilisterne kørte hurtigere end 68 km/t. 8

9 1.3 Varians og spredning To HF-kursister har bestået HF-eksamen. Deres eksamensbeviser ser således ud: Allan: Bettina: Dansk A, mdt. -3 Dansk A, mdt. 0 Dansk A, skr. 00 Dansk A, skr. 4 Matematik B, mdt. 1 Matematik B, mdt. 7 Matematik B, skr. 1 Matematik B, skr. 7 Engelsk B, mdt. 00 Engelsk B, mdt. 4 Engelsk B, skr. 00 Engelsk B, skr. 4 Samfundsfag B 4 Samfundsfag B 4 Biologi B 10 Biologi B 4 Billedkunst C 10 Billedkunst C 7 Kultur- og samfund 4 Kultur- og samfund 4 Naturvidensk. Faggr. 1 Naturvidensk. Faggr. 7 Eksamensprojekt 0 Eksamensprojekt 4 Store Skriftlig Opgave 0 Store Skriftlig Opgave 7 Vi kan beregne de to elevers gennemsnit (middeltal): Allan: x = = Bettina: x = = Begge elever har fået 13 karakterer, og begge har et gennemsnit på 5. Alligevel er de to fordelinger meget forskellige. Det ses tydeligt på histogrammerne, ligesom boksplottet illustrerer forskellen: Allan har fået mange ekstreme karakterer og ingen 7 ere, mens Bettina har fået mange karakterer omkring midten på 4 eller 7. 9

10 Vi vil nu indføre en ny statistisk deskriptor til at måle spredningen, nemlig variansen. Vi ser på, hvor langt der er fra de forskellige observationer til middeltallet. Afstanden mellem karakteren 0 og middeltallet 5 er den samme som afstanden mellem karakteren 10 og middeltallet 5. Da imidlertid 0-5=-5 og 10-5=5, har vi et fortegnsproblem. Det klares ved at kvadrere forskellen, dvs. at opløfte forskellen i anden. Kvadratet på forskellen mellem 0 og 5 er (0 5) = ( 5) = 5, og kvadratet på forskellen mellem 10 og 5 er (10 5) = 5 = 5, altså det samme. Gennemsnittet af kvadraterne kaldes variansen. Vi kan beregne variansen for de to elever: ( 3 5) + (0 5) + (0 5) + (0 5) + ( 5) (1 5) Allan: v = = ( 5) + (4 5) + (4 5) + (4 5) + (4 5) (7 5) Bettina: v = = Variansen er størst for Allan, hvis karakterer ligger spredt langt væk fra middelværdien. I stedet for variansen anvendes normal den statistiske deskriptor spredningen σ ( sigma ), der er defineret som kvadratroden af variansen. Vi kan beregne spredningen for de to elever: Allan: σ = 7.38 = 5. 3 og Bettina: σ =.77 = Spredningen er lige som variansen et mål for, hvor spredt et givet observationssæt ligger i forhold til middelværdien. Jo større spredning, jo længere væk fra middeltallet ligger de fleste observationer. Oversigt over statistiske deskriptorer: Givet et observationssæt x 1, x,..., xn. De enkelte tal x i kaldes observationer. x1 + x xn Middelværdi x =. n Median Den midterste af observationerne, hvis de stilles op i rækkefølge med den mindste først. Hvis der er to midterste, bruges et gennemsnit. Nedre kvartil Øvre kvartil Kvartilsæt Varians Spredning Den midterste af den mindste halvdel af observationerne Den midterste af den øverste halvdel af observationerne Består af nedre kvartil, median og øvre kvartil ( x1 x) + ( x x) ( xn x) v = n σ = v 10

11 TI InterActive kan bestemme spredningen ved at lave One-Variable Statistics på en liste. Spredningen betegnes σx. For at få en større forståelse for hvilke informationer spredningen af et observationssæt giver, kigger vi igen lidt nærmere på talmaterialet fra politiets fartkontrol. Når man laver statistik på grupperede observationer, bruger man interval-midtpunkterne, idet man går ud fra, at observationerne fordeler sig jævnt i intervallet. Derfor indtaster vi interval-midtpunkterne i L1 og hyppigheden i L. Vi laver One-Variable Statistics på L1 med Frequency L: Det ses, at middelværdien er x = 60.7 km/t og spredningen er σ = 10. km/t. Vi er interesserede i hvor stor en del af observationerne der ligger mindre end én spredning fra middelværdien, dvs. ligger i intervallet [ x σ ; x + σ ]=[50.5; 70.9]. En optælling af talmaterialet viser, at det gør 71 af de 100 biler, dvs. 71 % af observationerne. Tilsvarende kan vi undersøge hvor stor en del af observationerne, der ligger mindre end to spredninger fra middelværdien, dvs. ligger i intervallet [ x σ ; x + σ ]=[40.3; 81.1]. Her viser en optælling af talmaterialet, at det gør 94 ud af de 100 biler, dvs. 94 % af observationerne. Ovenstående resultater er ikke tilfældige. For et observationssæt bestående af mange observationer, der er indsamlet på tilfældig vis, kan man som en hovedregel gå ud fra, at ca. 68 % af alle observationer ligger mindre end én spredning fra middelværdien ca. 95 % af alle observationer ligger mindre end to spredninger fra middelværdien. Vi kan se, at talmaterialet i politiets fartkontrol nogenlunde opfylder ovenstående hovedregel. Hvis talmaterialet havde bestået af 1000 målinger i stedet for 100, ville hovedreglen sandsynligvis have passet bedre. I næste kapitel skal vi se, at hovedreglen præcist er opfyldt for et talmateriale, der er normalfordelt. 11

12 Normalfordelingen.1 Gauss-kurven En ung fødselslæge ønsker at få viden om fødselsvægte. Hun har derfor udvalgt en stikprøve ved at føre statistik over de seneste 100 fødselsvægte (kun højre endepunkt er med i hvert interval): Vægt i kg Antal Lægen har tegnet histogrammet over fordelingen her til højre: Denne fordeling er karakteristisk for en normalfordeling. En normalfordeling er kendetegnet ved, at der er mange observationer i midten jo længere væk fra midten, jo færre observationer der er symmetri omkring midten Histogrammet får derved form som en klokke. Lægen laver en statistisk analyse af datasættet i TI InterActive. Det ses, at middelværdien for fødselsvægtene er 3.3 kg og spredningen er 0.79 kg. Grafen for en normalfordeling med middelværdi 3.5 og spredning 0.75 er tegnet sammen med histogrammet. Grafen og histogrammet ses at passe rimeligt pænt sammen. Vi skal i næste afsnit se en bedre metode til at afgøre, om en stikprøve med god tilnærmelse er normalfordelt, og hvad middelværdien og spredningen i så fald er. Hvis fødselslægen kan konkludere, at fødselsvægtene er normalfordelt med middelværdi 3.5 kg og spredningen 0.75 kg, har hun dermed lavet en statistisk model over fødselsvægte. Vi skal om lidt se, hvordan hun kan bruge denne model til at lave forudsigelser om fødselsvægte. Mange forskellige observationssæt viser sig ved nærmere eftersyn at være normalfordelte, fx højde, vægt, intelligenskvotient, karakterer eller fravær. De fleste observationer ligger i midten og jo længere væk fra midten, jo færre observationer. 1

13 Omkring år 1800 fandt den tyske matematiker C. F. Gauss ( ) frem til en matematisk beskrivelse af en normalfordeling: ( x µ ) 1 σ ( ) f x = e, πσ hvor µ ( my ) er middelværdien og σ er spredningen af normalfordeling. I TI InterActive er denne funktion gemt som normalpdf(x,µ,σ). Grafen for en normalfordeling kaldes en Gauss-kurve. Til højre er tegnet tre forskellige grafer med forskellige middelværdi og spredning. Bemærk at Gauss-kurven har maksimum i middelværdien µ og er symmetrisk omkring µ. Spredningen σ fortæller noget om, hvor spredt værdierne ligger. For en normalfordeling gælder at 68, % af alle værdierne ligger inden for én spredningsafstand fra middelværdien, 95,4 % af alle værdierne ligger inden for to spredninger fra middelværdien. For enhver middelværdi µ og spredning σ får man en ny fordeling. Normalfordelingen er således en hel familie af fordelinger, der kan bruges til at beskrive mange forskellige slags observationssæt. De to karakteristiske størrelser for en normalfordeling er middelværdien µ og spredningen σ. Vi indfører nu en ny skrivemåde, idet vi kort og godt kalder den egenskab, som vi kigger på, for X. X kan stå for fødselsvægt, højde eller noget tredje. Kravet er blot, at X skal give et tal, som vi ikke på forhånd kan forudsige. Vi kan ikke forudsige fødselsvægten på et tilfældigt barn eller højden på en tilfældig person. Men hvis fødselsvægte og højder er normalfordelte, kan vi bestemme sandsynligheden. X kaldes i sandsynlighedsteori for en stokastisk variabel, hvor stokastisk netop betyder tilfældigt. At en stokastisk variabel X er normalfordelt med middelværdien µ og spredningen σ skrives kort X N(µ,σ). På samme måde som et bestemt areal i et histogram svarer til en bestemt frekvens, vil et areal under Gauss-kurven svarer til en bestemt sandsynlighed. Man kan vise, at det samlede areal mellem Gauss-kurven og x-aksen er 1 (=100 %). 13

14 Eksempel 1 På et sygehus giver nyfødte børn med enten meget lille eller meget stor fødselsvægte ofte anledning til problemer. Derfor ønsker fødselslægen svar på følgende spørgsmål om fødselsvægte: 1. Hvad er sandsynligheden for, at et barn vejer mellem 1 kg og kg ved fødslen?. Hvad er sandsynligheden for, at et barn vejer højst 1 kg ved fødslen? 3. Hvad er sandsynligheden for, at et barn vejer mindst 5.5 kg ved fødslen? Fødselslægen indfører betegnelsen X for fødselsvægt. På baggrund af de undersøgelser, der er vist i afsnit., konkluderer fødselslægen, at X N(3.5, 0.75). Spørgsmål 1 besvares ved at bestemme arealet mellem Gauss-kurven og x-aksen i [1;]. Dette gøres i TI InterActive. Grafen for normalpdf(x,µ,σ µ,σ) tegnes, og arealet bestemmes. Af grafen fremgår, at sandsynligheden for, at et barn ved fødslen vejer mellem 1 kg og kg, er ca. 4.5 %. En anden måde at bestemme dette i TI InterActive er ved direkte at bestemme integralet En tredje måde er at bruge normalcdf(a,b,µ,σ), som giver sandsynligheden for at få et resultat mellem a og b, når man betragter en normalfordeling med middelværdi µ og spredning σ: Heldigvis giver alle tre måder samme resultat! Notationen P(1 X ) = % er en kort skrivemåde for sandsynligheden for, at X ligger mellem 1 og, er 4,644 %. Denne skrivemåde vil vi benytte fremover. Spørgsmål kan med denne skrivemåde formuleres: Hvad er P(X 1)? Det kan besvares ved at benytte en af de tre måder ovenfor. Idet vil P(X 1) = 0.13 %, dvs. sandsynligheden for, at et barn vejer højst 1 kg, er ca %. Det sidste spørgsmål kan formuleres: Hvad er P(X 5.5)? Dvs. P(X 5.5) = 0.13 %, dvs. sandsynligheden for, at et barn vejer mindst 5.5 kg, er ca %. Fødselslægen har hermed besvaret de spørgsmål, hun ønskede. Bemærk at det sidste spørgsmål umuligt kunne besvares, hvis ikke lægen havde kunnet bruge en normalfordeling, som hun kunne regne på. For i stikprøven er der slet ingen børn med en fødselsvægt på over 5.5 kg. 14

15 . At afgøre om en stikprøve er normalfordelt Fødselslægen ønsker at afgøre, om stikprøven på 100 fødselsvægte er normalfordelt. Derfor beregner hun den kumulerede frekvens og tegner sumkurven: Vægt i kg Kum. Frekvens % % 5 % 16 % 38 % 64 % 84 % 95 % 99 % 100 % For mere præcist at afgøre, om fødselsvægtene er normalfordelte, vender vi os mod udseendet af grafen for den kumulerede sandsynlighed P(X t) ( sandsynligheden for højst t ), når X N(µ,σ). Udseendet afhænger af µ og σ. Da normalfordelingen er symmetrisk omkring µ, vil P(X µ)=0.5. Desuden kan man vise, at P(X µ σ)=0.159 og P(X µ σ)=0.03. På grund af symmetrien af normalfordelingen gælder tilsvarende, at P(X µ+σ)= = og at P(X µ+σ)= = Grafen for P(X t) har følgende udseende: 15

16 De to s-formede kurver ovenfor grafen for sumkurven og den kumulerede sandsynlighed P(X t) ser umiddelbart ret ens ud, hvilket bestyrker troen på, at stikprøven med fødselsvægte er normalfordelt. Imidlertid er det ret vanskeligt at se, om de to kurver faktisk er ens. Derfor har man konstrueret et specielt koordinatsystem på et såkaldt normalfordelingspapir. Dette koordinatsystem er konstrueret så snedigt, at grafen for P(X t) bliver en ret linje, netop når X er normalfordelt. Normalfordelingspapiret kan derfor bruges til at genkende normalfordelinger. På normalfordelingspapiret er x-aksen inddelt normalt, mens y-aksen er ændret. For at den s- formede kurve kan blive rettet ud, er værdierne i midten af y-aksen trykket sammen, mens værdierne i enderne er strukket ud. 16

17 Sygehuslægen kan nu ved hjælp af normalfordelingspapiret afgøre, om stikprøven med fødselsvægte er normalfordelt. Som ved sumkurven indtegnes punkterne med højre intervalendepunkt som x og den kumulerede frekvens som y. Med undtagelse af de to første punkter ligger de øvrige punkter med meget god tilnærmelse på en ret linje, så lægen kan konkludere, at stikprøven med god tilnærmelse er normalfordelt. Middelværdien aflæses til µ = 3.5 kg og spredningen til σ = (µ+σ) µ = = 0.75 kg. Observationerne kan godt være tilnærmelsesvist normalfordelt, selv om de første og sidste punkter ikke ligger helt på en ret linje. Ved de få observationerne betyder tilfældigheder meget, fx ville endnu en stor nyfødt med en fødselsvægt på over 5 kg jo forrykke billedet. Derimod betyder en ekstra nyfødt med en fødselsvægt på 3. kg ikke alverden for det samlede billede, fordi der i forvejen er mange i dette interval af fødselsvægte. Når man på normalfordelingspapiret undersøger, om et talmateriale er normalfordelt, skal man derfor tage følgende to punkter med i betragtning: Punkterne i midterområdet betyder mest, da de stammer fra de fleste observationer. Jo færre punkter, jo større variation omkring en ret linje kan man forvente. 17

18 Eksempel Normalfordelingspapiret kan også bruges til at bestemme sandsynligheder for en normalfordeling. Fødselslægen kan besvare de tre spørgsmål fra eksempel 1 ved hjælp af normalfordelingspapiret: 1. Hvad er sandsynligheden for, at et barn vejer mellem 1 kg og kg ved fødslen?. Hvad er sandsynligheden for, at et barn vejer højst 1 kg ved fødslen? 3. Hvad er sandsynligheden for, at et barn vejer mindst 5.5 kg ved fødslen? Som i eksempel 1 lader vi X betegne fødselsvægten. Da den kumulerede sandsynlighed P(X t) ( sandsynligheden for højst t ) er afsat på y-aksen, kan spørgsmål besvares direkte ved aflæsning på normalfordelingspapiret: P(X 1) = 0.15 %. For at besvare spørgsmål 1 aflæses desuden P(X ) = 5.0 %. Derfor er P(1 X ) = P(X ) P(X 1) = 5.0 % 0.15 % = 4.85 %. Endelig aflæses P(X 5.5) = % for at besvare spørgsmål 3. Derfor er P(X 5.5) = 1 P(X 5.5) = 100 % % = 0.15 %. Vi bemærker den pæne overensstemmelse med resultaterne i eksempel 1. Eksempel 3 I stedet for at tegne sumkurven på normalfordelingspapir for at undersøge, om fødselsvægtene er normalfordelt, kan sygehuslægen også gøre det i TI InterActive. Tricket til at rette y-aksen ud, så grafen for P(X t) bliver en ret linje, netop når X er normalfordelt, består i at anvende invnorm ( den inverse standardnormalfordeling ) på alle y-værdier. Herved kommer grafen for den kumulerede sandsynlighed P(X t) til at se således ud, når X er normalfordelt: 18

19 Med dette trick kan sygehuslægen nu afgøre, om fødselsvægtene er normalfordelt. I TI InterActive indtastes i L1 det højre endepunkt i hvert delinterval og i L indtastes den kumulerede frekvens. Bemærk at yderværdierne med kumuleret frekvens på hhv. 0 og 1 undlades. I L3 indtastes invnorm( ), hvor der i parentesen skrives tallet i L. Desværre kan TI InterActive ikke udføre denne proces på hele listen, så man er nødt til at skrive det i alle felter i L3. Herefter laves lineære regression på L1 og L3: og regressionslinjen og punkterne tegnes. Det ses, at punkterne med god tilnærmelse ligger på en ret linje. Sygehuslægen kan derfor konkludere, at stikprøven med fødselsvægtene er normalfordelt. Da de midterste punkter skal have størst vægt, fordi de stammer fra de fleste observationer, fjerner fødselslægen de to første punkter og det sidste for at undersøge, om de øvrige punkter ligger bedre på en ret linje. Det ses at være tilfældet. Ligningen for denne regression benyttes: For at bestemme middelværdien og spredningen for normalfordelingen, løses ligningerne Løsning på den første ligning viser, at middelværdien µ = 3.5 kg. Forskellen mellem de to løsninger er netop spredning σ, dvs. σ = 0.75 kg. Fødselslægen konkluderer efter denne undersøgelse, at fordelingen er fødselsvægte er normalfordelt med middelværdien µ = 3.5 kg og spredningen σ = 0.75 kg. 19

20 .3 Tilnærmelser til normalfordelingen Da Gauss fandt frem til den matematiske beskrivelse af normalfordelingen omkring år 1800, var hans formål at beskrive den måleusikkerhed, der er forbundet med enhver måling. På den tid arbejdede fysikere bl.a. med at beskrive kometers baner, og det var af største betydning at få styr på måleusikkerhederne. Gauss opdagede, at enhver måling kan beskrives som den sande værdi for målingen + tilfældig variation og at den tilfældige variation er normalfordelt med middelværdien µ=0. Forståelsen af, at den tilfældige variation er normalfordelt, hjalp fysikerne til at bestemme den sande værdi for målingen med meget større præcision end tidligere. Spredningen af den tilfældige variation σ kan opfattes som måleusikkerheden. Udgangspunktet for normalfordelingen var således fysiske målinger og måleusikkerheder. Midt i 1800-tallet begyndte man imidlertid også at anvende normalfordelingen på såkaldte moralske observationer, som man kaldte det, fx kriminalitet eller druk. Det vidste sig snart, at også her kunne normalfordelingen beskrive observationerne på en god måde. Man udviklede en teori om et gennemsnitsmenneske, som hele befolkningen (eller dele heraf, fx ved at inddele i socialklasser eller alder) kunne beskrives ud fra ved hjælp af en tilfældig variation, der er normalfordelt. Den matematiske forklaring på, at mange forskellige typer observationer er normalfordelte, blev givet i første halvdel af 1800-tallet, hvor den franske matematiker P. LaPlace ( ) beviste den centrale grænseværdisætning. Meget løst sagt siger sætningen, at hvis man betragter et antal uafhængige observationer, der alle stammer fra samme fordeling (ikke nødvendigvis normalfordelingen), så vil summen af observationerne med god tilnærmelse være normalfordelt, når antallet af observationer er stort nok. Den centrale grænseværdisætning kan forklare, at mange forskellige typer observationer nærmer sig en normalfordeling, når antallet af observationer stort. Ofte kan vi nemlig opfatte en observation som summen af en række små tilfældige påvirkninger. Eksempelvis kan højder opfattes på denne måde, idet det enkelte menneskes højde er resultatet af en lang række små tilfældige påvirkninger, fx arv fra forældre (gener), opvækstvilkår, spisevaner osv. Derfor vil højder være normalfordelt med god tilnærmelse. I sidste halvdel af 1800-tallet lavede englænderen F. Galton ( ) en stor undersøgelse om sammenhængen mellem forældres og børns højde. Med forældrenes højde på x-aksen og børnenes højde på y-aksen fandt han, at den bedste rette linje havde en hældning under 1. Dette betyder, at børn af høje forældre ikke i gennemsnit bliver så høje som deres forældre. Derfor kaldte han den bedste rette linje for regressionslinjen, da regression betyder tilbagegang. Vi benytter stadig navnet regression, som regel uden at tænke over betydningen. Teorien for lineær regression, dvs. teorien om at bestemme den bedste rette linje gennem et antal målepunkter, blev i øvrigt udviklet af Gauss i forbindelse med hans undersøgelser af, at tilfældige variationer er normalfordelte. Han bestemte formler til at beregne a og b for ligningen for den bedste rette linje. Det er disse formler, som TI InterActive bruger, når programmet laver regression. 0

21 3 Statistisk undersøgelse Statistik opdeles i beskrivende statistik og konkluderende statistik. I den beskrivende statistik trækker man som omtalt i kapitel 1 den væsentligste information ud af et talmateriale ved at lave grafer eller ved at angive nogle statistiske deskriptorer. I den konkluderende statistik går man videre og laver konklusioner om en større gruppe på baggrund af en stikprøve. I kapitel lavede fødselslægen en konklusion om alle fødselsvægte på baggrund af en stikprøve. Et andet eksempel på konkluderende statistik er opinionsundersøgelser, hvor en mindre del af befolkningen spørges, og hvor der på baggrund af denne stikprøve laves konklusioner, som antages at være dækkende for hele befolkningen. Resten af denne note handler om, hvordan sådanne konklusioner kan laves. 3.1 Udvælgelse af stikprøver Ved en population forstås den gruppe, man ønsker at udtale sig om. Ved en stikprøve forstås en (større eller mindre) del af populationen, som man spørger. Spørgsmålet er, hvordan stikprøven skal vælges, for at man ud fra stikprøven kan konkludere noget om hele populationen? Det vigtigste er, at stikprøven er repræsentativ for population. Det betyder, at stikprøven skal have samme sammensætning som populationen. Ellers kan man jo ikke på baggrund af stikprøven sige noget fornuftigt om populationen. Det store spørgsmål er selvfølgelig, hvordan man sikrer sig, at stikprøven bliver repræsentativ. Her er nogle bud: Stikprøven skal være tilfældigt udvalgt Stikprøven skal have en vis størrelse Stil præcise spørgsmål, der ikke kan fortolkes Undgå systematiske fejl (se eksempel 1 og nedenfor) Undgå skjulte variable (se eksempel 3 nedenfor) På Handelshøjskolen og lignende steder undervises meget i, hvordan en stikprøve kan udvælges. Her nøjes vi med at sige, at en stikprøve skal udvælges tilfældigt. I praksis benyttes dog ofte det såkaldte stratificeringsprincip, hvor stikprøven ordnes, så alle relevante områder i stikprøven har samme sammensætning som i populationen (fx med hensyn til aldersfordeling, køn, geografisk fordeling etc.). Fordelen ved stratificering er, at metoden ofte er billigere og lettere håndterbar. Stikprøvens størrelse har betydning. Skal man undersøge, hvilke politiske partier befolkningen stemmer på, er det ikke nok at spørge 10 borgere, hvad de stemmer på. I så fald bliver tilfældigheden for stor til, at man kan konkludere noget. Undersøgelser over hele befolkningen skal normalt baseres på en stikprøve med 1500 personer. Eksempel 1 (Systematisk fejl) På et gymnasium ønsker man at undersøge, hvor mange elever der er overvægtige. Man udtager derfor en stikprøve bestående af de første 0 personer, der selv melder sig. Ingen af de 0 personer er overvægtige. Denne stikprøve er ikke repræsentativ for populationen (=gymnasiet), fordi overvægtige ikke ønsker at skilte med deres overvægt og derfor ikke melder sig selv. Man taler om en systematisk fejl: Man har spurgt nogle andre end dem, man påstår. 1

22 Eksempel (Systematisk fejl) Et berømt eksempel på en systematisk fejl i en stikprøveundersøgelse fandt sted i 1936 i USA, hvor der var præsidentvalg mellem Landon og Roosevelt. Et analyseinstitut udvalgte en stikprøve bestående af borgere i hele USA ud fra adresser i telefonbøger, og sendte spørgeskemaer ud til 10 mio. Der kom mio. spørgeskemaer tilbage, og en analyse viste, at Landon ville vinde præsidentvalget. Imidlertid vandt Roosevelt. Den systematiske fejl skete her i forbindelse med udvælgelsen af stikprøven. I 1936 havde kun velstillede borgere telefon, og ved at vælge stikprøven ud fra telefonbøger valgte man således kun blandt velstillede borgere. Stikprøven var således ikke repræsentativ for populationen (=hele USA's befolkning). Det er faktisk ikke helt let at udvælge en repræsentativ stikprøve på tilfældig vis. Går man ned på gågaden en formiddag og spørger tilfældige forbipasserende, kan man næppe tale om en repræsentativ stikprøve: De fleste mennesker er på arbejde eller i uddannelse om formiddagen, så man får sikkert en overvægt af pensionister og arbejdsløse i sin stikprøve. Det bedste er nok at gøre som Gallup og lignende analyseinstitutter, som udvælger stikprøven ud fra en adresseliste. På den enkelte adresse spørger de så efter den person i husstanden over 18 år, der næste gang har fødselsdag. Eksempel 3 (Skjult variabel) En undersøgelse viste for nogle år siden, at der er en sammenhæng mellem et lands sundhedsudgifter og antallet af overvægtige: Jo større sundhedsudgifter, jo flere overvægtige. Umiddelbart lyder dette mærkeligt, men hvis man tænker efter, kan man godt forklare det. I et velhavende land bruges flere penge på sundhedsudgifter end i et fattigt land. Samtidig er der flere overvægtige i et velhavende land end i et fattigt land. Sammenhængen kan derfor forklares med en skjult variabel, nemlig landets velstand. En skjult variabel er en variabel, der kan forklare undersøgelsens resultat, men som ikke er nævnt. Bemærk at man i statistik kun udtaler sig om sammenhænge, ikke om årsagssammenhænge. Selv om man i statistik kan påvise en sammenhæng mellem et lands sundhedsudgifter og antallet af overvægtige, har man jo ikke sagt, at årsagen til flere overvægtige skal findes i de øgede sundhedsudgifter. Et sødt eksempel på en fejlagtig opfattelse af sammenhænge og årsagssammenhænge er den lille dreng, der har opdaget, at isen smelte hurtigere ved stranden end hjemme i stuen. Drengen tror derfor, at sandet får isen til at smelte hurtigere. Eksempel 4 I Skive Folkeblad har man lavet en opinionsundersøgelse på netudgaven af avisen. Populationen er formentlig borgere i Skive og opland, dvs. man ønsker at undersøge, hvad disse borgere mener om efterløn. Stikprøven består af 918 personer. Disse personer er udvalgt ved at de selv har klikket på spørgeskemaet på netavisen. Dette rejser tvivl om stikprøvens repræsentativitet.

23 3. Hypotesetest En statistisk undersøgelse begynder med at fastlægge, hvad man vil undersøge og hvad populationen er. Derefter udvælges en repræsentativ stikprøve som beskrevet i afsnittet ovenfor, og data indsamles. For at få overblik over observationssættet laver man typisk beskrivende statistik, så de vigtigste informationer fra stikprøven trækkes frem. Det sidste skridt er så at slutte fra stikprøven til populationen, dvs. på baggrund af stikprøven at konkludere noget om hele populationen. Det sidste skridt foregår ved et såkaldt hypotesetest. Ved en hypotese forstås en antagelse om populationen, der enten er sand eller falsk. Denne hypotese ønsker vi at undersøge ud fra stikprøven, dvs. vi ønsker at teste, om hypotesen kan accepteres eller forkastes. Dette kaldes et hypotesetest. Den hypotese, der forekommer mest rimelig (eller som man gerne vil modbevise), kaldes nulhypotesen H 0. Kun hvis beregninger ud fra stikprøven viser, at nulhypotesen fører frem til noget urimeligt, forkastes H 0. Ellers accepteres H 0. Der skal altså være belæg i stikprøven for, at nulhypotesen er falsk, før den forkastes, og dermed er en forkastelse af nulhypotesen stærkere end en accept. Hvis nulhypotesen accepteres, har vi ikke bevist dens rigtighed. Vi kan blot ikke afvise den på baggrund af stikprøven. Spørgsmålet er så, hvor urimeligt det skal være, som nulhypotesen fører frem til, før den forkastes? Eksempel 5 Julia-Maria spiller Ludo og har nu slået 14 gange uden at få en sekser. Hun er overbevist om, at terningen er falsk. Hun opstiller derfor en nulhypotese H 0 : Terningen har samme sandsynlighed for at slå et bestemt antal øjne, som hun ønsker at modbevise. Julia-Maria antager nu, at H 0 er sand. Hun opfatter sine 14 slag som en stikprøve. Hun beregner 5 14 sandsynligheden for at slå 14 gange uden at få en sekser til ( ) = , dvs. 7,8 %. Dette er sandsynligheden for at være mindst lige så uheldig som Julia-Maria (dvs. mindst lige så ekstrem som stikprøven under forudsætning af, at H 0 er sand), og den kaldes testsandsynligheden eller p- værdien. Da testsandsynlighed p er større end 5 %, vil man normalt acceptere H 0. Nok har Julia- Maria været uheldig, men ikke så uheldig, at hun kan konkludere, at terningen er falsk. 6 I eksemplet ovenfor beregnede Julia-Maria p-værdien ved hjælp af sandsynlighedsregning. Men tit er det svært eller umuligt at beregne p-værdien. Derfor benytter man ofte én af to metoder: Hvis antallet af observationer er stort, kan man ofte tilnærme med en normalfordeling (se afsnit.3). På den måde kan man beregne en tilnærmet p-værdi. Den anden metode går ud på at lave en computersimulation, som gentages et stort antal gange. I eksemplet ovenfor kan en computer simulere 14 slag med en fair terning (dvs. nulhypotesen antages sand). Gentages simuleringen gange, kan man med rimelighed udtale sig om, hvor ofte man kan forvente at få nul seksere ved 14 slag med en fair terning, og dermed kan p-værdien bestemmes. 3

24 Den modsatte hypotese af nulhypotesen H 0 kaldes den alternative hypotese H 1. Når H 0 forkastes, accepteres samtidig H 1. Vi opstiller den generelle situation i en tabel: H 0 accepteres H 0 forkastes H 0 sand Korrekt Type 1 fejl H 0 falsk Type fejl Korrekt Der er to muligheder for at begå fejl i et hypotesetest: 1. H 0 forkastes, selv om den er sand (kaldes type 1 fejl). H 0 accepteres, selv om den er falsk (type fejl). Begge fejl skal selvfølgelig undgås. I forbindelse med et hypotesetest beregnes testsandsynligheden (p-værdien), som er sandsynligheden for at opnå et mindst lige så ekstremt resultat som stikprøven under forudsætning af, at H 0 er sand. Jo højere p-værdi, jo mere troværdig er H 0, da en høj p-værdi betyder, at stikprøven er ret sandsynlig, hvis H 0 er sand. Omvendt betyder en lav p-værdi, at stikprøven er ret usandsynlig, hvis H 0 er sand. Da stikprøven jo forelægger, er konklusionen derfor, at H 0 forkastes. For at afgøre, om H 0 skal accepteres eller forkastes, skal man på forhånd have fastlagt et signifikansniveau α. Hvis H 0 fører frem til en p-værdi, der er mindre end signifikansniveauet α, forkastes H 0 ; ellers accepteres H 0. p α H 0 forkastes p > α H 0 accepteres Sandsynligheden for at lave en type 1 fejl er netop det valgte signifikansniveau α, dvs. α er sandsynligheden for at forkaste H 0, når den er sand. Derfor bør α vælges så lav som muligt. Men et lav signifikansniveau α vil omvendt øge sandsynligheden for en type fejl. Traditionelt vælges α = 5 % som signifikansniveau. Ved strengere test (fx i forbindelse med godkendelse af ny medicin, hvor nulhypotesen H 0 er, at medicinen ikke virker) kan man vælge et signifikansniveau på α = 1 %. Så bliver sandsynligheden for at godkende medicin, der ikke virker, lav (type 1 fejl). Men omvendt øges sandsynligheden for ikke at godkende medicin, der faktisk virker (type fejl). 4

25 4 χ -test 4.1 χ -fordelingen Omkring år 1900 udledte den britiske statistiker K. Pearson ( ) χ fordelingen (udtales ki i anden ), som viser sig at være særdeles velegnet i forbindelse med hypotesetest. I sine overvejelser betragtede Pearson f uafhængige normalfordelte stokastiske variable med middelværdi 0 og spredning 1. Han nåede frem til at kalde fordelingen af summen af kvadraterne af disse f stokastiske variable for en χ fordeling med f frihedsgrader. Ved snedige beregninger fandt Pearson frem til, at en χ - fordeling med f frihedsgrader kan beskrives ved funktionen med regneforskriften f x f ( x) = k x e, x > 0, hvor k er en konstant, der sikrer, at det samlede areal mellem x-aksen og grafen for f(x) er 1 (= 100 %). Vi vil ikke følge Pearsons udledning af regneforskriften her, men blot konstatere, at sådan ser den ud. Funktionen er gemt i TI InterActive som chisquarepdf(x,f), hvor f er antallet af frihedsgrader. I koordinatsytemet er tegnet fire grafer for χ -fordelingen med f=1, f=, f=4 og f=8 frihedsgrader. I modsætning til normalfordelingen er χ -fordelingen skæv. Hvis en stokastisk variabel X er χ -fordelt med f frihedsgrader, skriver vi kort X χ (f). Eksempel 1 Lad X χ (3), dvs. X er en stokastisk variabel, der er χ -fordelt med 3 frihedsgrader. Vi vil bestemme sandsynligheden P(X 4) samt bestemme det tal t, hvor P(X t)=0.05. I TI Interactive kan sandsynligheden bestemmes som et areal: 5

26 I TI InterActive kan man også bruge chisquarecdf(a,b,f) til at bestemme arealet mellem a og b: Den lille forskel i de to måder skyldes, at arealet på grafen kun er fundet i intervallet [4; 0] og ikke i [4; [. Derfor mangler lidt areal ved grafen. Men begge måder viser, at P(X 4) = 6.1 %. For bestemme det tal t, hvor P(X t)=0.05, løses ligningen i TI InterActive: Løsningen til P(X t)=0.05 er altså t= Til venstre er løsningen skraveret på grafen for χ (3). 4. Goodness-of-fit Ved et Goodness-of-fit test (GOF) tester man, om en fordeling er som forventet. Eksempel Til studentereksamen i matematik i 009 blev givet følgende beståede karakterer: Karakter I alt Antal Dette kaldes den observerede fordeling. Kilde: Ifølge undervisningsministeriet tilstræbes følgende fordeling for de beståede karakterer: Karakter Fordeling 10 % 5 % 30 % 5 % 10 % Hvis de givne karakterer skulle følge denne fordeling, ville vi forvente følgende karakterer: Karakter I alt Antal Dette kaldes den forventede fordeling. 6

27 Den forventede fordeling findes ved at gange det samlede antal beståede karakterer med den forventede procentandel. Da 10 % af de samlede karakterer forventes at opnå karakteren 0, bliver det forventede antal med karakteren 0: = Tilsvarende beregnes de øvrige forventede karakterer. Vi vil teste, om den observerede fordeling svarer til den forventede fordeling. Nulhypotese H 0 : Den observerede fordeling svarer til den forventede fordeling. Teststørrelsen Q = ( ) Q = 3681 ( observeret forventet) forventet ( ) ( ) , hvor står for sum, beregnes: ( ) ( ) = Hvis de observerede og forventede størrelser var ens, ville Q= 0. Jo større Q bliver, jo dårligere kan nulhypotesen accepteres. Pearson viste, at Q med god tilnærmelse er χ -fordelt. I sine observeret forventet overvejelser tilnærmede han fordelingen af med en normalfordeling med forventet middelværdi 0 og spredning 1. Tilnærmelsen skete ved brug af den centrale grænseværdisætning, se afsnit.3. Tilnærmelsen er god, hvis det samlede antal observationer er mindst 60 og alle forventede værdier er mindst 5. Antallet af frihedsgrader skulle man forvente var antallet af inddelinger, men faktisk er antallet af frihedsgrader én mindre end antallet af inddelinger. I dette tilfælde er antallet af inddelinger 5 (=antal beståede karakterer), så antal frihedsgrader er 4. Dette kan forklares ved, at de karakterer ikke kan fordeles frit mellem de fem inddelinger. Hvis de 4 inddelinger er lagt fast, så er den sidste inddeling nødt til at indeholde resten, dvs. der er 4 frie variable. Testsandsynligheden (p-værdien) angiver som nævnt i afsnit 3. sandsynligheden for at få et resultat, der er mere ekstremt (dvs. ringere) end det observerede. Med X χ (4) bestemmes derfor sandsynligheden P(X Q). Dette gøres i TI InterActive: 7 Testsandsynligheden (p-værdien) er således , dvs. uhyre lille. Det er altså uhyre usandsynligt at nå frem til den observerede karakterfordeling, hvis nulhypotesen H 0 er sand. På signifikansniveau α = 5 % forkaster vi derfor hypotesen: Karakterfordelingen i matematik ved studentereksamen følger ikke den anbefalede karakterfordeling. 7

28 Eksempel 3 I TI InterActive laves et goodness-of-fit test bedst i regneark (spreadsheet). Fra eksempel så vi, at Til studentereksamen i matematik i 009 blev givet følgende beståede karakterer: Karakter I alt Antal Dette kaldes den observerede fordeling. Kilde: Ifølge undervisningsministeriet tilstræbes følgende fordeling for de beståede karakterer: Karakter Fordeling 10 % 5 % 30 % 5 % 10 % I TI InterActives kan goodness-of-fit testen laves således: Klik på Spreedsheet, og indtast skemaet nedenfor. I celle B3 skrives =g*0.1, så beregner TI InterActive selv den forventede værdi. I celle C3 skrives =g*0.5 osv. For at beregne teststørrelsen Q skrives i celle B5 =(b-b3)^/b3. Dette svarer til formlen ( observeret forventet). Stil derefter cursoren i nederste højre hjørne og træk hen til celle F5 og forventet slip: TI InterActive har selv beregnet de forskellige bidrag til Q. Til slut markeres B5-F5 og der trykkes på sumsymbolet Σ: TI har nu beregnet Q-værdien Q = Den lille afvigelse i forhold til eksempel skyldes afrundinger. Bemærk at de observerede værdier altid er hele tal, mens de forventede værdier gerne må være decimaltal. Vi kan bruge tabellen med de enkelte bidrag til teststørrelsen Q til at analysere, hvilke karakterer der særligt ikke følger den anbefalede fordeling. Af tabellen kan vi se, at det i høj grad er karakteren 0, der ikke passer med den forventede fordeling. Der gives for mange 0. Også karaktererne 10 og 1 gives ikke som forventet, idet der gives for få 10 og for mange 1 i forhold til det forventede. 8

29 Oversigt over goodness-of-fit test (test om fordeling er som forventet) Samlet N observationer fordelt på k kategorier: Observeret fordeling: 1 3 k I alt Observationer O 1 O O 3 O k N Nulhypotese H 0 : Sandsynlighed for inddeling i er p i. Forventet fordeling: 1 3 k I alt Forventet E 1 E E 3 E k N hvor den forventede observation E i = N pi. ( O1 E1) ( O E ) ( O3 E3) ( Ok Ek ) Teststørrelsen udregnes: Q = E1 E E3 Ek Jo tættere Q er på 0, jo bedre overensstemmelse mellem observerede og forventede fordeling. Med god tilnærmelse gælder: Q χ (f), hvor antal frihedsgrader f = k 1. Betingelser for at tilnærmelsen er god: 1. N 60. Alle E i 5 Testsandsynligheden (p-værdien) beregnes: p = P(X Q). Testsandsynligheden angiver troværdigheden af nulhypotesen. Jo lavere p-værdi, jo lavere troværdighed har H 0. Hvis p α (signifikansniveauet), forkastes hypotesen, ellers accepteres den. I TI InterActive beregnes p-værdien som chisquarecdf(q,,f). 9

30 4.3 Uafhængighed Man kan teste, om to variable er uafhængige. Eksempel 4 Man hører til tider, at det er lettere at bestå en eksamen på handelsskolen end på gymnasiet. I tabellen nedenfor er anført antal ikke-beståede karakterer og antal beståede karakterer ved studentereksamen 009 på henholdsvis Skive Gymnasium og Skive Handelsskole: Ikke-bestået Bestået I alt Skive Gymnasium Skive Handelsskole Samlet Dette er den observerede fordeling. Kilde: Vi ønsker at teste, om der er uafhængighed mellem skoleform (gymnasium/handelsskole) og karakter (bestået/ikke-bestået), dvs. om det er lige sandsynligt at bestå en eksamen på de to skoler. Nulhypotese H 0 : Sandsynligheden for at bestå en eksamen er uafhængig af skoleform. Vi antager, at H 0 er sand, og beregner under denne forudsætning ( under nulhypotesen ) den forventede fordeling: Ikke-bestået Bestået I alt Skive Gymnasium Skive Handelsskole Samlet Det forventede antal ikke-beståede på Skive Gymnasium beregnes ud fra, at andelen af elever på 634 Skive Gymnasium er, og af disse forventes 411 ikke at bestå. Derfor er det forventede antal ikke-beståede på Skive Gymnasium 411 = = På samme måde findes de øvrige forventede værdier. Som ved Goodness-of-fit (afsnit 4.) beregnes teststørrelsen Q = ( ) Q = 55.4 ( ) ( ) ( ) ( observeret forventet) forventet = : Omkring 190 viste den engelske statistiker R. A. Fisher ( ), at også ved uafhængighedstest er Q med god tilnærmelse χ -fordelt. Som ved goodness-of-fit er tilnærmelsen god, når antallet af observationer er mindst 60 og alle forventede værdier er mindst 30

31 5. Antallet af frihedsgrader bestemmes af antal rækker og søjler i tabellen: I dette tilfælde er der to mulige skoleformer (gymnasium/handelsskole) og to mulige karakterer (bestået/ikke-bestået), dvs. der er tale om en x-tabel med rækker og søjler. Antallet af frihedsgrader er lig med (antal rækker 1) (antal søjler 1), dvs. ( 1) ( 1) = 1 frihedsgrad. Testsandsynligheden (p-værdien) P(X Q) bestemmes i TI InterActive: Da p-værdien er større end signifikansniveauet på 5 %, accepteres nulhypotesen: Sandsynligheden for at bestå en eksamen er uafhængig af, om man går på gymnasiet eller handelsskolen. I stedet for at beregne p-værdien kunne man bestemme den kritiske værdi Q kritisk, som er den højeste værdi af teststørrelsen, der accepteres på 5 % signifikansniveau. Qkritiskkan beregnes ved at løse ligningen P(X Qkritisk )=0.05. Dette gøres selvfølgelig i TI InterActive: Nulhypotesen kan således accepteres på 5 % signifikansniveau, så længe teststørrelsen Q er under den kritiske værdi på Da teststørrelsen er 1.66, accepteres nulhypotesen. Hvis teststørrelsen ligger i acceptmængden, er sandsynligheden for stikprøven større end 5 %, givet at nulhypotesen er sand. Vi tror derfor på nulhypotesen. Acceptmængde = [0; [. Hvis teststørrelsen ligger i den kritiske mængde, er sandsynligheden for stikprøven mindre end 5%, givet at nulhypotesen er sand. Vi tror derfor ikke på nulhypotesen og forkaster den. Kritisk mængde = [ ; [. Bemærkning I eksempel 4 kan man også sige, at man tester for homogenitet (ensfordeling) mellem de to skoleformer. I praksis udføres de to test på samme måde, og det er tit svært at se forskel. Teoretisk afhænger forskellen af udgangspunktet: Hvis man begynder med det samlede antal (dvs. de 1006 karakterer i Skive), der så derefter inddeles efter skoleform, tester man for uafhængighed. Hvis udgangspunktet derimod er de to skoleformer, der er givet, tester man for homogenitet. 31

32 Eksempel 5 TI InterActive kan lave næsten hele arbejdet, når testet er et uafhængighedstest. Fra eksempel 4 har vi den observerede fordeling: Ikke-bestået Bestået I alt Skive Gymnasium Skive Handelsskole Samlet Denne fordeling indtastes i TI-InterActive (indtastes observeret:=[43,6099;168,3696]) I Statistical Tests & Intervals (bemærk pilen på figuren) vælges Chi-square test, og under Observed Matrix og Expected Matrix vælges passende navne. Marker Draw Result og tryk Calculate (se figuren herunder). TI InterActive har beregnet teststørrelsen Q (kaldes X ), testsandsynligheden (pværdien) p og antallet af frihedsgrader df. Desuden har TI InterActive tegnet χ - fordelingen med 1 frihedsgrad og skraveret det areal, der svarer til p. Den forventede fordeling kan også vises, idet man blot skriver forventet (+enter), så vises den:. 3

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

for gymnasiet og hf 2017 Karsten Juul

for gymnasiet og hf 2017 Karsten Juul for gymnasiet og hf 75 50 5 017 Karsten Juul Statistik for gymnasiet og hf 017 Karsten Juul 5/11-017 Nyeste version af dette hæfte kan downloades fra http://mat1.dk/noter.htm Hæftet må benyttes i undervisningen

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Statistik (deskriptiv)

Statistik (deskriptiv) Statistik (deskriptiv) Ikke-grupperede data For at behandle ikke-grupperede data i TI, skal data tastes ind i en liste. Dette kan gøres ved brug af List, hvis ikon er nr. 5 fra venstre på værktøjsbjælken

Læs mere

for gymnasiet og hf 2016 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen

Læs mere

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projektet drejer sig om at udvikle en metode, til at undersøge om et givet talmateriale med rimelighed kan siges at være normalfordelt.

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

Ved et folketingsvalg eller en folkeafstemning spørger man alle stemmeberettigede, og kun en del af dem stemmer.

Ved et folketingsvalg eller en folkeafstemning spørger man alle stemmeberettigede, og kun en del af dem stemmer. Matematik C (må anvendes på Ørestad Gymnasium) Statistik Statistik er bearbejdning af talmaterialer, der ofte indeholderstore mængder af tal. De indsamles og registreres i mange forskellige sammenhænge

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Deskriptiv statistik for hf-matc

Deskriptiv statistik for hf-matc Deskriptiv statistik for hf-matc 75 50 25 2018 Karsten Juul Deskriptiv statistik for hf-matc Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede og ugrupperede data?...

Læs mere

Deskriptiv statistik for matc i stx og hf

Deskriptiv statistik for matc i stx og hf Deskriptiv statistik for matc i stx og hf 75 50 25 2019 Karsten Juul Deskriptiv statistik for matc i stx og hf Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900. 2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske

Læs mere

Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå.

Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå. Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå. Hvis man fx samler de karakterer, der er givet til en eksamen i én stor bunke (se herunder), kan det være svært

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode

Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode Man kan skifte mellem tekst- og matemamatikmode ved at trykke på F5. I øjeblikket er jeg i tekstmode.. 2. lektion.

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014 Vejledning til udvalgte opgave fra Matematik B, sommer 2014 Opgave 7 Størrelsen og udbudsprisen på 100 fritidshuse på Rømø er indsamlet via boligsiden.dk. a) Grafisk præsentation, der beskriver fordelingen

Læs mere

Statistik. Kvartiler og middeltal defineres forskelligt ved grupperede observationer og ved ikke grupperede observationer.

Statistik. Kvartiler og middeltal defineres forskelligt ved grupperede observationer og ved ikke grupperede observationer. Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4 BH Test for normalfordeling i WordMat Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4 Grupperede observationer Vi tager udgangspunkt i

Læs mere

for matematik pä B-niveau i hf

for matematik pä B-niveau i hf for matematik pä B-niveau i hf 75 50 5 016 Karsten Juul GRUPPEREDE DATA 1.1 Hvad er deskriptiv statistik?...1 1. Hvad er grupperede og ugrupperede data?...1 1.1 Eksempel pä ugrupperede data...1 1. Eksempel

Læs mere

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime 5. Statistik Hayati Balo,AAMS Følgende fremstilling er baseret på 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime 1. Ugrupperede Observationer Hvis der foreligger et antal målinger eller observationer

Læs mere

Antal timer 19 5 7 10 0 6 6 3 7 6 4 14 6 5 12 10 Køn k m k m m k m k m k k k m k k k

Antal timer 19 5 7 10 0 6 6 3 7 6 4 14 6 5 12 10 Køn k m k m m k m k m k k k m k k k Statistik 5 Statistik er en meget omfattende matematisk disciplin, og den anvendes i meget stor udstrækning i vores moderne samfund. Den handler om at analysere et (ofte meget stort) talmateriale. Det

Læs mere

Hvad er meningen? Et forløb om opinionsundersøgelser

Hvad er meningen? Et forløb om opinionsundersøgelser Hvad er meningen? Et forløb om opinionsundersøgelser Jette Rygaard Poulsen, Frederikshavn Gymnasium og HF-kursus Hans Vestergaard, Frederikshavn Gymnasium og HF-kursus Søren Lundbye-Christensen, AAU 17-10-2004

Læs mere

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal.

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal. Statistik Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal. Derved får man et samlet overblik over talmaterialet, og man kan konkludere

Læs mere

Grupperede observationssæt Deskriptiv statistik: Middelværdi, frekvensfordeling, sumkurve, kvartilsæt, boxplot

Grupperede observationssæt Deskriptiv statistik: Middelværdi, frekvensfordeling, sumkurve, kvartilsæt, boxplot Grupperede datasæt: Middelværdi, intervalfrekvens og kumuleret frekvens. Bilbestandens alder i 2005 fremgår af følgende tabel. Alder i år ]0;4] ]4;8] ]8;12] ]12;16] ]16;20] ]20;24] Antal i tusinde 401

Læs mere

I. Deskriptiv analyse af kroppens proportioner

I. Deskriptiv analyse af kroppens proportioner Projektet er delt i to, og man kan vælge kun at gennemføre den ene del. Man kan vælge selv at frembringe data, fx gennem et samarbejde med idræt eller biologi, eller man kan anvende de foreliggende data,

Læs mere

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres)

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres) Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres) Til Gribskovløbet 006 gennemførte 118 kvinder 1,4 km distancen. Fordelingen af kvindernes løbstider

Læs mere

Tegning af grafer. Grafen for en ligning (almindelig) Skriv ligningen ind. Højreklik og vælg Plots -> 2-D Plot of Right Side.

Tegning af grafer. Grafen for en ligning (almindelig) Skriv ligningen ind. Højreklik og vælg Plots -> 2-D Plot of Right Side. TgPakken TgPakken er en række kommandoer til Maple tilegnet til det danske gymnasium. Det er rigtig smart til at kontrollere ens opgaver, men som alenestående svar til en eksamen er det ikke altid tilstrækkeligt.

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Hvad siger statistikken?

Hvad siger statistikken? Eleverne har tidligere (fx i Kolorit 7, matematik grundbog) arbejdet med især beskrivende statistik (deskriptiv statistik). I dette kapitel fokuseres i højere grad på, hvordan datamateriale kan tolkes

Læs mere

Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul

Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul Statistik Deskriptiv statistik, normalfordeling og test Karsten Juul Intervalhyppigheder En elevgruppe på et gymnasium har spurgt 100 tilfældigt valgte elever på gymnasiet om hvor lang tid det tager dem

Læs mere

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema:

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema: Der er hjælp til opgaver med # og facit på side 6 1. Et eksperiment kan beskrives med følgende skema: u 1 2 3 4 5 P(u) 0,3 0,2 0,1 0,2 x Bestem x og sandsynligheden for at udfaldet er et lige tal.. 2.

Læs mere

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012 MATEMATIK A-NIVEAU Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012 Kapitel 4 Statistik & sandsynlighedsregning 2016 MATEMATIK A-NIVEAU Vejledende eksempler på eksamensopgaver

Læs mere

Maple 11 - Chi-i-anden test

Maple 11 - Chi-i-anden test Maple 11 - Chi-i-anden test Erik Vestergaard 2014 Indledning I dette dokument skal vi se hvordan Maple kan bruges til at løse opgaver indenfor χ 2 tests: χ 2 - Goodness of fit test samt χ 2 -uafhængighedstest.

Læs mere

Statistisk beskrivelse og test

Statistisk beskrivelse og test Statistisk beskrivelse og test 005 Karsten Juul Kapitel 1. Intervalhyppigheder Afsnit 1.1: Histogram En elevgruppe på et gymnasium har spurgt 100 tilfældigt valgte elever på gymnasiet om hvor lang tid

Læs mere

Taldata 1. Chancer gennem eksperimenter

Taldata 1. Chancer gennem eksperimenter Taldata 1. Chancer gennem eksperimenter Indhold 1. Kast med to terninger 2. Et pindediagram 3. Sumtabel 4. Median og kvartiler 5. Et trappediagram 6. Gennemsnit 7. En statistik 8. Anvendelse af edb 9.

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Statistik viden eller tilfældighed

Statistik viden eller tilfældighed MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår

Læs mere

for matematik pä B-niveau i hf

for matematik pä B-niveau i hf for matematik pä B-niveau i hf 014 Karsten Juul TEST 1 StikprÅver... 1 1.1 Hvad er populationen?... 1 1. Hvad er stikpråven?... 1 1.3 Systematiske fejl ved valg af stikpråven.... 1 1.4 TilfÇldige fejl

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Dig og din puls Lærervejleding

Dig og din puls Lærervejleding Dig og din puls Lærervejleding Indledning I det efterfølgende materiale beskrives et forløb til matematik C, hvori eleverne skal måle hvilepuls og arbejdspuls og beskrive observationerne matematisk. Materialet

Læs mere

χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium

χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium Man kan nemt lave χ 2 -test i GeoGebra både goodness-of-fit-test og uafhængighedstest. Den følgende vejledning bygger på GeoGebra version

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Noter til Statistik. Lisbeth Tavs Gregersen. 1. udgave

Noter til Statistik. Lisbeth Tavs Gregersen. 1. udgave Noter til Statistik Lisbeth Tavs Gregersen 1. udgave 1 Indhold 1 Intro 3 1.1 HF Bekendtgørelsen........................ 3 1.2 Deskriptiv statistik......................... 3 2 Ikke-grupperet Talmateriale

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Analyse af en lineær regression med lav R 2 -værdi

Analyse af en lineær regression med lav R 2 -værdi Analyse af en lineær regression med lav R 2 -værdi Denne gennemgang omhandler figur 13 i Regn med biologi. Man kan sagtens lave beregninger på egne data. Forsøgsmæssigt kræver det bare en tommestok tapet

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave]

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave] Statistik med TI-Nspire CAS version 3.2 Bjørn Felsager September 2012 [Fjerde udgave] Indholdsfortegnelse Forord Beskrivende statistik 1 Grundlæggende TI-Nspire CAS-teknikker... 4 1.2 Lister og regneark...

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der)

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der) Projekt 2.4 Menneskets proportioner (Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der) I. Deskriptiv analyse

Læs mere

Fagligt samspil mellem Ma-B og SA-A Lisbeth Basballe, Mariagerfjord Gymnasium og Marianne Kesselhahn, Egedal Gymnasium og HF

Fagligt samspil mellem Ma-B og SA-A Lisbeth Basballe, Mariagerfjord Gymnasium og Marianne Kesselhahn, Egedal Gymnasium og HF Fagligt samspil mellem Ma-B og SA-A Lisbeth Basballe, Mariagerfjord Gymnasium og Marianne Kesselhahn, Egedal Gymnasium og HF Vi ønskede at planlægge og afprøve et undervisningsforløb, hvor anvendelse af

Læs mere

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14 Module 5: Exercises 5.1 ph i blod.......................... 1 5.2 Medikamenters effektivitet............... 2 5.3 Reaktionstid........................ 3 5.4 Alkohol i blodet...................... 3 5.5

Læs mere

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Til hvert af de gennemgåede værktøjer findes der 5 afsnit. De enkelte afsnit kan læses uafhængigt af hinanden. Der forudsættes et elementært kendskab

Læs mere

Temaopgave i statistik for

Temaopgave i statistik for Temaopgave i statistik for matematik B og A Indhold Opgave 1. Kast med 12 terninger 20 gange i praksis... 3 Opgave 2. Kast med 12 terninger teoretisk... 4 Opgave 3. Kast med 12 terninger 20 gange simulering...

Læs mere

Graph brugermanual til matematik C

Graph brugermanual til matematik C Graph brugermanual til matematik C Forord Efterfølgende er en guide til programmet GRAPH. Programmet kan downloades gratis fra nettet og gemmes på computeren/et usb-stik. Det betyder, det også kan anvendes

Læs mere

Spørgeskemaundersøgelser og databehandling

Spørgeskemaundersøgelser og databehandling DASG. Nye veje i statistik og sandsynlighedsregning. side 1 af 12 Spørgeskemaundersøgelser og databehandling Disse noter er udarbejdet i forbindelse med et tværfagligt samarbejde mellem matematik og samfundsfag

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Løsninger til kapitel 1

Løsninger til kapitel 1 Opgave. a) observation hyppighed frekvens kum. frekvens 2,25,25 3,875,325 2 3,875,5 3 3,875,6875 4,625,75 5,625,825 6,,825 7 2,25,9375 8,,9375 9,625, Frekvenser illustreres i et pindediagram,2,8,6,4,2,,8,6,4,2

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

Deskriptiv statistik. for C-niveau i hf. 2015 Karsten Juul

Deskriptiv statistik. for C-niveau i hf. 2015 Karsten Juul Deskriptiv statistik for C-niveau i hf 75 50 25 2015 Karsten Juul DESKRIPTIV STATISTIK 1.1 Hvad er deskriptiv statistik?...1 1.2 Hvad er grupperede og ugrupperede data?...1 1.21 Eksempel pä ugrupperede

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Fig. 1 Billede af de 60 terninger på mit skrivebord

Fig. 1 Billede af de 60 terninger på mit skrivebord Simulation af χ 2 - fordeling John Andersen Introduktion En dag kastede jeg 60 terninger Fig. 1 Billede af de 60 terninger på mit skrivebord For at danne mig et billede af hyppighederne flyttede jeg rundt

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Skriv punkternes koordinater i regnearket, og brug værktøjet To variabel regressionsanalyse.

Skriv punkternes koordinater i regnearket, og brug værktøjet To variabel regressionsanalyse. Opdateret 28. maj 2014. MD Ofte brugte kommandoer i Geogebra. Generelle Punktet navngives A Geogebra navngiver punktet Funktionen navngives f Funktionen navngives af Geogebra Punktet på grafen for f med

Læs mere

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM

CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM CMU PROJEKT HYPOTESETEST OG SIMULERING MICHAEL AGERMOSE JENSEN CHRISTIANSHAVNS GYMNASIUM FORMÅL - BEKENDTGØRELSEN STX MATEMATIK A Kompetencer anvende simple statistiske eller sandsynlighedsteoretiske modeller

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

Lineære sammenhænge, residualplot og regression

Lineære sammenhænge, residualplot og regression Lineære sammenhænge, residualplot og regression Opgave 1: Er der en bagvedliggende lineær sammenhæng? I mange sammenhænge indsamler man data som man ønsker at undersøge og afdække eventuelle sammenhænge

Læs mere

Huskeliste Printark. U4 Tastetider U5 Hvor hurtigt regner du? E4 Begreber og fagord - Statistik. Materialer. Mobiltelefon Stopur

Huskeliste Printark. U4 Tastetider U5 Hvor hurtigt regner du? E4 Begreber og fagord - Statistik. Materialer. Mobiltelefon Stopur Statistik - Lærervejledning Om kapitlet I dette kapitel om statistik skal eleverne arbejde med statistik og lære at indsamle, beskrive, bearbejde og præsentere store mængder af tal og data. I kapitlet

Læs mere

Et CAS program til Word.

Et CAS program til Word. Et CAS program til Word. 1 WordMat WordMat er et CAS-program (computer algebra system) som man kan downloade gratis fra hjemmesiden www.eduap.com/wordmat/. Programmet fungerer kun i Word 2007 og 2010.

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Kapitel 8 Chi-i-anden (χ 2 ) prøven Kapitel 8 Chi-i-anden (χ 2 ) prøven Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 19 Indledning Forskelle mellem stikprøver undersøges med z-test eller t-test for data målt på

Læs mere

Deskriptiv statistik

Deskriptiv statistik Deskriptiv statistik Billedet Collage (IM) med hjælp fra Danmarks Statistik, Volsted Plantage Jagtkonsortium og Kriminalforsorgen Version 1.7 incl. Sandsynlighed 16-3-2009 Editeret 18-1-2012 og 6-2-2012

Læs mere

Maple-oversigt til matematik B-niveau: Rungsted Gymnasium Definer en funktion og funktionsværdier. Tegn grafen for en funktion.

Maple-oversigt til matematik B-niveau: Rungsted Gymnasium Definer en funktion og funktionsværdier. Tegn grafen for en funktion. Maple-oversigt til matematik B-niveau: Rungsted Gymnasium 2011 Definer en funktion og funktionsværdier (1.1) 32 (1.2) (1.3) Tegn grafen for en funktion (2.1) 250 200 150 100 50 0 5 10 8 6 4 2 0 1 2 0 y

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau)

Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter (især for B- og A-niveau) Projekt 2.9 Sumkurver som funktionsudtryk anvendt til Lorenzkurver og Ginikoefficienter En sumkurve fremkommer ifølge definitionen, ved at vi forbinder en række punkter afsat i et koordinatsystem med rette

Læs mere

Dig og din puls. 17-10-2004 Dig og din puls Side 1 af 17

Dig og din puls. 17-10-2004 Dig og din puls Side 1 af 17 Dig og din puls Jette Rygaard Poulsen, Frederikshavn Gymnasium og HF-kursus Hans Vestergaard, Frederikshavn Gymnasium og HF-kursus Søren Lundbye-Christensen, AAU 17-10-2004 Dig og din puls Side 1 af 17

Læs mere

c) For, er, hvorefter. Forklar.

c) For, er, hvorefter. Forklar. 1 af 13 MATEMATIK B hhx Udskriv siden FACITLISTE TIL KAPITEL 7 ØVELSER ØVELSE 1 c) ØVELSE 2 og. Forklar. c) For, er, hvorefter. Forklar. ØVELSE 3 c) ØVELSE 4 90 % konfidensinterval: 99 % konfidensinterval:

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Supplerende opgaver til TRIP s matematiske GRUNDBOG. Forlaget TRIP. Opgaverne må frit benyttes i undervisningen.

Supplerende opgaver til TRIP s matematiske GRUNDBOG. Forlaget TRIP. Opgaverne må frit benyttes i undervisningen. 48-50. Side 1 af 7 Statistik og sandsynlighedsregning ( 48-50) Opgaverne med svar starter på side 5, og deres numre har et s efter nummeret. Deres nummerering starter forfra. Svarene står fra side 6 med

Læs mere

Skriftlig eksamen i samfundsfag

Skriftlig eksamen i samfundsfag OpenSamf Skriftlig eksamen i samfundsfag Indholdsfortegnelse 1. Introduktion 2. Præcise nedslag 3. Beregninger 3.1. Hvad kan absolutte tal være? 3.2. Procentvis ændring (vækst) 3.2.1 Tolkning af egne beregninger

Læs mere

2. lektion. Indtastning af matematiske udtryk i matematikmode Når man indtaster et udtryk i matematikmode skal man altid skrive alle gangetegn.

2. lektion. Indtastning af matematiske udtryk i matematikmode Når man indtaster et udtryk i matematikmode skal man altid skrive alle gangetegn. Velkommen til Flemmings store Maplekursus 1. lektion. Skift mellem tekst- og matematikmode Man kan skifte mellem tekst- og matemamatikmode ved at trykke på F5. I øjeblikket er jeg i tekstmode.. 2. lektion.

Læs mere

9 Statistik og sandsynlighed

9 Statistik og sandsynlighed 9 Statistik og sandsynlighed Faglige mål Kapitlet Statistik og sandsynlighed tager udgangspunkt i følgende faglige mål: Enkeltobservationer: kunne skabe overblik over statistisk materiale og anvende udvalgte

Læs mere

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A) Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A) Opgave 1 I nedenstående tabel ses resultaterne af samtlige hjerteklapoperationer i 007-08 ved Odense Universitetshospital (OUH) sammenlignet

Læs mere

En lille introduktion til WordMat og statistik.

En lille introduktion til WordMat og statistik. En lille introduktion til WordMat og statistik. WordMat er et gratis program som kan arbejde sammen med word 2007 og 2010. Man kan downloade programmet fra nettet. Se hvordan på linket: http://www.youtube.com/watch?v=rqsn8aakb-a

Læs mere

Kapitel 3 Lineære sammenhænge

Kapitel 3 Lineære sammenhænge Matematik C (må anvendes på Ørestad Gymnasium) Lineære sammenhænge Det sker tit, at man har flere variable, der beskriver en situation, og at der en sammenhæng mellem de variable. Enhver formel er faktisk

Læs mere