Normalfordelingen. Erik Vestergaard

Størrelse: px
Starte visningen fra side:

Download "Normalfordelingen. Erik Vestergaard"

Transkript

1 Normalfordelingen Erik Vestergaard

2 Erik Vestergaard Erik Vestergaard, 008. Billeder: Forside: jakobkramer.dk/jakob Kramer Side 7: istock.com/elenathewise Side 8: istock.com/jaroon Side 9: istock.com/3pod Side 53: istock.com/travellinglight Desuden egne fotos og illustrationer.

3 Erik Vestergaard 3 Indholdsfortegnelse. Indledning...5. Stokastiske variable Middelværdi, varians og spredning Normalfordelingen Normalfordelt data Lidt kombinatorik Binomialfordelingen Normalfordelingens forbindelse til binomialfordelingen Excel-tutorial...33 Appendiks A...39 Opgaver...40 Litteratur...54

4 4 Erik Vestergaard Erik Vestergaard, Haderslev, 008. Forsidebilledet udført af Jakob Kramer.

5 Erik Vestergaard 5. Indledning Statistik er den af de matematiske discipliner, som bliver anvendt mest intensivt i praksis, og i hjertet af statistikken og sandsynlighedsregningen ligger normalfordelingen. Fordelingen er på ingen måde selvindlysende. Selv om den efterhånden blev teoretisk underbygget, beror dens succes i høj grad på, at den er i stand til at beskrive mange forskellige slags data fra den virkelige verden. Mange praktiske data er med andre ord omtrent normalfordelte. Før vi kan beskrive normalfordelingen skal vi have nogle grundlæggende begreber på plads.. Stokastiske variable Et stokastisk eksperiment er et forsøg, hvor man ikke på forhånd kan forudsige udfaldet. Der kan forekomme en række udfald, og mængden af disse udgør udfaldsrummet U. En stokastisk variabel X er en funktion, som til ethvert udfald u U knytter et tal X ( u ). Man er ofte interesseret i sandsynlighedsfordelingen for den stokastiske variabel, dvs. sandsynlighederne for de forskellige værdier, som X kan antage. Sandsynlighederne kan angives på lidt forskellig måde. Vi skal se på to eksempler. Eksempel Eksperiment: Et kast med to terninger, en grøn og en rød. Antal øjne betragtes. Udfaldsrum: U = {(,), (, ),, (,6), (,), (, ),, (,6),, (6,6)}, hvor første koordinaten i talparret angiver antal øjne for den grønne terning, mens andenkoordinaten angiver antal øjne for den røde terning. Stokastisk variabel: X angiver summen af øjnene af de to terninger. Den stokastiske variabel X kan antage værdierne fra til. Da den kun kan antage endeligt (specielt tælleligt) mange værdier, kaldes X for en diskret stokastisk variabel. For at finde sandsynlighedsfordelingen for X skal vi beregne sandsynligheden for hver af dens mulige værdier. X giver 4 for følgende udfald: (,3), (,) og (3,). Sandsynligheden for hver af disse er som bekendt. 36 Derfor er den ønskede sandsynlighed lig med 3. Vi skriver: 3 P( X = 4) =. Sandsynlighederne for de øvrige værdier af X udregnes tilsvarende. Sandsynlighedsfordelingen kan passende beskrives i et stolpediagram, som vist på næste side. Ved hjælp af sandsynlighedsfordelingen kan man løse forskellige opgaver, for eksempel bestemme sandsynligheden for at summen af terningernes øjne højst er lig med 5: P( X 5) = P( X = ) + P( X = 3) + P( X = 4) + P( X = 5) = = =

6 6 Erik Vestergaard Eksempel Det er velkendt, at jo højere temperaturen i en gas er, jo hurtigere bevæger gasmolekylerne sig. Her burde man egentligt sige: jo højere temperatur jo højere er gennemsnitsfarten, for molekylerne i en gas med en given temperatur har nemlig meget forskellig fart. Vi kan også i dette tilfælde betragte et eksperiment, et udfaldsrum og en stokastisk variabel: Eksperiment: Et tilfældig molekyle udtages fra gassen. Udfaldsrum: Mængden af alle molekyler i gassen med den faste temperatur T. Stokastisk variabel: X angiver farten af det udtrukne molekyle. Det viser sig, at de mulige værdier for X kan være alle tal fra 0 til uendelig, altså et helt interval. Da X antager værdier i et helt interval, har det ikke mening at forsøge at bestemme sandsynligheden for, at X er lig med en given værdi, fx 3,76 m/s. Hvis man skulle gøre det, måtte svaret være, at sandsynligheden er uendelig lille for, at X er eksakt lig 3,76 m/s, selv om det i princippet er muligt at molekylet netop har denne fart. I stedet tillader man kun at stille spørgsmål om hvad sandsynligheden er i visse fart-intervaller. Det viser sig, at vi kan beskrive sandsynlighedsfordelingen for X via en såkaldt tæthedsfunktion, som er defineret på et helt interval i dette tilfælde defineret for alle hastigheder fra 0 til. Hvis man er meget godt inde i den fysiske disciplin termodynamik, kan man vise, at gasmolekylernes fart v er beskrevet ved Maxwell-Boltzmann-fordelingen med følgende tæthedsfunktion: () 3 mv kt m f ( v) = 4 π v e (Maxwell-Boltzmann-fordelingen) πkt Grafen for tæthedsfunktionen for gassen Ne-0 ved T = 353 K er afbildet på næste side. I forrige terningeeksempel var summen af sandsynlighederne i sandsynlighedsfordelingen for X lig med. I dette tilfælde er det arealet under grafen for tæthedsfunktionen, som er lig med. Det vil vi dog ikke vise her.

7 Erik Vestergaard 7 Hvis man bliver spurgt om sandsynligheden for at et gasmolekyles fart er mellem 400 m/s og 700 m/s, så er svaret, at det er arealet under grafen i netop dette interval. Arealet er skraveret på figuren. Med grafregnerens hjælp får vi: () mv kt m P(400 X 700) = f ( v) dv = 4π v e dv = 0, 437 πkt 7 6 hvor m = 0, 037u = 0, 037, kg = 3,350 0 kg for gassen Ne-0, 3 k =, J/K for Boltzmanns konstant og 353 K for temperaturen i Kelvin. Vi ser, at 43,7% af molekylerne har en fart mellem 400 m/s og 700 m/s. En stokastisk variabel, der har et helt interval af værdier og hvor sandsynlighederne kan bestemmes via et tæthedsfunktion som her, betegnes en kontinuert stokastisk variabel. 3. Middelværdi, varians og spredning Der er specielt to størrelser, som er med til at sige noget om en stokastisk variabel, og det er middelværdien og variansen eller spredningen. Middelværdien fås ved at tage det vejede gennemsnit af værdierne for den stokastiske variabel, mens variansen fås som det vejede gennemsnit af kvadratet på afvigelserne fra middelværdien. Spredningen er kvadratroden af variansen. Lad os se på de to eksempler ovenfor. Eksempel 3 Middelværdien af den stokastiske variabel fra eksempel er følgende sum: n 3 (3) µ = E( X ) = xip( X = xi ) = = i= Dette resultat er ikke overraskende, da fordelingen er symmetrisk omkring 7. Bemærk, at middelværdien både betegnes med µ og E( X ). Sidstnævnte står for expectation of X den forventede værdi af X. For at finde variansen skal vi udregne følgende sum:

8 8 Erik Vestergaard (4) n Var( X ) = ( x µ ) P( X = x ) i= i i = ( 7) + (3 7) + (4 7) + + ( 7) = 5,83 Vi tager altså forskellene mellem den stokastiske variabels værdier og middelværdien, opløfter til. potens og vejer med sandsynlighederne. Spredningen fås ved at tage kvadratroden af variansen: (5) σ = Var( X ) = 5,83 =,5 Selv om talværdien for spredningen ikke siger noget direkte om fordelingen, så kan man dog sige, at jo større tallet er, jo mere spredte er data. Eksempel 4 Middelværdien for den kontinuerte stokastiske variabel i eksempel fås ved: (6) mv 3 kt 3 mv kt m E( X ) = v f ( v) dv = v 4π v e dv πkt m = 4π v e dv = πkt 8kT πm Du skal ikke forsøge at kontrollere sidste lighedstegn: det er en meget kompliceret sag. Med talværdierne fra eksempel giver det en middelhastighed på 60,9 m/s. Man kan ivrigt vise (se opgave.6), at den mest sandsynlige hastighed er givet ved 54,4 m/s. Vi ser desuden, at fordelingen ikke er symmetrisk om nogen lodret akse. Variansen giver ikke noget pænt udtryk i denne opgave, så vi undlader at udregne den. Lad os sammenfatte begreberne ovenfor: Definition 5 (Middelværdi af stokastisk variabel) Middelværdien for en diskret stokastisk variabel X er givet ved følgende udtryk: (7) E( X ) = x P( X = x ) i hvor der summeres over de mulige værdier x, x,, som X kan antage. I tilfældet med en kontinuert stokastisk variabel X ser udtrykket for middelværdien således ud: (8) E( X ) = x f ( x) dx hvor f er tæthedsfunktionen. (8) er under forudsætning af, at integralet eksisterer. i i

9 Erik Vestergaard 9 Definition 6 (Varians af stokastisk variabel) Variansen for en diskret stokastisk variabel X er givet ved følgende udtryk: (9) Var( X ) = ( x µ ) P( X = x ) i hvor der summeres over de mulige værdier x, x,, som X kan antage, og hvor µ angiver middelværdien af den stokastiske variabel. I tilfældet med en kontinuert stokastisk variabel X ser udtrykket for variansen således ud: (0) Var( X ) = ( x µ ) f ( x) dx hvor f er tæthedsfunktionen. (0) er under forudsætning af, at integralet eksisterer. i i Man kan definere nye stokastiske variable ud fra allerede eksisterende. Specielt interessant er lineære transformationer Y = ax + b. Her gælder følgende sætning: Sætning 7 Lad X være en stokastisk variabel, og lad Y = ax + b. Da er Y en stokastisk variabel med følgende middelværdi og varians: () E( Y) = a E( X ) + b () Var( Y ) = a Var( X ) Bevis: Vi vil kun bevise (), og kun i tilfældet med en diskret stokastisk variabel. For et bevis i tilfældet med en kontinuert stokastisk variabel: se opgave 3.. E( Y ) = y P( Y = y ) = ( ax + b) P( X = x ) i i i i i i ( ( ) ( ) ) ( ( ) ( ) ) = a x P X = x + x P X = x + + b P X = x + P X = x + = a x P( X = x ) + b P( X = x ) i = a E( X ) + b = ( ax + b) P( X = x ) + ( ax + b) P( X = x ) + = ax P( X = x ) + b P( X = x ) + ax P( X = x ) + b P( X = x ) + i i i i I tredje lighedstegn er der blevet ganget ind i parenteser, i fjerde lighedstegn har vi sat a og b udenfor parentes. I sidste lighedstegn har vi udnyttet, at sandsynlighederne tilsammen giver : P( X = xi ) =. Dette beviser (). i

10 0 Erik Vestergaard Eksempel 8 For at få en bedre forståelse af begreberne middelværdi og varians samt af sætning 7 skal vi kigge på et eksempel. En bankør tilbyder et spil, hvor spilleren slår med to terninger, en rød og en grøn. Hvis der er en er blandt de to terninger, så skal spilleren betale 4 kr. til bankøren. I alle andre tilfælde vinder spilleren det beløb i kroner, som svarer til forskellen mellem de to terningers visning. Hvis den ene terning viser 5 og den anden, så vinder spilleren altså 5 = 3 kroner. Lad os være systematiske igen: Eksperiment: Et kast med to terninger, en grøn og en rød. Antal øjne betragtes. Udfaldsrum: U = {(,), (, ),, (,6), (,), (, ),, (,6),, (6,6)}, hvor første koordinaten i talparret angiver antal øjne for den grønne terning, mens anden koordinaten angiver antal øjne for den røde terning. Stokastisk variabel: X angiver det beløb spilleren vinder i ét spil. For at bestemme sandsynlighedsfordelingen for X skal vi først finde ud, hvad X giver for de enkelte udfald i udfaldsrummet. Det er gjort skematisk på figuren nedenfor til venstre. Situationen er set fra spillerens synspunkt, så et tab anføres som et negativt tal. Vi ser, at X kan antage 6 forskellige værdier: 4, 0,,, 3, og 4. Sandsynligheden for hver af disse værdier fås ved at tælle op, hvor ofte de forekommer i skemaet og så gange med /36, som er sandsynligheden for hvert enkelt udfald. Det giver tabellen til højre: Sandsynlighedsfordelingen for X: x i P( X = x i ) Middelværdien og variansen af den stokastiske variabel X kan nu udregnes: E( X ) = x P( X = x ) = = i i Var( X ) = ( x µ ) P( X = x ) i i = ( 4 ( )) + (0 ( )) + ( ( )) ( ( )) + (3 ( )) + (4 ( )) = 7,65 i i

11 Erik Vestergaard Vi ser, at middelværdien er negativ, hvilket ikke er så mærkeligt, da bankører har det med at sørge for, at de selv har de bedste odds! Helt præcist fortæller middelværdien, at spilleren i gennemsnit vil tabe /9 kr. i hvert spil. Talværdien for variansen er ikke nem at give en god fortolkning af, men vi kan lave lidt om på spilreglerne og studere den virkning, som det har på variansen. Lad os sige, at spilleren stadig taber 4 kr. hvis blot en af terningerne viser, at to ens giver summen af øjnene i kr., undtagen hvis de to ens er (,), mens alle andre kombinationer hverken giver tab eller gevinst. Situationen er vist på figuren nedenfor til venstre. Middelværdien viser sig at være nøjagtig den samme som i det oprindelige spil, men variansen kan vises at være vokset til 4,87. Det skyldes, at spillet er blevet mere chancebetonet. Der er større præmier, som er fordelt på færre udfald. Men bankøren vil altså i gennemsnit få den samme indtjening! Spilleren foreslår nu nye spilleregler: Han foreslår, at alle satser tredobles og at han får kr. forud i hvert spil. Skal bankøren, som er matematiker, acceptere disse betingelser? Situationen er beskrevet i skemaet ovenfor til højre. Her er alle værdier for den stokastiske variabel X ganget med 3 og er lagt til i forhold til det tidligere skema på forrige side. Den nye stokastiske variabel er altså givet ved Y = 3X +. Man kunne selvfølgelig finde middelværdien for Y ved hjælp af formel (7), men da middelværdien for X allerede er kendt, er det nemmere at benytte sætning 7, som også giver variansen umiddelbart: E( Y ) = 3 E( X ) + = 3 ( ) + = 9 3 Var( Y ) = 3 Var( X ) = 3 7, 65 = 68, 9 Da middelværdien af Y er positiv, afviser bankøren spilbetingelserne, da de i længden vil være til fordel for spilleren, eftersom middelværdien er positiv. Bemærkning 9 Hvis Y = ax + b, så fås ifølge () følgende sammenhæng mellem spredningerne for X og Y: σ ( Y ) = Var( Y ) = a Var( X ) = a Var( X ) = a σ ( X ).

12 Erik Vestergaard 4. Normalfordelingen Normalfordelingen er en kontinuert fordeling. Den har to parametre, nemlig µ og σ, som viser sig at være henholdsvis middelværdi og spredning for fordelingen (se sætning 0 på næste side). Normalfordelingens tæthedsfunktion er givet ved (3) fµ, σ ( x) = e π σ x µ σ Nedenfor er graferne for tæthedsfunktionerne for tre forskellige værdier af σ afbildet, mens µ = 0 i alle tre tilfælde. Vi ser, at det ikke er underligt, at tæthedsfunktionen for en normalfordeling ofte kaldes for en klokkekurve. Jo mindre σ er jo, smallere er klokkekurven, og jo større σ er, jo bredere er den. Det ses direkte af udtrykket (3), at hvis man vælger en anden værdi af µ end 0, så parallelforskydes kurven blot med µ i x-aksens retning. Det betyder også, at den generelle klokkekurve er symmetrisk omkring x = µ. Den kumulerede sandsynlighedsfunktion eller fordelingsfunktionen for en vilkårlig stokastisk variabel X er defineret ved: (4) F( t) = P( X t) I tilfældet med en normalfordelt stokastisk variabel fås følgende fordelingsfunktion: (5) σ F ( t) = P( X t) = f ( x) dx = e dx π σ µ, σ µ, σ t t x µ Ifølge en fundamental sætning fra integralregningen konkluderer vi, at fordelingsfunktionen er en stamfunktion til tæthedsfunktionen: (6) Fµ, σ ( t) = fµ, σ ( t) De tre tæthedsfunktioner ovenfor har fordelingsfunktioner, hvis grafer er S-formede:

13 Erik Vestergaard 3 Som allerede illustreret i eksempel, kan sandsynligheden P( a X b) bestemmes ved at finde arealet under grafen for tæthedsfunktionen fra a til b. Har man imidlertid fordelingsfunktionen til rådighed, er det meget nemmere idet: (7) P( a X b) = F( b) F( a) Der er én af normalfordelingerne, som har en særlig status, og det er den med µ = 0 og σ =. Den har fået navnet standardnormalfordelingen, og dens fordelingsfunktion får sit eget specielle symbol Φ : (8) x Φ ( t) = F0, ( t) = e dx π t I dag kan grafregnere og softwareprogrammer såsom Microsoft Excel med numeriske metoder bestemme sandsynligheder for normalfordelingen. En del bøger med sandsynlighedsregning og statistik indeholder dog kun en tabel for standardnormalfordelingen. Heldigvis er der dog en forbindelse mellem en generel normalfordeling og standardnormalfordelingen, som vi skal se i det følgende. I det følgende vil vi med notationen X N ( µ, σ ) mene, at X er en normalfordelt stokastisk variabel med parametre µ og σ. Vi har en meget vigtig sætning: Sætning 0 Lad X og Z være stokastiske variable med X a) Z N (0,) X N ( µ, σ ) = σ Z + µ dvs. Z = X µ. Da gælder: σ t µ b) P( X t) = Φ σ c) Parametrene µ og σ i en normalfordeling angiver henholdsvis middelværdien og spredningen for fordelingen.

14 4 Erik Vestergaard Bevis: a) Lad os vise, at (0,) ( µ, σ ). Den anden vej foregår analogt. Z N X N P( X t) = P( σ Z + µ t) = P( Z ( t µ ) σ) = π ( t µ ) σ = π σ t e e x dx y µ σ Hvor vi for at redegøre for sidste lighedstegn har benyttet substitutionen: y = σ x + µ x = ( y µ ) σ dvs. dx = σ dy. Sidstnævnte integral viser ifølge (5) netop, at X er en normalfordelt stokastisk variabel med parametre µ og σ. t µ t µ b) P( X t) = P( σ Z + µ t) = P Z = Φ σ σ. c) Beviset er ret teknisk. Der henvises til appendiks A. dy Spredningen σ kaldes også ofte for standardafvigelsen. Man kan stille sig det spørgsmål, hvad sandsynligheden er for, at en normalfordelt stokastisk variabel X højst ligger henholdsvis én eller to standardafvigelser fra middelværdien. I andet lighedstegn benyttes sætning 0b: P( µ σ X µ + σ ) = P( X µ + σ) P( X µ σ) µ + σ µ µ σ µ = Φ Φ = Φ() Φ( ) = 0, ,50655 = 0, σ σ P( µ σ X µ + σ ) = P( X µ + σ) P( X µ σ) µ + σ µ µ σ µ = Φ Φ = Φ() Φ( ) = 0,9775 0, 075 = 0,95450 σ σ

15 Erik Vestergaard 5 Sandsynligheden for, at X er højst standardafvigelse fra middelværdien, er altså 68,3%, mens sandsynligheden for at X er højst standardafvigelser fra µ er 95,4%. Vi ser, at svaret på spørgsmålene er uafhængige af hvilken normalfordeling, der er tale om. Det kan altså undertiden være fornuftigt at regne i enheder af standardafvigelsen σ fra middelværdien µ. I det følgende skal vi se på eksempler på forskellige opgavetyper i forbindelse med normalfordelinger. Eksemplerne vil overvejende blive løst med grafregneren TI-89. Det er nødvendigt, at du på TI-89 har installeret Stat/List Editor. Andre hjælpemidler vil til opgaveløsning vil blive omtalt i opgavesektionen. Eksempel En stokastisk variabel X oplyses at være normalfordelt med middelværdi 30 og spredning 4. Bestem P( X 33). Løsning: Der er flere måder at løse denne opgave på. Enten kan man bestemme sandsynligheden som arealet under grafen for tæthedsfunktionen fra til 33, eller også kan man blot bestemme fordelingsfunktionens værdi i 33. Tæthedsfunktionen med TI-89: I Stat/List editor vælges menuen Distr via. Vælg menuen :Shade og derefter :Shade Normal... Indtast de fire værdier, som afbildet på figuren nedenfor til venstre. Efter. bliver tæthedsfunktionen tegnet og det relevante område skraveret. Dette ses på figuren til højre.

16 6 Erik Vestergaard Vi har altså resultatet P( X 33) = 0, Fordelingsfunktionen med TI-89: I Stat/List editor vælges igen menuen Distr via. Vælg menuen 4:Normal Cdf... Indtast de fire værdier, som afbildet på figuren nedenfor til venstre. Efter fås resultatet til højre. Igen har vi P( X 33) = F(33) = 0, Løsning med tabel: Her vil vi gøre kraftigt brug af sætning 0b for at knytte en sammenhæng mellem en generel normalfordeling og standardnormalfordelingen. Tabellerne indeholder nemlig data for standardnormalfordelingens fordelingsfunktion Φ. (9) Eksempel P( X 33) = Φ = Φ (0, 75) = 0, Intelligenskvotient scorer er normalfordelte med middelværdi 00 og en spredning på 5. a) Hvor stor en del af befolkningen har en intelligenskvotient på under 80? b) Hvor stor en andel af befolkningen har en intelligenskvotient mellem 0 og 0? c) En betingelse for at blive optaget i organisationen Mensa er, at man hører til de % mest intelligente personer. Hvor høj en score skal man mindst have for at blive optaget? Løsning: a) Ved at bruge menuen 4:Normal Cdf... ligesom i opgave, får vi svaret 9,%: P( X 80) = 0, 09 b) Samme menu benyttes her med Lower Value sat til 0 og Upper Value sat til 0. Det giver 6,%: P(0 X 0) = 0,68

17 Erik Vestergaard 7 c) Vi skal bestemme t således, at P( X t) = 0, 0. Heraf får vi, at værdien af fordelingsfunktionen i t er lig med 0,98: 00,5 = = = = = 00,5 F ( t) P( X t) P( X t) 0,0 0,98 t F (0,98) Værdien af den inverse funktion til fordelingsfunktionen i 0,98 kan findes direkte ved hjælp af TI-89: I Stat/List editor vælges menuen Distr via. Vælg menuen :Inverse og derefter :Inverse Normal... Indtast de tre værdier, som afbildet på figuren nedenfor til venstre. Efter fås svaret vist til højre. Vi ser, at F 00,5 (0,98) = 30,806. Man skal altså have en intelligenskvotient på 3 for at blive optaget i Mensa. Eksempel 3 En maskine på en fabrik skal fremstille cylindre med en diameter på 0 mm. Imidlertid falder resultatet ikke altid helt nøjagtigt ud. Det viser sig, at diametrene er normalfordelte med middelværdi 0 mm og en spredning på 0, mm. Fabrikanten kan acceptere en afvigelse på max. 0, mm fra det ønskede. a) Hvor stor en del af cylindrene må kasseres? En ingeniør mener at kunne forbedre maskinen, så den bliver mere nøjagtig, således at kun % af cylindrene skal kasseres. b) Hvor meget skal spredningen reduceres til, hvis målet skal nås? Opgaven ønskes løst med grafregner. Løsning: a) Vi skal altså finde sandsynligheden for at diameteren enten er over 0, mm eller under 9,8 mm. Det er lettere at regne sandsynligheden for det modsatte ud, dvs. at diameteren er imellem 9,8 mm og 0, mm, og trække resultatet fra : P( X < 9,8) + P( X > 0, ) = P(9,8 X 0, ) = 0,9545 = 0, 0455

18 8 Erik Vestergaard hvor sandsynligheden er udregnet med TI-89 som i eksempel, altså via menuen Normal Cdf. Lower Value sættes til 9,8, Upper Value til 0,, µ til 0 og σ til 0,. Vi ser, at 4,6% af cylindrene må kasseres. b) Vi skal bestemme σ, så P( X < 9,8) + P( X > 0, ) = 0, 0. Da normalfordelingen er symmetrisk, har vi P( X 9,8) = 0,0. Ved brug af sætning 0b fås: 9,8 0 9,8 0 P( X 9,8) = 0, 0 Φ = 0, 0 = Φ (0, 0) σ σ 9,8 0 =,3635 σ = 0, 086 σ Beregningen med den inverse funktion til fordelingsfunktionen for standardnormalfordelingen, dvs. Φ (0,0), kan klares på samme måde, som vi gjorde i eksempel spørgsmål c): I Stat/List editor vælges menuen Distr via. Vælg menuen :Inverse og derefter :Inverse Normal... Indtast de tre værdier, som afbildet på figuren nedenfor til venstre. Efter fås svaret vist til højre. Beregningerne ovenfor viser altså, at spredningen skal reduceres fra 0, til 0,086.

19 Erik Vestergaard Normalfordelt data Ikke sjældent er data fra den virkelige verden omtrent normalfordelt. Der er en række situationer, hvori man har erfaring for, at data approksimativt er normalfordelte. Det er for eksempel i forbindelse med måleusikkerheder i fysiske eksperimenter, variationerne i outputtet fra industrielle produkter (se eksempel 3) og biologiske variationer såsom højde og vægt (se eksempel med personhøjde nedenfor). Lidt abstrakt kan man sige, at hvis der er grund til at mistænke tilstedeværelsen af et stort antal mindre effekter, som er indbyrdes uafhængige og som lægger sammen til en samlet effekt, så kan man formode, at observationerne er normalfordelte. Dette er både verificeret empirisk og teoretisk. Sidstnævnte gennem den såkaldte centrale grænseværdisætning, som er en af sandsynlighedsregningens vigtige hjørnestene. Men alt er ikke normalfordelt. Vi har allerede i eksempel set, at molekylers fart i en gas er fordelt efter en Maxwell-Boltzmann fordeling, som ikke er symmetrisk ligesom normalfordelingen. Hvis man kiggede på lønninger i Danmark, så ville man se, at fordelingen er noget højreskæv, idet der vil være en ret lang hale med store lønninger. Men hvordan afgør man, om noget givet data er normalfordelt? Man kan selvfølgelig tegne et histogram over data og se, om det ligner en klokkekurve og om histogrammet er symmetrisk, men det kan være vanskeligt at afgøre, om den kurve, som tilnærmer histogrammet, krummer på den rigtige måde. Det samme vil være tilfældet med grafen for fordelingsfunktionen. Men hvis man tager den inverse funktion af fordelingsfunktionen til standardnormalfordelingen, dvs. Φ, til de kumulerede frekvenser, så skal man teoretisk få en ret linje, hvis data er normalfordelt. Vi har nemlig ifølge sætning 0b: (0) t µ t µ µ Fµ, σ ( t) = P( X t) = Φ Φ ( Fµ, σ( t)) = = t σ σ σ σ Og det er meget nemmere at afgøre om nogle punkter ligger på en ret linje end at afgøre, om en kurve krummer på den rette måde. Samtidigt kan vi benytte linjen til at give et overslag over middelværdi og spredning. I det følgende skal vi med et velvalgt eksempel se metoden illustreret. Eksempel 4 (Højden af værnepligtige på session) På næste side er en tabel over højderne af 347 danske værnepligtige mænd, der var på session i andet halvår af 006. En tak til sessionslæge P. Winberg for at levere disse data og tillade brugen af dem i denne note. I tabellens søjle er de værnepligtiges højde angivet i cm, i anden søjle hyppighederne, i tredje søjle frekvenserne og i fjerde søjle de kumulerede frekvenser. Datamaterialet tænkes grupperet, således, at alle personer med en højde på fx 75 cm, kommer til at tælles med i intervallet ] 74,5cm,75,5cm ]. Begrundelsen er åbenlys, hvis vi tænker på, at de angivne højder i cm er et resultat af en afrunding! Femte søjle i tabellen angiver så højre endepunkt af intervallerne. I sjette og sidste søjle er taget funktionen Φ til de kumulerede frekvenser.

20 0 Erik Vestergaard Højde (cm) Antal Frekvens Kum. frekvens, p Højre endepunkt Φ - (p) 53 0, , ,5-3, , , ,5-3, , , ,5-3, , , ,5-3, , , ,5-3, ,0005 0, ,5-3, ,0005 0, ,5 -, , , ,5 -, , , ,5 -, , , ,5 -, ,0073 0, ,5 -, , , ,5 -, , , ,5 -, , , ,5 -, , , ,5 -, ,0767 0, ,5 -, , , ,5 -, , , ,5 -, , ,088 7,5 -, , ,345 7,5 -, , , ,5-0, , , ,5-0, , ,593 75,5-0, ,0466 0, ,5-0, ,0576 0, ,5-0, , , ,5-0, , , ,5-0, , , ,5 0, , , ,5 0, , ,6444 8,5 0, , , ,5 0, , , ,5 0, , , ,5 0, , , ,5 0, ,0305 0, ,5, ,0897 0, ,5, ,0598 0,985 89,5, , , ,5, , , ,5, ,040 0, ,5, , , ,5,9685

21 Erik Vestergaard , , ,5, , , ,5, , , ,5, ,0038 0, ,5, ,0073 0, ,5, ,007 0, ,5, ,0066 0, ,5, , , ,5 3, , ,9998 0,5 3, ,0003 0, ,5 3, ,0003 0, ,5 3, , , ,5 3, , , ,5 3,5 07 0, , ,5 3, , , ,5 3, , , ,5 3, ,000074, ,5 Ikke defineret Det kan være fornuftigt lige at tegne et histogram, for at se om data omtrent følger en klokkekurve. Det ses at være tilfældet, så der er håb for, at der kan være tale om en normalfordeling. Se i afsnit 9, hvordan dette gøres i regnearket Microsoft Excel. På figuren på næste side er grafen for den Φ -transformerede fordelingsfunktion. Vi ser, at punkterne ligger meget fint på linje, hvorfor vi slutter, at der er tale om normalfordelt data. For at bestemme den bedste rette linje kan man udføre lineær regression. I den forbindelse kan det være meget fornuftigt kun at benytte en vis mængde af de midterste datapunkter, for de yderste punkter er ret usikre bemærk, at blot ganske få meget lave eller meget høje personer kan rykke betydeligt med punkterne i diagrammet. Punkterne i enderne ligger da heller ikke helt perfekt!

22 Erik Vestergaard Udføres lineær regression på målepunkterne fra 58 cm til 05 cm, fås følgende forskrift: y = 0,433 t 5, 755. Sammenlignes med (0) fås () µ 0,433 5, 755 σ 6, 98 µ 79, 7 σ σ begge i enheden cm. Bemærk, at dette er noget approksimative værdier for middelværdi og spredning. For at finde mere pålidelige og rimelige estimater for middelværdi og spredning bør man benytte formlerne for den empiriske middelværdi, den empiriske varians og den empiriske spredning: () x = x s x x s x x n = n = n n, n ( ), n i i ( i ) i= i= i= Vi vil ikke argumentere for disse formler i detaljer her, blot nævne, at de er beslægtede med formlerne i definition 5 og 6. Det skal dog nævnes, at man med vilje kalder den empiriske middelværdi for x, og ikke µ. Det skyldes, at man skal opfatte x som et estimat på den rigtige middelværdi, µ. Førstnævnte afhænger jo af de forhåndenværende datapunkter. Tilsvarende med s og σ. Først den empiriske middelværdi: n = i = = 80, 347 (3) x x ( ) n i = Bemærk, at formlen antager data skrevet på en lang række x, x, x 3, Da vi har angivet hyppighederne for hver observation, så skriver vi 53 i stedet for Nu til den empiriske varians, hvori den empiriske middelværdi skal bruges: s x x n = ( i ) n i= (4) = ( (53 80,) + (54 80,) + + (0 80,) ) 347 = 46,38 hvor vi igen har samlet enslydende led. Vi får nu straks den empiriske spredning:

23 Erik Vestergaard 3 (5) s = 46,38 = 6,8 Ved at sammenligne (3) og (5) med (), ser vi, at der er rimelig pæn overensstemmelse! Men det er altså værdierne i (3) og (5), som er de mest retvisende estimater på middelværdi og spredning. Hvis man tegner normalfordelingskurven svarende til parametrene 80, og 6,8 oveni i histogrammet, så ses det, at kurven meget fint følger histogrammet. Og hvis man havde målt mændenes højder i mm, så kunne intervalbredderne indskrænkes og histogrammet ville fremtone mere glat. 6. Lidt kombinatorik Som hjælperedskab til næste afsnit får vi brug for lidt kombinatorik. Kombinatorikken er den matematiske disciplin, som beskæftiger sig med at tælle antal kombinationer. Definition 5 Antag givet n forskellige elementer opstillet på en række. Med betegnelsen en permutation af de n elementer menes en ombytning af elementerne, så de står i en ny (evt. samme) rækkefølge. Antallet af mulige permutationer af n forskellige elementer betegnes n! og udtales n fakultet. På figuren nedenfor er vist permutationer af tallene fra til 7. Da der er i alt 5040 forskellige permutationer, kan vi kun opskrive nogle af dem.

24 4 Erik Vestergaard Definition 6 En anden vigtig størrelse er kombinationer. Med betegnelsen K n, r vil vi mene antallet af måder, hvorpå man kan udtage r elementer ud af en mængde på n forskellige elementer (antaget 0 r n). Situationen er illustreret nedenfor: Der skal udtages tal fra en krukke med de fire tal,, 3 og 4. Det kan gøres på 6 forskellige måder som vist. Derfor er K 4, = 6. De udtrukne tal er vist i poser for at indikere, at man ikke interesserer sig for, i hvilken rækkefølge tallene udtrækkes. Sætning 7 (Permutationer og kombinationer) a) n! = 3 n b) K, n r n! = r!( n r)! Bevis: a) Givet n forskellige elementer. Den første plads kan besættes på n måder. For hver af disse tilfælde kan plads besættes på ( n ) måder. For hver af disse kan plads 3 besættes på ( n ) måder, osv. indtil den sidste plads, som kun kan besættes på måde. Antallet af muligheder fås dermed ved at gange disse tal sammen. De r udtrukne De ( n r) øvrige b) Man kan betragte problemet på følgende måde: Vælg en tilfældig permutation af de n elementer og lad os vedtage, at de r elementer, som står først, skal være de udtrukne. Der er imidlertid en masse tilfælde, som tælles med flere gange. De første r elementer kan permuteres på r! forskellige måder, men de repræsenterer den samme udtrækning.

25 Erik Vestergaard 5 Vi må derfor dividere med r! for at tage høje for de permutationer, som tælles med flere gange. På samme måde vil permutationer af de n r øvrige elementer heller ikke resultere i nogen ny udtrækning, hvorfor vi må dividere med ( n r)! for at tage højde for de tilfælde, som tælles med flere gange. Antallet af mulige udtrækninger fås derfor til: K n, r n! = r!( n r)! Eksempel 8 I eksemplet på den første figur i afsnit 6 har vi, at antallet af permutationer af de 7 elementer er 7! = = I eksemplet på den anden figur har vi, at man kan udtage elementer ud af en krukke med 4 forskellige elementer på 6 måder: K 4, 4! 4! 3 4 = = = =!(4 )!!! 6 Eksempel 9 (Texas 89) Fakultetsfunktionen kan i grafregneren Texas 89 aktiveres via : 7! kan således indtastes ved µ ε, og det giver I Texas 89 betegnes K n, r med ncr og funktionen kan i enten skrives direkte eller hentes i : ncr(4,) giver således Binomialfordelingen Vi har hidtil behandlet normalfordelingen. I dette afsnit skal vi betragte en anden meget vigtig fordeling, nemlig den såkaldte binomialfordeling. At den anvendes så ofte, har sin årsag i, at den er defineret ud fra nogle abstrakte kriterier, som gør den så generel, at den passer på mange situationer. En binomialfordelt stokastisk variabel X er defineret ved følgende: Eksperiment: Et basiseksperiment udføres n gange. n kaldes for længden af eksperimentet. Et basiseksperiment kan lykkes eller mislykkes. Udfaldene af hver af basiseksperimenterne skal være indbyrdes uafhængige. Sandsynligheden for, at et enkelt basiseksperiment lykkes betegnes p, hvormed sandsynligheden for at det mislykkes er p. Udfaldsrum: Et udfald u kan beskrives ved en vektor med n koordinater. Den i te koordinat er lig l, hvis det i te basiseksperiment lykkes og m, hvis det mislykkes. Eksempel: Hvis n = 5, så er (l, m, m, l, m) det udfald, at første og fjerde basiseksperiment lykkes, mens de øvrige tre mislykkes. Mængden af alle mulige udfald udgør udfaldsrummet. Stokastisk variabel: X angiver det antal gange, som basiseksperimentet lykkes.

26 6 Erik Vestergaard Det generelle i definitionen gør som sagt, at fordelingen finder anvendelse i vidt forskellige situationer: Det kan være, at man slår 8 gange med en terning og vil undersøge sandsynligheden for at få 3 femmere. Det kan være, at man ønsker at finde sandsynligheden for at få højst piger ved 4 fødsler, eller måske vil man undersøge usikkerheden af stikprøver i forbindelse med folketingsvalg. Vi skal senere se, hvorfor disse eksempler opfylder kriterierne. Først skal vi dog opstille en formel for sandsynligheden for, at basiseksperimentet lykkes r gange: Sætning 0 (Binomialfordelingen) Lad X være en binomialfordelt stokastisk variabel. Sandsynligheden for, at X antager værdien r er givet ved følgende udtryk: r (6) P( X = r) = Kn, r p ( p) n r Bevisskitse: Af hensyn til overskueligheden vil vi argumentere for ovenstående formel ved hjælp af et eksempel: Lad os antage, at vi slår 5 gange med en terning og ønsker at finde sandsynligheden for at få netop firere. Basiseksperimentet er da at slå én gang med en terning. Vi vedtager, at basiseksperimentet lykkes, hvis man får en firer. Det giver en basissandsynlighed på p =. Sandsynligheden for at basiseksperimentet mislykkes, dvs. at resultatet ikke er en firer, er dermed p =. Den stokastiske variabel X skal angive antallet af gange basiseksperimentet lykkes, dvs. hvor mange gange man får en firer i n = 5 kast. Netop firere kan fremkomme på forskellig vis: Det er hensigtsmæssigt at dele op i en række hændelser. På figuren nedenfor symboliserer skrivemåden (4,4, 4, 4, 4), at man fik firere i de to første kast, og ikke-firere i de næste tre kast. Man kan også tænke, at man fik firere i første og tredje kast og ikke-firere i de øvrige, etc.

27 Erik Vestergaard 7 I alt er der 0 muligheder, kan vi se, og de udelukker indbyrdes hinanden samtidigt med, at de udgør alle tilfælde med netop firere. Sandsynligheden for netop to firere kan da findes ved at lægge sandsynligheden for hver af de 0 muligheder sammen. Lad os først bestemme sandsynligheden for (4,4, 4, 4, 4): ( ) ( ) P (4,4, 4, 4, 4) = = Hvor vi har benyttet, at de enkelte kast er uafhængige af hinanden, så vi får sandsynligheden for hele kombinationen ved at gange deres indbyrdes sandsynligheder sammen. Vi kan gøre det samme med hændelsen (4, 4,4, 4, 4): ( ) ( ) P (4, 4, 4, 4, 4) = = Vi ser, at resultatet er det samme som før. Man overbeviser sig hurtigt om, at alle disse 3 sandsynligheder er ens, nemlig ( 5 6 ) ( 6 ), og at man dermed får sandsynligheden for 3 netop firere ved at gange ( ) ( 5 ) med antallet af kombinationer: ( ) ( ) K5, ( ) ( ) 3 5 P( X = ) = 0 = idet K 5, = 0 er antallet af kombinationer, svarende til antallet af måder, hvorpå man kan udpege de to pladser, hvorpå firerne skal stå. Resten af pladserne skal indeholde ikke-firere. Vi ser, at resultatet stemmer med (6) for n = 5, r =, p =. 6 Eksempel Bestem sandsynligheden for ved 8 kast med en terning at få netop 3 femmere. Angiv desuden hele sandsynlighedsfordelingen for den stokastiske variabel X, som angiver antal femmere ved de 8 kast. Løsning: Basiseksperimentet er ét kast med en terning, og det udføres n = 8 gange. Udfaldene af de enkelte basiseksperimenter er klart uafhængige. Dermed kan vi benytte binomialfordelingen. Basissandsynligheden er p =. Ved brug af formel (6) fås: 6 ( 5 ) ( ) ( 5 ) ( ) , P( X = 3) = K = 56 = 0,04 Hvis man har Stats/List-Editoren installeret på sin Texas 89, kan problemet løses hurtigere: Gå ind i editoren via Ο og vælg menuen Distr via og derefter undermenuen B:Binomial Pdf... I den fremkomne boks indtastes de relevante værdier, som vist på figuren nedenfor.

28 8 Erik Vestergaard Man kan få hele sandsynlighedsfordelingen for X ved at gentage proceduren ovenfor bortset fra, at man lader feltet X Value stå tomt. Efter tryk på fås en boks og efter igen, fås billedet nedenfor til højre. De ønskede sandsynligheder findes i kolonnen Pdf (Eng: Probability Density Function). De kumulerede sandsynligheder fås i øvrigt samtidigt i kolonnen Cdf (Eng: Cumulative Distribution Function). x P(X = x) 0,36 0,37 0,605 0,04 0,06 0,004 0,0004 0,0000 0,0000 Eksempel Det er en udbredt opfattelse blandt folk, at hvis man får mange børn af samme køn, så er det en ekstrem hændelse. Men er det nu det? Lad os se på eksempler. Hvad er sandsynligheden for ved 4 fødsler at få: a) fire piger?, b) mindst en pige?, c) højst to piger? Løsning: Basiseksperimentet er en fødsel. Det oplyses, at udfaldet pige og dreng i basiseksperimentet kan betragtes som uafhængige hændelser. Statistikker viser, at piger forekommer en smule sjældnere end drenge, nemlig i 49% af tilfældene. Lad os vedtage at basiseksperimentet lykkes, hvis det bliver en pige, dvs. basissandsynligheden er p = 0, 49. Lad X angive antallet af piger ,4 4,4 a) P( X = 4) = K 0, 49 ( 0, 49) = K 0, 49 0,5 = 0, 49 = 0, 0576, så fire piger ved 4 fødsler sker altså trods alt i knap 6% af alle tilfælde! b) Hvis der skal være mindst én pige, så skal X altså være lig med,, 3 eller 4. Problemet kan altså løses ved at udregne P( X = ) + P( X = ) + P( X = 3) + P( X = 4).

29 Erik Vestergaard 9 Der er imidlertid en nemmere måde: Det modsatte af at få mindst pige er, at man ingen piger får. Derfor kan opgaven også løses ved: 4, P( X ) = P( X = 0) = K 0, 49 0,5 = 0,5 = 0,93 så sandsynligheden for at få mindst én pige ved 4 fødsler er altså 93,%. c) Hvis man skal have højst piger, så skal X være lig med 0, eller. Opgaven kan altså løses ved at udregne P( X ) = P( X = 0) + P( X = ) + P( X = ). Her er det dog hurtigere at benytte Texas 89 s facilitet for kumulerede binomial-sandsynligheder: Gå ind i Stats/List-editoren via Ο og vælg menuen Distr via og derefter undermenuen C:Binomial Cdf... I den fremkomne boks indtastes de relevante værdier, som vist på figuren nedenfor. Svaret er P( X ) = 0,703. Så man vil få højst to piger i 70,3% af tilfældene. Eksempel 3 Op til folketingsvalg foretages mange valgprognoser. Typisk udspørges mellem 000 og 500 personer om, hvilket parti de vil stemme på. I dette eksempel skal vi forsøge at få en fornemmelse for, hvor usikre sådanne stikprøver er. Vi vil antage, at man udspørger 00 helt tilfældigt udvalgte personer. Lad os antage, at et parti A på landsplan har 30% af stemmerne, uden at man kender tallet. Hvad er da sandsynligheden for, at en stikprøve på 00 vil give et resultat, som afviger med mere end procentpoint fra det rigtige tal? Løsning: Vi kan benytte binomialfordelingen: Basiseksperimentet er, at man udspørger én person. Vi kan antage, at personerne stemmer uafhængigt, og basissandsynligheden er p = 0,30. Den stokastiske variabel X angiver, hvor mange af de 00 personer, som stemmer på partiet. Vi skal bestemme sandsynligheden for, at resultatet af stikprøven ligger under 8% eller over 3%. Ud af 00 svarer det til, at vi skal finde sandsynligheden for, at der er færre end 336 eller over 384, som stemmer på partiet A. Det modsatte er, at der er mindst 336 og højst 384, som stemmer på partiet. Vi kan da skrive:

30 30 Erik Vestergaard P( X < 336) + P( X > 384) = P(336 X 384) = 0,877 = 0,3 hvor P(336 X 384) kan udregnes med Texas 89 på samme måde, som vi gjorde i eksempel c): Her med n sat til 00, p til 0,30, Lower Value sat til 336 og Upper Value sat til 384. Vi ser, at chancen for at stikprøven viser mere end procentpoint galt, er større end %! Man skal altså være forsigtig med at konkludere for håndfast ud fra stikprøver. Her gik vi endda ud fra, at gruppen på 00 var helt tilfældigt udvalgt. Er der en skævhed i sammensætningen, vil det forøge usikkerheden. Bemærkning 4 Til den opmærksomme læser skal det lige tilføjes, at man egentligt principielt ikke kan anvende binomialformlen i eksempel 3, hvis man skal være nøjeregnende: Når en person har afgivet en stemme, så er sandsynligheden for, at den næste person stemmer på partiet A ikke helt 30%, for en person er jo fjernet fra gruppen! Ud af en stor population, som den danske befolkning er, har dette dog ingen praktisk betydning. Denne problematik er årsagen til, at man undertiden siger, at binomialfordelingen gælder for situationer med tilbagelægning. I det følgende skal vi kigge på middelværdien og variansen for en binomialfordelt stokastisk variabel. Netop i dette tilfælde gælder der nogle ekstra simple og smukke formler, så vi undgår at skulle gå tilbage til de generelle definitioner 5 og 6: Sætning 5 Lad X være en binomial-fordelt stokastisk variabel med antalsparameter n og basissandsynlighed p. Da er middelværdien og variansen givet ved følgende formler: a) E( X ) = n p b) Var( X ) = n p ( p) Bevis: Overspringes, da de er lidt tekniske. Eksempel 6 I eksempel, hvor der kastes 8 gange med en terning fås E( X ) = n p = 8 =. Der 6 3 vil altså i snit forekomme femmere ved 8 kast med en terning. Variansen udregnes til Var( X ) = n p ( p) = 8 = Eksempel 7 I eksempel 3 er middeltallet for antallet af stemmer på parti A ikke overraskende givet ved: E( X ) = n p = 00 0,30 = 360, svarende til 30% af 00!

31 Erik Vestergaard 3 Bemærkning 8 (Uafhængighed) Som nævnt er uafhængigheden af de enkelte basiseksperimenter en vigtig forudsætning for, at vi har at gøre med en binomialfordeling. Derfor skal man være påpasselig med at overveje, om denne forudsætning kan siges at være opfyldt i den enkelte situation. Ved man statistisk over en lang periode, at Brøndbys fodboldhold plejer at vinde 70% af deres kampe, og man vil vurdere sandsynligheden for, at holdet vinder to af de næste tre kampe, så skal man passe på. For er holdet inde i en god stime, så ved man godt, at sandsynligheden for gevinst øges i næste kamp, fordi selvtilliden er i top. Udfaldene er med andre ord ikke uafhængige! 8. Normalfordelingens forbindelse til binomialfordelingen Når binomialfordelingen finder anvendelse i så mange tilfælde, skyldes det som nævnt, at dens definition indeholder generelle elementer, der passer på så mange situationer. Binomialfordelingen er en såkaldt diskret fordeling, fordi den stokastiske variabel kun kan antage endeligt mange værdier. Normalfordelingen, derimod, er en kontinuert fordeling, fordi den stokastiske variabel kan antage et helt interval af værdier. Det er derfor meget overraskende, at binomialfordelingen kan tilnærmes med normalfordelingen. Som et eksempel kan vi se på en binomialfordelt stokastisk variabel X med antalsparameter n = 0 og basissandsynlighed p = 0, 6. På figuren nedenfor er sandsynlighedsfordelingen for X afbildet, så søjlerne har centrum i de værdier, de hører til. Ifølge forrige afsnit er middelværdien for X givet ved E( X ) = n p = 0 0, 6 = og variansen er givet ved Var( X ) = n p ( p) = 4,8. På figuren er desuden indtegnet tæthedsfunktionen for normalfordelingen med de samme værdier for middelværdi og varians: N ( µ, σ ) = N (;4,8). Vi ser, at approksimationen er overraskende god!

32 3 Erik Vestergaard Som en tommefingerregel kan man sige, at hvis n > 9 p ( p) og n > 9 ( p) p, så er normalfordelingen en rimelig god approksimation til binomialfordelingen. Hvorfra disse postulater kommer, er en længere historie, som vi absolut ikke skal gå i detaljer med her. Kort fortalt skal det dog nævnes, at den geniale matematiker Abraham De Moivre ( ) søgte en måde at simplificere udregningerne af binomialsandsynligheder på husk på, at alt måtte regnes i hånden dengang. På den tid var normalfordelingen endnu ikke opdaget, men de resultater De Moivre kom frem til, kan tolkes, som at han tilnærmede binomialfordelingen med en normalfordeling. Han kan samtidigt siges at være den person, som gav den første formulering af den sætning, som går under navnet den centrale grænseværdisætning (The Central Limit Theorem) en dyb sætning, der står som en hjørnesten i sandsynlighedsregningen. Side 45 i Abraham De Moivres værk The Doctrine of Chances,

33 Erik Vestergaard udgave 756. Corollary indeholder hovedresultatet. 9. Excel-tutorial I denne tutorial vil det blive demonstreret, hvordan man kan lave histogrammer, grafer for fordelingsfunktioner m.m. i regnearket Microsoft Excel. Det antages, at læseren har et basalt kendskab til Excel, dvs. kan lave formler, nedkopiere, etc. Derimod vil det grafiske blive forklaret i detaljer. Som materiale benytter vi data hentet på Danmarks Statistik ( fra deres Statistikbank. Kig under Befolkning og valg > Vielser og skilsmisser. Vi trækker nu data ud for alderen på de kvinder med dansk statsborgerskab, som er blevet viet til en 30-årig mand med dansk statsborgerskab fra 006. Hensigten er blandt andet at undersøge om kvindernes aldre fordeler sig som en normalfordeling, der er symmetrisk omkring 30 år. Du skal starte med at lave nedenstående skema. På næste side følger en kortfattet instruktion hertil.

34 34 Erik Vestergaard Overfør kvindernes aldre og de tilhørende hyppigheder til søjle A og D.. Vi skal have grupperet data. Normalt siger man, at en person er 5 år gammel helt indtil denne fylder 6 år. Derfor skal personen figurere i intervallet fra 5 til 6. Midtpunkterne samt de højre endepunkter af intervallerne udregnes i søjle B og C. 3. Summen af hyppighederne udregnes med formlen =SUM(D6:D35) i celle D Frekvenserne i søjle E udregnes ved i celle E6 at skrive formlen =D6/$D$36 efterfulgt af nedkopiering. 5. De kumulerede frekvenser i søjle F klares på følgende måde: I feltet F6 skrives formlen =E6 og i celle F7 skrive formlen =E7+F6, hvorefter sidstnævnte celle nedkopieres. 6. De Φ transformerede kumulerede frekvenser i søjle G frembringes ved i celle G6 at skrive formlen =NORMINV(F6;0;) og nedkopiere cellen. Vi er nu klar til den grafiske side af sagen. Vi starter med histogrammet: Histogram. Klik på knappen Guiden Diagram i værktøjslinjen. Ikonen forestiller nogle søjler.. I dialogboksen vælges diagramtypen Søjle og undertypen øverst til venstre se figuren nederst til venstre. Tryk på Næste. 3. I trin af diagramguiden skal du med fanebladet Dataområde stille cursoren i feltet Dataområde og derefter gå over og markere søjle F med frekvenserne. Når du slipper venstre musetast efter markeringen, vil søjlereferencerne automatisk blive skrevet i feltet, og du vil endda kunne se et preview. 4. Klik på fanebladet Serie. Vi skal have specificeret det, som skal stå på. aksen. I Excel hedder det Kategoriakseetiketter. Det er desværre ikke muligt i Excel at anføre intervalendepunkterne ud for overgangen fra en søjle til den næste. Som alternativ kan man passende skrive midtpunktet af hver søjle ud for hver søjle. Det gøres ved at sætte cursoren i feltet med kategoriakseetiketter og markere søjle B med midtpunkterne. Resultatet vises på figuren nedenfor til højre. Klik Næste.

35 Erik Vestergaard I trin 3 kan du anføre titler til diagram, kategoriakse og værdiakse m.m. Afslut med Næste. 6. I trin 4 klikker du Udfør. Du har nu et færdigt diagram. 7. Søjlerne i diagrammet har desværre mellemrum imellem søjlerne, og det duer ikke. Heldigvis kan det ændres ved at højreklikke på en af søjlerne og vælge Formater dataserie Vælg fanebladet Indstillinger. Sæt Mellemrumsbredde til 0, og klik Ok. Efter andre små tilretninger, ser histogrammet således ud:

36 36 Erik Vestergaard Vi ser, at histogrammet specielt til højre for toppen mangler lidt i at ligne en rigtig klokkekurve. Men for mere sikkert at kunne afvise, at der er tale om en normalfordeling, skal vi både tegne grafen for fordelingsfunktionen og dens Φ -transformerede. Fordelingsfunktionens graf. Vælg igen diagramværktøjet, men som Diagramtype skal du nu vælge XY-punkt, og derefter undertypen nederst til venstre se figuren til venstre på næste side. Klik herefter på Næste.. Under fanen Dataområde sætter du cursoren i feltet Dataområde og markerer herefter søjle F med de kumulerede frekvenser. Et preview bliver vist. 3. Under fanebladet Serie sætter du cursoren i feltet X-værdier og markerer søjle D med de højre endepunkter. Resultatet ser ud som på figuren nedenfor til højre. Afslut med Næste. 4. I de næste trin skal du skrive titler og rette til. Resultatet kan være således:

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Excel tutorial om lineær regression

Excel tutorial om lineær regression Excel tutorial om lineær regression I denne tutorial skal du lære at foretage lineær regression i Microsoft Excel 2007. Det forudsættes, at læseren har været igennem det indledende om lineære funktioner.

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Normalfordelingen. Erik Vestergaard

Normalfordelingen. Erik Vestergaard Normalfordelingen Erik Vestergaard Erik Vestergaard www.matematikfysik.dk Erik Vestergaard, 9 Billedliste Side 6: istock.com/fizkes (Pige med mobiltelefon) Side 8: Christian Albrecht Jensen [Public domain],

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Temaopgave i statistik for

Temaopgave i statistik for Temaopgave i statistik for matematik B og A Indhold Opgave 1. Kast med 12 terninger 20 gange i praksis... 3 Opgave 2. Kast med 12 terninger teoretisk... 4 Opgave 3. Kast med 12 terninger 20 gange simulering...

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Analyse af en lineær regression med lav R 2 -værdi

Analyse af en lineær regression med lav R 2 -værdi Analyse af en lineær regression med lav R 2 -værdi Denne gennemgang omhandler figur 13 i Regn med biologi. Man kan sagtens lave beregninger på egne data. Forsøgsmæssigt kræver det bare en tommestok tapet

Læs mere

Definition. Definitioner

Definition. Definitioner Definition Landmålingens fejlteori Lektion Diskrete stokastiske variable En reel funktion defineret på et udfaldsrum (med sandsynlighedsfordeling) kaldes en stokastisk variabel. - kkb@math.aau.dk http://people.math.aau.dk/

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projektet drejer sig om at udvikle en metode, til at undersøge om et givet talmateriale med rimelighed kan siges at være normalfordelt.

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

Kombinatorik. Eksempel 2: En mand har 7 par bukser og 10 skjorter. Skal han både vælge en skjorte og et par bukser, så har han 10. 7=70 mulige valg.

Kombinatorik. Eksempel 2: En mand har 7 par bukser og 10 skjorter. Skal han både vælge en skjorte og et par bukser, så har han 10. 7=70 mulige valg. Noter til Biomat, 005. Kombinatorik. - eller kunsten at tælle. Alle tal i kombinatorik-afsnittet er hele og ikke-negative. Additionsprincippet enten - eller : Antag vi enten skal lave et valg med m muligheder

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 Indledning 2 Sandsynlighed i binomialfordelingen 3 Normalfordelingen 4 Modelkontrol

Læs mere

for gymnasiet og hf 2016 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen

Læs mere

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900. 2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske

Læs mere

Excel tutorial om indekstal og samfundsfag 2008

Excel tutorial om indekstal og samfundsfag 2008 Excel tutorial om indekstal og samfundsfag 2008 I denne note skal vi behandle data fra CD-rommen Samfundsstatistik 2008, som indeholder en mængde data, som er relevant i samfundsfag. Vi skal specielt analysere

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

Løsninger til kapitel 5

Løsninger til kapitel 5 1 Løsninger til kapitel 5 Opgave 51 Det nemmeste er her at omskrive alle sandsynlighederne til differenser mellem kumulerede sandsynligheder, dvs af sandsynligheder af formen, og derefter beregne disse

Læs mere

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema:

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema: Der er hjælp til opgaver med # og facit på side 6 1. Et eksperiment kan beskrives med følgende skema: u 1 2 3 4 5 P(u) 0,3 0,2 0,1 0,2 x Bestem x og sandsynligheden for at udfaldet er et lige tal.. 2.

Læs mere

Deskriptiv statistik for hf-matc

Deskriptiv statistik for hf-matc Deskriptiv statistik for hf-matc 75 50 25 2018 Karsten Juul Deskriptiv statistik for hf-matc Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede og ugrupperede data?...

Læs mere

Hvad er meningen? Et forløb om opinionsundersøgelser

Hvad er meningen? Et forløb om opinionsundersøgelser Hvad er meningen? Et forløb om opinionsundersøgelser Jette Rygaard Poulsen, Frederikshavn Gymnasium og HF-kursus Hans Vestergaard, Frederikshavn Gymnasium og HF-kursus Søren Lundbye-Christensen, AAU 17-10-2004

Læs mere

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4

Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4 BH Test for normalfordeling i WordMat Indhold Grupperede observationer... 1 Ugrupperede observationer... 3 Analyse af normalfordelt observationssæt... 4 Grupperede observationer Vi tager udgangspunkt i

Læs mere

for gymnasiet og hf 2017 Karsten Juul

for gymnasiet og hf 2017 Karsten Juul for gymnasiet og hf 75 50 5 017 Karsten Juul Statistik for gymnasiet og hf 017 Karsten Juul 5/11-017 Nyeste version af dette hæfte kan downloades fra http://mat1.dk/noter.htm Hæftet må benyttes i undervisningen

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Deskriptiv statistik for matc i stx og hf

Deskriptiv statistik for matc i stx og hf Deskriptiv statistik for matc i stx og hf 75 50 25 2019 Karsten Juul Deskriptiv statistik for matc i stx og hf Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Approksimation af binomialsandsynligheder, Afsnit 4.5 Multinomial fordeling, Afsnit 4.8 Negativ binomialfordeling, Afsnit 4.4 Poisson fordeling og Poisson process, Afsnit 4.6 Kontinuerte

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul

Statistik. Deskriptiv statistik, normalfordeling og test. Karsten Juul Statistik Deskriptiv statistik, normalfordeling og test Karsten Juul Intervalhyppigheder En elevgruppe på et gymnasium har spurgt 100 tilfældigt valgte elever på gymnasiet om hvor lang tid det tager dem

Læs mere

MM501 forelæsningsslides

MM501 forelæsningsslides MM501 forelæsningsslides uge 40, 2010 Produceret af Hans J. Munkholm bearbejdet af JC 1 Separabel 1. ordens differentialligning En generel 1. ordens differentialligning har formen s.445-8 dx Eksempler

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Residualer i grundforløbet

Residualer i grundforløbet Erik Vestergaard www.matematikfysik.dk 1 Residualer i grundforløbet I dette lille tillæg til grundforløbet, skal vi kigge på begreberne residualer, residualplot samt residualspredning. Vi vil se, hvad

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 22 Generalisering fra stikprøve til population Idé: Opstil en model for populationen

Læs mere

Analyse af måledata II

Analyse af måledata II Analyse af måledata II Usikkerhedsberegning og grafisk repræsentation af måleusikkerhed Af Michael Brix Pedersen, Birkerød Gymnasium Forfatteren gennemgår grundlæggende begreber om måleusikkerhed på fysiske

Læs mere

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable Normal fordelingen Normal fordelingen Egenskaber ved normalfordelingen Standard normal fordelingen Find sandsynligheder ud fra tabel Transformation af normal fordelte variable Invers transformation Repetition

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Statistik viden eller tilfældighed

Statistik viden eller tilfældighed MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår

Læs mere

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger Introduktion til Statistik Forelæsning 2: og diskrete fordelinger Oversigt 1 2 3 Fordelingsfunktion 4 Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800

Læs mere

For at få tegnet en graf trykkes på knappen for graftegning. Knap for graftegning

For at få tegnet en graf trykkes på knappen for graftegning. Knap for graftegning Graftegning på regneark. Ved hjælp af Excel regneark kan man nemt tegne grafer. Man åbner for regnearket ligger under Microsoft Office. Så indtaster man tallene fra tabellen i regnearkets celler i en vandret

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal.

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal. Statistik Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal. Derved får man et samlet overblik over talmaterialet, og man kan konkludere

Læs mere

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Sandsynlighedsregning: endeligt udfaldsrum (repetition) Program: 1. Repetition: sandsynlighedsregning 2. Sandsynlighedsregning fortsat: stokastisk variabel, sandsynlighedsfunktion/tæthed, fordelingsfunktion. 1/16 Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

for matematik pä B-niveau i hf

for matematik pä B-niveau i hf for matematik pä B-niveau i hf 014 Karsten Juul TEST 1 StikprÅver... 1 1.1 Hvad er populationen?... 1 1. Hvad er stikpråven?... 1 1.3 Systematiske fejl ved valg af stikpråven.... 1 1.4 TilfÇldige fejl

Læs mere

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen Statistik Lektion etinget sandsynlighed ayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV inomialfordelingen Repetition Udfaldsrum S Hændelse S Simpel hændelse O i 1, 3 4,

Læs mere

Dig og din puls Lærervejleding

Dig og din puls Lærervejleding Dig og din puls Lærervejleding Indledning I det efterfølgende materiale beskrives et forløb til matematik C, hvori eleverne skal måle hvilepuls og arbejdspuls og beskrive observationerne matematisk. Materialet

Læs mere

Matematik og samfundsfag Gini-koefficienten

Matematik og samfundsfag Gini-koefficienten Erik Vestergaard www.matematikfysik.dk Matematik og samfundsfag Gini-koefficienten Den såkaldte Gini-koefficient, introduceret i 92 i en artikel af den italienske statistiker, demograf og sociolog Corrado

Læs mere

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14 Module 5: Exercises 5.1 ph i blod.......................... 1 5.2 Medikamenters effektivitet............... 2 5.3 Reaktionstid........................ 3 5.4 Alkohol i blodet...................... 3 5.5

Læs mere

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed... Indhold 1 Sandsynlighed 1 1.1 Sandsynlighedsbegrebet................................. 1 1.2 Definitioner........................................ 2 1.3 Diskret fordeling.....................................

Læs mere

Maple. Skærmbilledet. Vi starter med at se lidt nærmere på opstartsbilledet i Maple. Værktøjslinje til indtastningsområdet. Menulinje.

Maple. Skærmbilledet. Vi starter med at se lidt nærmere på opstartsbilledet i Maple. Værktøjslinje til indtastningsområdet. Menulinje. Maple Dette kapitel giver en kort introduktion til hvordan Maple 12 kan benyttes til at løse mange af de opgaver, som man bliver mødt med i matematiktimerne på HHX. Skærmbilledet Vi starter med at se lidt

Læs mere

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/41 Landmålingens fejlteori - lidt om kurset

Læs mere

Statistisk beskrivelse og test

Statistisk beskrivelse og test Statistisk beskrivelse og test 005 Karsten Juul Kapitel 1. Intervalhyppigheder Afsnit 1.1: Histogram En elevgruppe på et gymnasium har spurgt 100 tilfældigt valgte elever på gymnasiet om hvor lang tid

Læs mere

Integralregning Infinitesimalregning

Integralregning Infinitesimalregning Udgave 2.1 Integralregning Infinitesimalregning Noterne gennemgår begreberne integral og stamfunktion, og anskuer dette som et redskab til bestemmelse af arealer under funktioner. Noterne er supplement

Læs mere

Fig. 1 Billede af de 60 terninger på mit skrivebord

Fig. 1 Billede af de 60 terninger på mit skrivebord Simulation af χ 2 - fordeling John Andersen Introduktion En dag kastede jeg 60 terninger Fig. 1 Billede af de 60 terninger på mit skrivebord For at danne mig et billede af hyppighederne flyttede jeg rundt

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Institution Uddannelse Fag og niveau Lærer(e) Hold Termin hvori undervisningen afsluttes: Juni 2013 Roskilde

Læs mere

Spørgeskemaundersøgelser og databehandling

Spørgeskemaundersøgelser og databehandling DASG. Nye veje i statistik og sandsynlighedsregning. side 1 af 12 Spørgeskemaundersøgelser og databehandling Disse noter er udarbejdet i forbindelse med et tværfagligt samarbejde mellem matematik og samfundsfag

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala 3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter

Læs mere

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var. Statistik Lektion Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var. Repetition Stikprøve Stikprøvestørrelse n Stikprøvemiddelværdi Stikprøvevarians s Population

Læs mere

Maple 11 - Chi-i-anden test

Maple 11 - Chi-i-anden test Maple 11 - Chi-i-anden test Erik Vestergaard 2014 Indledning I dette dokument skal vi se hvordan Maple kan bruges til at løse opgaver indenfor χ 2 tests: χ 2 - Goodness of fit test samt χ 2 -uafhængighedstest.

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0 BAndengradspolynomier Et polynomium er en funktion på formen f ( ) = an + an + a+ a, hvor ai R kaldes polynomiets koefficienter. Graden af et polynomium er lig med den højeste potens af, for hvilket den

Læs mere

MM501/MM503 forelæsningsslides

MM501/MM503 forelæsningsslides MM501/MM503 forelæsningsslides uge 50, 2009 Produceret af Hans J. Munkholm 1 Separabel 1. ordens differentialligning En generel 1. ordens differentialligning har formen dx Eksempler = et udtryk, der indeholder

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Statistisk Model Indhold Binomialfordeling Sandsynlighedsfunktion Middelværdi og spredning 1 Aalen: Innføring i statistik med medisinske eksempler

Læs mere

Seriediagrammer - Guide til konstruktion i LibreOffice Calc

Seriediagrammer - Guide til konstruktion i LibreOffice Calc Seriediagrammer - Guide til konstruktion i LibreOffice Calc På forbedringsvejlederuddannelsen anvender vi seriediagrammer til at skelne mellem tilfældig og ikketilfældig variation. Med et seriediagram

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Erik Vestergaard 1. Opgaver. i Lineære. funktioner. og modeller

Erik Vestergaard   1. Opgaver. i Lineære. funktioner. og modeller Erik Vestergaard www.matematikfsik.dk Opgaver i Lineære funktioner og modeller Erik Vestergaard www.matematikfsik.dk Erik Vestergaard, Haderslev. www.matematikfsik.dk Teknik. Aflæse forskrift fra graf...

Læs mere

Dig og din puls. 17-10-2004 Dig og din puls Side 1 af 17

Dig og din puls. 17-10-2004 Dig og din puls Side 1 af 17 Dig og din puls Jette Rygaard Poulsen, Frederikshavn Gymnasium og HF-kursus Hans Vestergaard, Frederikshavn Gymnasium og HF-kursus Søren Lundbye-Christensen, AAU 17-10-2004 Dig og din puls Side 1 af 17

Læs mere

Kønsproportion og familiemønstre.

Kønsproportion og familiemønstre. Københavns Universitet Afdeling for Anvendt Matematik og Statistik Projektopgave forår 2005 Kønsproportion og familiemønstre. Matematik 2SS Inge Henningsen februar 2005 Indledning I denne opgave undersøges,

Læs mere

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Forelæsning 2: Kapitel 4, Diskrete fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,

Læs mere

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen Repetition Lov om total sandsynlighed Bayes sætning P( B A) = P(A) = P(AI B) + P(AI P( A B) P( B) P( A B) P( B) +

Læs mere

Hvad siger statistikken?

Hvad siger statistikken? Eleverne har tidligere (fx i Kolorit 7, matematik grundbog) arbejdet med især beskrivende statistik (deskriptiv statistik). I dette kapitel fokuseres i højere grad på, hvordan datamateriale kan tolkes

Læs mere

Antal timer 19 5 7 10 0 6 6 3 7 6 4 14 6 5 12 10 Køn k m k m m k m k m k k k m k k k

Antal timer 19 5 7 10 0 6 6 3 7 6 4 14 6 5 12 10 Køn k m k m m k m k m k k k m k k k Statistik 5 Statistik er en meget omfattende matematisk disciplin, og den anvendes i meget stor udstrækning i vores moderne samfund. Den handler om at analysere et (ofte meget stort) talmateriale. Det

Læs mere

Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for 7.- 9.

Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for 7.- 9. Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for 7.- 9. klassetrin: statistisk sandsynlighed, kombinatorisk sandsynlighed og personlig

Læs mere

ALMINDELIGT ANVENDTE FUNKTIONER

ALMINDELIGT ANVENDTE FUNKTIONER ALMINDELIGT ANVENDTE FUNKTIONER I dette kapitel gennemgås de almindelige regnefunktioner, samt en række af de mest nødvendige redigerings- og formateringsfunktioner. De øvrige redigerings- og formateringsfunktioner

Læs mere

Mandags Chancen. En optimal spilstrategi. Erik Vestergaard

Mandags Chancen. En optimal spilstrategi. Erik Vestergaard Mandags Chancen En optimal spilstrategi Erik Vestergaard Spilleregler denne note skal vi studere en optimal spilstrategi i det spil, som i fjernsynet går under navnet Mandags Chancen. Spillets regler er

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Statistik. Hjemmeside:  kkb. Statistik - lektion 1 p.1/22 Statistik Kursets omfang: 2 ECTS Inklusiv mini-projekt! Bog: Complete Business Statistics, AD Aczel & J. Sounderpandian Software: SPSS eller Excel?? Forelæser: Kasper K. Berthelsen E-mail: kkb@math.aau.dk

Læs mere

Bedste rette linje ved mindste kvadraters metode

Bedste rette linje ved mindste kvadraters metode 1/9 Bedste rette linje ved mindste kvadraters metode - fra www.borgeleo.dk Figur 1: Tre datapunkter og den bedste rette linje bestemt af A, B og C Målepunkter og bedste rette linje I ovenstående koordinatsystem

Læs mere