STATISTISKE GRUNDBEGREBER

Størrelse: px
Starte visningen fra side:

Download "STATISTISKE GRUNDBEGREBER"

Transkript

1 MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER Histogram for ph 6,9 7,1 7,3 7,5 7,7 7,9 ph 15.b udgave 015

2 FORORD Der er i denne bog søgt at give letlæst og anskuelig fremstilling af de statistiske grundbegreber til brug ved en indledende undervisning i statistik. De væsentligste definitioner og sætninger forklares derfor fortrinsvist ved hjælp af figurer og gennemregnede praktiske eksempler. Ønskes en mere matematisk uddybende forklaring, bevis for sætninger osv. kan dette ofte findes i et særskilt tillæg til bogen, som findes på nettet under titlen Supplement til statistiske grundbegreber. Læsning: Bogen er bygget således op, at der hurtigt nås frem til normalfordelingen og de vigtige normalfordelingstest. Disse vigtige begreber kan derfor blive grundigt indarbejdet, selv om der kun er kort tid til rådighed. Er det af tidsmæssige grunde svært at nå hele bogen kan man uden skade for helheden overspringe kapitel 9, ligesom man eventuelt kan tage kapitlerne 1 og 8 mere oversigtsagtigt. Sidst i hver kapitel findes en række opgaver, der yderligere kan fremme forståelsen. Bagerst i bogen findes en facitliste til alle opgaverne. I et længere kursusforløb er denne bog tænkt at skulle efterfølges af M. Oddershede Larsen: Videregående Statistik, som kan hentes gratis på adressen Regnemidler. Det er hensigtsmæssigt, at man har adgang til et program med de sædvanlige statistiske fordelinger indbygget. I eksemplerne angives således, hvorledes beregningerne kan foretages med det meget udbredte regneark Ønskes i stedet at anvende det TI-Nspire (PC-udgaven), kan man på hjemmesiden under statistik hente den samme bog I 8- udgave findes tabeller over de sædvanlige statistiske funktioner, samt forklaret hvordan tabellerne anvendes Denne udgave, samt 8 udgave kan sammen med en række andre noter findes på adressen: 7. august 015 Mogens Oddershede Larsen

3 INDHOLD 1 INTRODUKTION TIL STATISTIK... 1 DESKRIPTIV STATISTIK.1 Kvalitative data.... Kvantitative data Karakteristiske tal... 7 Opgaver STOKASTISK VARIABEL 3.1 Sandsynlighed Stokastisk variabel Tæthedsfunktion for kontinuert stokastisk variabel Linearkombination af stokastiske variable... 0 Opgaver NORMALFORDELINGEN 4.1 Indledning Definition og sætninger om normalfordeling Beregning af sandsynligheder... 6 Opgaver KONFIDENSINTERVAL FOR NORMALFORDELT VARIABEL 5.1 Udtagning af stikprøver Fordeling og spredning af gennemsnit Konfidensinterval for middelværdi Definition af konfidensinterval Populationens spredning kendt eksakt Populationens spredning ikke kendt eksakt Konfidensinterval for spredning Oversigt over centrale formler i kapitel Opgaver HYPOTESETESTNING (1 NORMALFORDELT VARIABEL) 6.1 Grundlæggende begreber Hypotesetest med ukendt middelværdi og spredning Fejl af type I og type II Oversigt over centrale formler i kapitel Opgaver REGNEREGLER FOR SANDSYNLIGHED, KOMBINATORIK 7.1 Regneregler for sandsynlighed Betinget sandsynlighed Kombinatorik Indledning Multiplikationsprincippet Ordnet stikprøveudtagelse Uordnet stikprøveudtagelse Opgaver iii

4 8 VIGTIGE DISKRETE FORDELINGER 8.1 Indledning Hypergeometrisk fordeling Binomialfordeling Poissonfordeling Approksimationer Den generaliserede hypergeometriske fordeling Polynomialfordeling Oversigt over centrale formler i kapitel Opgaver ANDRE KONTINUERTE FORDELINGER 9.1 Indledning Den rektangulære fordeling Eksponentialfordelingen Weibullfordelingen Den logaritmiske fordeling Den todimensionale normalfordeling Opgaver GRUNDLÆGGENDE OPERATIONER PÅ Excel APPENDIX. OVERSIGT OVER APPROKSIMATIONER FACITLISTE STIKORD iv

5 1 Introduktion til statistik 1 INTRODUKTION TIL STATISTIK Ved næsten alle ingeniørmæssige problemer vil de indsamlede data udvise variation. Måler man således gentagne gange indholdet (i %) af et bestemt stof i et levnedsmiddel, vil det procentvise indhold ikke blive præcis samme tal for hver gang man foretager en måling. Dette kunne naturligvis være en usikkerhed ved målemetoden, men det vil sjældent være den væsentligste årsag. Ved mange industrielle processer vil en række ukontrollable forhold indvirke på det endelige resultat. Eksempelvis vil udbyttet af en kemisk proces variere fra dag til dag, fordi man ikke har fuldstændig kontrol over forsøgsbetingelser som temperatur, omrøringstid, tidspunkt for tilsætning af råmaterialer, fugtighed osv. Endvidere er forsøgsmaterialerne muligvis ikke homogene nok. Råmaterialerne kan f.eks. være af varierende kvalitet, der må bruges forskelligt apparatur under produktionsprocessen, forskelligt personale deltager i arbejdet osv. Statistik drejer sig om at samle, præsentere og analysere data med henblik på at foretage beslutninger og løse problemer. I den deskriptive statistik beskrives data ved tabeller, grafisk (lagkagediagrammer, søjlediagrammer) og ved beregning af karakteristiske tal såsom gennemsnit og spredning. Man kan eksempelvis i Danmarks Statistik (findes på nettet under adressen ) finde, hvor mange personbiler der er i Danmark i 009 opdelt efter alder. Man kender her populationen (biler i Danmark), kan grafisk vise deres fordeling i et søjlediagram og beregne deres gennemsnitlige alder. I den mere analyserende statistik (kaldet inferentiel statistik) søger man ved mere avancerede statistiske metoder ud fra en repræsentativ stikprøve at konkludere noget om hele populationen. Eksempelvis udtages ved en meningsmåling en forhåbentlig repræsentativ stikprøve på 1000 vælgere, som man spørger om hvilket politisk parti de ville stemme på, hvis der var valg i morgen. Man vil så ud fra stikprøven konkludere, at hvis man spurgte hele populationen (alle vælgere i Danmark), så ville man med en vis usikkerhed få samme resultat. Viser stikprøven, at partiet Venstre vil gå.5% tilbage, så vil det samme ske, hvis der var valg i morgen. Et sådant tal er naturligvis usikkert. Man må derfor anvende passende statistiske metoder til eksempelvis at beregne, at usikkerheden er på %. 1

6 Deskriptiv statistik. DESKRIPTIV STATISTIK I den deskriptive statistik (eller beskrivende atistik) beskrives de indsamlede data i form af beller, søjlediagrammer, lagkagediagrammer, urver samt ved udregning af centrale tal som ennemsnit, typetal, spredning osv. Kurver og diagrammer forstås lettere og mere middelbart end kolonner af tal i en tabel. Øjet uovertruffet til mønstergenkendelse ( en tegng siger mere end 1000 ord ). s t t a k g u er ni.1 KVALITATIVE DATA Hvis der er en naturlig opdeling af talmaterialet i klasser eller kategorier siges, at man har kategorisk eller kvalitative data. Alle spørgeskemaundersøgelser, hvor man eksempelvis bliver bedt om at sætte kryds i nogle rubrikker meget god, god, acceptabel osv. er af denne type. De følgende eksempler viser anvendelse af henholdsvis lagkagediagram og søjlediagram Eksempel.1 Lagkagediagram Nedenfor er angivet hvordan en kommunes udgifter fordeler sig på de forskellige områder. Udligning 3,1 øvrige 8,4 Socialområdet,øvrige 9,4 Ældre 18,6 Børnepasning 10,4 Bibliotek 1,9 fritid 3,8 Skoler 10,5 Administration 7,3 Teknik,anlæg 6,6 Dan et lagkagediagram til anskueliggørelse heraf. Løsning: Husk først at indlægge tilføjelsesprogrammer (se kapitel 10) Løsning: Data indsættes i kolonner. Marker udskriftsområde Vælg på værktøjslinien Indsæt Cirkel Cursor på figur Formater dataetiketter Vælg kategorinavn og udenfor.

7 .1 Kvalitative data Eksempel. Søjlediagram Følgende tabel angiver mandattallet ved to folketingsvalg. Partier A B C F I O V Ø Mandater A = Socialdemokraterne, B =Radikale venstre, C = Konservative folkeparti, F =Socialistisk folkeparti, I =Liberal alliance, O = Dansk Folkeparti, V = Venstre, Ø = Enhedslisten Anskueliggør disse mandattal ved at tegne et søjlediagram Løsning: Som i eksempel.1 blot vælges Søjle Fordelen ved en grafisk fremstilling er, at de væsentligste egenskaber ved data opnås hurtigt og sikkert. Men netop det, at figurer appellerer umiddelbart til os, gør at vi kan komme til at lægge mere i dem, end det som tallene egentlig kan bære. Eksempelvis viser forsøg, at i lagkagediagrammer, hvor man skal sammenligne vinkler (eller arealer), da vil denne sammenligning afhænge noget af i hvilken retning vinklens ben peger. Nedenstående eksempel viser hvordan en figur kan være misvisende uden direkte at være forkert. Eksempel.3. Misvisende figur Tønderne i figuren nedenfor skal illustrere hvordan osteeksporten fordeler sig på de forskellige verdensdele. Den giver imidlertid et helt forkert indtryk. Det er højderne på tønderne der angiver de korrekte forhold, men af tegningen vil man tro, at det er rumfangene af tønderne. De 3 små tønder kan umiddelbart være flere gange indeni den store tønde, men det svarer jo ikke til talforholdene. 3

8 Deskriptiv statistik De mest almindelige figurer til at give et visuelt overblik over større talmaterialer er histogrammer (søjlediagrammer) og kurver i et koordinatsystem... KVANTITATIVE DATA (VARIABLE) Kvantitative data er data, hvor registreringen i sig selv er tal, der angiver en bestemt rækkefølge, f. eks. som i eksempel.4 hvor data registreres efter det tidspunkt hvor registreringen foregår eller som i eksempel.5, hvor det er størrelsen af registrerede værdi der er af interesse. Eksempel.4. Kvantitativ variabel: tid Fra statistikbanken (adresse er hentet følgende data ind i Excel, der beskriver hvorledes indvandringer og udvandringer er sket gennem tiden. Excel: Vælg Befolkning og valg Flytning til og fra udlandet Ind- og udvandring på måneder under bevægelse vælges flere valgmuligheder, marker alle under måned vælges flere valgmuligheder år og derefter alle Tryk på tabel Drej tabel med uret Gem som Excel fil Indvandringer og udvandringer efter tid og bevægelse Indvandrede Udvandrede Giv en grafisk beskrivelse af disse data. Løsning Da dataene er registreret efter tid (år) (den kvantitative variabel tid ) tegnes to kurver i samme koordinatsystem: Marker udskriftsområde (data) Vælg på værktøjslinien Indsæt Streg Marker ønsket figur 4

9 . Kvantitative data Eksempel.5. Kvantitativ variabel, størrelse af brintionkoncentrationen ph I menneskers led udskiller den inderste hinde en "ledvæske" som "smører" leddet. For visse ledsygdomme kan brintionkoncentrationen (ph) i denne væske tænkes at have betydning. Som led i en nordisk medicinsk undersøgelse af en bestemt ledsygdom udtog man blandt samtlige patienter der led af denne sygdom en repræsentativ stikprøve ved simpel udvælgelse 75 patienter og målte ph i ledvæsken i knæet. Resultaterne (som kan findes som excel-fil på adressen ) var følgende: Giv en grafisk beskrivelse af disse data. Løsning: I dette tilfælde, hvor vi er interesseret i at få et overblik over tallenes indbyrdes størrelse er det fordelagtigt at tegne et histogram. Et histogram ligner et søjlediagram, men her gælder, at antallet af enheder i hver søjle repræsenteres ved søjlens areal (histo er græsk for areal). Man bør så vidt muligt sørge for at grupperne er lige brede, da antallet af enheder så svarer til højden af søjlen. Først findes det største tal x max og det mindste tal x min i materialet og derefter beregne variationsbredden x max - x min. Vi ser, at største tal er 7.71 og mindste tal er 6.95 og variationsbredden derfor = Dernæst deles tallene op i et passende antal intervaller (klasser). Som det første bud vælges 076. ofte et antal nær n. Da 75 9 vælges ca. 9 klasser. Da 008. deler vi op i de klas- 9 ser, der ses af tabellen. Dette giver 10 intervaller. Vi tæller op hvor mange tal der ligger i hvert interval (gøres nemmest ved at starte forfra og sæt en streg i det interval som tallet tilhører). 5

10 Deskriptiv statistik Klasser Antal n ] ] // ] ] ///// 5 ] ] //////// 8 ] ] ///////////////// 17 ] ] ////////////////// 18 ] ] //////////////// 16 ] ] //// 4 ] ] /// 3 ] ] / 1 ] ] / 1 Allerede her kan man se, at antallet er størst omkring 7.30, og så falder hyppigheden nogenlunde symmetrisk til begge sider. Data indtastes i eksempelvis søjle A1 til A75 ( data findes på adressen ) Vælg Data Dataanalyse Histogram I den fremkomne tabel udfyldes inputområdet med A1:A75 og man vælger diagramoutput.. 1) Trykkes på OK fås en tabel med hyppigheder, og en figur, hvor intervalgrænserne er fastlagt af Excel. ) Ønsker man selv at bestemme grænserne, skal man også udfylde intervalområdet. Dette gøres ved at skrive de øvre grænser i en søjle (f.eks. i B1 6.94, i B 7.0 osv. til B10: 7.66) og så skrive B1:B- 10 i intervalområdet Da et histogram har søjlerne samlet, foretages følgende: cursor på en søjle formater dataserie indstilling mellemrumsbredde = 0 ok I tilfælde 1 fremkommer så følgende udskrift og tegning (efter at have valgt udskrift med decimaler): tryk højre musetast I tilfælde følgende 6

11 .3 Karakteristiske tal Histogrammet er et "klokkeformet histogram", hvor der er flest tal fra 7.19 til 7.4, og derefter falder antallet til begge sider. Man regner normalt med, at resultaterne af forsøg, hvor man har foretaget målinger (hvis man lavede nok af dem) har et sådant klokkeformet histogram og siger, at resultaterne er normalfordelt (beskrives nærmere i næste kapitel).3 KARAKTERISTISKE TAL Skal man sammenligne to talmaterialer, eksempelvis sammenligne de 75 ph-værdier i eksempel 1.4 med 00 dårlige knæ fra Tyskland, har det ingen mening at sammenligne hyppighederne Man må i sådanne tilfælde angive nogle tal, som gør det muligt at foretage en sammenligning. Dette kunne blandt andet ske ved at man udregnede de relative hyppigheder.3.1 Relativ hyppighed Ved den relative hyppighed forstås hyppigheden divideret med det totale antal. I eksempel.5 er den relative hyppighed for ph - værdier i intervallet ] ]: %. 75 Man kunne sige, at sandsynligheden er.57% for at ph ligger i dette interval..3. Middelværdi og spredning. Middelværdi, gennemsnit. Kendes hele populationen (målt højden på alle danske mænd) kan beregnes en korrekt midterværdi kaldet middelværdi (græsk my) Ud fra stikprøven vil en tilnærmet værdi (kaldet et estimat) for være gennemsnittet x (kaldt x streg). x1 x... xn Kaldes observationerne i en stikprøve x 1, x,..., x n er x n Eksempel.6: Gennemsnit Find gennemsnittet af tallene 6, 17, 7, 13, 5, 3 Løsning: 6 Håndregning: x Tast tallene i en kolonne Vælg på værktøjslinien fx Statistisk Middel( A1..A6) 85. 7

12 Deskriptiv statistik Spredningsmål Egentlige målefejl, såsom at nogle af observationerne ikke bliver korrekt registreret, uklarheder i spørgeskemaet osv. skal naturligvis fjernes. Derudover er der den naturlige variation som også kunne kaldes ren støj (pure error), som skyldes, at man ikke kan forvente, at to personer der på alle områder er stillet fuldstændigt ens også vil svare ens på et spørgsmål. Tilsvarende hvis man måler udbyttet ved en kemisk proces, så vil udfaldet af to forsøg ikke være ens, da der altid er en række ukontrollable støjkilder (urenheder i råmaterialer, lidt forskel på personer og apparatur osv.) Denne naturlige variation skal naturligvis inddrages i den statistiske behandling af problemet, og dertil spiller et mål for, hvor meget tallene spreder sig naturligvis en væsentlig rolle.. Spredning (engelsk: standard deviation) Hvis spredningen baserer sig på hele populationen benævnes den (sigma). Baserer spredningen sig kun på en stikprøve benævnes den s. Man siger, at s er et estimat (skøn) for. s beregnes af formlen n s n ( xi x ) i1 n 1 hvor observationerne i en stikprøve er x 1, x,..., x n Kvadratsummen ( x x) benævnes kort SAK (Summen af Afvigelsernes Kvadrater) eller i1 i SS (Sum of Squares) Ved variansen for en stikprøve forstås s. Eksempel.7: Spredning Find varians og spredning af tallene 6, 17, 7, 13, 5, 3 Løsning: I eksempel.6 findes gennemsnittet x 85. ( 685. ) ( ) ( 785. ) ( ) ( 585. ) ( 385. ) Håndregning: s 61 Spredningen s Excel: Som eksmpel.6, men nu vælges varians og stdafv.s 8. 7 Anskuelig forklaring på formlen for s. At formlen for s skulle være særlig velegnet til at angive, hvor meget resultaterne spreder sig (hvor megen støj der er ) er ikke umiddelbart indlysende. I det følgende gives en anskuelig forklaring. Lad os betragte forsøgsvariable X og Y, hvorpå der for hver er udført en stikprøve på 4 forsøg. Resultaterne var: X: 35.9, 33.3, 34.7, 34.1 med gennemsnittet x = 34.5, og Y: 34.3, 34.6, 34.7, 34.4 med gennemsnittet y = De to forsøgsvariable har samme gennemsnit, men det er klart, at Y-resultaterne grupperer sig meget tættere om gennemsnittet end X-resultaterne, dvs. Y-stikprøven har mindre spredning (der er mindre støj på Y - forsøget) end X-stikprøven. For at få et mål for stikprøvens spredning beregnes resultaternes afvigelser fra gennemsnittet. 8

13 xi x y i y = = = = = = = = Karakteristiske tal Summen af disse afvigelser er naturligvis altid 0 og kan derfor ikke bruges som et mål for stikprøvens spredning. I stedet betragtes summen af kvadraterne på afvigelserne (forkortet SS: Sum of Squares eller SAK: Sum af afvigelsernes Kvadrat). SAK ( x x) 14. ( 1. ) 0. ( 04. ) 360. x n i1 i SAK ( y y) ( 0. ) ( 01. ) 010. y n i1 i Da et mål for variansen ikke må være afhængig af antallet af forsøg, divideres med n - 1. Umiddelbart ville det være mere rimeligt at dividere med n. Imidlertid kan det vises, at i middel bliver et skøn for variansen for lille, hvis man dividerer med n, mens den rammer præcist, hvis man dividerer med n - 1. Det kan forklares ved, at tallene x i har en tendens til at ligge tættere ved deres gennemsnit x end ved middelværdien. s 360. x. og s y s 4 1 x s y Som vi forudså, er stikprøvens spredning betydelig større for X-resultaterne end for Y-resultaterne. Frihedsgrader. Man siger, at stikprøvens varians er baseret på f = n - 1 frihedsgrader. Navnet skyldes, at kun n -1 af de n led xi x kan vælges frit, idet summen af de n led er nul. Eksempelvis ser vi af eksempel.7, at der er 5 frihedsgrader, da kendskab til de første 5 led på 6, 17, 7, 13, 5 er nok til at bestemme det sjette led, da summen er nul. Vurdering af størrelsen af stikprøvens spredning. Man kan vise, at for tæthedsfunktioner med kun et maksimumspunkt gælder, at mellem x s og x s ligger ca. 89% af resultaterne, og mellem x 3s og x 3s ligger ca. 95% af resultaterne. For såkaldte normalfordelte resultater, er de tilsvarende tal ca. 95% og 99.7 % I eksempel.7 fandt vi således x s = 8.5-@ 5.357=-.1 og x s = =19.1 Det ses. at alle tallene ligger indenfor intervallet [-.1;19.1].3.3 Median og kvartilafstand. Median. Medianen beregnes på følgende måde: 1) Observationerne ordnes i rækkefølge efter størrelse. a) Ved et ulige antal observationer er medianen det midterste tal b) Ved et lige antal er medianen gennemsnittet af de to midterste tal. 9

14 Deskriptiv statistik Eksempel.8: Median Find medianen af tallene 6, 17, 7, 13, 5, 3. Løsning: Håndregning: Ordnet i rækkefølge: 3, 5, 6, 7 13, 17. Excel: Som eksempel.6 nu vælges blot median Medianen kaldes også for 50% fraktilen, fordi den brøkdel (fraktil) der ligger under medianen er ca. 50%. Er median og gennemsnit nogenlunde lige store fordeler tallene sig nogenlunde symmetrisk omkring middelværdien. Er medianen mindre end gennemsnittet er der muligvis tale om en højreskæv fordeling som har den lange hale til højre.(se figuren) At man eksempelvis i lønstatistikker angives medianen og ikke gennemsnittet fremgår af følgende lille eksempel. Lad os antage at en virksomhed har 10 ansatte, med månedslønninger ordnet efter størrelse på 0000, 1000, 000, 3000, 4000, 5000, 6000, 7000, 8000, Gennemsnittet er her 31600, mens medianen er Medianen ændrer sig ikke selv om den højeste løn vokser fra til 1 million, mens gennemsnittet naturligvis vokser. Medianen giver derfor en mere rimelig beskrivelse af middellønnen i firmaet. Kvartilafstand. Hvis fordelingen ikke er rimelig symmetrisk, er medianen det bedste skøn for en midterværdi, og kvartilafstanden kan være et mål for spredningen. I den tidligere omtalte lønstatistik 1 findes bl.a. følgende tal, idet de to sidste kolonner er vor bearbejdning af tallene. Løn pr. præsteret time nr gennemsnit nedre kvartil median øvre kvartil x k3 k1 x k1 m k3 m m 1 Ledelse på højt niveau Kontorarbejde x Af kolonnen ses, at for begge rækker er gennemsnittet større end medianen dvs. begge m fordelinger er højreskæv, men det gælder mest for række nr. 1. Her gælder åbenbart, at nogle få forholdsvis høje lønninger trækker gennemsnittet op. Skal man sammenligne lønspredningen i de to tilfælde, må man tage hensyn til, at medianen er meget forskellig. Man vil derfor som der er sket i sidste kolonne beregne den relative kvartil-afstand. Den viser også, at lønspredningen er væsentlig mindre for række end for række 1. 1 jævnfør statistisk årbog 005 tabel 144 eller se under løn\lønstatistik for den offentlige sektor \løn 3 10

15 .3 Karakteristiske tal Eksempel.9 Kvartil Find kvartiler og median af de 1 tal 7, 9, 11, 3, 16, 1, 15, 8,, 18,, 10 Løsning: Skal man kun have kvartiler. Data indtastes i eksempelvis søjle A1 til A1 Tryk på f x = statistik På rullemenu vælges Kvar- til.medtag Der fremkommer en tabel med anvisning på, hvordan den skal udfyldes. Resultat : 1. kvartil kvartil 15.5 Ønsker man mange oplysninger herunder medianer Data Dataanalyse Beskrivende statistik udfyld inputområde Resumestatistik Det ses bl.a. at medianen er

16 Deskriptiv statistik OPGAVER Opgave.1. I er følgende oplysninger for året 003 hentet ind i Excel. Udslip til luft af drivhusgasser efter enhed, type, kilde og tid 003 Mia. C0-ækvivalenter I alt Energisektoren 3 Industri og produktion 8 Transport 13 Affaldsbehandling Landbrug 10 Andet 9 a) Hent selv disse data ind i Excel, og opstil et lagkagediagram til belysning af tallene. b) Find de tilsvarende tal for 1996, og vælg en passende grafisk fremstilling til sammenligning af tallene fra 1996 og 003. c) Beregn i Excel for årene 1990 til 003 energisektorens udslip i forhold til det samlede udslip af drivhusgasser (i %), og tegn dette grafisk. Opgave. Følgende tabel angiver for et udvalgt antal lande oplysning om middellevetid for befolkningen og indbyggerantal. Land Middellevetid Indbyggertal i millioner Australien Canada Danmark 77,5 5.5 Frankrig Marokko Polen Sri Lanka USA ) Indskriv ovenstående tabel i Excel, hvor landene er opskrevet alfabetisk. Benyt Excel til 1) at ordne landene efter middellevetid (længst levetid først), og afbild dem grafisk. ) tegn i et koordinatsystem to kurver, som angiver såvel landenes størrelse som middellevetid Opgave.3 I findes nogle oplysninger om Danmarks forbrug af energi efter type og mængde. 1) Hent produktion af naturgas og råolie ind målt i tons for de sidste år (i måneder) ind i Excel ) Tegn i Excel i samme koordinatsystem to kurver for henholdsvis produktionen af naturgas og råolie. 1

17 Opgaver til kapitel Opgave.4 Færdselspolitiet overvejede, om der burde indføres en fartgrænse på 70 km/h på en bestemt landevejsstrækning, hvor der hidtil havde været en fartgrænse på 80 km/h. Som et led i analysen af hensigtmæssigheden af den overvejede ændring observeredes inden for et bestemt tidsrum ved hjælp af radarkontrol de forbipasserende bilers fart. Resultatet af målingerne (som kan findes som excel-fil på adressen ) var: 50 observationer ) Find det største og mindste tal blandt observationerne. ) Tegn et histogram, hvor intervallerne er lige brede, og hvor et af endepunkterne er tallet 80. 3) Beregn gennemsnit, spredning og median. 4) Vurder på baggrund heraf om fordelingen er nogenlunde symmetrisk (normalfordelt). 5) Angiv hvor stor en procentdel af bilerne, der kører over 80 km/h. Opgave.5 Til fabrikation af herreskjorter benyttes et råmateriale, som indeholder en vis procentdel uld. For nærmere at undersøge uldprocenten, måles denne i 64 tilfældigt udvalgte batch. Resultatet (som kan findes som excel-fil på adressen ) var (i %): ) Foretag en vurdering af, om fordelingen er nogenlunde symmetrisk (normalfordelt) ved a) at tegne et histogram. b) at beregne karakteristiske værdier. Der er i datamaterialet en såkaldte outliers (en mulig fejlmåling). En sådan kan ødelægge enhver analyse. Det er i dette tilfælde tilladeligt at fjerne den, da vi går ud fra det er en fejlmåling. ) Beregn stikprøvens relative kvartilafstand. 13

18 Deskriptiv statistik Opgave.6 Den følgende tabel (som kan findes som excel-fil på adressen ) viser vægtene (i kg) af 80 kaniner , ) Foretag en vurdering af, om fordelingen er nogenlunde symmetrisk (normalfordelt) ved a) at tegne et histogram b) at beregne karakteristiske værdier ) Angiv hvor stor en procent af kaninerne, der approksimativt overstiger en vægt på 3 kg (Vink:Marker søjlen og vælg sorter og filtrer) Opgave.7 I statistikbanken finder man under punktet Uddannelse og kultur, Fuldførte kompetancegivende uddannelser ved bacheloruddannelserne en statistik over antal elever i Maskinteknik og Design og Innovation i 008 fordelt efter alder fra 0 til 36 år for hele landet. 1) Indsæt data i Excel for de to uddannelser. ) Lav et søjlediagram over aldersfordelingen for de to uddannelser 3) Beregn på basis af ovennævnte tal den gennemsnitlige alder af de studerende for de to uddannelser i. Opgave.8 I statistikbanken find under Løn,fortjeneste for privatansatte efteruddannelse osv., Højere uddannelse, Teknisk, ledere i 008 Gennemsnit, median, øvre og nedre kvartil for såvel mænd som kvinder 1) Overfør data til Excel på egen harddisk ) Angiv om de to fordelinger er symmetrisk, højre eller venstreskæv 3) Er der forskel på lønspredningen for mænd og kvinder (Vink: Beregn den relative kvartilafstand) 14

19 3 STOKASTISK VARIABEL 3.1 Sandsynlighed 3.1 SANDSYNLIGHED Statistik bygger på sandsynlighedsteorien, som giver metoder til at finde, hvor stor chancen (sandsynligheden) er for at et bestemt resultat af et eksperiment forekommer. DEFINITION af tilfældigt eksperiment. Et eksperiment som kan resultere i forskellige udfald, selv om eksperimentet gentages på samme måde hver gang, kaldes et tilfældigt eksperiment (engelsk : random experiment) Det er karakteristisk for tilfældige eksperimenter, at man kan afgrænse en mængde kaldet eksperimentets udfaldsrum U, der indeholder de mulige udfald. Derimod kan man ikke forudsige, hvilket udfald der vil indtræffe ved udførelsen af eksperimentet. Består eksperimentet eksempelvis i kast med en terning er udfaldsrummet U = {1,, 3, 4,5, 6}, men man kan ikke forudsige udfaldet af næste kast (eksperiment). Selv om man 4 gange i træk har fået udfaldet øjental 1", kan man ikke forudsige, hvilket udfald der indtræffer næste gang. Resultatet af 5. kast afhænger ikke af resultaterne af de foregående 4 spil. Man siger, at eksperimenterne er "statistisk uafhængige" (en præcis definition ses i kapitel 11). Som eksempler på tilfældige eksperimenter kan nævnes: a) Ét kast med en mønt. Udfaldsrum U = Plat, Krone. b) Fremstilling af et parti levnedsmiddel og måling af det procentvise indhold af protein. U = mængden af reelle tal fra 0 til 100. c) Udtage en stikprøve på 400 elektroniske komponenter af en dagsproduktion og optælling af antallet af defekte komponenter. U = 0, 1,, 3, 4, 5,..., 400 d) Udtagning af et tilfældigt TV-apparat fra en dagsproduktion af TV-apparater og optælling af antallet af loddefejl. U = mængden af positive hele tal. En hændelse er en delmængde af et eksperiments udfaldsrum. Eksempelvis er A: At få et lige øjental en hændelse ved kast med en terning. Hændelsen A siges at indtræffe, hvis et udfald fra A forekommer. Sandsynlighedsbegrebet tager udgangspunkt i det i kapitel 1 omtalte begreb relativ hyppighed. DEFINITION af relativ hyppighed for hændelse A. Gentages et eksperiment n gange, og n A forekommer hændelsen A netop n A gange af de n gange, er A s relative hyppighed ha ( ) n Lad eksempelvis eksperimentet være kast med en terning og hændelsen A være at få et lige øjental. Kastes terningen 100 gange og bliver resultatet et lige øjental 45 af de 100 gange er h(a) = Det er en erfaring, at øges antallet af gentagelser af eksperimentet, vil den relative hyppighed af hændelsen A stabilisere sig. Når n går mod,vil den relative hyppighed erfaringsmæssigt nærme sig til en grænseværdi ("de store tals lov"). 15

20 3. Stokastisk variabel Ved sandsynligheden for A som benævnes P(A) forstås denne grænseværdi. (P = probability) Da definitionen af sandsynlighed bygger på relativ hyppighed, er det naturligt, at det for ethvert par af hændelser A og B i udfaldsrummet U skal gælde : 0 # P(A) # 1, P(U) =1 og P(enten A eller B) = P(A) + P(B) (skrives kort P(AcB)= P(A)+P(B)) forudsat A og B ingen elementer har fælles (er disjunkte). (en mere generel regel findes i kapitel 8) De 3 regler kaldes sandsynlighedsregningens aksiomer. I kapitel 8 udledes på dette grundlag en række regler for regning med sandsynligheder. Eksempel 3.1 Regler Lad A = at få et ulige øjental ved et kast med en terning B = at få en sekser ved et kast med en terning Find sandsynligheden for enten at få et ulige øjental eller en sekser ( evt. begge dele) ved kast med en terning. Løsning: 1 P(A) =. P(B) = P( AB) P( A) P( B) 3. STOKASTISK VARIABEL Ethvert statistisk problem må det på en eller anden måde være muligt at behandle talmæssigt. Betragtes et eksempel med kast med en mønt, kunne man til udfaldet plat tilordne tallet 0 og til udfaldet krone tilordne tallet 1 og på den måde få problemet overført til noget, hvor man kan foretage beregninger. Man siger, man har indført en stokastisk (eller statistisk) variabel X, som er 0, når udfaldet er plat, og 1 når udfaldet er krone. DEFINITION af stokastisk variabel (engelsk: random variable). En stokastisk variabel (også kaldet statistisk variabel) er en funktion, som tilordner et reelt tal til hvert udfald i udfaldsrummet for et tilfældigt eksperiment. En stokastisk variabel betegnes med et stort bogstav såsom X, mens det tilsvarende lille bogstav x betegner en mulig værdi af X. Ved en diskret variabel (eller tællevariabel) forstås en variabel, hvis mulige værdier udgør en endelig eller tællelig mængde. Er eksempelvis eksperimentet udtagning af en kasse med 100 møtrikker, ud af en løbende produktion af kasser, kunne den stokastiske variabel X være defineret som antal defekte møtrikker i kassen. X er en diskret variabel, da den kun kan antage heltallige værdier fra 0 til 100. Vi vil i senere afsnit behandle diskrete variable. Ved en kontinuert stokastisk variabel forstås en stokastisk variabel, hvis mulige værdier er alle reelle tal i et vist interval. Et eksempel kunne være eksperimentet anvendelse af en ny metode til fremstilling af et produkt. Her kunne den stokastiske variabel Y være det målte procentvise udbytte ved forsøget. Y er en kontinuert variabel, da den kan antage alle værdier fra 0% til 100%. 3 16

21 Histogram for ph 3.3 Tæthedsfunktion 3.3 TÆTHEDSFUNKTION FOR KONTINUERT STATISTISK VARIABEL Eksempel 3.. Kontinuert stokastisk variabel I menneskers led udskiller den inderste hinde en "ledvæske" som "smører" leddet. For visse ledsygdomme kan koncentrationen af brintioner (ph) i denne væske tænkes at have betydning. Som led i en nordisk medicinsk undersøgelse af en bestemt ledsygdom udtog man blandt samtlige patienter der led af denne sygdom tilfældigt 75 patienter og målte ph i ledvæsken i knæet. Resultaterne findes i eksempel.5 Population og stikprøve. Samtlige indbyggere i Norden med denne sygdom udgør populationen. Da det er ganske uoverkommeligt at undersøge alle, udtages en stikprøve på 75 patienter. Det er målet ved hjælp af statistiske metoder på basis af en stikprøve at sige noget generelt om populationen. Histogram. For at få et overblik over et større datamateriale, vil man sædvanligvis starte med at tegne et histogram. Hvorledes dette gøres fremgår af eksempel.5. I skemaet ses resultatet af en opdeling i 10 klasser med en bredde på Endvidere er der beregnet en søjle ved at dividere den relative hyppighed med intervallængden. Klasser Antal n Relativ hyppighed n 75 Skalering ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] Vi får det nedenfor tegnede histogram Dette viser et "klokkeformet histogram", hvor der er flest tal fra 7.19 til 7.4, og derefter falder antallet til begge sider. n ,9 7,1 7,3 7,5 7,7 7,9 ph 17

22 3. Stokastisk variabel Man regner normalt med, at resultaterne af forsøg hvor man har foretaget målinger (hvis man lavede nok af dem) har et sådant klokkeformet histogram. Hvis man tænker sig antallet af forsøg stiger (for eksempel undersøger hele populationen på måske 1 million nordiske knæ), samtidig med at man øger antallet af klasser tilsvarende (til for eksempel ), vil histogrammet blive mere og mere fintakket, og til sidst nærme sig til en kontinuert klokkeformet kurve (indtegnet på grafen). Hvis man benytter den salderede skala fra skemaet, som også er afsat på højre side af tegningen, vil arealet af hver søjle være den relative hyppighed, og for den idealiserede kontinuerte kurve, vil arealet under kurven i et bestemt interval fra a til b være sandsynligheden for at få en værdi mellem a og b. Det samlede areal under kurven er naturligvis 1. Man siger, at den kontinuerte stokastiske variabel X (p værdien) har en tæthedsfunktion f(x) hvis graf er den ovenfor nævnte kontinuerte kurve. Da arealet under en kontinuert kurve beregnes ved et bestemt integral, følger heraf følgende definition: DEFINITION af tæthedsfunktion f(x) for kontinuert variabel X. Pa ( X b) f( xdx ) for ethvert interval af reelle tal a b a; b f ( x ) dx 1, f ( x) 0 for alle x Bemærk, at for kontinuerte variable er Pa ( Xb) Pa ( Xb) Pa ( X b) Pa ( X b). Et eksempel på en tæthedsfunktion for en kontinuert variabel er den i næste kapitel beskrevne normalfordeling. Måleresultater vil sædvanligvis være værdier af normalfordelte variable, så en rimelig hypotese for den i eksempel 3. angivne kontinuerte stokastiske variabel X = p er således, at den er normalfordelt. Dette bestyrkes af at grafen for sådanne netop er klokkeformede. Det er væsentlig at finde en central værdi i populationen, samt angive et spredningsmål Disse angives i de følgende kapitler for de konkrete funktioner, der behandles. Generelt gælder følgende definitioner DEFINITION af middelværdi for kontinuert variabel. Middelværdi for en kontinuert variabel X med tæthedsfunktion f ( x ) benævnes eller E ( X ) og er defineret som E( X) x f ( x) dx DEFINITION af varians og spredning for kontinuert variabel. Variansen for en kontinuert variabel X med tæthedsfunktion f ( x ) benævnes eller V( X ) og er defineret som V( X) ( x) f ( x) dx Spredningen (engelsk: standard deviation) for en diskret variabel X med tæthedsfunktion f(x) benævnes defineret som V( X) 18 og er

23 3.3 Tæthedsfunktion Eksempel 3.3 Kontinuert stokastisk variabel. 3 x for 0 x 8 Lad der være givet følgende funktion: f ( x). 0 ellers a) Vis, at f ( x) dx 1 I det følgende antages, at f ( x ) er tæthedsfunktion for en kontinuert stokastisk variabel X. b) Skitser grafen for f. c) Beregn middelværdi og spredning for X. Løsning: x a) f ( x) dx x dx b) Grafen, som er en del af en parabel, ses på Fig 3.1. c) E X. x f x dx 4 x 3 x dx x 3 ( ) ( ) Fig.3.1 Tæthedsfunktion 5 x V( X) x f ( x) dx x x dx ( X ) Fordelingsfunktion. I visse situationer er det en fordel at betragte den kontinuerte variabels fordelingsfunktion F(x) DEFINITION af fordelingsfunktion F(x) for kontinuert variabel. x Fordelingsfunktionen for en kontinuert variabel X er defineret ved F( x) P( X x) f ( x) dx DEFINITION af p-fraktil. Lad p være et vilkårligt tal mellem 0 og 1. Ved p-fraktilen eller 100 p % fraktilen forstås det tal x p F( x ) P( X x ) p ( f ( x) dx ) p p 0 x p, for hvilket det gælder, at Særlig ofte benyttede fraktiler er 50% fraktilen, som kaldes medianen (eller. kvartil), 5 % fraktilen, som kaldes nedre kvartil (eller 1. kvartil) og 75% fraktilen, som kaldes øvre kvartil (eller 3. kvartil). Eksempel 3.4. Fordelingsfunktion for kontinuert variabel. For den i eksempel 3.3 angivne kontinuerte variabel X med tæthedsfunktion f (x) ønskes fundet: 1) Fordelingsfunktionen F (x). x ) Medianen. Løsning: 0 dx = 0 for x < 0 x x x x x 1) F( x) f ( x) dx xdx 3 3 x 3 0 for x dx= for x > 3 x 3 ) Medianen er bestemt ved F( x) x 4 x

24 3. Stokastisk variabel 3.4 LINEARKOMBINATION AF STOKASTISKE VARIABLE Vi betragter i dette afsnit flere stokastiske variable. Eksempel 3.5 vil blive benyttet som gennemgående eksempel Eksempel 3.5. To variable. Insektpulver sælges i papkartoner. Lad den stokastiske variable X 1 være vægten af pulveret, mens X er vægten af papkartonen. I middel fyldes der 500 gram insektpulver i hver karton med en spredning på 5 gram. Kartonen vejer i middel 10 gram med en spredning på 1.0 gram. Y = X 1 + X er da bruttovægten. 1) Find middelværdien af Y ) Find spredning af Y. Mere generelt haves: Lad X 1, X,..., X n være n stokastiske variable. Ved en linearkombination af disse forstås Y a0 a1 X1 a X... an Xn, hvor a 0, a 1, a,..., a n er konstanter. Man kan vise (se eventuelt kapitel 11) at der gælder følgende Linearitetsregel: E( Y) a a E( X ) a E( X )... a E( X ) I eksempel 3.5 synes det rimeligt at antage, at vægten af pulveret og vægten af papkartonen er uafhængige ( påfyldningen kan tænkes at ske maskinelt, uden at den er afhængig på nogen måde af hvilken vægt, kartonen tilfældigvis har). Man kan vise (se eventuelt kapitel 11, for en mere udførlig behandling af uafhængighed m.m.), at hvis X 1, X,..., X n er statistisk uafhængige, gælder n n Kvadratregel for statistisk uafhængige variable: VY ( ) a V( X) a V( X)... a V( X ) 1 1 n n. Eksempel 3.5. (fortsat) To variable. Spørgsmål 1: E(Y) = E(X 1 ) + E(X ) = = 510 gram. Spørgsmål : V(Y) = V(X 1 ) + V(X ) = = 6. ( Y) gram. Kvadratreglen benyttes bl.a til beregning af statistisk usikkerhed som kan findes beskrevet på hjemmesiden larsen-net.dk i bogen Funktioner af flere variable Ensfordelte uafhængige variable. Lad os antage, at vi uafhængigt af hinanden og under de samme betingelser udtager n elementer fra en population med middelværdi og spredning. Lad X 1 være den stokastiske variabel, der er resultatet af første udtagning af et element i stikprøven, X være den stokastiske variabel, der er resultatet af anden udtagning, osv. 0

25 3.4 Linearkombination af stokastiske variable X 1, X,..., X n vil da være ensfordelte uafhængige stokastiske variable, dvs. have samme fordeling med middelværdi og spredning. Eksempel 3.6. Ensfordelte variable Bruttovægten af det i eksempel 3.5 nævnte karton insektpulver havde middelvægten 510 g med en spredning på 5.1 g. Vi udtager nu tilfældigt og uafhængigt af hinanden 10 pakker insektpulver. a) Hvad bliver i middel den samlede vægt af de 10 kartonner b) Hvad bliver i middel spredningen på den samlede vægt af de 10 kartoner Løsning: Lad X 1 være vægten af karton 1, X være vægten af karton osv. X 10 være vægten af karton 10. Y= X 1 + X X 10 er da vægten af alle 10 kartonner. a) E(Y) = E(X 1 )+E(X )+... +E(X 10 ) = = 5100 g b) V(Y) = V(X 1 )+V(X )+... +V(X 10 ) =10 (5.1) = 60.1 g ( Y ) Bemærk: En almindelig fejl er her, at man tror, at Y=10 X og dermed V(Y)=10 V(X)=600 Vi har her at gøre med 10 ensfordelte uafhængige variable, og ikke 10 vægten af 1 karton. For ensfordelte uafhængige stokastiske variable gælder: SÆTNING 3.1 (middelværdi og spredning for stikprøves gennemsnit ) X1 X... Xn E( X) og ( X ), hvor X n n X X... X Bevis: Af linearitetsreglen fås n E( X) E 1 1 ( ) ( )... ( ) n n E X 1 E X E X n X X... X 1 1 n 1 n Af kvadratreglen fås V( X) V V( X ) V( X )... V( X n ). n 1 n n n Eksempel 3.7. Spredning på gennemsnit (eksempel 3.5 fortsat) Hvis der udtages 5 kartoner insektpulver, hvad vil da være spredningen på gennemsnittet af vægten af insektpulveret. Løsning: Da spredningen på 1 karton er 5.1 gram, vil spredningen på gennemsnittet af 5 kartoner være 51. ( X ) 8. n 5 Opgave 3.1 Vægten af en (tilfældigt udvalgt) tablet af en vis type imod hovedpine har middelværdien 065g. og spredningen 004. g a) Beregn middelværdi og spredning af den sammenlagte vægt af 100 (tilfældigt udvalgte) tabletter b) På basis af de 100 tabletter ønskes spredningen på gennemsnittet beregnet. 1

26 4.Normalfordelingen. 4 NORMALFORDELINGEN 4.1 INDLEDNING Lad os som eksempel tænke os et kemisk forsøg, hvor vi måler udbyttet af et stof A. Selv om vi gentager forsøget ved anvendelse af den samme metode og i øvrigt søger at gøre forsøgsbetingelserne så ensartet som muligt, varierer udbyttet dog fra forsøg til forsøg. Disse variationer fra den ene forsøg til det næste må skyldes forhold vi ikke kan styre. Det kan skyldes små ændringer i temperaturen, i luftens relative fugtighed, vibrationer under fremstillingen, små forskelle i de anvendte råmaterialer (kornstørrelse, renhed), forskelle i menneskelig reaktionsevne osv. Hvis ingen af disse variationsårsager er dominerende, der er et stort antal af dem, de er uafhængige og lige så godt kan have en positiv som en negativ indvirkning på resultatet, så vil den totale fejl sædvanligvis approksimativt være fordelt efter den såkaldte normalfordeling. (også kaldet Gauss-fordelingen) Som illustration af dette kan anvendes Galtons apparat. Eksempel 4.1. Eksperiment med et Galton-apparat. På den anførte figur er skitseret et Galton-apparat. A er en tragt; B er sømrækker, hvor sømmene i en underliggende række er anbragt midt ud for mellemrummene mellem sømmene i den overliggende række; C er opsamlingskanaler. Lader man mange kugler passere gennem tragten A ned gennem sømrækkerne B til opsamlingskanalerne C, vil man konstatere, at de enkelte kugler nok bliver tilfældigt fordelt i opsamlingskanalerne, men at kuglernes samlede fordeling giver et mønster, som gentages, hver gang man udfører eksperimentet. Fordelingen er hver gang med tilnærmelse en klokkeformet symmetrisk fordeling som skitseret på tegningen, noget som er karakteristisk for normalfordelingen. Galton-apparatet illustrerer, hvorfor man så ofte antager, at måleresultater er værdier af en normalfordelt variabel: Hver sømrække repræsenterer en faktor, hvis niveau det ikke er muligt at holde konstant fra måling til måling, og sømrækkernes påvirkning af kuglens bane symboliserer den samlede virkning, som de ukontrollerede faktorer har på størrelsen af den målte egenskab.

27 4. Definition og sætning om normalfordeling En anden illustration af under hvilke omstændigheder en normalfordelt variabel kan forekomme i praksis så vi i kapitel eksempel.5 hvor man på 75 mennesker med en bestemt ledsygdom målte ph i knæleddet. Histogrammet som er gentaget nedenfor har et klokkeformet udseende, som kraftigt antyder, at den kontinuerte stokastiske variabel X = ph er normalfordelt. Hyppighed ,94 7,0 7,1 7,18 7,6 7,34 7,4 7,5 7,58 7,66 Mere Hyppighed I den teoretiske statistik giver den centrale grænseværdisætning en forklaring på, hvorfor normalfordelingen er en god model ved mange anvendelser. Den centrale grænseværdi siger (løst sagt), at selvom man ikke kender fordelingen for de n ensfordelte stikprøvevariable X 1, X,..., X n, så vil gennemsnittet X være approksimativt normalfordelt blot n er tilstrækkelig stor (i praksis over 30). 4. DEFINITION OG SÆTNINGER OM NORMALFORDELING Definition af normalfordeling n(, ) Nornalfordelingen er sandsynlighedsfordelingen for en kontinuert stokastisk variabel X med 1 tæthedsfunktionen f(x) bestemt ved f ( x) e Den har middelværdi og spredning Grafen er klokkeformet og symmetrisk om linien x =. 1 x for ethvert x At f (x ) virkelig er en tæthedsfunktion med de angivne egenskaber vises i Supplement til statistiske grundbegreber afsnit.a For at få et overblik over betydningen af og er der nedenfor afbildet tæthedsfunktionen for normalfordelingerne n(0, 1), n(4.8,.), n(4.8, 0.7) og n(10, 1). 3

28 4.Normalfordelingen. 0,6 0,5 0,4 0,3 0, 0, ,1 4,8,, 4,8,0,7 10,1 Fig 4.1 Forskellige normalfordelinger Det ses, at tæthedsfunktionerne er klokkeformede, og at et interval på [ 3 ; 3 ] indeholder stort set hele sandsynlighedsmassen. Vi nævner uden bevis følgende sætning: SÆTNING 4.1 Additionssætning for linearkombination af normalfordelte variable. Er Y en linearkombination af n stokastisk uafhængige, normalfordelte variable, vil Y også være normalfordelt. Kendes middelværdi og spredning for de n normalfordelte variable, kan man ved anvendelse af linearitetsregel og kvadratregel finde Y s middelværdi og spredning. Endvidere følger det af additionssætningen, og sætning 3.1, at gennemsnittet med en spredning på. n x er normalfordelt 4

29 4. Definition og sætning om normalfordeling Normeret normalfordeling Af særlig interesse er den såkaldte normerede normalfordeling. Den er bestemt ved at have middelværdien 0 og spredningen 1. Grafen for den er tegnet som graf A i figur 4.1 Den kaldes sædvanligvis U eller Z og dens fordeling U- eller Z-fordelingen. Dens tæthedsfunktion benævnes og dens fordelingsfunktion. Specielt vil dens p - fraktil z p indgå i adskillige formler i de næste afsnit. Fig 4. Normeret normalfordeling En vigtig sammenhæng mellem fraktiler for X og fraktiler for Z er følgende (4.1) x z p p Beviset for denne relation indgår i beviset for den følgende sætning, som også viser, at man kan overføre en vilkårlig normalfordeling til den normerede normalfordeling. Det er derfor nok at lave en tabel over den normerede normalfordeling. Dette er det man udnytter, hvis man ikke har rådighed over et program, der som beskrevet i afsnit 4.3 direkte kan beregne værdierne. Der gælder følgende SÆTNING 4.. (normering af normalfordeling). Når X er normalfordelt n(, ) X er den variable Z normalfordelt n( 01,), og der gælder b b a P( X b) og Pa ( Xb). Endvidere gælder x z p p Bemærk, at det for de to formler er ligegyldigt, om ulighederne er med eller uden lighedstegn. 5

30 4.Normalfordelingen. Bevis: At Z også er normalfordelt vises ikke her. EZ E X x 1 1 ( ) f( x) dx x f( x) dx f( x) dx E( X) 0 V Z V X x 1 V( X) ( ) f( x) dx ( x ) f( x) dx 1 Z har derfor middelværdi 0 og spredning 1. Endvidere fås P X b P X b b b ( ) P Z og Pa X b P a b b a ( ) Z x p x p Bevis for xp zp : P( X xp ) p p zp xp zp 4.3. BEREGNING AF SANDSYNLIGHEDER Stikprøves gennemsnit og spredning. Ofte er middelværdien og spredningen ukendt i en foreliggende normalfordeling. I så fald erstattes fordelingen n(, ) i praksis med en approksimerende fordeling nxs (, ), såfremt der foreligger et rimelig stort antal observationer fra den givne fordeling. På basis af den i eksempel 1.5 angivne stikprøve på 75 patienter beregnes et gennemsnit af ph værdierne på SAK x og en s værdi på s. 75 n Vi vil altså antage, at ph værdierne er approksimativt normalfordelt n (7.9, 0.134). Ønsker vi at benytte ovenstående normalfordeling n (7.9, 0.134) til at finde sandsynligheden for, at ph er mindre end 7., er denne sandsynlighed lig med arealet af det skraverede areal under tæthedsfunktionen. Ønsker vi tilsvarende at beregne sandsynligheden for, at ph ligger mellem 7. og 7.5 er sandsynligheden lig med det skraverede areal under kurven på omstående figur. 6

31 Eksempel 4.. Beregning af normalfordelte sandsynligheder Lad X være normalfordelt n(, ), hvor = 7.9 og = ) Find P( X 7. ) ) Find P(. 7 X 75.) 3) Find P( X 76. ) 4) Find 90% fraktilen x Beregning af sandsynligheder Løsning: Man finder de benyttede sandsynlighedsfordelinger ved at vælge På værktøjslinien foroven: Tryk f x Vælg kategorien Statistisk Udfyld menu ) Beregningen sker ved at beregne arealet fra til 7.5 og derfra trække arealet fra til 7. 3) Da arealet under kurven er 1, fås P( X 76. ) 1 P( X 76. ) Eksempel 4.3. Kvalitetskontrol. En fabrik støber plastikkasser. Fabrikken får en ordre på kasser, som blandt andet har den specifikation, at kasserne skal have en længde på 90 cm. Kasser, hvis længder ikke ligger mellem tolerancegrænserne 89. og 90.8 cm bliver kasseret. Det vides, at fabrikken producerer kasserne med en længde X, som er normalfordelt med en spredning på 0.5 cm. a) Hvis X har en middelværdi på 89.6, hvad er så sandsynligheden for, at en kasse har en længde, der ligger indenfor tolerancegrænserne. b) Hvor stor er sandsynligheden for at en kasse bliver kasseret, hvis man justerer støbningen, så middelværdien bliver den der giver den mindste procentdel kasserede (spredningen kan man ikke ændre). Fabrikanten finder, at selv efter den i spørgsmål foretagne justering kasseres for stor en procentdel af kasserne. Der ønskes højst 5% af kasserne kasseret. c) Hvad skal spredningen formindskes til, for at dette er opfyldt? Hvis det er umuligt at ændre, kan man prøve at få ændret tolerancegrænserne. d) Find de nye tolerancegrænser (placeret symmetrisk omkring middelværdien 90,0) idet spredningen stadig er 0.5, og højst 5% må kasseres. En ny maskine indkøbes, og som et led i en undersøgelse af, om der dermed er sket ændringer i middelværdi og spredning produceres 1 kasser ved anvendelse af denne maskine. Man fandt følgende længder: e) Angiv på dette grundlag et estimat for middelværdi og spredning. Løsning Man finder de benyttede sandsynlighedsfordelinger på samme måde som i eksempel 4. Tryk f x Vælg kategorien Statistisk a) P( 89. X 908. ) P( X 908. ) P( X 89. ) NORMFORDELING(90,8;89,6;0,5;1) - NORMFORDELING(89,;89,6;0,5;1)=0,7799 b) Middelværdien justeres til midtpunktet

Eksempler fra bogen Statistiske Grundbegreber løst ved anvendelse af Excel.

Eksempler fra bogen Statistiske Grundbegreber løst ved anvendelse af Excel. Eksempler fra bogen Statistiske Grundbegreber løst ved anvendelse af Excel. Kapitel Deskriptiv statistik Indhold 1. Generelle forhold... 1 Kapitel : Deskriptiv Statistik... 1 Kapitel 4: Normalfordelingen...

Læs mere

STATISTISKE GRUNDBEGREBER

STATISTISKE GRUNDBEGREBER MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER 18 15 1 9 6 3 0 Histogram for ph 6,9 7,1 7,3 7,5 7,7 7,9 ph 15. udgave 015 FORORD Der er i denne bog søgt at give letlæst og anskuelig fremstilling af

Læs mere

MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER

MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER 17 udgave 2016 FORORD Der er i denne bog søgt at give letlæst og anskuelig fremstilling af de statistiske grundbegreber til brug ved en indledende undervisning

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

STATISTISKE GRUNDBEGREBER

STATISTISKE GRUNDBEGREBER MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER 18 15 1 9 6 3 0 Histogram for ph 6,9 7,1 7,3 7,5 7,7 7,9 ph 17. udgave 016 FORORD Der er i denne bog søgt at give letlæst og anskuelig fremstilling af

Læs mere

MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER

MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER 17. udgave 2016 FORORD Der er i denne bog søgt at give letlæst og anskuelig fremstilling af de statistiske grundbegreber til brug ved en indledende undervisning

Læs mere

MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER

MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER MOGENS ODDERSHEDE LARSEN STATISTISKE GRUNDBEGREBER 18. udgave 2017 FORORD Der er i denne bog søgt at give letlæst og anskuelig fremstilling af de statistiske grundbegreber til brug ved en indledende undervisning

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Grundlæggende STATISTIK (med anvendelse af Excel)

Grundlæggende STATISTIK (med anvendelse af Excel) MOGENS ODDERSHEDE LARSEN Grundlæggende STATISTIK (med anvendelse af Excel) Hyppighed 20 18 16 14 12 10 8 6 4 2 0 6,94 7,02 7,1 7,18 7,26 7,34 7,42 7,5 7,58 7,66 Mere Hyppighed 1. udgave 2007 FORORD Notatet

Læs mere

ANVENDT STATISTIK (med anvendelse af Excel)

ANVENDT STATISTIK (med anvendelse af Excel) MOGENS ODDERSHEDE LARSEN ANVENDT STATISTIK (med anvendelse af Excel) Hyppighed 0 18 16 14 1 10 8 6 4 0 6,94 7,0 7,1 7,18 7,6 7,34 7,4 7,5 7,58 7,66 Mere Hyppighed. udgave 008 FORORD Notatet er bygget op

Læs mere

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Sandsynlighedsregning: endeligt udfaldsrum (repetition) Program: 1. Repetition: sandsynlighedsregning 2. Sandsynlighedsregning fortsat: stokastisk variabel, sandsynlighedsfunktion/tæthed, fordelingsfunktion. 1/16 Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Fig. 1 Billede af de 60 terninger på mit skrivebord

Fig. 1 Billede af de 60 terninger på mit skrivebord Simulation af χ 2 - fordeling John Andersen Introduktion En dag kastede jeg 60 terninger Fig. 1 Billede af de 60 terninger på mit skrivebord For at danne mig et billede af hyppighederne flyttede jeg rundt

Læs mere

Kapitel 3 Centraltendens og spredning

Kapitel 3 Centraltendens og spredning Kapitel 3 Centraltendens og spredning Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 25 Indledning I kapitel 2 omsatte vi de rå data til en tabel, der bedre viste materialets fordeling

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema:

2. Ved et roulettespil kan man vinde 0,10,100, 500 og 1000 kr. Sandsynligheden for gevinsterne ses af følgende skema: Der er hjælp til opgaver med # og facit på side 6 1. Et eksperiment kan beskrives med følgende skema: u 1 2 3 4 5 P(u) 0,3 0,2 0,1 0,2 x Bestem x og sandsynligheden for at udfaldet er et lige tal.. 2.

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

for gymnasiet og hf 2016 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen Vigtigste nye emner i.,. og.5 Sandsynlighedsregning. forelæsning Bo Friis Nielsen Anvendt Matematik og Computer Siene Danmarks Tekniske Universitet 800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Binomialfordelingen

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP() John Andersen, Læreruddannelsen i Aarhus, VIA Et kast med 10 terninger gav følgende udfald Fig. 1 Result of rolling 10 dices

Læs mere

Note til styrkefunktionen

Note til styrkefunktionen Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H

Læs mere

Kombinatorik. Eksempel 2: En mand har 7 par bukser og 10 skjorter. Skal han både vælge en skjorte og et par bukser, så har han 10. 7=70 mulige valg.

Kombinatorik. Eksempel 2: En mand har 7 par bukser og 10 skjorter. Skal han både vælge en skjorte og et par bukser, så har han 10. 7=70 mulige valg. Noter til Biomat, 005. Kombinatorik. - eller kunsten at tælle. Alle tal i kombinatorik-afsnittet er hele og ikke-negative. Additionsprincippet enten - eller : Antag vi enten skal lave et valg med m muligheder

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for 7.- 9.

Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for 7.- 9. Kapitlet indledes med en beskrivelse af - og opgaver med - de tre former for sandsynlighed, som er omtalt i læseplanen for 7.- 9. klassetrin: statistisk sandsynlighed, kombinatorisk sandsynlighed og personlig

Læs mere

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X.

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X. Opgave I I en undersøgelse af et potentielt antibiotikum har man dyrket en kultur af en bestemt mikroorganisme og tilført prøver af organismen til 20 prøverør med et vækstmedium og samtidig har man tilført

Læs mere

Allan C. Malmberg. Terningkast

Allan C. Malmberg. Terningkast Allan C. Malmberg Terningkast INFA 2008 Programmet Terning Terning er et INFA-program tilrettelagt med henblik på elever i 8. - 10. klasse som har særlig interesse i at arbejde med situationer af chancemæssig

Læs mere

Eksempler fra bogen Statistiske Grundbegreber løst ved anvendelse af regnearket Excel.

Eksempler fra bogen Statistiske Grundbegreber løst ved anvendelse af regnearket Excel. Kapitel Deskriptiv statistik Eksempler fra bogen Statistiske Grundbegreber løst ved anvendelse af regnearket Excel. Indhold 1. Generelle forhold... 1 Kapitel : Deskriptiv Statistik... 1 Kapitel 4: Normalfordelingen...

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Maple 11 - Chi-i-anden test

Maple 11 - Chi-i-anden test Maple 11 - Chi-i-anden test Erik Vestergaard 2014 Indledning I dette dokument skal vi se hvordan Maple kan bruges til at løse opgaver indenfor χ 2 tests: χ 2 - Goodness of fit test samt χ 2 -uafhængighedstest.

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Per Vejrup-Hansen Praktisk statistik. Omslag: Torben Klahr.dk Lundsted Grafisk tilrettelæggelse: Samfundslitteratur Grafik Tryk: Narayana Press

Per Vejrup-Hansen Praktisk statistik. Omslag: Torben Klahr.dk Lundsted Grafisk tilrettelæggelse: Samfundslitteratur Grafik Tryk: Narayana Press Per Vejrup-Hansen Praktisk statistik 6. 5. udgave 2008 2013 Omslag: Torben Klahr.dk Lundsted Grafisk tilrettelæggelse: Samfundslitteratur Grafik Tryk: Narayana Press ISBN Trykt 978-87-593-1381-7 bog ISBN

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Maj 2013 Institution Roskilde Handelsskole Uddannelse Fag og niveau Lærer(e) Hold Hhx Matematik B Henrik Laursen

Læs mere

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Værktøjshjælp for TI-Nspire CAS Struktur for appendiks: Til hvert af de gennemgåede værktøjer findes der 5 afsnit. De enkelte afsnit kan læses uafhængigt af hinanden. Der forudsættes et elementært kendskab

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

c) For, er, hvorefter. Forklar.

c) For, er, hvorefter. Forklar. 1 af 13 MATEMATIK B hhx Udskriv siden FACITLISTE TIL KAPITEL 7 ØVELSER ØVELSE 1 c) ØVELSE 2 og. Forklar. c) For, er, hvorefter. Forklar. ØVELSE 3 c) ØVELSE 4 90 % konfidensinterval: 99 % konfidensinterval:

Læs mere

for matematik pä B-niveau i hf

for matematik pä B-niveau i hf for matematik pä B-niveau i hf 014 Karsten Juul TEST 1 StikprÅver... 1 1.1 Hvad er populationen?... 1 1. Hvad er stikpråven?... 1 1.3 Systematiske fejl ved valg af stikpråven.... 1 1.4 TilfÇldige fejl

Læs mere

Huskesedler. Anvendelse af regneark til statistik

Huskesedler. Anvendelse af regneark til statistik Huskesedler Anvendelse af regneark til statistik August 2013 2 Indholdsfortegnelse Aktivere Analysis Toolpak... 4 Dataudtræk fra Danmarks Statistik... 4 Kopiering af formler... 4 Målsøgning... 5 Normalfordeling...

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Talrækker. Aktivitet Emne Klassetrin Side

Talrækker. Aktivitet Emne Klassetrin Side VisiRegn ideer 3 Talrækker Inge B. Larsen ibl@dpu.dk INFA juli 2001 Indhold: Aktivitet Emne Klassetrin Side Vejledning til Talrækker 2-4 Elevaktiviteter til Talrækker 3.1 Talrækker (1) M-Æ 5-9 3.2 Hanoi-spillet

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Approksimation af binomialsandsynligheder, Afsnit 4.5 Multinomial fordeling, Afsnit 4.8 Negativ binomialfordeling, Afsnit 4.4 Poisson fordeling og Poisson process, Afsnit 4.6 Kontinuerte

Læs mere

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 7: Eksempler 7.1 Beskrivende dataanalyse............................... 1 7.1.1 Diagrammer.................................

Læs mere

4. september 2003. π B = Lungefunktions data fra tirsdags Gennemsnit l/min

4. september 2003. π B = Lungefunktions data fra tirsdags Gennemsnit l/min Epidemiologi og biostatistik Uge, torsdag 28. august 2003 Morten Frydenberg, Institut for Biostatistik. og hoste estimation sikkerhedsintervaller antagelr Normalfordelingen Prædiktion Statistisk test (udfra

Læs mere

T A L K U N N E N. Datasæt i samspil. Krydstabeller Grafer Mærketal. INFA Matematik - 1999. Allan C

T A L K U N N E N. Datasæt i samspil. Krydstabeller Grafer Mærketal. INFA Matematik - 1999. Allan C T A L K U N N E N 3 Allan C Allan C.. Malmberg Datasæt i samspil Krydstabeller Grafer Mærketal INFA-Matematik: Informatik i matematikundervisningen Et delprojekt under INFA: Informatik i skolens fag Et

Læs mere

matematik grundbog trin 1 Demo preben bernitt grundbog trin 1 2004 by bernitt-matematik.dk 1

matematik grundbog trin 1 Demo preben bernitt grundbog trin 1 2004 by bernitt-matematik.dk 1 33 matematik grundbog trin 1 Demo preben bernitt grundbog trin 1 2004 by bernitt-matematik.dk 1 matematik grundbog trin 1 Demo-udgave 2003 by bernitt-matematik.dk Kopiering og udskrift af denne bog er

Læs mere

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Valgkampens og valgets matematik

Valgkampens og valgets matematik Ungdommens Naturvidenskabelige Forening: Valgkampens og valgets matematik Rune Stubager, ph.d., lektor, Institut for Statskundskab, Aarhus Universitet Disposition Meningsmålinger Hvorfor kan vi stole på

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Sommer 2015 Institution Campus Vejle Uddannelse HHX Fag og niveau Matematik B ( Valghold ) Lærer(e) Hold LTN

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Kapitel 7 Introduktion til statistik Organisering af data Diskrete variabler Kontinuerte variabler Beskrivende statistik Fraktiler Gennemsnit Empirisk varians og spredning Empirisk korrelationkoe

Læs mere

(VIDENSKABSTEORI) STATISTIK (EKSPERIMENTELT ARBEJDE)

(VIDENSKABSTEORI) STATISTIK (EKSPERIMENTELT ARBEJDE) (VIDENSKABSTEORI) STATISTIK (EKSPERIMENTELT ARBEJDE) x-klasserne Gammel Hellerup Gymnasium Indholdsfortegnelse INDLEDNING... 3 DESKRIPTIV STATISTIK... 3 Eksempler inden for deskriptiv statistik... 12 Normalfordelingskurver...

Læs mere

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 19. december 2012 Kursus nr : 02405. (navn) (underskrift) (bord nr)

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 19. december 2012 Kursus nr : 02405. (navn) (underskrift) (bord nr) DANMARKS TEKNISKE UNIVERSITET Side af 7 sider Skriftlig prøve, den: 9. december 0 Kursus nr : 0405 Kursus navn: Sandsynlighedsregning Varighed : 4 timer Tilladte hjælpemidler: Alle Dette sæt er besvaret

Læs mere

Definition. Definitioner

Definition. Definitioner Definition Landmålingens fejlteori Lektion Diskrete stokastiske variable En reel funktion defineret på et udfaldsrum (med sandsynlighedsfordeling) kaldes en stokastisk variabel. - kkb@math.aau.dk http://people.math.aau.dk/

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne

Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Statistik og Sandsynlighedsregning 1 Indledning til statistik, kap 2 i STAT Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 5. undervisningsuge, onsdag

Læs mere

Hvad skal vi lave i dag?

Hvad skal vi lave i dag? p. 1/2 Hvad skal vi lave i dag? Eksempler på stokastiske variable. Ventetid på krone ved møntkast. Antal plat ved n kast. Antal radioaktive henfald. Ventetiden på en flyulykke. Udtrækning af tal i et interval.

Læs mere

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro Uge 48 II Teoretisk Statistik 7. november 003 Numerisk modelkontrol af diskrete fordelinger: intro Eksempel: kvalitetskontrol Goodness-of-fit test: generel teori Endeligt udfaldsrum Udfaldsrum uden øvre

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Algebra INTRO. I kapitlet arbejdes med følgende centrale matematiske begreber:

Algebra INTRO. I kapitlet arbejdes med følgende centrale matematiske begreber: INTRO Kapitlet sætter fokus på algebra, som er den del af matematikkens sprog, hvor vi anvender variable. Algebra indgår i flere af bogens kapitler, men hensigten med dette kapitel er, at eleverne udvikler

Læs mere

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3 Landmålingens fejlteori Repetition - Kontinuerte stokastiske variable Lektion 4 - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf10 Institut for Matematiske Fag Aalborg Universitet 29. april

Læs mere

statistik og sandsynlighed

statistik og sandsynlighed brikkerne til regning & matematik statistik og sandsynlighed trin 2 preben bernitt brikkerne statistik og sandsynlighed 2 1. udgave som E-bog ISBN: 978-87-92488-20-6 2004 by bernitt-matematik.dk Kopiering

Læs mere

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0

i x-aksens retning, så fås ). Forskriften for g fås altså ved i forskriften for f at udskifte alle forekomster af x med x x 0 BAndengradspolynomier Et polynomium er en funktion på formen f ( ) = an + an + a+ a, hvor ai R kaldes polynomiets koefficienter. Graden af et polynomium er lig med den højeste potens af, for hvilket den

Læs mere

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff Course 242/2323 Introducerende Statistik Forelæsning 3: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 22 Danmarks Tekniske Universitet 28 Lyngby Danmark

Læs mere

SANDSYNLIGHED FACIT SIDE 154-155

SANDSYNLIGHED FACIT SIDE 154-155 SIDE 154-155 Opgave 1 A. Data (x) h(x) f(x) 2 1 0,042 3 3 0,125 4 6 0,25 5 3 0,125 6 4 0,16 7 1 0,042 8 2 0,0833 9 1 0,042 10 2 0,0833 11 1 0,042 B. C. Diagrammet (et søjlediagram) er lavet ud fra hyppigheden,

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

På opdagelse i Mandelbrot-fraktalen En introduktion til programmet Mandelbrot

På opdagelse i Mandelbrot-fraktalen En introduktion til programmet Mandelbrot Jørgen Erichsen På opdagelse i Mandelbrot-fraktalen En introduktion til programmet Mandelbrot Hvad er en fraktal? Noget forenklet kan man sige, at en fraktal er en geometrisk figur, der udmærker sig ved

Læs mere

Regneark II Calc Open Office

Regneark II Calc Open Office Side 1 af 10 Gangetabel... 2 Udfyldning... 2 Opbygning af gangetabellen... 3 Cellestørrelser... 4 Øveark... 4 Facitliste... 6 Sideopsætning... 7 Flytte celler... 7 Højrejustering... 7 Kalender... 8 Dage

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Tjek. lønnen. Et værktøj til at undersøge ligeløn på arbejdspladser inden for det grønne område og transportsektoren. 2007 udgave Varenr.

Tjek. lønnen. Et værktøj til at undersøge ligeløn på arbejdspladser inden for det grønne område og transportsektoren. 2007 udgave Varenr. Tjek lønnen Et værktøj til at undersøge ligeløn på arbejdspladser inden for det grønne område og transportsektoren 2007 udgave Varenr. 7522 Indholdsfortegnelse Forord... 3 Teknisk introduktion... 4 Indledning...

Læs mere

Kapitel 3 Centraltendens og spredning

Kapitel 3 Centraltendens og spredning Kapitel 3 Centraltendens og spredning Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 Indledning 2 Centraltendens 3 Spredning 4 Praktisk beregning 5 Fraktiler 6 Opsamling 1 Indledning

Læs mere

Formelsamling Matematik C

Formelsamling Matematik C Formelsamling Matematik C Ib Michelsen Ikast 2011 Ligedannede trekanter Hvis to trekanter er ensvinklede har de proportionale sider (dvs. alle siderne i den ene er forstørrelser af siderne i den anden

Læs mere

Kvantitative Metoder 1 - Efterår 2006. Dagens program

Kvantitative Metoder 1 - Efterår 2006. Dagens program Dagens program Afsnit 1.7-1.8 Fødselsdagseksemplet, fra sidst Eksperimenterikkealleerligesandsynlige Diskrete sandsynlighedsfordelinger -Definition af sandsynligheder - Regneregler Hvad er sandsynligheder?

Læs mere

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Forelæsning 2: Kapitel 4, Diskrete fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projektet drejer sig om at udvikle en metode, til at undersøge om et givet talmateriale med rimelighed kan siges at være normalfordelt.

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Approksimation af binomialsandsynligheder, Afsnit 4.5 Poisson fordeling og Poisson process, Afsnit 4.6 Kontinuerte fordelinger, Afsnit 5.1-5.2: - Fordelingsfunktion - Tæthedsfunktion - Eksempel:

Læs mere

Simulering af stokastiske fænomener med Excel

Simulering af stokastiske fænomener med Excel Simulering af stokastiske fænomener med Excel John Andersen, Læreruddannelsen i Aarhus, VIA Det kan være en ret krævende læreproces at udvikle fornemmelse for mange begreber fra sandsynlighedsregningen

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Eksempel på logistisk vækst med TI-Nspire CAS

Eksempel på logistisk vækst med TI-Nspire CAS Eksempel på logistisk vækst med TI-Nspire CAS Tabellen herunder viser udviklingen af USA's befolkning fra 1850-1910 hvor befolkningstallet er angivet i millioner: Vi har tidligere redegjort for at antallet

Læs mere

Matematikkens mysterier - på et obligatorisk niveau. 9. Sandsynlighedsregning

Matematikkens mysterier - på et obligatorisk niveau. 9. Sandsynlighedsregning Matematikkens mysterier - på et obligatorisk niveau af Kenneth Hansen 9. Sandsynlighedsregning Hvad er den typiske størrelse af et nittehoved? 9. Statistik og sandsynlighedsregning Indhold 9.0 Indledning

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin aug-juni 10/11 Institution Campus Vejle Handelsgymnasie Uddannelse Fag og niveau Lærer(e) Hold HHX Statistik

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen Kursus 02402 Introduktion til Statistik Forelæsning 4: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Formler og diagrammer i OpenOffice Calc

Formler og diagrammer i OpenOffice Calc Formler i Calc Regneudtryk Sådan skal det skrives i Excel Facit 34 23 =34*23 782 47 23 =47/23 2,043478261 27³ =27^3 19683 456 =KVROD(456) 21,3541565 7 145558 =145558^(1/7) 5,464829073 2 3 =2*PI()*3 18,84955592

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Termin Oktober-december 2014 Institution Niels Brock Uddannelse Fag og niveau Lærer Hold HHX Matematik - Niveau B Peter Harremoës GSK hold: k12gymabu1n2 Oversigt over gennemførte

Læs mere

Monotoniforhold Der gælder følgende sætninger om en differentiabel funktions monotoniforhold:

Monotoniforhold Der gælder følgende sætninger om en differentiabel funktions monotoniforhold: Side 21 Oversigt over undervisningen i matematik - 2x 05/06 Der undervises efter: Claus Jessen, Peter Møller og Flemming Mørk : Tal, Geometri og funktioner. Gyldendal 1997 Claus Jessen, Peter Møller og

Læs mere

Statistik i basketball

Statistik i basketball En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større

Læs mere

Løsninger til kapitel 1

Løsninger til kapitel 1 Opgave. a) observation hyppighed frekvens kum. frekvens 2,25,25 3,875,325 2 3,875,5 3 3,875,6875 4,625,75 5,625,825 6,,825 7 2,25,9375 8,,9375 9,625, Frekvenser illustreres i et pindediagram,2,8,6,4,2,,8,6,4,2

Læs mere

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau ypotese test Repetition fra sidst ypoteser Test af middelværdi Test af andel Test af varians Type 1 og type fejl Signifikansniveau Konfidens intervaller Et konfidens interval er et interval, der estimerer

Læs mere

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks

Læs mere