GRUNDLÆGGENDE STATISTIK

Størrelse: px
Starte visningen fra side:

Download "GRUNDLÆGGENDE STATISTIK"

Transkript

1 Stephan Skovlund APRIL 2013 GRUNDLÆGGENDE STATISTIK Statistik med fokus på anvendelighed i erhvervslivet Statistik Excel - Dataanalyse Statlearn.com

2 Indholdsfortegnelse FORORD... 6 KAPITEL 1: STATISTIKKENS ABC... 8 KAPITEL 2: BESKRIVENDE STATISTIK Punktestimater beskrivelse af stikprøven Valg af gennemsnit eller median Alternative mål for spredning Kvartiler Procentiler Kurtosis Punktestimater for grupperede data Opsummering af punktestimater Grafer Illustration af data Indeks tal Appendiks Beskrivende statistik Øvelser i beskrivende statistik Løsninger til beskrivende statistik Anvendelse af Excel til beskrivende statistik Udvalgte videolektioner (klik på links) KAPITEL 3: GRUNDLÆGGENDE SANDSYNLIGHEDSREGNING Forskellige typer af sandsynligheder Grundlæggende forudsætninger Grundlæggende begreber Foreningsmængden ( ELLER hændelsen) Komplementær hændelsen Betingende sandsynligheder Afhængige hændelser Regneregler for sandsynligheder Øvelser Løsninger Videolektioner > s. 2

3 KAPITEL 4: STOKASTISK VARIABEL Regneregler for en stokastisk variabel Øvelser med stokastisk variabel Løsninger til stokastisk variabel KAPITEL 5: SANDSYNLIGHEDSFORDELINGER Relativ frekvens- og teoretiske fordelinger Forskellige fordelinger Oversigter over fordelinger og deres kendetegn Case Opsummering Fordelingsøvelser Løsninger til sandsynlighedsfordelinger Appendiks 1: Approksimationsregler KAPITEL 6: KONFIDENSINTERVALLER Konfidensintervaller som koncept Den centrale grænseværdisætning Normalfordelingens rolle Betydningen af konfidensniveauet Konfidensintervallets grundelementer Opsummering Bestemmelse af stikprøvestørrelse såfremt en specifik bredde af konfidensinterval er angivet Fremgangsmåde til beregning af konfidensintervaller Oversigt over konfidensintervaller, 1 stikprøve Beregning af konfidensintervaller (KI), 1 stikprøve Eksempler på konfidensintervaller for en stikprøve Konfidensintervaller for to stikprøver Oversigt over konfidensintervaller for differensen Beregning af konfidensintervaller for differensen Eksempler på konfidensintervaller for differens Øvelser med konfidensintervaller Løsninger til konfidensintervaller s. 3

4 KAPITEL 7: HYPOTESETEST Hypotesetest som koncept Opsummering Generel metode til løsning af hypotesetest Hypotesetest oversigt, 1 stikprøve Beregning af hypotesetest, 1 stikprøve Beregning af styrken (type 2 fejl) ved test af andele Beregning af styrken (type 2 fejl) ved test af gennemsnit Eksempler på hypotesetest med en stikprøve Hypotesetest med to stikprøver Beregning af hypotesetest, 2 stikprøver Eksempler på hypotesetest med 2 stikprøver Variansanalyse (ANOVA) Eksempel på variansanalyse Øvelser med hypotesetest Løsninger til hypotesetest KAPITEL 8: REGRESSIONSANALYSE Korrelationsanalyse Ekstreme observationer - Outliers Simpel lineær regression Mindste Kvadrat Metoden (MKM) Fremgangsmåde ved regressionsanalyse Eksempel på anvendelse af simpel lineær regression Forudsigelsesinterval Multipel regression Faldgrupper ved multipel regression Valg af den optimale regressionsmodel Sammenligning af regressionsmodeller Tilføjelse af en kvalitativ variabel (dummy variabel) Øvelser med regressionsanalyse Løsninger til regressionsanalyse s. 4

5 Appendiks til regressionsafsnit KAPITEL 9: STIKPRØVETEORI Introduktion til før og efterstratifikation Førstratifikation Punktestimater af andele og middelværdi ved stratifikation Eksempler på et stratificeret konfidensinterval Øvelser med stratifikation Løsninger til stratifikation KAPITEL 10: MULTINOMISKE HYPOTESETEST Beregning af multinomiske test Anvendelsesområder for multinomiske test Antalstabeller Analyse af teststørrelsen Formler til beregning af multinomiske test Eksempler på beregning af multinomiske test Øvelser med multinomiske hypotesetest Løsninger til multinomiske hypotesetest s. 5

6 Forord Ikølvandet på de sidste års rivende IT revolution har statistik gennemgået en drastisk udvikling. Den stigende digitalisering af virksomheders forretningsgange og hastigheden hvormed informationer spredes, har medført et øget behov for statistik til at tøjle de markante mængder af data der ophobes. Denne bog er skrevet i erkendelse af, at mange studerende får brug for praktiske talfærdigheder på deres fremtidige arbejdsplads. Her vil der være et behov for solidt kendskab til grundlæggende dataanalyse og effektiv håndtering af store datamængder. I det perspektiv vil det være i de færrestes interesse, at få en uddybende gennemgang af teoretisk statistik og matematisk bevisførelse. Derfor har denne bog nedtonet mængden af formler og i stedet øget mængden af forklaringer. Målet er at gøre de statistiske koncepter intuitive og mest af alt mulige at omsætte i praksis. For at styrke den studerende i anvendelsen af statistiske analyser medfølger et statistikprogram, som kan anvendes til at beregne alle de analyser der bliver gennemgået i bogen. Herudover er der et grundlæggende kursus i Excel, som er en forudsætning for at arbejde effektivt med tal. Excel fik i 2007 en gennemgribende opgradering og der kom mange vigtige funktioner som bliver gennemgået i Excelkurset. Excelkurset baseres på videolektioner som du kan finde på ccved at logge dig ind med din tilsendte adgangskode. I skrivende stund er der omkring 500 stillingsopslag på hvor gode Excel kundskaber er et krav - God læselyst! Med venlig hilsen Stephan Skovlund Videolektioner > s. 6

7 KAPITEL 1 STATISTIKKENS ABC Statlearn.com

8 KAPITEL 1 Statistikkens ABC Statistikkens ABC Statistik tager sit udgangspunkt i den del af matematikken, der har til formål at indsamle, beskrive og analysere tal. I stort set alle dele af samfundet indgår statistik som et centralt Statistik element tager i de sit processer udgangspunkt der skal i den skabe del overblik af matematikken, og hjælpe os der med har at til træffe formål de rigtige at indsamle, beskrive beslutninger. og analysere tal. I stort set alle dele af samfundet indgår statistik som et centralt element i de processer, der skal skabe overblik og hjælpe os med at træffe de rigtige beslutninger. Ordet statistik kommer af status som er den latinske betegnelse for tilstand. I tidernes morgen Ordet statistik kommer af status, som er den latinske betegnelse for tilstand. I tidernes morgen blev statistik anvendt til at skabe overblik over befolkningsvækstens under romerrigets blev statistik anvendt til at skabe overblik over befolkningsvækstens under romerrigets ekspansion. I den efterfølgende ekspansion. tid I den har statistik efterfølgende undergået tid har en statistik drastisk undergået udvikling, en og drastisk er i dag blevet udvikling, en sofistikeret og i dag videnskab, blevet der en har sofistikeret spredt sig videnskab til alle hjørner der har af samfundet. spredt sig til Essensen alle hjørner af statistik af samfundet. er dog Essensen uændret. af Behovet statistik for omdanne er dog uændret. store datamængder Behovet for at til omdanne viden og store tydeliggøre datamængder sammenhænge, til viden og er tydeliggøre mindst ligeså aktuel i dag som dengang romerne skulle optælles. sammenhænge, er mindst ligeså aktuel i dag som dengang romerne skulle optælles. Helt grundlæggende kan vi opdele statistik i to områder, den beskrivende og induktive statistik. Helt grundlæggende kan vi opdele statistik i to områder, den beskrivende og induktive statistik. Ligesom ord kan beskrive karaktertræk for et ansigt, kan beskrivende statistik anvendes til at beskrive Ligesom karaktertræk ord kan for data. beskrive karaktertræk for et ansigt, kan beskrivende statistik anvendes til at Med induktiv beskrive statistik karaktertræk forsøger for man, data. generalisere for en hel population på baggrund af en stikprøve. Induktiv statistik er, når man udtager en stikprøve på eksempelvis 100 danskere og ud fra Med induktiv statistik forsøger man, at generalisere for en hel population på baggrund af en denne stikprøve forsøger at sige noget om hele populationen, der består af alle danskere. stikprøve. Induktiv statistik er, når man udtager en stikprøve på eksempelvis 100 danskere og ud fra denne stikprøve FIGUR 1: forsøger at sige noget om hele populationen der består af alle danskere. N n For at kunne anvende statistik må vi nødvendigvis have data at arbejde med. Data kan enten For at kunne anvende statistik må vi nødvendigvis have data at arbejde med. Data kan enten komme fra en population (N) eller en stikprøve (n). komme fra en population (N) eller en stikprøve (n). Populationen kan defineres som du ønsker. Afhængig af formålet med din analyse kan en population være alt fra et lands befolkning til antallet af bildæk på et lager. Populationen skal Videolektioner > s. 8 Af Stephan Skovlund (Copyright) Side 7

9 Statistikkens ABC Populationen kan defineres som du ønsker. Afhængig af formålet med din analyse kan en population være alt fra et lands befolkning til antallet af bildæk på et lager. Populationen skal opfattes som den samlede mængde af mulige observationer - eksempelvis alle danskere eller alle bildæk på et lager. Stikprøven er et antal observationer udtaget fra den givne population. At indsamle data for en hel population er både tids- og ressourcekrævende, derfor anvender man næsten altid stikprøvedata. Formålet med stikprøven er, at skabe en minipopulation som derefter kan anvendes til at beskrive tendenser eller særlige karakteristika for hele populationen, hvilket kendetegner induktiv statistik. Op til et valg i Danmark udtager medierne jævnligt stikprøver, exit pools, for at se hvilket parti der vil få flest stemmer. I denne sammenhæng er populationen (N) samtlige 2,3 millioner stemmeberettigende danskere. Stikprøven (n) er sammensat af tilfældigt udvalgte personer fra populationen og udgør blot en lille del af den samlede population. De termer vi anvender for en population og stikprøve er byggestenene i statistik, så lad os derfor bruge et kort øjeblik på at definere begreberne. Termer som eksempelvis gennemsnit og standardafvigelse anvendes for både population og stikprøve, men angives med forskellige symboler. De beregninger der foretages ud fra populationsdata kaldes populationsparametre og angives hovedsagligt med græske bogstaver. De beregninger der foretages ud fra en stikprøve kaldes punktestimater og angives med bogstaverne fra vores eget alfabet. De mest gængse termer fremgår af den nedenstående tabel. Deres betydning diskuteres i afsnittet: Beskrivende statistik. Er du er en anelse forvirret over de nye fagtermer så holdt fast i, at essensen af statistik er at beskrive en hel population på baggrund af en stikprøve. TABEL 1: Populationsparametre og punktestimater Betegnelse Populationsparameter Punktestimat Gennemsnit m x Standardafvigelsen s s Varians s 2 s 2 Andel p pˆ Intensitet l lˆ Formler til de enkelte beregninger findes i appendiks til afsnittet om Beskrivende statistik. s. 9

10 KAPITEL 2 BESKRIVENDE STATISTIK Statlearn.com

11 KAPITEL 2 Beskrivende Statistik Vi fortolker dagligt mere eller mindre bevidst store mængder informationer. Medierne er blevet relativt sofistikerede til at anvende grafer og nøgletal for at reducere store datamængder til letforståelige informationer. Den del af statistikken, som beskriver data med estimater og grafer, betegnes som beskrivende statistik. Ofte er anvendelsen af beskrivende statistik ikke en mulighed, men en nødvendighed. Når du kommer ud i en virksomhed vil du sandsynligvis skulle håndtere store datamængder i et regneark som Excel. Om det er finansielle nøgletal eller ren og skær dataanalyse er sådan set underordnet. Formålet er at reducere data til essentiel information, og præsentere det på en letforståelig måde. Beskrivende statistik omfatter at reducere data til essentiel information, og præsentere det på en letforståelig måde. Indledningsvis skal det nævnes, at de beregninger vi anvender i forbindelse med dette afsnit, alle kan foretages med Statlearn programmet. Punktestimater beskrivelse af stikprøven Som vi var inde på i afsnittet: Statistikkens ABC sondres der mellem punktestimater og populationsparametre. Ligesom ord kan beskrive karaktertræk ved et ansigt, kan punktestimater og populationsparametre beskrive karaktertræk for en stikprøve eller en population. Dette er ikke synderligt relevant, hvis du arbejder med få data, men hvis du sidder med datarækker i et regneark og mangler overblikket, kan punktestimater give dig en hurtig og værdifuld indsigt. Lad os antage du arbejder som aktieanalytiker i Danske Bank. Du er i den forbindelse blevet bedt om at foretage en risikoanalyse af tre aktier. Formålet med analysen er at undersøge hvordan aktiekurserne for hhv. Microsoft, Nike og Danisco har udviklet sig i perioden januar juli Resultatet af analysen skal anvendes til at rådgive en kunde, som ønsker sig en aktie med en lav risikoprofil. Kaster vi et hurtigt blik på kurserne i tabel 2, kan vi umiddelbart se, at alle aktierne har haft en vis variation i perioden. Skal vi grave et spadestik dybere og udpege den aktie, der oplevede det største kursudsving og dermed var mest risikobetonet, bliver det straks en anelse vanskeligere at vurdere ved blot at læse tallene i tabellen. Videolektioner > s. 11

12 Beskrivende Statistik TABEL 2: Aktiekurser til beskrivende statistik Microsoft Nike Danisco jan 35,8 64,3 73,6 feb 31,1 61,6 66,2 mar 27,2 60,2 66,2 apr 28,8 68,6 70,4 maj 28,5 66,8 67,0 jun 28,2 68,3 65,9 jul 25,9 58,4 65,7 For at udvikle et sammenligningsgrundlag for de tre aktier, kan vi starte med at beregne gennemsnitskursen. Gennemsnittet, som også betegnes middelværdi og forventet værdi, er et mål for den centrale værdi i datasættet, heraf betegnelsen middelværdi. TABEL 3: Beregning af gennemsnit Populationsparameter for gennemsnit m 5 1 N N x i i51 Punktestimat af gennemsnit x 5 1 n n x i i51 Valg af gennemsnit eller median Et gennemsnit skal anvendes med det forbehold, at data skal være relativt normalfordelt 1 som i nedenstående fordeling A. I afsnittet om fordelinger kommer vi nærmere ind på betydningen af normalfordelingen. Indtil videre kan vi blot hæfte os ved, at data kan være fordelt forskelligt som i figur 1. FIGUR 2: Normal versus skæve fordelinger P(X) A Normal fordeling B Højreskæv fordeling C Venstreskæv fordeling 1 Normalfordelingen refererer til data, der følger en klokkeformet symmetrisk fordeling omkring gennemsnittet, se mere herom i afsnittet om fordelinger. s. 12

13 Beskrivende Statistik Er fordelingen af data enten højre- eller venstreskæv som i henholdsvis B og C, tyder det på, at enkelte observationer afviger meget i forhold til de øvrige, heraf skævheden. I de tilfælde er medianen et mere repræsentativt mål end et gennemsnit. Medianen er værdien af den midterste observation i et datasæt, der er sorteret fra laveste til højeste værdi, hvilket med andre ord kaldes, at datasættet er sorteret stigende. I modsætning til gennemsnittet er medianen ikke påvirkelig for ekstremobservationer, da den repræsenterer værdien af datasættets midterobservation. Medianen påvirkes dermed ikke af de ekstraordinære høje eller lave værdier, som kendetegner skæve fordelinger. TABEL 4: Beregning af median og gennemsnit i en stikprøve Median (stikprøve) Median 5 (n 1 1) 2 Gennemsnit (stikprøve) 1 x 5 n n x i i51 Lad os tage et simpelt eksempel. Forestil dig en by hvor 99 % af husstandene tjener kr., og den sidste 1 % af husstandene tjener 100 millioner. Vi kan ræsonnere os til, at gennemsnittet vil blive trukket gevaldigt op af den ene procents høje indkomster. I denne situation vil vi have en meget højreskæv fordeling af indkomsten. Gennemsnittet vil således blive alt for højt og dermed et dårligt mål for datasættets centrale værdi. Det er derfor vigtigt at fastlægge, i hvor høj grad dine data er normalfordelte, inden et gennemsnit tages i brug. For at beregne om data er normalfordelte eller skæve, anvendes et mål for skævheden. Skævhed indikerer i hvor høj grad dine data er skæve eller symmetriske. Formlen for skævheden fremgår af appendiks til dette afsnit. Er skævhedens værdi negativ, er fordelingen af data venstreskæv, og omvendt vil fordelingen af data være højreskæv ved en positiv skævhedsværdi. Er data helt normalfordelte er skævheden tilnærmelsesvis 0. TABEL 5: Fortolkning af fordelingens skævhed Venstreskæv Normalfordelt Højreskæv skævhed, 0 skævhed 5 0 skævhed. 0 For en mere eksakt vurdering af hvorvidt data er normalfordelte anvendes en hypotesetest, se mere herom i afsnittet om multinomiske hypotesetest. Vender vi tilbage til eksemplet med kursudviklingen for de tre aktier og antager at kursudviklingen er normalfordelt, beregnes den gennemsnitlige kurs som i følgende. s. 13

14 Beskrivende Statistik TABEL 6: Gennemsnit for de tre aktiekurser (ud fra stikprøve) Microsoft Nike Danisco Sum af kurserne 205,5 448,2 475 Antal obs. (n) x (sum/n) 29, ,9 Nu hvor vi har identificeret gennemsnittet, er det næste skridt at se på variationen i kurserne. Denne information er afgørende for at kunne sammenholde risikoen ved at investere i de tre aktier. En af de hyppigste metoder til at beregne variation er standardafvigelsen. Standardafvigelsen kan tolkes som observationernes normale afvigelse fra gennemsnittet, eller mere konkret: observationernes gennemsnitlige afvigelse fra gennemsnittet. Beregning af standardafvigelsen: TABEL 7: Populationsparameter Punktestimat s 5 1 n N (x i 2 m) 2 s 5 i51 1 (n 2 1) n (x i 2 x ) 2 i51 EKSEMPEL: Standardafvigelsen for Microsoft s aktiekurs: s 5 1 (7 2 1) n (35,8 i51 n 2 29,4) (31,1 2 29,4) 2 5 3,3 i51 NB: Observationerne kommer fra tabel 2 Standardafvigelsen for alle tre aktiekurser fremgår af nedenstående: TABEL 8: Estimater for aktiekurser Microsoft Nike Danisco Standardafvigelse (s) 3,3 4,1 3 Gennemsnit (x ) 29, ,9 s. 14

15 Beskrivende Statistik Med standardafvigelsen har vi kvantificeret de gennemsnitlige kursudsving. Umiddelbart ser det ud til, at Nike er den aktie som har de største kursudsving. Denne konklusion er dog kun delvist korrekt - vi mangler at sætte standard-afvigelsen i relation til størrelsen af selve gennemsnittet. Ud fra fordeling X og Y i nedenstående kan vi ræsonnere os til, at en standardafvigelse på 4 ud fra et gennemsnit på 10 som i fordeling X, er en højere relativ variation end en tilsvarende standardafvigelse for et gennemsnit på 100 som i fordeling Y. FIGUR 3: X m 5 10 s 5 4 Y m s 5 4 m m For at gøre kursudsvingene på de tre aktier sammenlignelige, kan vi beregne variationskoefficienten (VK): VK 5 Standardafvigelse Standardafvigelse 5 s (eller s for populationen) x m TABEL 9: Aktiekurser og estimater Microsoft Nike Danisco Standardafvigelse (s) 3,3 4,1 3 Gennemsnit (x ) 29, ,9 VK 11 % 6 % 4 % På baggrund af variationskoefficienten kan vi tydeligt se, at kursen for Microsoft har de største relative udsving, og i den sammenhæng indtager - statistisk set - pladsen som den mest risikobetonede aktie. Da en myriade af faktorer påvirker kursen på en aktie, kan den beskrivende statistisk ikke stå alene, men som et redskab til at kvantificere generelle tendenser, og til at gøre forskellige aktier sammenlignelige, er det et yderst værdifuldt redskab. s. 15

16 Beskrivende Statistik Alternative mål for spredning Ligesom medianen anvendes frem for et gennemsnit ved skæve fordelinger, er det vigtigt at forholde sig kritisk til anvendelsen af standardafvigelsen. Standardafvigelsen bør kun anvendes på data, der tilnærmelsesvis følger normalfordelingen. Følger data skæve fordelinger, benyttes i stedet interkvartilbredden, også betegnet IQR 2, som et alternativt mål for spredningen. Interkvartilbredden bygger på samme logik som medianen og er dermed ikke følsom overfor ekstremobservationer, som det eksempelvis er tilfældet med et gennemsnit og standardafvigelse. Interkvartilbredden beregnes som forskellen mellem første og tredje kvartil: TABEL 10: Interkvartilbredden (IQR: Inter Quartile Range) Interkvartilbredden (IQR) 1. kvartil 3. kvartil 3 Kvartil 2 1 kvartil IQR er et mål for spredningen og anvendes når data følger skæve fordelinger (n 1 1) Den observation der ligger 25% inde i datasættet når data sorteres stigende (n 1 1) Den observation der ligger 75% inde i datasættet når data sorteres stigende Ved at tage afstanden mellem 1. og 3. kvartil bliver interkvartilbredden et stabilt mål. Dette skyldes at interkvartilbredden ikke påvirkes af de ekstremobservationer der enten ligger i intervallet minimum - 1. kvartil (x-værdi: 26-33) eller i intervallet 3. kvartil - maksimum (x-værdi: 37-43). Se nedenstående Box and Whisker diagram. FIGUR 4: Eksempel på Box and Whisker diagram (data er fiktive) IQR Inter Quartile Range s. 16

17 Beskrivende Statistik Kvartiler Når du arbejder med store datasæt, kan kvartiler være en hjælp til at skabe overblik over værdierne af dine observationer. Når data er sorterede stigende fra mindst til størst, anvendes kvartiler til at inddele dine data i fire grupper. Beregning af kvartiler: (n 1 1) K 4 hvor K repræsenterer 1, 2 eller 3 kvartil EKSEMPEL: Med udgangspunkt i nedenstående observationer, som viser højden på 15 tilfældigt udvalgte personer, beregnes det første kvartil. TABEL 11: Obs Højde (cm) Kvartil beregnes: (15 1 1) Værdien af den 4 observation svarer til 167 cm. Med andre ord er de 167 cm den største værdi blandt de første 25 % af observationerne. Tilsvarende vil det andet kvartil svare til værdien af den midterste observation hvilket er 172 cm (5medianen). Hvis du arbejder med et datasæt, som medfører at dine kvartilberegninger bliver ulige tal eksempelvis 1. kvartil 5 30,5 bør du vælge den værdi, der ligger i midten af observation 30 og 31. Hvis observation nr cm og observation nr cm er værdien af første kvartil således 185 cm (gennemsnittet). Procentiler Antag at du havde været til statistikeksamen og ønskede at se din karakter i relation til de øvrige studerende. Hvis du befinder dig i det 70 procentil betyder det, at 70 % af de studerende har fået en karakter, som var lavere end din - eller omvendt, at du ligger blandt de 30 %, som har fået højst karakterer. På den måde kan en procentil hurtigt sætte en enkelt observation (en enkelt karakter) i relation til de samlede observationer (alle karakterer). Procentiler beregnes på samme vis som med kvartiler. I stedet for kvartiler K anvendes procentsatsen P jf. nedenstående. Beregning af procentil: (n 1 1) P hvor P repræsenterer procentsatsen 100 s. 17

18 Grundlæggende statistik Beskrivende Statistik Kurtosis Hvor skævheden er et mål for fordelings symmetri, anvendes kurtosis til at beregne fordelingens stejlhed. På samme måde som med skævheden kan kurtosis give os et værdifuldt indblik i fordelingens egenskaber. Dette kan især være til gavn i situationer hvor mange variable inddrages, eksempelvis i forbindelse med aktieanalyse, hvor kursudviklingen for mange virksomheder sammenlignes. Beregning af kurtosis: n(n 1 1) x (n 2 1)(n 2 2)(n 2 3) i 2 x s 4 Kurtosis betegner om en fordeling er relativ spids eller flad sammenlignet med en normalfordeling. En positiv kurtosis betyder at fordelingen er relativ spids (leptokurtisk fordeling) hvorimod en negativ kurtosis (platykurtisk fordeling) er tegn på en flad fordeling. En fuldkommen normalfordeling (mesokurtisk fordeling) vil have en kurtosis på 0. FIGUR 5: Flad fordeling Spids fordeling Normal fordeling I relation til aktieanalyse vil en spids fordeling være et tegn på at relativt mange observationer har samme værdi som gennemsnittet, og at de resterende ligger relativt spredt fra gennemsnittet. Omvendt vil en flad fordeling have mange observationer fordelt omkring gennemsnittet og dermed alt andet lige være mindre udsat for store kursudsving. s. 18

19 Beskrivende Statistik Punktestimater for grupperede data Ofte når vi arbejder med store datamængder, eksempelvis i forbindelse med markedsanalyser, inddeles observationerne i intervaller for at skabe overblik. Når vi arbejder med observationer grupperet i intervaller, kender vi ikke den eksakte værdi af en observation, men vi ved blot, at den kan antage en vilkårlig værdi indenfor det givne interval. TABEL 12: Grupperet data Interval Obs. 0 X , X , X , X , X Ud fra tabellen har vi et godt overblik over, hvordan observationerne fordeler sig i de enkelte intervaller. Det fremgår eksempelvis, at de fleste observationer ligger mellem og Overblikket er imidlertid sket på bekostningen af detaljerede informationer om de enkelte observationers værdi. Vi kender med andre ord ikke den eksakte værdi af hver af de 93 observationer i intervallet Det eneste vi ved om observationerne er, at de ligger i intervallet. Af samme årsag kan vi ikke beregne gennemsnittet som tidligere anvist, da metoden kræver, at vi kender den eksakte værdi af hver enkelt observation. Som alternativ anvendes intervallets midtpunkt som et substitut for den reelle værdi. Denne tilgang har åbenlyse svagheder såfremt data ikke er normalfordelt. I de tilfælde vil observationerne overvejende ligge i den ene ende af intervallet, hvilket betyder at intervallets midtpunkt (M i ) ikke bliver repræsentativt. Gennemsnit for grupperet datasæt (stikprøve): x 5 1 n n i51 f i M i hvor M i 5 (Nedre intervalgrænse i 1Øvre intervalgrænse i ) 2 s. 19

20 Beskrivende Statistik TABEL 13: Beregning af gennemsnit for grupperet data Interval Obs (f i ) Midtpunkt (M i ) f i M i 0 X , X , X , X , X Total x 5 1 n n f i M i i ,63 Standardafvigelsen for et grupperet datasæt (stikprøve): s 5 1 n 2 1 n f i (M i 2 X ) 2 i51 TABEL 14: Beregning af standardafvigelsen for grupperet data Interval Obs (f i ) Midtpunkt (M i ) f i (M i x ) 2 0 X , X , X , X , X Sum s 5 1 n 2 1 n f i (M i 2 X ) 2 5 i ,66 s. 20

21 Beskrivende Statistik Opsummering af punktestimater Ligesom ord kan beskrive et ansigt, kan punktestimater beskrive karaktertræk for data. Dette er ikke synderligt relevant, hvis du arbejder med få data, men hvis du en dag sidder med talrækker i et regneark og mangler et overblik, kan punktestimater give dig en hurtig og værdifuld indsigt. Mål som gennemsnit og standardafvigelse er gode til at indikere datasættets midtpunkt, samt det interval hvori vi kan Grafer forvente de Illustration fleste af vores af data observationer vil ligge. Er vores data normalfordelt, kan vi med et gennemsnit Som vi diskuterede og en standardafvigelse i forrige afsnit, indkredse er punktestimater det interval velegnede hvori ca. til 70 at % beskrive af vores store observationer vil ligge. På den måde får vi nogle hurtige rough-cut betragtninger om det interval, datamængder med nøgletal som f.eks. gennemsnit og standardafvigelse. Grafer tjener samm hvor størstedelen af vores observationer vil ligge. formål. Tilgangen er her blot at præsentere data visuelt med vægten lagt på letforståelig En forudsætning for at anvende gennemsnittet og standardafvigelsen er, at data er relativt normalfordelt. Det er derfor altid et godt udgangspunkt at beregne skævheden for at undersøge i hvor høj kommunikation. Styrken ved grafer er, at de fleste kan tyde en visuel fremstilling af data, grad vores data er symmetrisk mens færre har fordelt. kendskab Er data til betydningen skævt fordelt af anvendes begreber som medianen standardafvigelse og interkvartilbredden som alternativ interkvartilbredde. til gennemsnittet og og standardafvigelsen. I det følgende gennemgår vi de mest hyppige grafer. Afsnittet rundes af med en diskussion a Grafer Illustration af data de faldgruber og områder, hvor du skal være særlig opmærksom på visuel manipulation. Som vi diskuterede i forrige afsnit, er punktestimater velegnede til at beskrive store datamængder med nøgletal som f.eks. gennemsnit og standardafvigelse. Grafer tjener samme formål. Tilgangen er her blot at præsentere data visuelt med vægten lagt på letforståelig kommunikation. Styrken ved grafer er, at de fleste Cirkeldiagrammer kan tyde en visuel fremstilling af data, mens færre har kendskab til betydningen af begreber som standardafvigelse og interkvartilbredde. Cirkeldiagrammer (Pie charts) ser vi næsten hver dag i aviser og tv. Cirklen repræsenterer I det følgende gennemgår som udgangspunkt vi de mest hyppige hele datasættet, grafer. Afsnittet som herefter rundes brydes af med ned en på diskussion forskellige af kategorier de af cirk faldgruber og områder, hvor du skal være særlig opmærksom på visuel manipulation. Cirkeldiagrammer er yderst intuitive når få kategorier sammenlignes, men øges antallet af kategorier mistes overblikket hurtigt. Det skyldes til dels at farvenuancerne kan være Cirkeldiagrammer vanskelige at adskille, og yderligere at et cirkeldiagram angiver værdierne ud fra den vinkel Cirkeldiagrammer (Pie charts) ser vi næsten hver dag i aviser og tv. Cirklen repræsenterer som udgangspunkt hele enkelte datasættet, kategorier som danner herefter i cirklen. brydes ned på forskellige kategorier af cirklen. Cirkeldiagrammer er yderst intuitive når få kategorier sammenlignes, FIGUR 6: Cirkeldiagrammer med markedsandele Figur 3: Cirkeldiagrammer med markedsandele men øges antallet af kategorier mistes overblikket hurtigt. Det skyldes til dels at farvenuancerne kan være vanskelige at adskille, og yderligere at et cirkeldiagram angiver værdierne ud fra den vinkel de enkelte kategorier danner i Markedsandele Markedsandele cirklen. A B C A B C D E F Rent fysiologisk er vi bedre rustet til at se forskel på lodrette streger end vinkler. Data illustreret med et søjlediagram er derfor mere velegnet til at synliggøre små s. forskelle 21 end et cirkeldiagram, hvilket tydeligt fremgår af de to nedenstående figurer.

22 15 10 Grundlæggende statistik 10 Beskrivende Statistik 5 0 er Rent fysiologisk er vi bedre rustet til at se forskel på lodrette streger end vinkler. Data illustreret med et søjlediagram er derfor mere velegnet til at synliggøre små forskelle end et cirkeldiagram, hvilket tydeligt fremgår af de to nedenstående figurer. A B C Figur 4: Søjlediagram FIGUR 7: Søjlediagram med markedsandele med markedsandele Markedsandele A B C Piktogrammer et eksempel kan være en situation hvor salget af biler er steget kraftig Piktogrammer Skal data fremstå så grafisk som overhovedet muligt er piktogrammer oplagte. Piktogrammer Skal data fremstå så grafisk som overhovedet muligt, er piktogrammer oplagte. Piktogrammer streret er i nedenstående yderst velegnede til at kommunikere figur. Ulempen en tydelig tendens. ved Dataværdierne denne vil type ofte være diagrammer stærkt er, yderst velegnede til at kommunikere en tydelig tendens. Dataværdierne vil ofte være stærkt unu- unuancerede, et eksempel et eksempel kan kan være være en situation en situation hvor hvor salget salget af biler af biler steget er steget kraftigt kraftigt over over en årrække en årrække illustreret illustreret i nedenstående i nedenstående figur. Ulempen figur. Ulempen ved denne ved type denne diagrammer type diagrammer er, at er, det at kan det være kan en anelse det være diffust en anelse at vurdere diffust hvor at vurdere meget en hvor bil, meget som ikke en bil er hel som svarer ikke til er i hel reelt svarer salg, til se i f.eks. reelt salg, salg i se 2007 i den nedenstående figur. f.eks. salg i 2007 i den nedenstående figur. FIGUR 8: Markedsandele stå så grafisk som overhovedet muligt er piktogrammer oplagte. Pikt A B C D E F gnede til at kommunikere en tydelig tendens. Dataværdierne vil ofte v nelse diffust at vurdere hvor meget en bil som ikke er hel svarer til i re 007 i den nedenstående figur. 5 0 A B C D E F Søjlediagrammer Søjlediagrammerne (Bar charts) som du kan se i nedenstående figurer er relativt selvforklarende. mer merne (Bar charts) som du kan se i nedenstående figurer er relativt de s A B C D A B C D

23 Søjlediagrammer Beskrivende Statistik Søjlediagrammerne (Bar charts) som du kan se i nedenstående figurer er relativt Søjlediagrammer Søjlediagrammerne selvforklarende. (Bar charts) som du kan se i nedenstående figurer er relativt selvforklarende. FIGUR 9: Der er enkelte punkter du bør være opmærksom på. Bredden af søjlerne og afstanden imellem 0 A B C D 0 A B C D dem spiller ingen rolle, det er udelukkende højden som har betydning for værdien af de enkelte søjler. Af Der Stephan er enkelte Skovlund punkter (Copyright) du bør være opmærksom på. Bredden af søjlerne og afstanden Side imellem 21 dem Søjlediagrammets spiller ingen rolle, y-akse det skal er udelukkende som udgangspunkt højden altid som starte har betydning med værdien for 0, værdien dog kan af det de være enkelte søjler. en en god ide at lade søjlen starte i en højere værdi for at tydeliggøre forskellen mellem søjlerne. Hvis du i dit arbejde vælger denne tilgang, er det yderst vigtigt at du kommenterer at Søjlediagrammets y-akse skal som udgangspunkt altid starte med værdien 0, dog kan det være en god søjlediagrammet ide, at lade søjlen ikke starter i en i 0højere og at forskellen værdi mellem at tydeliggøre enkelte forskellen søjler mellem dermed søjlerne. vil være Hvis du i forstærket. dit arbejde vælger denne tilgang, er det yderst vigtigt at du kommenterer at søjlediagrammet ikke starter i 0, og at forskellen mellem de enkelte søjler dermed vil være forstærket. Figur 5: Søjlediagram hvor y-aksen ikke starter i "0" FIGUR 10: Søjlediagram hvor y-aksen ikke starter i A B C D I Excel har du mulighed for at justeres bredden og afstanden mellem søjlerne samt angive en I startværdi Excel har for du y-aksen, mulighed se for videolektion: at justeres Graf bredden og formatering. og afstanden mellem søjlerne samt angive en startværdi for y-aksen, se videolektion: Graf og formatering. Linjediagrammer s. 23 Linjediagrammer er velegnede til at vise en udvikling over en længere periode. Linjediagrammer er udbredte i forbindelse med rapportering af virksomheders nøgletal, eksempelvis i form af aktiekurs. En af de helt store fordele ved ved linjediagrammer er at de

24 Beskrivende Statistik Linjediagrammer Linjediagrammer er velegnede til at vise en udvikling over en længere periode. Linjediagrammer er udbredte i forbindelse med rapportering af virksomheders nøgletal, eksempelvis i form af aktiekurs. En af de helt store fordele ved linjediagrammer er, at de kan komprimeres drastisk uden at information går tabt. Figur 6: Linjediagram FIGUR 11: for Linjediagram en aktiekurs for en aktiekurs 400 Novo Nordisk aktiekurs Et linjediagram har den unikke egenskab, at det kan reduceres til frimærkestørrelse, uden at Et væsentlig linjediagram information har den unikke går tabt. egenskab, at det kan reduceres til frimærkestørrelse, uden at væsentlig information går tabt. Figur 7: Formindsket linjediagram for aktiekurs (Novo Nordisk ) FIGUR 12: Formindsket linjediagram for aktiekurs (Novo Nordisk ) Nu Min. Maks Nu 337 Min. Maks Øjet er hurtigt til at afkode et forløb repræsenteret af en linje. Hvis blot enkelte støttepunkter i form af maksimum og minimumskurs tilføjes, er det relativt simpelt at perspektivere udviklingen for hele perioden. Øjet er hurtigt til at afkode et forløb repræsenteret af en linje. Hvis blot enkelte støttepunkter i form af maksimum og minimumskurs tilføjes, er det relativt simpelt at perspektivere udviklingen for hele perioden. Histogram Histogrammer forveksles ofte med søjlediagrammer, men ser vi nærmere på graferne fremgår det, at der er nogle væsentlige forskelle. I modsætning til et søjlediagram har bredden af søjlerne betydning når vi aflæser et histogram. X-aksen bygger på en numerisk skala, som s. 24 tildeler hvert interval en specifik værdi og Y-aksen angiver antallet af observationer i hvert interval. Ofte tildeles y-aksen ingen titel, da et histogram som udgangspunkt altid illustrerer et antal observationer målt som frekvens eller sandsynlighed.

25 Beskrivende Statistik Histogram Figur 8: Histogrammer Histogrammer forveksles ofte med søjlediagrammer, men ser vi nærmere på graferne fremgår det, at der er nogle væsentlige forskelle. Karakterer I modsætning (frekvens) til et søjlediagram har bredden af søjlerne betydning når vi aflæser et histogram. 15 X-aksen bygger på en numerisk skala, som 30% tildeler hvert interval en specifik værdi, og Y-aksen angiver antallet af observationer i hvert interval. Ofte tildeles y-aksen ingen titel, da et histogram 10 som udgangspunkt altid illustrerer et antal 20% observationer målt som frekvens eller sandsynlighed. Figur FIGUR 8: Histogrammer 13: Histogrammer % 1 Karakterer (frekvens) Karakterer (sandsynlighed) Indeks tal Lad os tage et simpelt eksempel. Virksomheder der klarer sig godt har som regel en stige tal Indeks tal omsætning, men denne omsætning er i høj grad påvirket af inflationen. Når vi analysere Indekstal ser vi i mange sammenhænge, eksempelvis forbindelse med udviklingen af Indekstal ser vi i mange omsætningen, sammenhænge, kan eksempelvis det være interessant i forbindelse at undersøge med udviklingen om omsætningen af boligmarkedet, blot er fulgt med boligmarkedet, hvor indekstal hvor anvendes indekstal anvendes til at beskrive den relative prisudvikling i forhold til et inflationen til at eller beskrive om der den har relative været en prisudvikling reel vækst, hvilket i forhold blot til betyder bestemt at omsætningen år. er s Fordelen bestemt ved år. Fordelen indekstal ved indekstal er at, de omregner en bestemt udvikling til et tal, som er mere er, at end omregner inflationen. en Da bestemt inflation udvikling er et makroøkonomisk til et tal, som er nøgletal sammenligneligt kan det ikke umiddelb med sammenligneligt andre indeks. med andre indeks. sammenlignes med en virksomheds omsætning. Men hvis vi omregner et indeks der vis Lad os tage et simpelt Lad os tage et simpelt udviklingen eksempel. Virksomheder eksempel. Virksomheder for både inflation der der klarer og klarer omsætning sig godt sig godt har har som vi derved som regel en stigende regel fået en stigende et sammenligningrundlag omsætning, men denne omsætning kan være påvirket af prisstigninger. Når vi analyserer omsætningen, omsætning, men kan denne i nedenstående det være omsætning interessant er figur. i at høj grad påvirket af inflationen. Når vi analyserer undersøge omsætningen, omsætningen kan det være interessant blot fulgt at undersøge om omsætningen blot er fulgt med Figur 9: Simpelt indeks FIGUR 14: Simpelt indeks med inflationen den procentvise eller om prisstigning, der har været eller en reel om vækst, hvilket blot betyder at omsætningen er steget der mere har end været inflationen. reel Da vækst, inflation hvilket er blot 150% Omsætning et makroøkonomisk nøgletal kan det ikke umiddelbart Inflation betyder at omsætningen er steget mere sammenlignes med en virksomheds omsætning. 130% Men hvis vi omregner et indeks der viser end prisstigningerne. De procentvise prisstigninger udviklingen kan for ikke både umiddelbart inflation og sammenlignes i nedenstående med en virksomheds figur. omsætning. 90% omsætning har 110% vi derved fået et sammenligningrundlag, som Men hvis vi omregner det til et indeks, der 70% viser Figur udviklingen 9: Simpelt for indeks både prisstigning og 50% omsætning, har vi derved fået et sammenligningrundlag, som vist i 150% Omsætning figuren. 130% 5 110% 90% s % Af Stephan Skovlund (Copyright) 50% 30% 20% Indekstal ser vi i mange sammenhænge, eksempelvis i forbindelse med udviklingen af boligmarkedet, hvor indekstal anvendes til at beskrive den relative prisudvikling i forhol 10% bestemt år. Fordelen ved indekstal er at, de omregner en bestemt udvikling til et tal, som 0% sammenligneligt med andre indeks Inflation 10% Karakterer (sandsynlighed)

26 Af grafen fremgår det, at væksten er fulgt med inflationen og at omsætningen kun i et enkelt år var marginalt højere end inflationen. Det tyder på, at virksomhedens omsætning har været godt Grundlæggende statistik Med hjulpet fokus på af samfundets erhvervslivet generelt stigende velstand. Herfra er der ikke langt til antagelsen Beskrivende om Statistik sammenhængen formentligt også vil gælde, hvis inflationen falder. Det kan her diskuteres om Af omsætningsfremgangen grafen fremgår det, at væksten er reel eller er fulgt blot inflationsbåret. med inflationen, og at omsætningen kun i et enkelt år var marginalt højere end inflationen. Det tyder på, at virksomhedens omsætning har været godt Simple versus sammensatte indeks hjulpet af samfundets generelt stigende velstand. Herfra er der ikke langt til antagelsen om at sammenhængen Når vi taler formentligt om indeks kan også vi vil sondre gælde, mellem hvis inflationen indeks der falder. baseret Det kan på hhv. her diskuteres én eller flere om omsætningsfremgangen er reel eller blot inflationsbåret. faktorer. Sidstnævnte indeks kaldes sammensatte indeks og anvendes eksempelvis når prisudviklingen for en hel gruppe af varer skal sammenlignes internationalt. Da forbrugere har Simple versus sammensatte indeks et væld af muligheder for at anvende deres indkomst, er det nødvendigt at nuancere indekset Når vi taler om indeks kan vi sondre mellem indeks, der er baseret på hhv. én eller flere faktorer. Sidstnævnte så det repræsenterer indeks kaldes et bredt sammensatte udsnit af varer. indeks og anvendes eksempelvis når prisudviklingen for en hel gruppe af varer skal sammenlignes internationalt. Da forbrugere har et væld af muligheder Lad os indledningsvis tage et eksempel med et simpelt indeks og forestille os et samfund, hvor for at anvende deres indkomst, er det nødvendigt at nuancere indekset, så det repræsenterer et bredt man udsnit kun kan af varer. købe varen brød. Lad Såfremt os indledningsvis at prisen på tage brød et stiger eksempel fra 12 med til 15 et kroner simpelt er indeks det ikke og forestille helt tilstrækkeligt os et samfund, at sige hvor at brød man kun er kan steget købe med varen 3 kroner, brød. da det ikke fortæller os hvor stor den relative stigning har været. Hvis Såfremt brødet at stiger prisen fra på brød stiger kr. vil fra den 12 nominelle til 15 kroner, prisstigning er det ikke på helt 3 kr. tilstrækkeligt være den samme, at sige, mens at brød er steget den relative med 3 kroner, prisstigning da det er ikke omkring fortæller syv os gange hvor mindre stor den (3/15 relative versus stigning 3/103). har været. Hvis brødet stiger fra kr. vil den nominelle prisstigning på 3 kr. være den samme, mens den relative prisstigning Der er således er omkring behov syv for at gange måle mindre den relative (3/15 prisudvikling, versus 3/103). hvilket er essensen af et indeks. Et Der indeks er således viser os behov den relative for måle udvikling den relative af en variabel prisudvikling, i forhold hvilket til en bestemt er essensen periode, af et f.eks. indeks. Et indeks prisudviklingen viser os den for relative brød de udvikling seneste af 5 en år variabel eller befolkningstilvæksten i forhold en bestemt de seneste periode, 10 f.eks. år. prisudviklingen for brød de seneste 5 år eller befolkningstilvæksten de seneste 10 år. Simpelt prisindeks 5 p n p o Pris i indeværende år Pris i basis år 100 Figur 10: FIGUR Simpelt 15: prisindeks Simpelt prisindeks (brød) (brød) 150% 100% 50% 0% År Indeks , , , , ,14 Af Stephan Skovlund (Copyright) Side 25 s. 26

27 Beskrivende Statistik Vær opmærksom på at indeks som regel angives i procent og at udgangspunktet, basisåret, altid er 100 %. Det betyder at indeksværdier over 100 vil repræsentere en stigning i forhold til basisåret, og indeksværdier under 100 omvendt vil repræsentere et fald i forhold til basisåret. Fra vores indekstal i figur 13 fremgår det, at prisstigningen fra var på 11 %. Men ser vi på udviklingen fra 2002 til 2003, kan vi ikke overføre logikken sige at prisen steg med 6 %. Udviklingen for indeks er altid i forhold til basisåret. Så for at beregne udviklingen fra 2002 til 2003 skal vi i stedet sætte disse to års værdier i forhold til hinanden, ved at dividere indekset for 2003 med indekset for 2002: 1,17/1,11 5 1,054. Hermed ses en reel prisstigning på 5,4 %. Lad os udvide eksemplet og antage, at forbrugerne i landsbyen kan købe andre varer end brød. For at beregne et prisindeks skal vi nu tage højde for at indekset repræsenterer et bredt udsnit af dagligvarer, og at husstande ikke fordeler deres indkomst ligeligt på alle varegrupperne. I den forbindelse kan vi tage udgangspunkt i en hel gruppe af varer kaldet varekurven. Den repræsenterer den gennemsnitlige husstands typiske indkøb. Værdien af denne varekurv bliver vores udgangspunkt i basisåret. I de efterfølgende år ser vi så, hvordan varekurvens priser har udviklet sig. Som du muligvis har gættet, er problemet med denne tilgang, at vi antager, at folk køber den samme kvantitet af varer som i basisåret uanset prisudviklingen. For at beregne mere repræsentative indeks anvendes to forskellige metoder, henholdsvis Laspeyres og Paasches indeks. Laspeyres indeks Laspeyres indeks bygger på antagelsen om, at folk til stadighed køber den samme mængde varer som i basissåret, den eneste ændring bliver derved prisudviklingen. I den forstand er Laspeyres indeksets udgangspunkt, at det er prisen der alene bestemmer indeksudviklingen. Laspeyres formel: k o,a p n,a k o,a p o,a hvor K er kvantitet og P pris NB: n,a tolkes som vare a i år n og betegnelsen o,a er vare a i basisåret o. Lapeyres oversat: Kvantiteterne i basisåret til de nuværende priser Kvantiteterne i basisåret til priserne i basis året Paasches indeks Ved anvendelse af Paasches indeks er udgangspunktet det modsatte, nemlig at folk købte det samme i basisåret, som de køber nu. Købes der 30 brød i indeværende år er antagelsen, at der også blev købt 30 brød i udgangsåret. Paasche indeks: k n,a p n,a k n,a p o,a hvor K er kvantitet og P pris s. 27

28 Beskrivende Statistik NB: n,a tolkes som vare a i år n og betegnelsen o,a er vare a i basisåret o. Paasche oversat: De nuværende kvantiteter til de nuværende priser De nuværende kvantiteter til de nuværende priser Spørgsmålet er hvilket af de to indeks, der er det bedste at anvende? Da begge indeks har forsimplede antagelser om forbrug, er spørgsmålet nærmere hvilken af de to forsimplinger der betyder mindst for dig. Med Laspeyres indeks er antagelsen, at folk køber den samme mængde af en specifik vare som sidste år. Beregnes Laspeyres indekset i en periode på 10 år, svarer det til at forbruget af varer er uændret i 10 år. Denne antagelse kan være ganske sand for visse varetyper, eksempelvis tandpasta, men for andre varer, hvor salget præges af mode og trends, vil antagelsen om et statisk forbrug gøre indekset upræcist. Paasche indekset tager højde for at forbruget ændrer sig, men er i modsætningen til Laspeyres mere tidskrævende at beregne. Antag at vi skulle beregne Paasche indekset for en varegruppe bestående af flere hundrede produkter. For hvert af disse produkter skal vi ud over prisudviklingen indsamle informationer om mængden, der bliver købt. Herudover kan basisindekset, som er indekset for basisåret, beregnes en gang for alle med Laspeyres metoden. Med Paasche metoden ændres indekset for basisåret hvert år, hvilket betyder, at alle indekstallene derfor vil ændre sig, hver gang indekset opdateres med ny data. FIGUR 16: Beregning af sammensatte indeks (Paasche og Laspeyres indeks) p 0 k 0 p n k n p 0 k 0 p 0 k n p n k 0 p n k n Rugbrød Pasta Mælk Sum Laspeyres indeks 101,27 % Paasche indeks 101,14 % s. 28

29 Beskrivende Statistik Appendiks Beskrivende statistik Populations parametre Betegnelse Symbol Excel Formel Gennemsnit m 5middel( ) Standardafvigelse s 5stdafvp( ) 1 N N x i i51 1 N (x i 2 m) 2 Varians s 2 5varians( ) 1 N (x i 2 m) 2 Andel p - x i N Median M 5median( ) (N 1 1)/2 Population størrelsen N 5antal( ) Skævhed 1 N N x i 2 m s i51 3 Populations parametre for grupperede data Betegnelse Symbol Excel Formel Gennemsnit m Beregnes med tabel 1 N N f i M i i51 Varians s 2 Beregnes med tabel 1 N N f i (M i 2 m) 2 i51 Standardafvigelse s Beregnes med tabel 1 N N f i (M i 2 m) 2 i51 s. 29

30 Beskrivende Statistik Punktestimater (estimater baseret på en stikprøve) Betegnelse Symbol Excel Formel Stikprøvegennemsnit x 5middel( ) Varians s 2 5varians( ) 1 n n x i i51 1 n 2 1 (x i 2 x ) 2 Standardafvigelse s 5stdafv( ) 1 n 2 1 (x i 2 x ) 2 Andel pˆ - x i n Median m 5median( ) (n 1 1)/2 Stikprøvestørrelsen n 5antal( ) Skævhed 1 n n x i 2 x s i51 3 Punktestimater for grupperede data (estimater baseret på en stikprøve) Betegnelse Symbol Excel Formel Gennemsnit x Beregnes med tabel Varians s 2 Beregnes med tabel 1 n 1 n 2 1 n f i M i i51 n f i (M i 2 m) 2 i51 Standardafvigelse s Beregnes med tabel n 1 n 2 1 f i (M i 2 m) 2 i51 s. 30

31 Beskrivende Statistik Øvelser i beskrivende statistik De første spørgsmål er relateret til fortolkning. Du skal her med dine egne ord forsøge at forklare betydningen af specifikke parametre og estimater. De efterfølgende opgaver vil være beregningsøvelser. Fortolkningsøvelser 1. Hvordan vil du fortolke forskellen på et gennemsnit og en median? 2. Hvornår er det hensigtsmæssigt at anvende median frem for et gennemsnit? 3. Hvad er forskellen på standardafvigelsen og interkvartilbredden? 4. Hvad er det grundlæggende kendetegn ved data, som er normalfordelt? 5. Hvorfor bør du beregne skævheden for en fordeling? 6. I hvilke tilfælde giver det mere mening at anvende interkvartilbredden frem for standardafvigelsen? Beregningsøvelser Opgave 1. I nedenstående tabel ses den månedlige udvikling af salget for to produkter. TABEL 15: Interkvartilbredden (IQR: Inter Quartile Range) jan feb mar apr maj jun jul aug sep Bolsjer Lakridser Spørgsmål 1. Beregn gennemsnit og standardafvigelsen for begge produkter med anvendelse af Statlearn programmet. Spørgsmål 2. Foretag tilsvarende beregninger med anvendelse af en pivot tabel. s. 31

32 Beskrivende Statistik Opgave 2. I nedenstående ses en række punktestimater, som beskriver priserne (kr.) på lejligheder i henholdsvis København og London. Hvordan vil du ud fra data vurdere prisforskellene i de to byer? Hvilke parametre er særlig værd at bemærke? TABEL 16: Punktestimater London København Middel Median Standardafvigelsen Skævhed 1,351-0,287 Minimum Maksimum Sum Antal obs Opgave 3. Gå ind på og find 3 aktier hvorefter gennemsnit og standardafvigelse for den månedlige kurs beregnes for de sidste 3 år. Hvilken af de 3 aktier er mest attraktiv at investere i, hvis der ønskes en lav risikoprofil? (se evt. videolektion om Import af aktiekurser på statlearn.com) Opgave 4. I forbindelse med en undersøgelse af elevantallet på skoler i København blev følgende data indsamlet. TABEL 17: Antal studerende Obs (skoler) Total 200 Spørgsmål 1. Beregn gennemsnittet og standardafvigelsen af antallet af elever. s. 32

33 Beskrivende Statistik Opgave 5. I den nedenstående tabel ses aktiekursen for de to konkurrerende virksomheder, IBM og HP. På hvilken måde kan man med indekstal sammenligne de to virksomheders relative kursudvikling? Hvorfor giver det mening at anvende indekstal i denne sammenhæng? TABEL 18: Måned (2008) jan feb mar apr maj jun jul aug sep okt nov dec IBM (kurs) HP (kurs) Opgave Indsæt en pivottabel som bygger på datasættet: Omsætning - Datasættet ligger i Statlearn programmet under punkt 9.a. Med udgangspunkt i pivottabellen ønskes følgende information: a) Summen af omsætningen for hele datasættet. b) Identifikation af den sælger, som omsætter mest. c) Identifikation af det produkt, som sælger mest i antal stk. 6.2 På baggrund af pivottabellen opstilles et søjlediagram/histogram, der viser omsætningen for hver enkelt sælger. 6.3 Beregn den månedlige omsætning i henholdsvis 2008 og Beregn gennemsnitsomsætningen og standardafavigelsen for hvert år. Hvad kan du udlede af beregningerne? 6.5 Hvor stor en procentdel af omsætningen tegner sælgeren Henriksen sig for i 2008? 6.6 I hvilken måned i 2009 havde Henriksen den største omsætningsfremgang i forhold til 2008? 6.7 Hvilket kvartal i 2008 og 2009 tegner sig for den største omsætning? 6.8 Hvor mange procent af omsætningen udgør de 3 produkter med størst salgsvolumen (målt på stk.)? s. 33

34 Beskrivende Statistik Løsninger til beskrivende statistik Fortolkning: 1. Både median og gennemsnit er mål for den centrale værdi i et datasæt. Et gennemsnit er summen af observationer divideret med antallet, hvorimod medianen repræsenterer værdien af datasættets midterste observation. 2. I forbindelse med skæve fordelinger er det mere hensigtsmæssigt, at anvende en median i stedet for et gennemsnit. Et gennemsnit baseres på alle observationer og påvirkes derfor i høj grad af ekstremobservationer (outliers). I modsætning til et gennemsnit lader en median sig ikke påvirke af ekstremobservationer, da den repræsenterer datasættets midterste værdi. 3. Når data er relativt normalfordelt, anvendes standardafvigelsen som et mål for spredningen fra gennemsnittet. Interkvartilbredden er også et mål for spredningen, men anvendes i forbindelse med skæve fordelinger. Standardafvigelsen hører sammen med et gennemsnit på samme vis som medianen hører sammen med interkvartilbredden. 4. Symmetrisk klokkeformet fordeling med gennemsnittet i midten. 5. Skævheden beregnes for at se i hvor høj grad data er normalfordelte. Som mål for centralværdi og spredning anvendes gennemsnit og standardafvigelse ved data der følger normalfordelingen, ved skæve fordelinger anvendes tilsvarende median og interkvartilbredde. 6. Når data følger en skæv fordeling. Beregning: Opgave 1. TABEL 19: Punktestimater Lakridser Bolsjer Sum Antal obs. 9 9 Maksimum værdi Minimum værdi Gennemsnit ,22 Standardafvigelse 52,71 24,33 Median s. 34

35 Beskrivende Statistik Opgave 2. Den beskedne stikprøve på 20 observationer betyder, at punktestimaterne skal tages med de forbehold omkring usikkerhed, som små stikprøver altid giver anledning til. Data indikerer, at gennemsnitsprisen (middel) på lejligheder er højst i København. I den sammenhæng ses, at standardafvigelsen i København også er væsentlig højere end i London. Dette er med til at skabe usikkerhed om den reelle gennemsnitspris. Den positive skævhed indikerer, at observationerne i London er højreskæve, og at enkelte lejligheder dermed har en markant højere pris end de øvrige i stikprøven. Indikationen af højreskævhed styrkes af, at den relative afstand mellem gennemsnit og maksimumsværdien er højst i London, som angivet nedenfor (Maksimum/Middel). TABEL 20: Punktestimater London København Middel Maksimum Maksimum/Middel 1,962 1,632 Opgave 3. Beregningen i nedenstående punktestimater er baseret på Microsoft, Coca-Cola og Apples aktiekurser i perioden Kursdata findes på Kurserne er baseret på månedsniveau, således at der i alt er 36 observationer for hver enkelt virksomhed. Punktestimaterne fremgår af nedenstående tabel. TABEL 21: Virksomhed Middelkurs Standardafvigelse Variationskoefficient Microsoft 26,815 3,628 14% Coca-Cola 47,905 6,642 14% Apple 115,743 43,048 37% Tabellen indikerer at Apples aktiekurs har den største relative variation (varianskoefficient) og dermed, statistisk set, må antages at være mere risikobetonet end de to andre virksomheder. s. 35

36 Beskrivende Statistik Opgave 4. TABEL 22.A TABEL 22.B Interval-midtpunkter Obs Punktestimater Gennemsnit (x ) Varians (s 2 ) 74307, Standardafvigelse (s) 272, Opgave 5. Indekstallene Opgave er med 5. til at gøre aktiekurserne relative. Dermed kan udviklingen af aktiekurserne bedre sammenlignes, udviklingen fremgår af nedenstående. Indekstallene er med til, at gøre aktiekurserne relative. Dermed kan udviklingen af aktiekurserne bedre FIGUR sammenlignes, 17: udviklingen fremgår af nedenstående. 130% 100% 70% jan feb mar apr maj jun jul aug sep okt nov dec IBM 100% 107% 108% 113% 122% 112% 120% 115% 111% 88% 78% 80% HP 100% 109% 105% 107% 109% 102% 102% 109% 107% 88% 81% 81% s. 36

37 Beskrivende Statistik Opgave Indsæt en pivottabel som bygger på datasættet. Med udgangspunkt i pivottabellen ønskes følgende information: TABEL 23: Bentsen Henriksen Produkt navn Salg (stk) Omsætning Salg (stk) Omsætning Total Salg (stk) Total Omsætning Hekse Hjul Køer Måner Piercings Skærme Sole Tattoos Toppe Hovedtotal a) Summen af omsætningen for hele datasættet Den totale sum af omsætningen er ca kr. b) Identifikation af den sælger som omsætter mest Henriksen omsætter for mest ( kr. mod Bentsens kr.). c) Identifikation af det produkt som sælger mest i antal stk. Der bliver solgt flest Toppe, nemlig stk. 6.2 På baggrund af pivottabellen opstilles et søjlediagram/histogram, der viser omsætningen for hver enkelt sælger. Grafen viser ligesom pivottabellen, at Henriksen er den sælger, der omsætter for mest. FIGUR 18: Bentsens og Henriksens omsætning Bentsen Henriksen s. 37

38 Beskrivende Statistik 6.3 Beregn den månedlige omsætning i henholdsvis 2008 og Vi kan se, at år 2009 er det bedste år. Desuden er sommermånederne bedst i begge år (juli og august især) og vintermånederne dårligst, hvilket tyder på et sæsonpræget salg. TABEL 24: Måned jan feb mar apr maj jun jul aug sep okt nov dec Hovedtotal Beregn gennemsnitsomsætningen og standardafavigelsen for hvert år. Hvad kan du udlede af beregningerne? TABEL 25: Gennemsnit Stdafv Gennemsnit Stdafv jan feb mar apr maj jun jul aug sep okt nov dec Hovedtotal s. 38

39 Beskrivende Statistik Vi kan udlede, at der i gennemsnit sælges for kr. pr. dag i 2008 og for kr. pr. dag i Af standardafvigelserne kan vi udlede, at der er en stor spredning fra gennemsnittet, dvs. at omsætningens størrelse svinger megetæa dag tiæag. Vi skal dog være kritiske over for både gennemsnit og standardafvigelse, hvis data for omsætningen følger normalfordelingen hvis data i stedet følger skæve fordelinger, er det mere hensigtsmæssigt at anvende median og interkvartilbredde, da disse ikke er følsomme over for ekstremobservationer Hvor stor en procentdel af omsætningen tegner sælgeren Henriksen sig for i 2008? TABEL 26: Sum af Omsaetning Saelger År Bentsen Henriksen ,09% 66,91% Henriksen tegner sig for knapt 67 % af omsætningen i I hvilken måned i 2009 havde Henriksen den største omsætningsfremgang i forhold til 2008? TABEL 27: Sælger Henriksen Dato jan 21% feb 7% mar 28% apr 7% maj 3% jun 14% jul 15% aug 21% sep 6% okt 33% nov 6% dec 4% Henriksen opnåede den største omsætningsfremgang i oktober måned 2009 i forhold til samme måned året før hans omsætning var med andre ord 33 % større i oktober 09 end i oktober 08. s. 39

40 Beskrivende Statistik 6.7. Hvilket kvartal i 2008 og 2009 tegner sig for den største omsætning? TABEL 28: Omsætning i % Kvartal , ,4 Kvartal1 10% 12% Kvartal , ,7 Kvartal2 14% 14% Kvartal , ,0 Kvartal3 16% 18% Kvartal , ,4 Kvartal4 8% 9% I begge år er 3. kvartal det bedste, hvad angår omsætningen. 6.8 Hvor mange procent af omsætningen udgør de 3 produkter med størst salgsvolumen (målt på stk.)? TABEL 29: Produkt navn Omsætning Salg (stk) Toppe 40,5% 41,9% Måner 29,9% 30,0% Hekse 18,9% 17,2% Sole 5,2% 5,8% Piercings 3,7% 3,4% Tattoos 0,7% 0,6% Skærme 0,5% 0,5% Hjul 0,5% 0,6% Køer 0,0% 0,0% s. 40

41 Anvendelse af Excel til beskrivende statistik Grundlæggende statistik Når Anvendelse vi arbejder med af Excel data skal til beskrivende vi ofte beregne statistik simple Beskrivende statistikker Statistik som gennemsnit, s lignende. Når vi Til arbejder denne med type data beregninger skal vi ofte er regneark beregne som simple Excel statistikker et glimrende som gennemsn redskab. Funktionerne lignende. Til til de denne mest type gængse beregninger beregninger regneark - se nedenstående som Excel screenshot et glimrende - kan redsk me Anvendelse af Excel til beskrivende statistik anvendes Når vi arbejder med data, skal Funktionerne hvis du vi ofte beregne til blot de ønsker simple mest statistikker gængse nogle få beregninger hurtige estimater. som gennemsnit, - se nedenstående Kræver din sum og lignende. Til denne type beregninger anvendes er screenshot analyse derimo - kan beregninger er regneark hvis en pivot som du blot tabel Excel ønsker mere et glimrende nogle velegnet. få redskab. hurtige Vi vender estimater. tilbage Funktionerne Kræver til pivot til de din tabeller analyse sene der mest gængse beregninger - se nedenstående beregninger er screenshot en pivot tabel - kan mere med velegnet. fordel anvendes, Vi vender hvis tilbage du blot Når du anvender en funktion, er det vigtigt at sikre at du har markeret til pivot alle de tabeller data s ønsker nogle få hurtige estimater. Kræver din analyse derimod flere beregninger, er en pivot tabel mere velegnet. Vi vender tilbage indgå Når til i pivot beregningen, du anvender tabeller hvilket senere. funktion, er illustreret det vigtigt i nedenstående at sikre at screenshot du har markeret hvor cellerne alle de da F summeres. indgå i beregningen, hvilket er illustreret i nedenstående screenshot hvor cellern Når du anvender en funktion, er det vigtigt at sikre, at du har markeret alle de data, som skal indgå i beregningen, hvilket er illustreret summeres. i nedenstående screenshot hvor cellerne F3:F6 summeres. TABEL 30: Parameter Funktion Måned Salg Sum 5 sum( ) jan 1740 Gennemsnit 5 middle( ) feb 1684 Standardafvigelse (n) 5 stdafv( ) mar 1996 Standardafvigelse (N) 5 stdafvp( ) apr 1658 Median 5 median( ) Minimums værdi 5 min( ) 5SUM(F3:F6) Er du i tvivl om al data er medtaget, kan du markere cellen med formlen og efterføl maksimums værdi 5 maks( ) dig Antal observationerer i formellinjen. du i tvivl tæ( om Her ) al data vil du er se medtaget, markering kan af du det markere data som cellen indgår med i formlen, hvilket og efte nedenstående Kvartil dig i formellinjen. tilfælde 5 kvartil( ) Her F2-F3. vil du se markering af det data som indgår i formlen, hvi nedenstående tilfælde er F2-F3. Er du i tvivl om al data er medtaget, kan du markere cellen med formlen og efterfølgende stille dig i formellinjen. Her vil du se markering af det data som indgår i formlen, hvilket i nedenstående tilfælde er F2-F3. Hvis du glemmer eller har brug for mere avancerede funktioner, kan du altid finde over Hvis samtlige du glemmer funktioner eller når har du brug aktiverer for mere fx ikonet: avancerede funktioner, kan du altid fin Hvis du glemmer eller har brug for mere avancerede funktioner, kan du altid finde en liste over samtlige funktioner over samtlige funktioner når du aktiverer fx ikonet: når du aktiverer fx ikonet: Af Stephan Skovlund (Copyright) Af Stephan Skovlund (Copyright) s. 41

42 Beskrivende Statistik Autoberegninger Autoberegninger Autoberegninger kan kan anvendes som et et alternativ til til at at skrive skrive funktionen funktionen manuelt. manuelt. Det eneste Det eneste autoberegningerne kræver er, at du markerer dine data. Så længe de er markerede, vil standardberegningerne fremgå som i nedenstående screenshot. autoberegningerne kræver er, at du markerer dine data. Så længe de er markerede vil standardberegningerne fremgå som i nedenstående screenshot. Ønsker Ønsker du du mulighed mulighed for for at at vælge vælge flere flere autoberegninger, autoberegninger, eksempelvis eksempelvis antal antal observationer observationer, skal skal du blot du højreklikke blot højreklikke på beregningerne på på værktøjslinien. på En af En ulemperne af ulemperne ved ved autoberegninger er, at de er, forsvinder at forsvinder så snart så data snart ikke data længere ikke længere markeret. markeret. Pivottabeller (se video) Pivottabeller Pivottabeller er et af de vigtigste redskaber i hele Microsoft Office pakken. Med pivottabeller kan du på sekunder få et fortrinligt overblik over flere tusind datarækker. At anvende Excel uden pivottabeller, Pivottabeller svarer er til et kun af at de bruge vigtigste første redskaber gear i en i hele formel Microsoft 1 bil. Office pakken. Med pivottabeller Pivottabeller kan du på sekunder er ingen få ny et opfindelse, fortrinligt overblik de har eksisteret over flere tusind næsten datarækker. lige så længe At anvende som Excel. Excel Alligevel skønnes uden pivottabeller, det, at kun de svarer færreste til kun Excel at brugere første kender gear til i en pivottabeller, formel 1 bil. og at endnu færre anvender dem hensigtsmæssigt. 3 Pivottabeller er ingen ny opfindelse, de har eksisteret næsten ligeså længe som Excel. Jeg har arbejdet med virksomheder og set personer blive % mere effektive, efter de lærte at Alligevel skønnes det, at kun de færreste Excel brugere kender til pivottabeller og at endnu anvende pivottabeller. Af samme grund ønsker jeg, at du kommer til at mestre netop denne del af Excel. færre anvender dem hensigtsmæssigt. 3 At Jeg pivotere har arbejdet betyder med "at virksomheder dreje et fast og punkt", set personer og det blive er hvad pivot % mere tabellerne effektive går efter ud på: de "At lærte dreje beregninger at anvende pivottabeller. (statistikker), Af hvor samme rækkeoverskrifter grund ønsker jeg, og kolonneoverskrifter at du kommer til at mestre kan skifte netop plads, denne mens beregningen af data forbliver uændret. del af Excel. Forudsætningen for at bruge Pivot tabellen er, at data er samlet i databaseformat: det betyder helt konkret, At pivotere at hver betyder kolonne "at dreje skal være om et angivet fast punkt", med et og navn, det er dvs. hvad en pivot overskrift, tabellerne og at går felternes ud på: "At indhold i de dreje respektive beregninger kolonner (statistikker), skal være hvor formateret rækkeoverskrifter som: tekst, og et kolonneoverskrifter tal eller en dato. kan skifte plads, mens beregningen af data forbliver uændret. 3 Kilde: Bil Jelen: Number crunching with Pivot Tables 3 Kilde: Med fokus Bil Jelen: på erhvervslivet Number crunching with Pivot Tables s. 42 Af Stephan Skovlund (Copyright) Side 39

43 Beskrivende Statistik TABEL 31: Sælger Produkt Dato Salg Lund Nielsen Det er vigtigt, at formaterne ikke kombineres således, at der i kolonnen med dato ikke pludselig indgår bogstaver, og at der i kolonnen med sælgere ikke pludselig indgår tal som i nedenstående tabeller. TABEL 32: Sælger Produkt Dato Salg Nielsen Rislund 70 Marts Egefelt Hvad angår datoen, er pivottabellen meget følsom for at formatet genkendes som en Excel dato. Nogle vælger derfor at angive dato som en kolonne med måneder og en kolonne med år. Det er i midlertidigt ikke hensigtsmæssigt, da man fraskriver sig vigtige pivotfunktioner, eksempelvis muligheden for at konsolidere datoen fra uger til år, hvis ikke datoen formateres korrekt. Er du i tvivl, kan du altid anvende funktionen dato, som indikerer hvordan data skal angives. TABEL 33: Optimalt Uhensigtsmæssigt Dato Uge Måned År dec nov 2008 En anden vigtig detalje er, at dine data ikke afbrydes af tomme rækker som i nedenstående. Afbrydes dit datasæt af en tom række, dvs. en række uden et eneste tegn, vil pivottabellen opfatte det som et afbræk i datasættet, hvilket medfører at pivotabellen ikke medtager alle data. I tilfælde af tomme rækker kan du indsætte et enkelt tegn - som anvist i nedenstående. TABEL 34: Forkert Korrekt Uge Salg Uge Salg s. 43

44 Uge Salg Uge Salg Beskrivende Statistik Grundlæggende funktioner i pivottabeller Grundlæggende funktioner i pivottabeller I det følgende anvendes en pivottabel til at skabe et hurtigt overblik og beregne enkle estimater som gennemsnit I det følgende og standardafvigelsen. anvendes en pivottabel Øvelsen til at skabe baseres et hurtigt på overblik fiktive og data, beregne som enkle du estimater finder i Excel filen Salgsdata som under gennemsnit menuen og standardafvigelsen. Data på hjemmesiden Øvelsen baseres på fiktive data som du finder i Excel filen Salgsdata under menuen Data på hjemmesiden Når du åbner filen, er det første skridt at markere den øverste celle i venstre hjørne, celle A1. For at sikre, at pivottabellen Når du åbner filen medtager er det første alle skridt data at når markere den den oprettes, øverste celle er grundreglen i venstre hjørne, altid celle at A1. stille sig i datasættets første For at celle, sikre, hvilket at pivottabellen som regel medtager er celle alle data A1. når Når den du oprettes, har markeret grundreglen hele altid dit datasæt, stille vælger du Pivottabel i sig værktøjslinjen i datasættets første og celle, klikker hvilket ok i som den regel dialogboks er celle A1. der Når kommer du har markeret frem. hele dit datasæt vælger du Pivottabel i værktøjslinjen og klikker ok i den dialogboks der kommer frem. Det næste du ser, er et nyt ark med selve pivottabellen. Det næste du ser, er et nyt ark med selve pivottabellen. Af Stephan Skovlund (Copyright) Side 41 Arket er opdelt i et område med en tom tabel og et område med feltlister, som repræsenterer alle de forskellige kolonner i datasættet. s. 44 Nedenfor ses feltlisten der indeholder fire bokse. Hver boks svarer til et bestemt område i pivottabellen. Kolonner med talværdier, eksempelvis salg, skal i værdiboksen. Boksen til række- eller kolonne felter giver dig mulighed for at vende og dreje dine data (pivotering).

45 Beskrivende Statistik Arket er opdelt i et område med en tom tabel og et område med feltlister, som repræsenterer Arket alle er de opdelt forskellige i et område kolonner med i datasættet. en tom tabel og et område med feltlister, som repræsenterer alle de forskellige kolonner i datasættet. Nedenfor ses feltlisten der indeholder fire bokse. Hver boks svarer til et bestemt område i Nedenfor ses feltlisten, der indeholder fire bokse. Hver boks svarer til et bestemt område i pivottabellen. Kolonner med talværdier, eksempelvis salg, skal i værdiboksen. Boksen til række- eller pivottabellen. Kolonner med talværdier, eksempelvis salg, skal i værdiboksen. Boksen til række- eller kolonne felter giver dig mulighed for at vende og dreje dine data (pivotering). kolonne felter giver dig mulighed for at vende og dreje dine data (pivotering). Lad Lad os os tage tage et et simpelt eksempel. Antag Antag at at du du ønsker ønsker at se at det se samlede det samlede salg for salg hele for perioden. hele perioden. Denne simple forespørgsel svarer til at føre feltet Salg Salg fra feltlisten fra feltlisten ned i boksen ned i boksen med værdier, med værdier, som som i i nedenstående: Resultat ses omgående i tabel området. Ved at føre feltet Salg (stk.) ned i værdiboksen har Resultat tabellen ses omgående summeret salget i tabel for området. hele perioden Ved at føre feltet Salg (stk.) ned i værdiboksen har tabellen Af Stephan summeret Skovlund salget (Copyright) for hele perioden Side 42 Lad os nu antage, at vi ønsker at se fordelingen af salget på de enkelte salgskanaler. Da feltet Salgskanaler er baseret på tekst, skal vi enten føre feltet op i boksen med kolonne- eller række s. 45 felter. Føres feltet over i række boksen ses det totale salg nu fordelt på de enkelte salgskanaler.

46 Beskrivende Statistik Lad Lad os nu os antage, nu antage, at at vi vi ønsker ønsker at at se se fordelingen fordelingen af af salget salget på på de enkelte de enkelte salgskanaler. salgskanaler. Da feltet Da feltet Salgskanaler er baseret på tekst, skal vi enten føre feltet op i boksen med kolonne- eller række Salgskanaler er baseret på tekst, skal vi enten føre feltet op i boksen med kolonne- eller række felter. Føres feltet over i række boksen, ses det totale salg nu fordelt på de enkelte salgskanaler. felter. Føres feltet over i række boksen ses det totale salg nu fordelt på de enkelte salgskanaler. Med disse få trin har vi uden beregninger fået et godt overblik over et datasæt som rummer rækker. Af Stephan Pivottabeller Skovlund (Copyright) rummer et væld af funktioner, som kan være en fantastisk hjælp, når Side du arbejder med dataanalyse. I nedenstående er der links til en række videolektioner som viser de grund- 43 læggende og mere avancerede pivotfunktioner (hvis du ikke har adgangskode, kan denne bestilles på hjemmesiden). Udvalgte videolektioner (klik på links) Grundlæggende færdigheder 2.1 Markering af data 2.2 Flyt data 2.3 Vend data (indsæt speciel) 2.4 Cellereferencer 2.5 Regler for anvendelse af formler 2.6 Opsætning af grafer Redskaber til dataanalyse 3.1 Anvendelse af autofilter 3.2 Avancerede funktioner til autofilter 3.3 Pivottabeller 3.4 Feltindstillinger i pivottabeller 3.5 Manuelle beregninger med pivottabel 3.6 Kategorisering af data med pivottabel s. 46

47 KAPITEL 3 GRUNDLÆGGENDE SANDSYNLIGHEDSREGNING Statlearn.com

48 KAPITEL 3 Grundlæggende sandsynlighedsregning Sandsynlighedsregning er paradoksalt nok både et af de mest simple og samtidig et af de mest komplekse områder af statistik. En del af forklaringen skyldes, at sandsynlighedsregning rummer mulighed for at kombinere, udelukke og inkludere forskellige sandsynligheder, hvilket kan øge kompleksiteten betydeligt. Eksempelvis kan vi ræsonnere os frem til, at sandsynligheden for at slå en sekser i et enkelt terningkast nødvendigvis må være 1/6. Men udvides regnestykket til at kombinere 3 terninger, er sandsynligheden for at slå seks med dem alle mindre gennemskuelig. I dette afsnit starter vi med den grundlæggende sandsynlighedsregning og efterfølgende ser vi på mulighederne for at arbejde med mere komplekse problemstillinger. Lad os starte med en definition af sandsynlighedsbegrebet. Ordet er i sig selv er relativt selvforklarende, men hvad betyder det egentligt, når vi siger at sandsynligheden for at slå en sekser ved et terning kast er en 1/6? Rent matematisk er 6 1/6 netop 100 %, men betyder det så, at vi efter 6 kast kan være sikre på at få en sekser? Som du formentligt allerede ved eller har gættet, skal sandsynligheder betragtes som sandsynligheder i det lange løb, altså sandsynligheder, der vil indtræde hvis et eksperiment, som eksempelvis et terningkast udføres et uendeligt antal gange. Hvis et eksperiment kun udføres et få antal gange kan udfaldene fremstå som tilfældige. Der er med andre ord ingen garanti for at få en sekser ved seks terningkast, men har du tålmodighed til at kaste terningen en milliard gange, vil antallet af seksere tilnærmelsesvis være 1/6. Forskellige typer af sandsynligheder Når vi taler om sandsynlighedsregning sondres mellem 3 forskellige typer: objektive, estimerede og subjektive sandsynligheder. Objektive sandsynligheder kendetegnes ved, at vi kan ræsonnere os frem til den eksakte sandsynlighed for en given hændelse, hvilket eksempelvis er tilfældet med et terningkast. Forudsætningen for elementær sandsynlighedsregning er, at alle udfald er lige sandsynlige, hvilket passer fint med terningkast, hvor alle udfald må antages at være lige sandsynlige. Udover terninger er de fleste kasinospil klassiske eksempler på objektive sandsynligheder. Videolektioner > s. 48

49 Grundlæggende sandsynlighedsregning I den virkelige verden er det relativt sjældent, at vi arbejder ud fra eksakte sandsynligheder. Ofte må vi estimere os frem til sandsynligheder ud fra en stikprøve. Estimerede sandsynligheder betegnes eksperimentel sandsynlighedsregning, hvilket refererer til at vi må eksperimentere os frem til sandsynligheden. Et eksempel kan være den amerikanske valgkamp i 2008, hvor der dagligt blev foretaget stikprøvebaserede analyser for at estimere sandsynligheden for en sejr til Obama. Estimaterne vil ikke være eksakte som i tilfældet med terningkast, men sandsynlighederne vil blive mere eksakte jo større stikprøven er. Med andre ord vil en stikprøve på 250 mio. amerikanere give en mere eksakt sandsynlighed for andelen af amerikanske vælgere, der vil stemme på Obama, end en stikprøve på kun 10. amerikanske vælgere. Den sidste type sandsynligheder kan beskrives som subjektive, i den forstand at vi ikke har et faktuelt grundlag at beregne dem ud fra. I modsætning til terningkast - hvor vi ved, at der er seks mulige udfald - er der hver dag en række situationer, hvor vi ikke har denne slags information til rådighed. Hvis du eksempelvis en dag sætter alle dine spareskillinger på en ny hest som aldrig før har løbet væddeløb, må sandsynligheden for at hesten vinder i høj grad bero på din egen subjektive vurdering af hestens kvalifikationer. Grundlæggende forudsætninger Sandsynlighedsregning bygger på nogle enkle og relativt intuitive forudsætninger. Som det første skal alle sandsynligheder være mellem 0 og 1 eller i procent ligge mellem 0 og 100 %. I daglig tale falder der ofte bemærkninger som jeg er 110 % sikker på at... Daglig tale og knastør statistikteori er ikke helt forenelige størrelser. Den næste forudsætning er, at sandsynlighederne TABEL 36: Summering af sandsynligheder for alle de mulige udfald af variablen X i skal summeret blive lig med 1 (100 %). Hvis vores variabel Forudsætning 2: n i51 P(X i ) 5 1 eksempelvis er summen af et terningkast, så skal sandsynlighederne af de mulige udfald af terningkastet kunne summeres til 1 (100 %). Ved et terningkast er der 6 mulige udfald, hvor hvert udfald har en sandsynlighed på 1/6, hvilket netop giver en samlet sandsynlighed på 1 (6 1/6). Som den sidste grundlæggende forudsætning skal sandsynligheden for en bestemt hændelse (H i ) være summen af alle de sandsynligheder, der tilhører denne hændelse. Ved et enkelt terningkast vil sandsynligheden for hændelsen mindst 5 derved blive summen af sandsynligheden for at få 5 og 6. TABEL 35: Interval for sandsynligheder Forudsætning 1:0 P(X i ) 1 TABEL 37: Sandsynlighed for en hændelse Forudsætning 3: P(H) 5 n X i H P(X i ) s. 49

50 Grundlæggende sandsynlighedsregning Grundlæggende begreber Inden vi ser nærmere på regneregler for sandsynligheder, skal vi først have begreberne et udfald, et udfaldsrum og en hændelse på plads. Et udfald kan vi definere som resultatet af et eksperiment. Et eksperiment fører tankerne hen mod hvide kitler og Frankenstein, men er i princippet blot udtryk for en bestemt handling. Denne handling kunne være at kaste en mønt eller udfaldet af Wimbledon finalen. Begge eksempler rummer nogle klare udfald, ved møntkastet får vi enten plat eller krone, og ved Wimbledon finalen taber eller vinder en af tennisspillerne. Udfaldsrummet (U) kan vi definere som alle de mulige udfald i et eksperiment. Kaster vi en enkelt terning kan udfaldsrummet defineres som U(1,2,3,4,5,6) 5 6 mulige udfald. En hændelse (H i ) defineres som det udfald vi ønsker at beregne sandsynligheden for. Hvis du ved et møntkast vinder, hvis resultatet bliver krone, defineres hændelsen: H(Krone). Hvis du ved et terningkast vinder, hvis summen er mindst 4, så defineres hændelsen: H(4,5,6) I nedenstående ses begreberne illustreret. Kassen repræsenterer selve eksperimentet og dermed alle de mulige udfald (U). Cirklen repræsenterer hændelse H. FIGUR 19: H H H er den komplementære mængde, hvilket er de(t) udfald, som ikke indgår i hændelsen H. Tilsammen udgør H og H det samlede udfaldsrum U. Objektive sandsynligheder Forestil dig at du var med i lodtrækningen om at vinde en million kr. Selve lodtrækningen foregår ved, at der tilfældigt udtages en ud af 100 nummererede kugler. Hvis kuglen der trækkes har nummer 1 vinder du. Jeg håber at du er enig i at sandsynligheden for at udtage en vinderkugle, kugle nummer 1, nødvendigvis må være 1/100 eller 1 %. Med andre ord har vi fundet sandsynligheden for at hændelsen vinderkugle indtræffer ud af alle de mulige hændelser. Formelt set betegnes sandsynligheden for en hændelse med: P(hændelse) - i dette eksempel P(vinderkugle). Sandsynligheder der beregnes i vinderkugleeksemplet kaldes a priori sandsynligheder. A priori refererer til, at vi kan beregne den eksakte sandsynlighed før hændelsen indtræffer. Vi kan med andre s. 50

51 Grundlæggende sandsynlighedsregning ord på baggrund af den viden vi har om eksperimentet, ræsonnere os frem til, at sandsynligheden for en vinderkugle må være 1/100. A priori sandsynligheder bygger på en grundlæggende forudsætning om, at alle udfald skal være lige sandsynlige. For at vores sandsynlighed med vinderkuglen skal holde stik, er det nødvendigt, at kuglerne er udformet ens - der må eksempelvis ikke være forskel på vægt eller størrelse. TABEL 38: A priori sandsynlighed A priori sandsynligheder beregnes som: Antal mulige udfald af X P(X) 5 Antal mulige udfald i alt EKSEMPEL: Hvis de første 4 ud af de 20 kugler var vinderkugler angives sandsynligheden: P(Vinderkugle) 5 X(1,2,3,4) U(1 20) 5 4/20 5 1/5 Estimerede sandsynligheder Grundlaget for at beregne a priori sandsynligheder er, at vi kender antallet af mulige udfald, og kan tælle antallet af de mulige hændelser vi ønsker. Vi antager at logistikchefen for Post Danmark ønsker at kende sandsynligheden for, at sorteringsmaskinen begår fejl. Han er derfor nødt til at observere maskinen i en given periode og efterfølgende tælle antallet af fejl. Spørgsmålet er, i hvor lang tid han skal observere maskinen, for at få den retvisende sandsynlighed for fejl. Du vil forhåbentligt være enig i, at 5 minutter vil være i underkanten, men hvad så med at observere maskinen en hel dag eller uge? På den ene side vil vi, alt andet lige, nærme os en mere præcis sandsynlighed for maskinens fejl, jo længere vi observerer den. På den anden side forekommer det ligeså intuitivt, at vi formentligt vil få to forskellige resultater, hvis vi observerer maskinen i to forskellige uger. Dermed vil vi opnå forskellige sandsynligheder for maskinens fejl, hvilket kan illustreres således: P(Fejl i uge 1) 5 P(Fejl i uge 2) , , I modsætning til de objektive sandsynligheder som i eksemplet med terningkast, er der her to forhold der gør sig gældende. For det første kan vi ikke på forhånd beregne sandsynligheden for at maskinen laver en fejl. Vi er nødt til at foretage et eksperiment, hvor maskinens fejl tælles over en periode. s. 51

52 Grundlæggende sandsynlighedsregning For det andet kan vi se, at estimerede sandsynligheder ændrer sig ved hvert forsøg. Vi kan derfor ikke tale om eksakte sandsynligheder, men derimod estimerede (tilnærmede) sandsynligheder. TABEL 39: Estimerede sandsynligheder Estimerede sandsynligheder beregnes som: Antal hændelser (X) P(X) 5 Antal eksperimenter(n) Subjektive sandsynligheder I gennemgangen af sandsynligheder har vi indtil videre beskæftiget os med situationer, hvor data enten kan måles objektivt eller ud fra estimater. Subjektive sandsynligheder falder uden for begge kategorier. Som navnet antyder, er subjektive sandsynligheder baseret på erfaring og fornemmelser - ikke tal. Vi er dagligt omgivet af subjektive sandsynligheder. Eksempelvis er din fornemmelse af om en person taler sandt ofte en subjektiv vurdering. Hver dag er mange af vores handlinger mere eller mindre ubevidst styret af subjektive sandsynligheder. Vi kunne muligvis kalde det instinktive handlinger. Fællesmængden ( OG hændelsen ) Indtil videre har vi diskuteret sandsynligheder for en enkelt hændelse, eksempelvis sandsynligheden for at vi med en enkelt terning kan slå en sekser, eller for at en sorteringsmaskine hos Post Danmark laver fejl. Det vi nu skal se, er hvordan vi kan kombinere sandsynligheder og dermed beregne sandsynligheder for, at to eller flere forskellige hændelser indtræffer. Helt grundlæggende kan hændelser kombineres på to måder, enten sandsynligheden for hændelse A og B eller hændelsen A eller B. Med fællesmængden søger vi sandsynligheden for at to hændelser indtræffer samtidigt. Fællesmængden kan vi illustrere med nedenstående Venn diagram. FIGUR 20: Fællesmængden illustreret i et Venn diagram A B Det område som begge cirkler har til fælles betegnes fællesmængden, hvilket er det grå område i diagrammet. s. 52

53 Grundlæggende sandsynlighedsregning TABEL 40: A priori sandsynlighed Beregning af fællesmængden (forudsat uafhængighed mellem A og B): P(A B) 5 P(A) P(B) EKSEMPEL: Antag at vi har en hvid og en sort terning, og ønsker sandsynligheden for at få en sekser med dem begge. Vi ved at sandsynlighed for en sekser med en enkelt terning er 1/6, så hvordan kan vi beregne sandsynligheden for, at begge terninger bliver seksere? Definition af hændelserne: A Hvid (6) P(A Hvid ) B Sort (6) P(B Sort ) P(A B) 5 P(A) P(B) ,78% Det kan undre os, at sandsynligheden for at få to seksere kun er 2,78%, når vi samtidig tænker på, at sandsynligheden for at få en enkelt sekser er ca. 17 %. Hvorfor er der denne store forskel, og hvorfor er det seks gange mindre sandsynligt at slå to seksere frem for en sekser? Illustreres udfaldsrummet for to terninger vil du hurtigt kunne se hvorfor. FIGUR 21: Fællesmængden ved to terningkast Sort terning Hvid terning Med en enkelt terning har vi seks mulige udfald, derfor ved vi at sandsynligheden for en sekser må være 1/6, men med to terninger er vores udfaldsrum ikke blot fordoblet, men seksdoblet til 36. Dette forklarer at sandsynligheden for to seksere (gråt felt) må være seks gange mindre end sandsynligheden for at få en sekser med en enkelt terning. s. 53

54 Grundlæggende sandsynlighedsregning Fællesmængden er ikke kun begrænset til 2 hændelser, da kombinationsmulighederne i princippet er uendelige. Sandsynligheden for at 3 terninger alle bliver seksere vil eksempelvis være: P(A B C) 5 P(A) P(B) P(C) ,005 Foreningsmængden ( ELLER hændelsen) I modsætning til fællesmængden hvor hændelserne A og B skal indtræffe, er foreningsmængden mindre krævende. Med foreningsmængden søger vi, at mindst en af hændelserne indtræffer. For at illustrere dette, kan vi anvende et Venn diagram, hvor foreningsmængden repræsenterer det samlede areal af begge cirkler. FIGUR 22: Foreningsmængden illustreret i et Venn diagram A B Foreningsmængden er således opfyldt, når enten A eller B eller både A og B indtræffer. Hvis vi for simpelheden skyld genbruger eksemplet med de to terninger, vil foreningsmængden være sandsynligheden for at den hvide eller sorte terning bliver en sekser, eller at de begge gør det. TABEL 41: Beregning af foreningsmængden Beregning af foreningsmængden (forudsat uafhængighed mellem A og B): P(A B) 5 P(A) 1 P(B) 2 P(A B) EKSEMPEL: Hvis vi fortsætter eksemplet med den hvide og den sorte terning, hvad er så sandsynligheden for at få foreningsmængden, dvs. enten at slå seks med hvid, sort eller begge terninger? A Hvid (6) P(A Hvid ) B Sort (6) P(B Sort ) P(A B) 5 P(A) 1 P(B) 2 P(A B) * s. 54

55 Grundlæggende sandsynlighedsregning Årsagen til at vi fratrækker fællesmængden fra summen af A og B er, at fællesmængden både er en del af A og B. Når vi adderer sandsynligheden for A og B betyder det, at vi kommer til at medtage fællesmængden to gange - se det mørkegrå felt i celle 66 i nedenstående. FIGUR 23: Fællesmængden ved to terningkast Sort terning Hvid terning Komplementær hændelsen Komplementær hændelsen kan defineres som den modsatte hændelse af den vi har defineret. Hvis hændelsen (A) defineres som udfaldet krone ved et møntkast, så er den komplementære hændelse (A ) at få plat. TABEL 42: Beregning af komplementærsandsynligheden Beregning af komplementærsandsynligheden: P(A ) P(A) Når vi bruger komplementære sandsynligheder, så er det ofte for at beregne fælles- eller foreningsmængden på en mere simpel måde. EKSEMPEL: Antag at vi har et samlebånd, hvor to kontrolmekanismer skal sikre, at defekte varer kasseres. Hver kontrolmekanisme er 99 % præcis, og der er således kun 1 % sandsynlighed for fejl. Som produktionschef er du interesseret i at kende sandsynligheden for, at en defekt vare slipper igennem begge kontrolmekanismer uden at blive opdaget. Denne sandsynlighed kan løses ved anvendelse af foreningsmængden, hvor vi finder sandsynligheden for, at fejlen enten spottes af kontrol 1, kontrol 2 eller af begge kontroller: A: Fejl opdages af kontrol 1 P(A) 5 0,99 B: Fejl opdages af kontrol 2 P(B) 5 0,99 P(A B) 5 P(A) 1 P(B) 2 P(A B) 5 0,99 1 0,99 2 0,99 * 0,99 5 0,9999 s. 55

56 Grundlæggende sandsynlighedsregning I stedet for at anvende foreningsmængden kan sandsynligheden løses mere simpelt (elegant J) med komplementærmængden. Frem for at finde sandsynligheden for at fejl opdages af en eller begge kontroller, kan vi blot finde sandsynligheden for, at en fejl ikke opdages og efterfølgende fratrække denne fra 1 hvilket svarer til vores totale 4 sandsynlighed (100 %). A : Fejl opdages ikke af kontrol 1 P(A ) 5 0,01 B : Fejl opdages ikke af kontrol 2 (B ) 5 0,01 NB: Bemærk at hændelsen A er det modsatte af hændelsen A, hvilket markeres med en streg over bogstavet. 1 2 P(A B ) ,01 0, , ,9999 Betingende sandsynligheder Afhængige hændelser Indtil videre har vi set på hændelser som uafhængige hændelser, dvs. eksperimenter der har udfald som ikke afhænger eller påvirkes af hinanden. TABEL 43: Beregning af foreningsmængden Hvis uafhængighed mellem 2 hændelser gælder: P(A) 5 P(AIB) Hvis afhængighed gælder: P(A) P(AIB) Notationen med en streg der deler A og B(AIB) tolkes som A på betingelse af B, eller A når B er indtruffet. EKSEMPEL: Vi har stadig en hvid og en sort terning og definerer hændelsernes A: 1 med hvid terning og B: 6 med sort terning. Er der så tale om to uafhængige hændelser? Da udfaldet af den sorte terning på ingen måde påvirker udfaldet af den hvide terning gælder følgende: P(A) og P(AIB) Med andre ord påvirkes sandsynligheden for hændelsen A ikke af udfaldet af hændelse B. Dermed bekræftes reglen for uafhængighed. Alt har en modsætning, og som du sikkert har gættet, er der en række situationer, hvor vi ikke kan antage uafhængighed mellem A og B. I sådanne tilfælde gælder reglen: Afhængighed hvis P(A) P(AIB) 4 Et eksempel på den totale sandsynlighed findes i afsnittet: Regneregler for sandsynligheder. s. 56

57 Grundlæggende sandsynlighedsregning Ved afhængighed forstås at hændelsen A har indflydelse på hændelsen B eller omvendt. Når der er afhængighed så er P(A) ikke det samme som P(AIB), dvs. hændelsen B har indflydelse på sandsynligheden for A. EKSEMPEL: Antag at vi har et spil lotto med 10 nummererede kugler, hvor vinderkriteriet er at få kugle nr. 1. Vi ved at sandsynligheden for at få en given kugle i første forsøg nødvendigvis må være 1 ud af 10. Hermed definerer vi hændelserne: A: Kugle nr.1 P(A) ,1 B: Kugle nr.2 P(B) ,1 Men hvad med P(AIB)? Såfremt kugle nr. 1 ikke bliver trukket i første forsøg vil der nu, hvor den næste kugle trækkes, nødvendigvis være en sandsynlighed på 1/9 for at kugle nr. 1 udtrækkes. Sandsynligheden for kugle nr. 1 er således øget fra 1/10 til 1/9, når kugle to er udtaget. Dermed er der en kugle mindre, hvilket bekræfter reglen for afhængighed: P(A) P(AIB) da Omvendt betingede sandsynligheder (Bayes teorem) Den omvendt betingende sandsynlighed, eller rettere Bayes teorem, gør os i stand til at finde P(A I B) når kun P(B I A) er givet, dermed betegnelsen omvendt betingede sandsynlighed. TABEL 44: Beregning af den omvendt betingede sandsynlighed Beregning af den omvendt betingede sandsynlighed (Bayes teorem): P(A) P(BIA) P(A I B) 5 P(B) EKSEMPEL: Antag at Bilka fra erfaring ved at 30 % af kunderne køber Coca-Cola og at 20 % køber chips. Herudover har Bilka fundet frem til, at hvis en kunde køber Coca-Cola, så er der 40 % sandsynlighed for at vedkommende også køber chips. Hvis en kunde køber chips, hvad er så sandsynligheden for, at kunden også køber Coca-Cola? s. 57

58 Grundlæggende sandsynlighedsregning LØSNING Det vi ved indtil videre: P(A Cola ) 5 0,3 P(B Chips ) 5 0,2 P(B Chips I A Cola ) 5 0,4 Den omvendt betingede sandsynlighed, hvilket svarer til sandsynligheden for at købe cola, når man har købt chips: P(A Cola IB Chips ) 5 P(A Cola) P(B Chips IA Cola ) P(B Chips ) 5 0,3 0,4 0,2 5 0,6 Der er hermed 60 % sandsynlighed for, at en vilkårlig kunde, der køber chips også vil købe Coca- Cola. Det kan undre at forholdet mellem Coca-Cola og Chips ikke er 1:1 begge veje, hvorfor påvirkes sandsynligheden af, om man først lægger chips eller cola i indkøbskurven først? Problemstillingen kan illustreres med følgende matrix, der består af 100 celler. FORKLARING Vi ved, at 30% af kunderne køber Coca-Cola. Vi kan derfor anvende en matrix med 100 felter (5100 %), hvoraf de 30 felter er de kunder der køber Coca-Cola, hvilket svarer til det grå område i den nedenstående matrix. FIGUR 24: Symbolforklaring Køber Coca-Cola Vi ved, at der er 20% af kunderne der køber chips, men vi ved ikke hvordan disse fordeler sig i forhold til de 30% af kunderne der køber Coca Cola. Vi ved derimod, at hvis en kunde køber Coca-Cola, s. 58

59 Grundlæggende sandsynlighedsregning så er der 40 % chance for, at kunden også køber chips. Derfor skal 40 % af det grå område reserveres til chips, hvilket svarer til 12 felter, som markeres med 1 i nedenstående matrix. FIGUR 25: Symbolforklaring Køber Coca-Cola 1 Køber Chips Når vi ved, at der er 20 % sandsynlighed for at der købes chips, må de resterende 8 felter således tilhøre det segment der ikke køber Coca-Cola (hvidt område) Såfremt en kunde køber chips - område markeret med 1 - kan vi se at der er 12 felter med chips i Coca-Cola området, hvilket betyder at sandsynligheden for at købe chips, når der købes Coca-Cola, er 12/ %. FIGUR 26: s. 59

60 Grundlæggende sandsynlighedsregning Regneregler for sandsynligheder 1. A priori sandsynligheder (objektive sandsynligheder) TABEL 45: P(X) 5 Antal mulige udfald af X Antal mulige udfald i alt 5 X U(5udfaldsrum) EKSEMPEL: Hvad er sandsynligheden for at slå en 6 er i et terningkast? X: Sum af et terningkast 5 6 P(X 5 6) Summering af sandsynligheder TABEL 46: n P(H) 5 P(X i) hvor H(X i51 ) X i5n ) X i H EKSEMPEL: Hvis vi har 12 kugler hvoraf der er 5 røde, 4 blå og 3 er grønne, hvad er så sandsynligheden for at få en rød eller en blå kugle? Definition af hændelsen (H): H(X R1,X R2,X R3,X R4,X R5,X B1,X B2,X B3,X B4 ) n P(H) 5 P(X i) i51 3. Fællesmængden når A og B er uafhængige ( OG hændelsen) TABEL 47: P(A B) 5 P(A) P(B) Fællesmængden tolkes som hændelsen A og B. s. 60

61 Grundlæggende sandsynlighedsregning EKSEMPEL: Vi har to terninger, en hvid og en sort, hvad er sandsynligheden for at slå 1 med begge terninger? A Hvid 5 1 P(A Hvid ) B Sort 5 1 P(B Sort ) P(A B) Fællesmængden ved afhængighed mellem A og B (betinget sandsynlighed) TABEL 48: P(A B) 5 P(A) P(BIA) Ved afhængighed forstås at hændelsen A har indflydelse på hændelsen B eller omvendt. Når der er afhængighed er P(A) ikke det samme som P(AIB), dvs. hændelsen B har indflydelse på sandsynligheden for A. EKSEMPEL: Vi observerer et spil lotto med 10 kugler, nummereret fra 1 til 10. Blandt de 10 kugler udtrækkes der 2 kugler. Vinderkriteriet er at udtrække kugle nr. 1 og 2 rækkefølgen er underordnet. Hvad er sandsynligheden for at vinde? Sandsynligheden for at få kugle nr. 1 eller 2 i første udtræk må nødvendigvis være 1 ud af 10. Hvis vi hypotetisk antager, at vi i første udtræk udtager kugle nr. 1, så er sandsynligheden for at udtage kugle nr. 2 ikke længere 1 ud af 10 men 1 ud af 9, da der kun er 9 kugler tilbage. P(A B) 5 P(A) P(BIA) P(1 2) 5 P(1) P(2I1) Regneregel for uafhængighed TABEL 49: Hvis der er uafhængighed gælder P(A) 5 P(AIB) EKSEMPEL: Hvis vi har to terninger og ønsker at slå 1 med den hvide terning (A) og 2 med den sorte terning (B), er der så tale om to uafhængige hændelser? Da udfaldet af den sorte terning ikke har indflydelse på udfaldet af den hvide terning gælder: P(A) og P(AIB) Hvilket svarer til at P(A) 5 P(AIB), dermed er der uafhængighed. I tilfælde af at reglen for uafhængighed ikke er opfyldt, er der tale om afhængige hændelser. s. 61

62 Grundlæggende sandsynlighedsregning 6. Foreningsmængden ( ELLER hændelsen) TABEL 50: P(A B) 5 P(A) 1 P(B) 2 P(A B) Foreningsmængden tolkes hændelserne A eller B eller både A og B. EKSEMPEL: Antag at vi kaster to terninger, en hvid (A) og en sort (B). Hvad er sandsynligheden for at få mindst en 6 er? A Hvid 5 6 P(A Hvid ) B Sort 5 6 P(B Sort ) Af regneregel følger: P(A B) Komplementærmængden ( OG hændelsen) TABEL 51: P(A ) P(A) Komplementærmængden kan opfattes som det modsatte af hændelsen A. EKSEMPEL: Hvad er den komplementære sandsynlighed til at slå en etter med en terning? A(1) P(A) P(A ) P(A) Sandsynligheden er 5 ud af 6, hvilket er det vi forventer, da den komplementære mængde til at slå en etter vil være at slå alt andet end en etter. s. 62

63 Grundlæggende sandsynlighedsregning 8. Den totale sandsynlighed TABEL 52: P(A 5 P(A B) 1 P(A B ) Den totale sandsynlighed bruges til at beregne sandsynligheden for en hændelse, som er sammensat af flere sandsynligheder. EKSEMPEL: Ud af alle studerende er der 30 % som er mænd og som har haft erhvervserfaring, men kun 25 % af alle studerende er kvinder med tilsvarende erhvervserfaring. Hvor mange studerende har haft erhvervserfaring? A(Erhvervserfaring) B(Mænd) B (Kvinder) P(A) 5 P(A B) 1 P(A B ) P(A) 5 0,3 1 0,25 5 0, % 9. Den omvendte betingede sandsynlighed (Bayes teorem) TABEL 53: P(A I B) 5 P(A) P(BIA) P(B) EKSEMPEL: Fra Danske Banks statistiske afdeling oplyses det, at sandsynligheden for at en tilfældig låner anmoder om et lån på mere end kr. er 0,45. Yderligere oplyses det, at sandsynligheden for, at et lån på mere end kr. er optaget af en husejer, er 0,60. Antag at sandsynligheden for, at en vilkårlig låner er husejer, er 0,35. Hvad er sandsynligheden for at en låner, som er husejer, optager et lån på mere end kr. Det vi ved: A: Låner der anmoder om mere end kr. B: Husejer P(A) 5 0,45 P(B) 5 0,35 P(BIA) 5 0,6 Den omvendt betingede sandsynlighed, dvs. sandsynligheden for at anmode om et lån på kr. når man er husejer: P(A I B) 5 P(A) P(BIA) P(B) 5 0,45 0,6 0,35 5 0,771 s. 63

64 Grundlæggende sandsynlighedsregning Øvelser De første spørgsmål er relateret til fortolkning, dvs. her skal du forsøge med egne ord at forklare betydningen af de forskellige sandsynlighedsbegreber. Efterfølgende er opgaverne rettet mod beregninger. Fortolkningsøvelser 1. Anvend et Venn diagram (to overlappende cirkler) til at illustrere fælles- og foreningsmængden for følgende to hændelser: A) at købe en Audi og B) at købe et B&O lydanlæg til en bil. 2. Hvad er forskellen på fælles, forenings og komplementærmængden? 3. Hvordan ville formlen for fællesmængden se ud, hvis der eksempelvis var tre hændelser: A, B og C. 4. Hvad menes med a priori sandsynligheder? 5. Nævn tre eksempler på a priori sandsynligheder. 6. I hvilke tilfælde må man anvende subjektive frem for objektive sandsynligheder? Beregningsøvelser Opgave 1. Antag at vi observerer et spil, hvor en enkelt terning kastes. Spørgsmål 1. Definer udfaldsrummet. Spørgsmål 2. Hvad er sandsynligheden for, at terningkastet viser mere end 3? Spillet udvides nu til to terninger, en hvid og en sort. Hvad er sandsynligheden for: Spørgsmål 3. At få en enkelt etter når de to terninger kastes? Spørgsmål 4. At mindst en af terningerne viser 1? Spørgsmål 5. At få 3 med den sorte og 2 med den hvide terning. Spørgsmål 6. At summen af terningkastet er mindre end 4. Spørgsmål 7. Hvad er sandsynligheden for at slå tre 6 ere i et enkelt kast med 3 terninger? s. 64

65 Grundlæggende sandsynlighedsregning Opgave 2. Forestil dig afholdelsen af 2 VM semifinaler i fodbold, hvor alle 4 hold (A, B, C, D) har samme sandsynlighed for at vinde, tabe eller spille uafgjort. I den første semifinale mødes hold A og B, og i den anden mødes hold C og D. Spørgsmål 1. Hvad er sandsynligheden for at begge semifinaler ender uafgjort? Spørgsmål 2. Hvad er sandsynligheden for at semifinale 1 vindes af hold A, og semifinale 2 tabes af hold D? Opgave 3. Ved et pokerbord er der allerede uddelt 10 kort, hvoraf 6 er hjerter, og ingen er billedkort. Hvad er sandsynligheden for at det næste kort bliver en spar, klør eller ruder? Opgave 4. Sandsynligheden for en københavner går til fitness (A) er 0,3 og tilsvarende er sandsynligheden for, at en tilfældig københavner ejer en Nokia mobiltelefon (B) 0,35. Såfremt at en københavner ejer en Nokia mobiltelefon, er der en sandsynlighed på 0,45 for at vedkommende også går til fitness. Er hændelserne A og B da uafhængige? Opgave 5. På Niels Brock er der 1000 studerende hvoraf 500 læser finansøkonomi, 400 læser til markedsføringsøkonom og 100 læser multimediedesign. Hvad er sandsynligheden for, at en tilfældigt udvalgt elev læser en økonomisk uddannelse? Opgave 6. Antag at 10 % af alle lærebøgerne købes brugt og at 70 % af alle elever køber deres bøger fra starten af semesteret. Hvis der forudsættes uafhængighed mellem tidspunkt for bogkøb og bogens tilstand, hvad er da sandsynligheden for, at en tilfældig elev har købt en: Spørgsmål 1. Ny bog ved semester start? Spørgsmål 2. Brugt bog efter semester start? Spørgsmål 3. (Opgave 6 fortsat). Ny bog efter semester start? s. 65

66 Grundlæggende sandsynlighedsregning Opgave 7. Ud af alle københavnere med videregående uddannelse er der: 25 % mandlige akademikere som har haft lederstillinger og 8 % kvindelige akademikere som har haft lederstillinger. Hvad er sandsynligheden for at en akademiker i København har haft en lederstilling? Opgave 8. Antag at boligmarkedet stiger med en sandsynlighed på 50 %, og at renten falder med 40 % sandsynlighed. Hvis renten falder, er der 80 % sandsynlighed for at boligmarkedet vil stige. Spørgsmål 1. Er der uafhængighed mellem renten og et stigende boligmarked? Hvis ja/nej hvorfor ikke? Spørgsmål 2. Hvad er sandsynlighed for at boligmarkedet stiger og renten falder? Spørgsmål 3. Hvad er sandsynligheden for at renten falder, når boligmarkedet stiger? Opgave 9. På Carlsberg er der en række sikkerhedsforanstaltninger, der skal sikre, at tappemaskinen ikke går i stå, selvom der sker en kortslutning i maskinens kredsløb. For at sikre optimal sikkerhed er der 2 mekanismer, som uafhængigt af hinanden overvåger om tappemaskinen er velfungerende. Sandsynligheden for at en fejl ikke opdages er 1 % for hver af de 2 mekanismer. Spørgsmål 1. Hvad er sandsynligheden for at en fejl opdages? Overvej om der er tale om fælles eller foreningsmængden? (Opstil evt. en matrix over mulighederne) Spørgsmål 2. Hvad er sandsynligheden for at en fejl ikke bliver opdaget? s. 66

67 Grundlæggende sandsynlighedsregning Løsninger Fortolkningsøvelser: 1. Når hændelsen A er at købe en Audi og B er at købe et B&O lydanlæg til en bil, så illustreres fællesmængden - P(A B) - som det skraverede område i nedenstående: FIGUR 27: A B Fællesmængden er således den hændelse hvor der købes en Audi og et B&O lydanlæg til bilen. 2. Foreningsmængden inkluderer de hændelser, hvor der købes en Audi eller et B&O lydanlæg til bilen eller begge dele - se nedenstående Venn diagram. FIGUR 28: A B Foreningsmængden kan siges at være mindre krævende end fællesmængden, da denne er opfyldt når enten A eller B eller både A og B indtræffer. For fællesmængden gælder at begge hændelser skal indtræffe. Sandsynligheden for foreningsmængden vil derfor altid være højere end for fællesmængden. Komplementærmængden - P(A ) - er den modsatte sandsynlighed af hændelsen A. Hvis hændelsen A er solskin, så vil komplementærmængden være sandsynligheden for regnvejr. s. 67

68 Grundlæggende sandsynlighedsregning 3. P(A B C) 4. A priori sandsynligheder er betegnelsen for sandsynligheder som på forhånd er givet. 5. Møntkast, terningkast og roulette Alle tre aktiviteter har det til fælles at vi kender sandsynligheden for et bestemt udfald. Vi ved på forhånd at sandsynligheden for krone er 50%, at sandsynligheden for at slå en sekser er en 1/6 osv. 6. Subjektive sandsynligheder anvendes når vi ikke har et datagrundlag eller på anden måde kan beregne sandsynligheden for en bestemt hændelse. Beregningsøvelser: Opgave 1. Spørgsmål 1. U(1,2,3,4,5,6) Spørgsmål 2. U(1,2,3,4,5,6) X(4,5,6) P(X) 5 Antal mulige udfald af X Antal mulige udfald i alt (U) Spørgsmål 3. A: Terningøjne viser 1 med sort terning B: Terningøjne viser 1 med hvid terning Foreningsmængden fratrukket fællesmængden: P(A B) 2 P(A B) 5 P(A) 1 P(B) 2 P(A B) 2 P(A B) Nb: Vi er nødt til at fratrække fællesmængden fra foreningsmængden, da sidstnævnte indeholder muligheden for, at slå en etter med begge terninger. Spørgsmål 4. A: Terningøjne viser 1 med sort terning B: Terningøjne viser 1 med hvid terning Foreningsmængden: P(A B) 5 P(A) 1 P(B) 2 P(A B) s. 68

69 Grundlæggende sandsynlighedsregning Spørgsmål 5. A: Terningøjne viser 3 med sort terning B: Terningøjne viser 2 med hvid terning Fællesmængden: P(A B) 5 P(A) P(B) Spørgsmål 6. U(11,12,13..66) 5 36 X(11,12,21) 5 3 (ved de tre kombinationer er summen mindre end 4) P(X) 5 Antal mulige udfald af X Antal mulige udfald i alt (U) Spørgsmål 7. A: Terningøjne viser 6 med terning nr. 1 B: Terningøjne viser 6 med terning nr. 2 C: Terningøjne viser 6 med terning nr. 3 P(A B C) Opgave 2. Spørgsmål 1. X: Semifinale nr. 1 ender uafgjort og Y: Semifinale nr. 2 ender uafgjort Spørgsmål 2. X: Semifinale nr. 1 vindes af hold A og Y: Semifinale nr. 2 tabes af hold D P(X Y) P(X Y) s. 69

70 Grundlæggende sandsynlighedsregning Opgave 3. Ud af 52 kort er der udtaget 10, heriblandt 6 hjerter: Det betyder at der er ud af de resterende 42 kort må være 7 hjerter tilbage. X: Klør, spar eller ruder. P(X) 5 Opgave 4. A: Københavner går til fitness B: københavner der ejer en Nokia telefon Antal mulige udfald af X Antal mulige udfald i alt (U) P(A) 5 0,3 P(AIB) 5 0,45 Opgave 5. X(finansøkonom, markedsføringsøkonom) Afhængighed da P(A) P(AIB) P(X) 5 Antal mulige udfald af X Antal mulige udfald i alt (U) 5 ( ) ,9 Opgave 6. A: Lærebøgerne købes nye P(A) 5 0,9 A : Lærebøgerne købes brugt P(A ) 5 0,1 B: Lærebøgerne købes fra starten af semesteret P(B) 5 0,7 B : Lærebøgerne købes efter semesteret er startet P(B ) 5 0,3 Spørgsmål 1. Sandsynligheden for at en elev køber en ny bog ved starten af semesteret: P(A B) 5 0,9 0,7 5 0,63 Spørgsmål 2. Sandsynligheden for at en elev køber en brugt bog efter starten af semesteret: P(A B :) 5 0,1 0,3 5 0,03 Spørgsmål 3. Sandsynligheden for at en elev køber en ny bog efter starten af semesteret: P(A B ) 5 0,9 0,3 5 0,27 s. 70

71 Grundlæggende sandsynlighedsregning Opgave 7. A: Lederstillinger B: Mænd B : Kvinder P(A) 5 P(A B) 1 P(A B ) 5 0,25 1 0,08 5 0,33 Opgave 8. Spørgsmål 1. A: Boligmarkedet stiger B: Renten falder Afhængighed da P(A) P(AIB) P(A) 5 0,5 P(B) 5 0,4 P(AIB) 5 0,80 Spørgsmål 2. Sandsynligheden for at boligmarkedet stiger og renten falder: P(A B) 5 0,8 0,32 5 0,2 Spørgsmål 3. Sandsynligheden for at renten falder, når boligmarkedet stiger (Bayes teorem): P(BIA) 5 P(B) P(AIB) P(A) 5 0,4 0,8 0,5 5 0,64 Opgave 9. A: Fejl opdages af mekanisme 1 P(A) 5 0,99 B: Fejl opdages af mekanisme 2 P(B) 5 0,99 Spørgsmål 1. Sandsynligheden for at en fejl opdages (foreningsmængden): P(A B) 5 0,99 1 0,99 2 0,99 0,99 5 0,9999 Spørgsmål 2. Sandsynligheden for at en fejl ikke opdages (komplementærmængden til foreningsmængden): 1 2 P(A B) , ,0001 s. 71

72 KAPITEL 4 STOKASTISK VARIABEL Statlearn.com

73 KAPITEL 4 Stokastisk variabel En stokastisk variabel klinger som et fremmedord, men er reelt blot betegnelsen for en variabel, der antager numeriske værdier med en tilknyttet sandsynlighed for hvert udfald. Et terningkast er en stokastisk variabel, da summen af terningøjne angives med tal, og hvert udfald har en bestemt sandsynlighed for at indtræffe (1/6). Enhver stokastisk variabel har tilknyttet en sandsynlighedsfordeling, som angiver sandsynligheden for de forskellige udfald af variablen. I eksemplet med terningen er der til hver af de seks mulige udfald knyttet en sandsynlighed på 1/6. Sandsynlighedsfordelinger, som vi kommer nærmere ind på i følgende afsnit, bygger på stokastiske variable. Lad os derfor indledningsvis opridse de grundlæggende karakteristika for den stokastiske variabel. En stokastisk variabel defineres som P(X 5 x) hvor P referer til sandsynligheden, X repræsenterer variablen og x svarer til selve talværdien. Ved et terningkast repræsenterer X selve terningen og x værdien af terningkastet, summen af øjnene. Ved sandsynligheden for at en terning viser 4 skrives: X: Sum af øjne ved et terningkast P(X 5 x) Helt grundlæggende sondres mellem to typer stokastiske variable, diskrete og kontinuerte. Diskrete variable kan opfattes som hele enheder, eksempelvis et hus, et menneske, en ipod osv. Fælles for diskrete variable er, at de kan tælles i hele enheder. Som du formentligt har gættet, er kontinuerte variabler den direkte modsætning. Kontinuerte variable kan ikke afgrænses i hele enheder, og kan derfor ikke tælles som et eksakt antal. Eksempler på kontinuerte variabler er temperatur og hastighed. Da begge er målbare enheder, som kan antage et uendeligt antal decimaler, er det ikke muligt af fastlægge den helt eksakte temperatur eller hastighed. Det er således ikke muligt at måle den præcise værdi af en kontinuert variabel, da vi altid, rent teoretisk, kan tilføje en ekstra decimal i målingen. Videolektioner > s. 73

74 Stokastisk variabel Regneregler for en stokastisk variabel I nedenstående tabel ses en række generelle regneregler for middel og varians af en stokastisk variabel. For at eksemplificere regnereglerne tages efterfølgende udgangspunkt i nogle simple eksempler. Efter gennemgangen af de enkelte regneregler, er der et mere avanceret eksempel. TABEL 54: Regneregler for en stokastisk variabel Middelværdi Varians 1. E(X) 5 n x i f(x i ) VAR(X) 5 i51 n (x i 2 m) 2 f(x i ) i51 2. E x i 5 E(x i) VAR( X i ) 5 VAR( X i ) 3. E(X Y) 5 E(X) E(Y) VAR(X Y) 5 VAR(X) VAR(Y) 4. E(k) 5 k VAR(k) E(k X) 5 k E(X) k 2 VAR(X) Eksempler på regneregler Til gennemgang af regneregler defineres X som summen af terningøjne ved et kast med hvid terning, og tilsvarende defineres Y som et terningkast med en sort terning. Konstanten k sættes til 2 hvilket også gælder k 0 og k 1. Regneregel 1: n E(X) 5 x i f(x i ) ,5 (5 m) 6 6 i51 n VAR(X) 5 (x i 2 m) 2 f(x i ) (1 2 3,5) (6 2 3,5) ,5 6 6 i51 Regneregel 2: E( x i ) ( ) 6 5 3,5 VAR( x i ) (1 2 3,5)2 (6 2 3,5) ,917 s. 74

75 Stokastisk variabel Regneregel 3: E(X Y) 5 E(X) E(Y) 5 3,5 1 3,5 5 7 eller 3,5 2 3,5 5 0 Samme fremgangsmåde med variansen Regneregel 4: Da en konstant (k) ingen variation har, må middelværdien nødvendigvis være det samme som konstanten. Regneregel 5: E(K X) HVOR (K 5 2) Alternativ: k E(X) 5 2 3,5 VAR (X) 5 k 2 VAR(X) ,91 I det følgende er et praktisk eksempel på anvendelse af regneregler for middelværdi og varians for en stokastisk variabel. Hos Nokia i København ønsker HR-afdelingen 5 at undersøge de forventede udgifter i forbindelse med sygedage. Fra erfaring ved HR ved vi at der er: 1. 7 sygedage i middelværdi for de mandlige ansatte med en standardafvigelse på 3 dage sygedage i middelværdi for kvindelig ansatte med en standardafvigelse på 2 dage. Hvis vi antager, at en sygedag for en mandlig og en kvindelig ansat henholdsvis koster 2000 kr. og 1800 kr. Hvad kan HR så forvente at de årlige omkostninger til sygefravær bliver blandt 39 kvinder og 64 mænd. (både middelværdi og standardafvigelse beregnes). Data: M: Sygedage mandlig ansat K: Sygedage kvindelig ansat E(M) 5 7 VAR(M) K m n m 5 64 E(K) 5 5 VAR(K) K k n k Human ressource / personaleafdelingen s. 75

76 Stokastisk variabel De totale forventede udgifter til sygedage: Forventede mandlige sygedage: n E(M i) 5 i i Forventede udgifter til mandlige sygedage: E(K M M) 5 K M E(M) Forventede kvindelige sygedage: n E(K i) 5 i i Forventede udgifter til kvindelige sygedage: E(K K K) 5 K K E(K) De totale forventede udgifter til sygedage: E(M 1 K) 5 E(M) 1 E(K) Standardafvigelsen for de totale udgifter til sygedage: Variansen for mandlige sygedage: n VAR(M i) 5 i i Variansen for udgifterne til mandlige sygedage: 2 VAR(K M? M) 5 K M 1 VAR(M) ? Variansen for de kvindelige sygedage: n VAR(K i) 5 i i Variansen for udgifterne til kvindelige sygedage: 2 VAR(K K? K) 5 K K 1 VAR(K) ? s. 76

77 Stokastisk variabel Den totale varians for udgifterne til sygedage: VAR(M 1 K) 5 VAR(M) 1 VAR(K) Den totale standardafvigelse for udgifterne til sygedage: Std.Afv. (M 1 K) 5 VAR(M 1 K) ,15 Øvelser med stokastisk variabel De første spørgsmål er relateret til fortolkning, her skal du med egne ord forsøge at forklare betydningen af begreber relateret til en stokastisk variabel. I de efterfølgende opgaver er fokus rettet mod beregninger. Fortolkningsøvelser: 1. Hvordan vil du definere en stokastisk variabel? 2. Nævn eksempler på variable som er stokastiske. 3. Hvad er forskellen på en diskret og en kontinuert variabel? 4. Antag at DMI 6 en given sommerdag måler temperaturen til 18 grader celsius. Sandsynligheden for at DMI har ret er lig med nul - hvorfor? Beregningsøvelser: Opgave 1. For en studerende på Niels Brock forventes det, at de daglige udgifter til mad udgør 35 kr. med en standardafvigelse på 7 kr. Der går 1000 elever på Niels Brock, heraf er de 55 % drenge. Spørgsmål 1. Hvad er de forventede udgifter til mad for hele Niels Brock? Spørgsmål 2. Hvad er standardafvigelsen for de forventede udgifter? Det antages, at de forventede udgifter til mad for en pige er 27 kr. med standardafvigelse på 5 kr. For en dreng er de tilsvarende forventede udgifter på 39 kr. med en standardafvigelse på 11 kr. Spørgsmål 3. Hvad er nu de forventede udgifter til mad for hele Niels Brock? Spørgsmål 4. Hvad er nu standardafvigelsen for de forventede udgifter? 6 Dansk Meteorologisk Institut s. 77

78 Stokastisk variabel Opgave 2. I starten af semesteret ønsker Niels Brock at estimere de samlede udgifter til bærbare computere for studerende på 2 forskellige skoler: Nørre Voldgade og Kultorvet. På Nørre Voldgade oprettes 15 hold og det forventes, at der er 30 elever pr. hold med en standardafvigelse på 4 elever. Tilsvarende oprettes 12 hold på skolen ved Kultorvet, hvor det forventes, at der er 28 elever pr. klasse med en standardafvigelse på 6 elever. Spørgsmål 1 Hvor mange elever kan man samlet forvente kommer til at gå på begge skoler? Studerende ved Nørre Voldgade er med i en særordning, hvor de kan købe bærbare computere til 3000 kr., mens de studerende ved Kultorvet derimod må betale 3500 kr. Spørgsmål 2. Antag at alle nye studerende fra på begge skoler køber bærbare computere. Hvad bliver de forventede udgifter? Spørgsmål 3. Hvad bliver standardafvigelsen for de forventede udgifter til bærbare computere på begge skoler? Løsninger til stokastisk variabel Fortolkningsøvelser: 1. En stokastisk variabel er betegnelsen for en numerisk variabel med en tilknyttet sandsynlighed for alle de mulige udfald. 2. Terningspil, roulette, lotto, aldersfordeling i en population. 3. Diskrete variable kan opfattes som hele enheder, eksempelvis et hus, et menneske, en ipod etc. Fælles for diskrete variabler er, at de forekommer i hele enheder. Kontinuerte modsætningen til diskrete variable. Eksempelvis kan en kontinuert variabel som temperatur ikke afgrænses til en bestemt værdi, da vi kan tilføje et uendeligt antal decimaler til en temperaturmåling. 4. Det er ikke muligt at måle en eksakt værdi af en kontinuert variabel, da der kan tilføjes et uendeligt antal decimaler, derfor er sandsynligheden for en eksakt værdi ikke til stede. s. 78

79 Stokastisk variabel Beregningsøvelser: Opgave 1. Spørgsmål 1. X 5 Udgift til mad pr.elev (kr) E(X 1000 i) kr. i51 Spørgsmål 2. VAR(X i) i kr. Standardafvigelsen ,359 kr. Spørgsmål 3. X 5 Udgift til mad for piger Y 5 Udgift til mad for drenge E(X 450 i) kr. i51 E(Y 550 i) kr. i51 E(X Y) 5 E(X) E(Y) kr kr kr Spørgsmål VAR(X i) kr. i51 VAR(Y 550 i) kr. i51 VAR(X Y) 5 VAR(X) VAR(Y) kr kr kr Standardafvigelsen (X Y) 5 VAR(X Y) ,927 kr. s. 79

80 Stokastisk variabel Opgave 2. Spørgsmål 1. Hvor mange elever kan man samlet forvente fra begge skoler? X 5 Elever ved Nørre Voldgade Y 5 Elever ved Kultorvet E(X 15 i) kr. i51 E(Y 12 i) i51 E(X Y) 5 E(X) E(Y) Spørgsmål 2. K X kr. K y kr. E(K X? X) 5 K X? E(X) ? kr. E(K X? X) 5 K X? E(X) ? kr. E(X Y) 5 E(X) E(Y) kr. Spørgsmål 3. 2 VAR(K X? X) 5 K X? VAR(X) ? kr. 2 VAR(K Y? Y) 5 K Y? VAR(Y) ? kr i i VAR(X Y) kr. Standardafvigelsen (X Y) 5 VAR(X Y) ,967 kr. s. 80

81 KAPITEL 5 SANDSYNLIGHEDSFORDELINGER Statlearn.com

82 KAPITEL 5 Sandsynlighedsfordelinger Sandsynlighedsfordelinger En sandsynlighedsfordeling kan beskrives som en illustration af sandsynlighederne for de En sandsynlighedsfordeling kan beskrives som en illustration af sandsynlighederne for de En forskellige sandsynlighedsfordeling værdier af en given kan variabel. forskellige værdier af en given variabel. beskrives som en illustration af sandsynlighederne for de forskellige værdier af en given variabel. Lad os antage at vores variabel er resultatet af et terningkast. Hvert af de 6 mulige udfald af Lad os antage at vores variabel er resultatet af et terningkast. Hvert af de 6 mulige udfald af Lad terningkastet os antage at er vores lige sandsynlige, variabel er resultatet derfor må sandsynligheden af et terningkast. for Hvert et enkelt af de udfald 6 mulige være udfald 1/6. af terningkastet terningkastet lige er sandsynlige, sandsynlige, derfor derfor må må sandsynligheden for for et et enkelt udfald være være 1/6. Sandsynlighedsfordelingen for variablen vil derfor antage en kasselignende form som i 1/6. Sand- Sandsynlighedsfordelingen variablen for variablen vil derfor vil derfor antage antage en en kasselignende form form som som i nedenstående. i nedenstående. Fordelingen illustrerer, at alle de forskellige værdier af terningkastet er lige Fordelingen nedenstående. illustrerer, Fordelingen at alle illustrerer, de forskellige at alle værdier de forskellige af terningkastet værdier af er terningkastet lige sandsynlige. er lige sandsynlige. sandsynlige. FIGUR 29: P(x) P(x) 20% 20% 15% 15% 10% 10% 5% 5% 0% 0% x (sum af terningkast) x (sum af terningkast) Når vi arbejder med data, er det sjældent at alle udfald er lige sandsynlige som med terninger. Når Når vi arbejder vi arbejder med med data, data, er er det det sjældent at alle udfald er lige sandsynlige som med terninger. Det Det vil oftest være værdier, der ligger omkring gennemsnittet, som har den højeste vil oftest Det vil være oftest værdier, være værdier, der ligger der ligger omkring omkring gennemsnittet, som som har har den den højeste sandsynlighed for at forekomme. sandsynlighed for at forekomme. sandsynlighed for at forekomme. Forestil Forestil dig dig at vi at vejer vi vejer de de studerende i din klasse og grupperer observationerne i i vægtintervaller. Forestil dig at vi vejer de studerende i din klasse og grupperer observationerne i Sandsynlighedsfordelingen vægtintervaller. Sandsynlighedsfordelingen kunne eksempelvis kunne se ud eksempelvis som i følgende: se ud som i følgende: vægtintervaller. Sandsynlighedsfordelingen kunne eksempelvis se ud som i følgende: FIGUR 30: P(x) 40% P(x) 40% 30% 30% 20% 20% 10% 10% 0% 0% Vægt Interval (kg) Obs. Relativ frekvens Vægt Interval (kg) Obs. 3 Relativ 8% frekvens % 8% % 15% % 36% % 23% Total % 100% Total % Videolektioner > s. 82 Af Stephan Skovlund (Copyright) Side 87 Af Stephan Skovlund (Copyright) Side 87

83 Med Gennemsnitsvægten fokus på erhvervslivetligger tydeligvis i midten og de fleste observationer Sandsynlighedsfordelinger ligger tæt på gennemsnittet med enkelte studerende, der vejer henholdsvis langt mere og mindre end gennemsnittet. Gennemsnitsvægten ligger tydeligvis i midten, og de fleste observationer ligger tæt på gennemsnittet Når med vi enkelte arbejder studerende, med store datamængder der vejer henholdsvis giver fordelinger langt mere et og hurtigt mindre overblik end gennemsnittet. over de mest Når sandsynlige vi arbejder værdier. med store Skulle datamængder vi eksempelvis giver udarbejde fordelinger en et tilsvarende hurtigt overblik analyse over af de mest sandsynlige vægtfordelingen værdier. Skulle for vi alle eksempelvis 5 mio. danskere, udarbejde kan en fordeling tilsvarende illustrere, analyse hvor af vægtfordelingen stor en andel af for alle 5 mio. danskere, kan en fordeling illustrere, hvor stor en andel af befolkningen som befinder sig i befolkningen som befinder sig i de forskellige vægtintervaller. de forskellige vægtintervaller. Relativ frekvens- og teoretiske fordelinger Der er fordelinger baseret på det data du indsamler og der er fordelinger baseret på teoretiske Relativ frekvens- og teoretiske fordelinger sandsynligheder. For at redegøre for forskellen kan vi antage, at vi ønsker at se hvordan Der er fordelinger baseret på det data du indsamler, og der er fordelinger baseret på teoretiske højden af alle danskere over 18 år er fordelt. Da du ikke har tid til at måle højden af alle sandsynligheder. For at redegøre for forskellen kan vi antage, at vi ønsker at se hvordan højden af alle danskere, udtager over 18 du år i er stedet fordelt. en stikprøve Da du ikke på har 100 tid personer. til at måle Du højden grupperer af alle herefter danskere, de udtager du observerede i stedet en stikprøve værdier af på højden 100 personer. i nogle intervaller Du grupperer og beregner herefter de intervallets observerede relative værdier størrelse af højden som i nogle vist intervaller i nedenstående. og beregner intervallets relative størrelse som vist i nedenstående. Figur 16: Relativ FIGUR frekvensfordeling 31: Relativ frekvensfordeling baseret på 100 baseret observationer på 100 observationer P(x) 18 % 12 % 6 % 0 % x (Højde i cm) Denne måde at illustrere sandsynligheder på kaldes for en relativ frekvens fordeling. Det Denne søjlediagrammet måde at illustrere viser, er sandsynligheder andelen af observationer på kaldes i hvert for interval, en relativ i forhold frekvens til det fordeling. totale antal Det søjlediagrammet viser, er andelen af observationer i hvert interval, i forhold til det totale antal observationer. Sagt på en anden måde beskriver fordelingen den relative sandsynlighed af de observationer. Sagt på en anden måde beskriver fordelingen den relative sandsynlighed af de forskellige forskellige observationer observationer i stikprøven. i stikprøven. Højde/cm TABEL 55: Frekvens versus relativ frekvens F(x) Højde/cm P(x) 5% 9% 10% 13% 16% 12% 11% 10% 9% 5% Tabel F(x) 24: Frekvens 5 versus relativ 9 frekvens P(x) 5% 9% 10% 13% 16% 12% 11% 10% 9% 5% Af Stephan Skovlund (Copyright) Side 88 s. 83

84 Sandsynlighedsfordelinger Den teoretiske sandsynlighedsfordeling er baseret på en matematisk fremstilling af virkeligheden. Den teoretiske sandsynlighedsfordeling kan opfattes som en model, der afspejler de teoretiske sandsynligheder for en hel population, eksempelvis hvordan højden af alle danskere er fordelt. Teoretiske sandsynlighedsfordelinger er universelle, de kan anvendes for alle variable, så længe variablen opfylder bestemte kriterier. Ofte er ressourcer til at indsamle data for en hel population relativt begrænsede. I den sammenhæng kan en teoretisk sandsynlighedsfordeling med fordel anvendes som model for, hvordan data er fordelt i hele populationen. Forskellige fordelinger Der findes mange forskellige fordelinger, og det som adskiller dem er en række forudsætninger, som vi skal se nærmere på. Helt grundlæggende sondres mellem fordelinger der bygger på diskrete og kontinuerte variable. Som vi var inde på i afsnittet om stokastiske variable, kan en diskret variabel afgrænses til en enkelt enhed, eksempelvis en bil eller et hus. Kontinuerte variable er modsætningen, hvor enheden ikke kan opgøres præcist, med derimod kun måles. Eksempler på kontinuerte variable er temperatur, vægt og hastighed. Kontinuerte variabler er kendetegnet ved, at sandsynligheden for en bestemt værdi af variablen er nul. Helt konkret kan vi sige, at sandsynligheden for, at det en dag i juni bliver præcist 20 grader er nul. Vi kan ræsonnere os til at 20 grader ligeså vel kunne være 19,99999 eller 20, Rent teoretisk er 20 grader således en værdi, som kan antage et uendeligt antal decimaler og som derfor ikke kan måles eksakt. Som nævnt er der forskellige typer af fordelinger. Dem vi skal se på er de mest gængse og kan indtil videre klassificeres som værende kontinuerte eller diskrete fordelinger. For at skabe et overblik over forskellen på de enkelte fordelinger, og hvordan de anvendes, vil der i det følgende være en kort gennemgang af egenskaberne for de enkelte fordelinger. Herefter vil der være en case, hvor fordelingerne anvendes i en praktisk sammenhæng. s. 84

85 Sandsynlighedsfordelinger Binomialfordeling Model: X~b(n, p) Parametre: Hvor n er stikprøvestørrelsen og p populationsandelen af mærkede elementer. Forudsætninger: a) Diskret variabel - variablen skal kunne opgøres i hele enheder. b) n eksperimenter observeres. Hver observation i stikprøven opfattes som udfaldet af ét blandt n antal eksperimenter. c) Konstant sandsynlighed. Udfaldet af de enkelte eksperimenter er uafhængige af hinanden. d) Hvert element kan enten defineres som mærket eller ikke-mærket. Heraf betegnelsen binomial som refererer til to mulige udfald. Formel: P(X 5 x) 5 n x px (1 2 p) n2x Hvor p er populationsandelen og n er stikprøvestørrelsen og hvor Middelværdi og varians: n x 5 n! x!(n 2 x)! E(X) 5 n? p VAR(X) 5 n? p? (1 2 p) EKSEMPEL: En formueforvalter hos PFA ved fra erfaring, at der er 15 % sandsynlighed for, at hun vælger en aktie, som efter et år har givet et negativt afkast. Hun har lige investeret i 10 forskellige aktier og ønsker nu at beregne sandsynligheden for, at alle aktier vil give et positivt afkast efter et år. Løsning: X: Aktie der efter et år giver et negativt afkast X ~ b(p 5 0,15, n 5 10) Beregning med formel: Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg binomial og indsæt værdier P(X 5 0) ,150 (1 2 0,15) ,19687 P(X 5 0) 5 0,19687 Der er således 19,69 % sandsynlighed for, at der vil være 0 aktier, som giver et negativt afkast efter et år. Omvendt er der omkring 80 % sandsynlighed for, at mindst 1 af aktierne vil give et negativt afkast. s. 85

86 Sandsynlighedsfordelinger Hypergeometrisk fordeling Model: X~h(N, m, n) Parametre: N 5 populationens størrelse, m 5 antal mærkede elementer i populationen og n 5 stikprøvestørrelsen. Forudsætninger: a) Diskret variabel (variablen skal kunne opgøres i hele størrelser). b) n elementer udtages fra en endelig population N (N skal være kendt, eller som minimum være mulig at opgøre/tælle). c) Der er ikke konstant sandsynlighed. Udfaldet af de enkelte eksperimenter er afhængige af hinanden. d) Hvert element kan defineres som mærket (m) eller ikke mærket (m). Formel: P(X 5 x) 5 m x n2m n2x n n Hvor m x 5 m! x!(m 2 x)! Middelværdi og varians: Såfremt p beregnes som m N gælder: E(X) 5 n? p VAR(X) 5 n? p? (1 2 p)? N 2 n N 2 1 EKSEMPEL: I en særlig version af lotto er der 12 kugler som nummereres fra Kuglerne 1-4 defineres som vinderkugler. Antag at 4 tilfældige kugler udtrækkes blandt de 12. Hvad er sandsynligheden for at alle vinderkuglerne udtrækkes? Løsning: X: Vinderkugle (kugle 1 2 4) X~h(N 5 12, m 5 4, n 5 4) s. 86

87 Sandsynlighedsfordelinger Beregning med formel: P(X 5 4) 5 Beregning med Statlearn programmet: a) Vælg fordeling ,00202 b) Vælg hypergeometrisk og indsæt værdier P(X 5 4) 5 0,00202 Der er således 0,2 % (2 promille) sandsynlighed for at være så heldig, at alle 4 vinderkugler udtages. Poissonfordeling Model: X ~ Ps(l) Parametre: Intensiteten, l, fortolkes som det gennemsnitlige antal forekomster i et givent tidsrum eller indenfor et bestemt kvantum. Forudsætninger: n 5 antal perioder som l baseres på. a) Diskret variabel (variablen skal kunne opgøres i hele enheder) b) Antal af forekomster af mærkede elementer observeres over en periode eller opgøres pr. kvantum. Eksempelvis antal ulykker pr. måned eller antal kvindelige studerende pr. klasse. c) Elementerne indtræffer uafhængigt af hinanden i den givne periode (dvs. konstant sandsynlighed ligesom i binomialfordelingen) Formel: P(X 5 x) 5 lx x! e2l Hvor l repræsenterer populationsintensiteten og e er en konstant med værdien 2,718 Middelværdi og varians: E(X) 5 l VAR(X) 5 l s. 87

88 Sandsynlighedsfordelinger EKSEMPEL: Et hospital modtager hver dag gennemsnitligt 3,4 patienter med et brækket ben. Hvad er sandsynligheden for, at hospitalet en tilfældig dag modtager 5 patienter med brækket ben? Løsning: X: Patient med et brækket ben. X~Ps(l 5 3,4) Beregning med formel: P(X 5 5) 5 lx x! e2l 5 3,45 5! ,4 5 0,12636 Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg poisson og indsæt værdier Fortolkning: P(X 5 5) 5 0,12636 Der er 12,6 % sandsynlighed for, at der på en given dag vil være 5 patienter, der kommer ind med et brækket ben på hospitalet. Normalfordelingen Model: X~N(m, s 2 ) alternativt X~N(x, s 2 ) Parametre: m / x er gennemsnit og s 2 /s 2 er standardafvigelsen for population/stikprøve. Forudsætninger: a) Data er tilnærmelsesvis normalfordelt. b) Kontinuert variabel. Hvis variabel er diskret vil denne kunne approksimeres, dvs. føres over i normalfordelingen, såfremt approksimationsbetingelserne herfor er opfyldt. En mere detaljeret redegørelse for approksimationsbetingelserne findes i Appendiks 1 i slutningen af afsnittet om fordelinger. Formel: P(X # x) 5 P(Z # z) 5 x 2 m s 5 f x 2 m s s. 88

89 Sandsynlighedsfordelinger Alle normalfordelte variable kan med ovenstående formel omdannes til z-værdier. Z-værdier fortolkes som det antal standardafvigelser vi er fra normalfordelingens midtpunkt - mere herom under gennemgangen af normalfordelingen i afsnit Fejl! Henvisningskilde ikke fundet. Bemærk at normalfordelingen er en kumulativ tæthedsfunktion 7 (f) baseret på en kontinuert variabel. Kontinuerte variable kan, i modstæning til de diskrete, ikke afgrænses til en hel enhed. I normalfordelingen er det derfor sandsynligheden for intervaller der beregnes - ikke sandsynligheden for eksakte værdier. Eksempelvis beregnes sandsynligheden for, at det bliver mellem 24 og 25 grader og ikke sandsynligheden for, at det vil blive eksakt 25 grader. Af samme årsag anvender vi i normalfordelingen kun symbolerne højst # og mindst $ men ikke 5. EKSEMPEL: En meteorolog ved, at det i tidsrummet gennemsnitligt er 19,3 grader celsius i juni måned med en standardafvigelse på 4,5 grader. Hvad er sandsynligheden for, at det bliver mindst 22 grader? Løsning: X: Temperatur i dagtimerne (grader celsius) i juni måned. X~N(m 5 19,3, s 5 4,5) Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg normalfordeling og indsæt værdier P(X $ 22) 5 0,274 Der er således 27,4 % sandsynlighed for, at det mindst vil blive 22 grader i dagtimerne i juni måned. 7 En kumulativ tæthedsfunktion beskriver tætheden af observationerne for en værdi af en given kontinuert variable. s. 89

90 Sandsynlighedsfordelinger Oversigter over fordelinger og deres kendetegn TABEL 56: Oversigt over diskrete sandsynlighedsfordelinger Diskrete fordelinger Hypergeometrisk Binomial Poisson Model: X ~ h(n, m, n) Model: X~b(n, p) Model: X~Ps Kendetegn: - Diskret variabel - Ikke konstant sandsynlighed EKSEMPEL: Fra en æske med 100 skruer hvoraf 20 er rustne udtages en stikprøve på 10 skruer. Hvad er sandsynligheden for, at stikprøven indeholder mindst 3 rustne skruer? X: Rusten skrue X ~ h(n 5 100, m 5 20, n 5 10) P(X $ 3) 5 0,318 Beregning med Statlearn program: Vælg fordelinger og derefter Hypergeometrisk Kendetegn: - Diskret variabel - Konstant sandsynlighed EKSEMPEL: En tappemaskine der producerer Coca-Cola flasker fylder med 5 % sandsynlighed for meget i flasken. Hvad er sandsynligheden for at 2 ud af 100 flasker indeholder for meget? X: Overfyldt flaske X ~ b(p 5 0,05, n 5 100) P(X 5 2) 5 0,081 Beregning med Statlearn program: Vælg fordelinger og derefter Binomial TABEL 57: Kontinuert sandsynlighedsfordeling (normalfordelingen) Model: X ~ N(m,s 2 ) Normalfordelingen (kontinuert fordeling) Kendetegn: - Kontinuert variabel - Fordelingen er symmetrisk og klokkeformet med gennemsnittet i midten. Med andre ord må fordelingen ikke være venstre- eller højreskæv. Kendetegn: - Diskret variabel - Forekomster i en periode EKSEMPEL: Hvad er sandsynligheden for, at et hospital modtager mere end 5 patienter med brækket ben, hvis det daglige gennemsnit er 3,4 patienter? X: Patient med brækket ben X ~ Ps 5 3,4) P(X $ 6) 5 0,129 Beregning med statlearn program: Vælg fordelinger og Poisson EKSEMPEL: En meteorolog ved fra erfaring, at det i juni i dagtimerne gennemsnitligt er 19,3 grader med en standardafvigelse på 6 grader. Hvad er sandsynligheden for, at det en tilfældig juni dag i dagtimerne bliver mindst 25 grader? X: Grader (celsius) i dagtimerne i juni. X ~ N(m 5 19,3, s ) P(X $ 25) 5 0,171 Beregning med Statlearn program: Vælg fordelinger og derefter Normalfordeling s. 90

91 Sandsynlighedsfordelinger Case Virksomheden Gene Food har specialiseret sig i at sælge fødevarer tilsat planteekstrakter med kolesterolsænkende virkning. Siden lanceringen i 2003 har virksomheden oplevet en forrygende vækst, men væksten har ikke været uden omkostninger. Et stigende antal kunder er begyndt at klage over produkterne. Kundernes klager er især møntet på de tre største produkter: 1. Mangodrik der sælges i kasser á 30 stk. 2. Chokoladebagels som sælges i poser á 2 kg 3. Nødder der sælges i æsker á 500 gram. Hvad angår Mangodrik er klagerne møntet på, at etiketterne ofte vender forkert. Med chokoladebagels klages over manglende chokoladeovertræk, og med nødderne klages over at æskerne vejer væsentligt mindre end de 500 gram som står angivet. Som du muligvis har gættet, er alle tre kvalitetsproblemer relateret til sandsynligheder. I tilfældet med Mangodrik er det sandsynligheden for, at etikettemaskinen vender etiketten forkert. Med chokoladebagels er det sandsynligheden for, at overtræksmaskinen mangler chokolade, og med nødderne er det sandsynligheden for, at en æske underfyldes. Som du kan se, varierer forudsætningerne for de enkelte kvalitetsproblemer. Hvad angår flaskerne er variablen diskret, og sandsynligheden for, at etikettemaskinen laver en fejl kan vi med rimelighed antage at være konstant. Hvis etikettemaskinen vender en etikette forkert, påvirker det ikke sandsynligheden for, at den efterfølgende flaske ligeledes får vendt etiketten forkert. Med chokoladebagels er variablen også diskret, men da størrelsen og vægten på en bagel varierer, i modsætning til mangodrik med præcist 30 flasker i en kasse, ved vi ikke nøjagtigt hvor mange bagels der er i en pose. Den sidste klage går på, at æskerne med nødder ofte vejer mindre end 500 gram. Nødderne måles således på vægten af æskerne og er derfor en kontinuert variabel. For at få overblik over de nuværende produktionsforhold, indsamler du information fra din erfarne produktionsleder, som oplyser følgende: 1. Sandsynligheden for en etikettefejl er 5%. 2. Der er i gennemsnit 0,4 bagels der ikke får chokoladeovertræk. 3. Der opfyldes gennemsnitligt 505 gram nødder i æskerne, standardafvigelsen er på 15 gram. s. 91

92 Sandsynlighedsfordelinger I forbindelse med Mangodrik måler vi antallet af flasker med etikettefejl. Antal flasker opgøres i hele enheder og er derfor en diskret variabel. Udfordringen er nu at finde den rette diskrete fordeling. Da vi arbejder med et bestemt antal eksperimenter og ikke et gennemsnit eller tidsinterval, kan vi udelukke poissonfordelingen. Spørgsmålet er nu, om variablen følger en hypergeometrisk- eller en binomialfordeling. Kravet til binomialfordelingen er konstant sandsynlighed, dvs. at udfaldet af hændelserne fejl og ikke-fejl ikke må påvirke hinanden. Hvis vi antager, at en flaske der får en etikettefejl ikke påvirker sandsynligheden for, at den efterfølgende flaske også får en etikettefejl, er der tale om konstant sandsynlighed. Det passer med binomialfordelingen. Fra produktionslederen ved vi, at etikettefejl opstår med 5 % sandsynlighed, hvad er så sandsynligheden for, at en hel kasse med 30 flasker indeholder etikettefejl? Fremgangsmåde med binomialfordeling: Variabel: X: Flaske med etikettefejl Model: X ~ b(p 5 0,05, n 5 30) Hvor p er sandsynligheden for et udfald af vores variabel, etikettefejl, og n er stikprøvestørrelsen. Forudsætninger a) Diskret variabel (hele flasker). b) n elementer observeres (30 flasker pr. kasse). c) Konstant sandsynlighed, dvs. uafhængighed mellem de enkelte eksperimenter. d) Hvert element kan defineres som mærket eller ikke-mærket. Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg binomial og indsæt værdier P(X 5 0) 5 0,215 s. 92

93 Sandsynlighedsfordelinger Der er 21,5 % sandsynlighed for at en kasse indeholder flasker uden etikettefejl. Det er således en anelse bekymrende, at en kunde med ca. 80 % sandsynlighed vil modtage flasker med etikettefejl, hver gang der bestilles en kasse Mangodrik. (Eksempel fortsat) For at sikre dine kunder ikke får varer der indeholder fejl, har du og dine medarbejdere brugt mange kræfter på at kontrollere varerne på lageret. Blandt 100 paller med Mangodrik har i frasorteret 7 paller der skal kasseres. Ved en fejl blev de 7 defekte paller ikke kasseret, men flyttet tilbage sammen med de øvrige paller. Din største kunde har lige bestilt 15 paller Mangodrik og du ønsker derfor hurtigt at beregne sandsynligheden for, at han har modtaget én eller flere paller med defekte varer. Ligesom med flaskerne er en palle en diskret variabel, en variabel der kan opgøres i hele enheder. Men i modsætning til flaskerne ved vi præcist hvor mange mærkede elementer m (defekte paller 5 7) der er i vores population N (alle paller 5 100). Ved hvert udtag fra populationen (N) ændres sandsynligheden derfor for at udtage en defekt palle. Ved første udtag er sandsynligheden for en defekt palle: Afhængig af om der er blevet udtaget en normal eller en defekt palle, er sandsynligheden for en defekt palle ved andet udtag: 6 99 eller 7 99 Som det fremgår ændres sandsynligheden for en defekt palle således efter hvert udtag. Når vi har en diskret variabel (palle), en kendt population (100 paller) med et bestemt antal mærkede elementer (defekt palle) er variablen hypergeometrisk. Vendes tilbage til udgangspunktet ønskes sandsynligheden for at der blandt 15 paller er en eller flere defekte paller. s. 93

94 Sandsynlighedsfordelinger Fremgangsmåde i den hypergeometriske fordeling: Definition af variabel: X: Defekt palle Model: X ~ h(n 5 100, m 5 7, n 5 15) Hvor N er antal elementer i populationen, m antal mærkede elementer og n stikprøvestørrelsen. Forudsætninger: a) Diskret variabel (en palle) b) n elementer udtages fra en endelig population N (en kunde køber 15 paller ud af i alt 100). c) Ikke konstant sandsynlighed, dvs. afhængighed mellem de enkelte eksperimenter som i foregående eksempel. d) Hvert element kan defineres som mærket eller ikke mærket (ikke-defekt palle/defekt palle). Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg hypergeometrisk og indsæt værdier P(X $ 1) 5 0,6916 Der er således 69,2 % sandsynlighed for, at der som minimum vil være 1 defekt palle blandt de 15 som kunden har bestilt. (Eksempel fortsat) Hvad angår kvalitetsproblemerne med chokoladebagels klages der over, at de ofte mangler chokoladeovertræk. Produktionslederen har estimeret, at der gennemsnitligt er 0,4 bagels, som mangler chokoladeovertræk pr. pose á 2 kg. På den baggrund ønsker du at kende sandsynligheden for, at en given pose vil indeholde en eller flere bagels uden chokoladeovertræk. Da vægten og størrelsen af bagels varierer, er der ikke altid det samme antal bagels i en 2 kg s pose. I stedet for at arbejde med et præcist antal eksperimenter, som i eksemplet med mangodrikken og defekte paller, anvendes et gennemsnit. Herudover er en bagel på lige fod med de to førnævnte variable diskret, hvilket leder os over i poissonfordelingen. Hvad er sandsynligheden for, at en enkelt bagelpose indeholder bagels uden chokoladeovertræk? s. 94

95 Sandsynlighedsfordelinger Fremgangsmåde med poisonfordeling: Definition af variabel: X: Chokoladebagel uden chokoladeovertræk Model: X ~ Ps(l 5 0,4) Forudsætninger: a) Diskret variabel (hele bagels) b) Antal af forekomster af mærkede elementer observeres over en periode el. kvantum (pose á 2 kg). c) Elementerne indtræffer uafhængigt af hinanden. Da en bagel med fejl ikke ændrer på sandsynligheden for, at den næste bagel også produceres med fejl, er produktionsfejl uafhængige af hinanden. Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg poisson og indsæt værdier P(X 5 0) 5 0,6703 Fortolkning: Der er hermed 67 % sandsynlighed for, at en pose bagels ikke indeholder fejl, dvs. bagels uden chokoladeovertræk. Omvendt er der 33 % sandsynlighed for, at en pose indeholder fejl, hvilket ikke kan siges at være helt tilfredsstillende for kunderne. Fremgangsmåde ved normalfordeling: Med nødderne klager kunderne over, at vægten på æskerne med nødder ofte er under de 500 af gram, der står angivet på æsken. I de foregående eksempler kunne vi helt eksakt tælle antallet etikettefejl, defekte paller og chokoladebagels uden overtræk, men med nødderne beskæftiger vi os med vægten pr. æske. I modsætning til diskrete variable er vægt en mere udefinerbar størrelse. Når vi vejer en genstand kender vi aldrig den eksakte vægt, da denne kan angives med uendeligt antal decimaler. Af samme årsag klassificeres variablen vægt som kontinuert, hvilket leder os over i normalfordelingen. s. 95

96 (Eksempel fortsat) Grundlæggende statistik Med Med fokus nødderne på erhvervslivet klager kunderne over, at vægten på æskerne med nødder Sandsynlighedsfordelinger ofte er under de 500 gram der står angivet på æsken. I de foregående eksempler kunne vi helt eksakt tælle antallet etikettefejl, defekte paller og chokoladebagels uden overtræk, men med nødderne beskæftiger Normalfordelingen er alle fordelingers moder og spiller en helt central rolle i statistisk. Betegnelsen vi os med vægten pr. æske. I modsætning til diskrete variable er vægt en mere udefinerbar normalfordelingen skyldes, som du sikkert har gættet, at langt de fleste variable følger en normalfordeling. størrelse. De har Når en vi klokkeformet vejer en genstand sandsynlighedsfordeling kender vi aldrig den med eksakte gennemsnittet vægt da denne i midten kan angives og et ligeligt antal med uendeligt observationer antal på decimaler. hver side. Af samme årsag klassificeres variablen vægt som kontinuert hvilket leder os over i normalfordelingen. FIGUR 32: Normalfordelingen (Standard normalfordeling) Normalfordelingen er alle fordelingers moder og spiller en helt central rolle i statistisk. Betegnelsen P(z) normalfordelingen skyldes, som du sikkert har gættet, at langt de fleste variable følger en normalfordeling. De har en klokkeformet sandsynlighedsfordeling med gennemsnittet i midten og et ligeligt antal observationer på hver side. Figur 17: Normalfordelingen P(z) z z For at forstå tanken med normalfordelingen kan vi antage, at vi udtager en stikprøve på 10 æsker med For nødder at forstå og vejer tanken hver med enkelt normalfordelingen æske. Efterfølgende kan vi inddeler antage, at vi vi observationerne udtager en stikprøve i kategorier på 10 som vist i nedenstående. æsker med nødder og vejer hver enkelt æske. Efterfølgende inddeler vi observationerne i kategorier som vist i nedenstående. FIGUR 33: Fordeling af vægten på 10 tilfældigt udvalgte æsker med nødder Figur 18: Fordeling af vægten på 10 tilfældigt udvalgte æsker med nødder P(x) 30% 20% 10% 0% < 475 x (vægtintervaller af æsker målt i gram) Af Stephan Skovlund (Copyright) Side 105 s. 96

97 Sandsynlighedsfordelinger Fordelingen er tydeligvis usymmetrisk uden de store fællestræk med den normalfordeling, du lige har Fordelingen set. Men øger tydeligvis stikprøvestørrelsen usymmetrisk til uden bare de 100 store æsker, fællestræk vil du med se en den langt normalfordeling mere udglattet du og symmetrisk lige har set. (normal) Men øger fordeling. vi stikprøvestørrelsen til bare 100 æsker vil du se en langt mere udglattet og symmetrisk (normal) fordeling. FIGUR 34: 25% P(x) 20% 15% 10% 5% 0% > < 475 x (vægtintervaller af æsker målt i gram) Årsagen til denne transformation er, at vi har fået flere observationer, der dækker et bredere Årsagen spektrum til denne af værdier. transformation Det betyder er, at vi vi har kan fået inddele flere observationerne observationer, der i mindre dækker og et mere bredere snævre spektrum af værdier. Det betyder at vi kan inddele observationerne i mindre og mere snævre intervaller, intervaller, som er med til at udglatte fordelingens kurve. Bliver vi ved med at øge som er med til at udglatte fordelingens kurve. Bliver vi ved med at øge stikprøvestørrelsen vil vores stikprøvestørrelsen vil vores intervaller blive uendeligt små, hvilket vil få vores fordeling til at intervaller blive uendeligt små, hvilket vil få vores fordeling til at ligne en glat kurve med gennemsnittet ligne i midten glat og kurve tilnærmelsesvis med gennemsnittet halvdelen i midten af observationerne og tilnærmelsesvis på hver halvdelen side af gennemsnittet. af En variabel observationerne der fordeler på sig hver som side netop af gennemsnittet. beskrevet er normalfordelt. En variabel der fordeler sig som netop Det beskrevet der reelt er menes normalfordelt. med normalfordelte variable er, at de har samme egenskaber som FIGUR 35: Det der reelt menes med normalfordelte variable er, at de har samme egenskaber 95% som standardnormalfordelingen. Standardnormalfordelingen er en matematisk model hvor gennem- model, der ligger standardnormalfordelingen. Standardnormalfordelingen er den matematiske 68% snittet til grund er 0, for og eksemplet standardafvigelsen med nødder 1-modellen vi lige har diskuteret. Standardnormalfordelingen baseres betegnes: på såkaldte X~N(m z-værdier, 5 0, s 5 hvilket 1). Standardnormalfordelingen baseres på såkaldte z-værdier, hvilket svarer til et antal standardafvigelser fra gennemsnittet, dvs. midten af fordelingen. Standardnormalfordelingen kendetegnes ved at have en fast svarer til et antal standardafvigelser fra gennemsnittet, dvs. midten af fordelingen. Standardnor- m 1 z sammenhæng mellem antallet af standardafvigelser (z-værdier) fra gennemsnittet m og selve malfordelingen arealet af fordelingen kendetegnes som ved illustreret at have nedenfor. en fast m 2 z sammenhæng mellem antallet af standardafvigelser (z-værdier) fra gennemsnittet og selve arealet af fordelingen som illustreret nedenfor. s. 97 Af Stephan Skovlund (Copyright) Side 106

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

c. Radius for hver sekter er målt i cm og angivet i følgende tabel. Desuden er arealet af hvert område beregnet.

c. Radius for hver sekter er målt i cm og angivet i følgende tabel. Desuden er arealet af hvert område beregnet. Kapitel 2 Øvelse 2.2 Cirklen er inddelt i 12 sektorer, én for hver måned. Antallet af dødsfald vokser kraftigt i juli og august og er højt flere måneder, men stiger yderligere hen over vintermånederne.

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Fagplan for statistik, efteråret 2015

Fagplan for statistik, efteråret 2015 Side 1 af 7 M Fagplan for statistik, efteråret 20 Litteratur Kenneth Hansen & Charlotte Koldsø (HK): Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave, ISBN 9788741256047 HypoStat

Læs mere

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Beskrivende statistik

Beskrivende statistik Beskrivende statistik Stikprøve af størrelse n for variablen x: x 1, x 2,, x n Beskriv fordelingen af data med nogle få talstørrelser. Centralt mål: en værdi som data er centreret om. Variationsmål: mål

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Deskriptiv statistik for hf-matc

Deskriptiv statistik for hf-matc Deskriptiv statistik for hf-matc 75 50 25 2018 Karsten Juul Deskriptiv statistik for hf-matc Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede og ugrupperede data?...

Læs mere

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet

Projekt 1 Spørgeskemaanalyse af Bedst på Nettet Projekt 1 Spørgeskemaanalyse af Bedst på Nettet D.29/2 2012 Udarbejdet af: Katrine Ahle Warming Nielsen Jannie Jeppesen Schmøde Sara Lorenzen A) Kritik af spørgeskema Set ud fra en kritisk vinkel af spørgeskemaet

Læs mere

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium Deskriptiv (beskrivende) statistik er den disciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale. Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser,

Læs mere

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere

Analyse af en lineær regression med lav R 2 -værdi

Analyse af en lineær regression med lav R 2 -værdi Analyse af en lineær regression med lav R 2 -værdi Denne gennemgang omhandler figur 13 i Regn med biologi. Man kan sagtens lave beregninger på egne data. Forsøgsmæssigt kræver det bare en tommestok tapet

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Deskriptiv statistik for matc i stx og hf

Deskriptiv statistik for matc i stx og hf Deskriptiv statistik for matc i stx og hf 75 50 25 2019 Karsten Juul Deskriptiv statistik for matc i stx og hf Hvad er deskriptiv statistik? 1.1 Hvad er deskriptiv statistik?... 1 1.2 Hvad er grupperede

Læs mere

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS INDHOLD 2 Formål 2 LOPAKS 3 Begreber 6 Eksempler 6. december 2010 LOPAKS er nu udvidet med en ny tabel, der giver mulighed for at opgøre lønspredning på

Læs mere

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test. Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ -test og Goodness of Fit test. Anvendelser af statistik Statistik er et levende og fascinerende emne, men at læse om det er alt

Læs mere

Lektion 9s Statistik - supplerende eksempler

Lektion 9s Statistik - supplerende eksempler Lektion 9s Statistik - supplerende eksempler Middelværdi for grupperede observationer... Summeret frekvens og sumkurver... Indekstal... Lektion 9s Side 1 Grupperede observationer Hvis man stiller et spørgsmål,

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Kapitel 7 Introduktion til statistik Organisering af data Diskrete variabler Kontinuerte variabler Beskrivende statistik Fraktiler Gennemsnit Empirisk varians og spredning Empirisk korrelationkoe

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt? Projektet drejer sig om at udvikle en metode, til at undersøge om et givet talmateriale med rimelighed kan siges at være normalfordelt.

Læs mere

for gymnasiet og hf 2017 Karsten Juul

for gymnasiet og hf 2017 Karsten Juul for gymnasiet og hf 75 50 5 017 Karsten Juul Statistik for gymnasiet og hf 017 Karsten Juul 5/11-017 Nyeste version af dette hæfte kan downloades fra http://mat1.dk/noter.htm Hæftet må benyttes i undervisningen

Læs mere

En statistisk analyse af aktieafkast

En statistisk analyse af aktieafkast En statistisk analyse af aktieafkast Af cand.scient.oecon. Erik Christiansen IBC Kolding Efterår 2008 Forord Kan man ved bruge af statistiske modeller og de historiske aktiekurser forudsige fremtidens

Læs mere

Forelæsning 1: Intro og beskrivende statistik

Forelæsning 1: Intro og beskrivende statistik Kursus 02402 Introduktion til Statistik Forelæsning 1: Intro og beskrivende statistik Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby

Læs mere

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens Oversigt Oversigt over emner 1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens 2 Konfidensinterval Konfidensinterval for andel Konfidensinterval - normalfordelt stikprøve

Læs mere

Skriftlig eksamen i samfundsfag

Skriftlig eksamen i samfundsfag OpenSamf Skriftlig eksamen i samfundsfag Indholdsfortegnelse 1. Introduktion 2. Præcise nedslag 3. Beregninger 3.1. Hvad kan absolutte tal være? 3.2. Procentvis ændring (vækst) 3.2.1 Tolkning af egne beregninger

Læs mere

SPAM-mails. ERFA & Søren Noah s A4-Ark 2010. Køber varer via spam-mails. Læser spam-mails. Modtager over 40 spam-mails pr. dag. Modtager spam hver dag

SPAM-mails. ERFA & Søren Noah s A4-Ark 2010. Køber varer via spam-mails. Læser spam-mails. Modtager over 40 spam-mails pr. dag. Modtager spam hver dag SPAM-mails Køber varer via spam-mails Læser spam-mails Modtager over 40 spam-mails pr. dag Modtager spam hver dag 0 10 20 30 40 50 60 70 80 90 ERFA & Søren Noah s A4-Ark 2010 Datapræsentation: lav flotte

Læs mere

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen Microsoft Excel har en del standard anvendelsesmuligheder i forhold til den beskrivende statistik og statistisk

Læs mere

Per Vejrup-Hansen Praktisk statistik. Omslag: Torben Klahr.dk Lundsted Grafisk tilrettelæggelse: Samfundslitteratur Grafik Tryk: Narayana Press

Per Vejrup-Hansen Praktisk statistik. Omslag: Torben Klahr.dk Lundsted Grafisk tilrettelæggelse: Samfundslitteratur Grafik Tryk: Narayana Press Per Vejrup-Hansen Praktisk statistik 6. 5. udgave 2008 2013 Omslag: Torben Klahr.dk Lundsted Grafisk tilrettelæggelse: Samfundslitteratur Grafik Tryk: Narayana Press ISBN Trykt 978-87-593-1381-7 bog ISBN

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Oversigt. Kursus 02402 Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information Kursus 02402 Forelæsning 1: Intro og beskrivende statistik Oversigt 1 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Maj 2013 Institution Roskilde Handelsskole Uddannelse Fag og niveau Lærer(e) Hold Hhx Matematik B Henrik Laursen

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin maj-juni 16/17 Institution Uddannelse Fag og niveau Lærer(e) Haderslev Handelsskole hhx Matematik B Mette

Læs mere

Kapitel 3 Centraltendens og spredning

Kapitel 3 Centraltendens og spredning Kapitel 3 Centraltendens og spredning Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 25 Indledning I kapitel 2 omsatte vi de rå data til en tabel, der bedre viste materialets fordeling

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014

Løsning til opgave 7, 9, 10 og 11C Matematik B Sommer 2014 Vejledning til udvalgte opgave fra Matematik B, sommer 2014 Opgave 7 Størrelsen og udbudsprisen på 100 fritidshuse på Rømø er indsamlet via boligsiden.dk. a) Grafisk præsentation, der beskriver fordelingen

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Statistik (deskriptiv)

Statistik (deskriptiv) Statistik (deskriptiv) Ikke-grupperede data For at behandle ikke-grupperede data i TI, skal data tastes ind i en liste. Dette kan gøres ved brug af List, hvis ikon er nr. 5 fra venstre på værktøjsbjælken

Læs mere

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version university of copenhagen University of Copenhagen Notat om statistisk inferens Larsen, Martin Vinæs Publication date: 2014 Document Version Peer-review version Citation for published version (APA): Larsen,

Læs mere

for gymnasiet og hf 2016 Karsten Juul

for gymnasiet og hf 2016 Karsten Juul for gymnasiet og hf 75 50 5 016 Karsten Juul Statistik for gymnasiet og hf Ä 016 Karsten Juul 4/1-016 Nyeste version af dette håfte kan downloades fra http://mat1.dk/noter.htm HÅftet mç benyttes i undervisningen

Læs mere

Hvad siger statistikken?

Hvad siger statistikken? Eleverne har tidligere (fx i Kolorit 7, matematik grundbog) arbejdet med især beskrivende statistik (deskriptiv statistik). I dette kapitel fokuseres i højere grad på, hvordan datamateriale kan tolkes

Læs mere

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala 3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Samfundsfagslærerens lille manual vol. II

Samfundsfagslærerens lille manual vol. II Samfundsfagslærerens lille manual vol. II Hvilke beregningsopgaver bør trænes i undervisningen? Formålet her er, at danne overblik over hvilke beregningsopgaver der hører ind under daglig samfundsfagsundervisningen

Læs mere

Indblik i statistik - for samfundsvidenskab

Indblik i statistik - for samfundsvidenskab Indblik i statistik - for samfundsvidenskab Læs mere om nye titler fra Academica på www.academica.dk Nikolaj Malchow-Møller og Allan H. Würtz Indblik i statistik for samfundsvidenskab Academica Indblik

Læs mere

Statistik - supplerende eksempler

Statistik - supplerende eksempler - supplerende eksempler Grupperede observationer: Middelværdi og summeret frekv... 82b Indekstal... 82c Median, kvartil, boksplot... 82e Sumkurver... 82h Side 82a Grupperede observationer: Middelværdi

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Sommer 2015 Institution Campus vejle Uddannelse Fag og niveau Lærer(e) Hold HHX Matematik B (Valghold) PEJE

Læs mere

Løsninger til kapitel 1

Løsninger til kapitel 1 Opgave. a) observation hyppighed frekvens kum. frekvens 2,25,25 3,875,325 2 3,875,5 3 3,875,6875 4,625,75 5,625,825 6,,825 7 2,25,9375 8,,9375 9,625, Frekvenser illustreres i et pindediagram,2,8,6,4,2,,8,6,4,2

Læs mere

Bilag 1: Robusthedsanalyser af effektiviseringspotentialerne. Bilaget indeholder analyser af effektiviseringspotentialernes robusthed.

Bilag 1: Robusthedsanalyser af effektiviseringspotentialerne. Bilaget indeholder analyser af effektiviseringspotentialernes robusthed. Bilag 1: Robusthedsanalyser af effektiviseringspotentialerne Bilaget indeholder analyser af effektiviseringspotentialernes robusthed. FORSYNINGSSEKRETARIATET OKTOBER 2013 Indholdsfortegnelse Indledning

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Årsplan i matematik 9 klasse. 2018/2019 Abdiaziz Farah

Årsplan i matematik 9 klasse. 2018/2019 Abdiaziz Farah Årsplan i matematik 9 klasse. 2018/2019 Abdiaziz Farah Eleverne arbejder med fem hovedemner 1) Tal, systemer og regneregler 2) Økonomi 3) Trigonometri 4) Data og Chance 5) Grafer og lineære sammenhæng

Læs mere

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal.

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal. Statistik Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal. Derved får man et samlet overblik over talmaterialet, og man kan konkludere

Læs mere

Estimation og usikkerhed

Estimation og usikkerhed Estimation og usikkerhed = estimat af en eller anden ukendt størrelse, τ. ypiske ukendte størrelser Sandsynligheder eoretisk middelværdi eoretisk varians Parametre i statistiske modeller 1 Krav til gode

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin juni 2019 Institution Uddannelse Fag og niveau Lærer(e) Hold Haderslev Handelsskole hhx Matematik B Carsten

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Dig og din puls Lærervejleding

Dig og din puls Lærervejleding Dig og din puls Lærervejleding Indledning I det efterfølgende materiale beskrives et forløb til matematik C, hvori eleverne skal måle hvilepuls og arbejdspuls og beskrive observationerne matematisk. Materialet

Læs mere

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning Intro til statistik Rasmus F. Brøndum, Institut 17 (Matematik) Hjemmeside: people.math.aau.dk/~froberg 22 forelæsninger (hvor af jeg afholder de første 13) + det samme antal øvelsesgange. Hjælpelærer:

Læs mere

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2. C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b. 5.000 4.800 4.600 4.400 4.00 4.000 3.800 3.600 3.400 3.00 3.000 1.19% 14.9% 7.38% 40.48% 53.57% 66.67% 79.76% 9.86% 010 011

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Maj/juni 2012 (denne beskrivelse dækker efterår 2011 og forår 2012) Institution Roskilde Handelsskole Uddannelse

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Termin Efterår 2016 Institution Niels Brock Uddannelse Fag og niveau Lærer Hold HHX Matematik - Niveau B Peter Harremoës GSK hold: t16gymabu1o1 Oversigt over gennemførte undervisningsforløb

Læs mere

Statistik viden eller tilfældighed

Statistik viden eller tilfældighed MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Introduktion 1 Formelt Lærere: Esben Budtz-Jørgensen Jørgen Holm Petersen Øvelseslærere: Berivan+Kathrine, Amalie+Annabell Databehandling: SPSS

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Juni 2019 Institution Videndjurs - Handelsgymnasium Grenaa Uddannelse Fag og niveau Lærer(e) Hold HHX Matematik

Læs mere

At kommunikere i diagrammer

At kommunikere i diagrammer At kommunikere i diagrammer Statistik formidles grafisk i kurver, søjler, cirkler og tabeller, målet er at formidle data i form af tal på en let og overskuelig måde, så læseren hurtigt kan danne sig et

Læs mere

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning Statistik Introduktion Deskriptiv statistik Sandsynslighedregning Introduktion Kasper K. Berthelsen, Institut f. Mat. Fag 8 Kursusgange Individuel mundtlig eksamen (7-skala) Udgangspunkt i opgaver Software:

Læs mere

Kundernes tilfredshed med skadesforsikringsselskaberne i Danmark

Kundernes tilfredshed med skadesforsikringsselskaberne i Danmark [0] Dansk KundeIndex 2003 skadesforsikring Kundernes tilfredshed med skadesforsikringsselskaberne i Danmark Hovedresultater Indledning og metode For tredje år i træk gennemføres en samlet kundetilfredshedsundersøgelse

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Institution Uddannelse Fag og niveau Lærer e-mailadresse Hold Termin hvori undervisningen afsluttes: Maj/Juni,

Læs mere

hvor y antages approksimeret ved normalfordeling med middelværdi y og varians va^r(y): y ± u 1-/2 # cv(y) # y = y(1 ± u 1-/2 # cv(y))

hvor y antages approksimeret ved normalfordeling med middelværdi y og varians va^r(y): y ± u 1-/2 # cv(y) # y = y(1 ± u 1-/2 # cv(y)) 1 Opgave II.1 a) Stikprøvevariansen er vidt forskellig for de fire varetyper, men denne absolutte størrelse er vanskelig at sammenligne på tværs af varetyper, da disse har vidt forskellige niveauer, målt

Læs mere

OM RISIKO. Kender du muligheder og risici ved investering?

OM RISIKO. Kender du muligheder og risici ved investering? OM RISIKO Kender du muligheder og risici ved investering? Hvad sker der, når du investerer? Formålet med investeringer er at opnå et positivt afkast. Hvis du har forventning om et højt afkast, skal du

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Maj/Juni 2014 Institution Vejen Business College Uddannelse Fag og niveau Lærer(e) Hold HHX Matematik niveau

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Institution Uddannelse Fag og niveau Lærer(e) Hold Termin hvori undervisningen afsluttes: Maj-juni, 11. Denne

Læs mere

Per Vejrup-Hansen STATISTIK. med Excel. 2. udgave

Per Vejrup-Hansen STATISTIK. med Excel. 2. udgave Per Vejrup-Hansen STATISTIK med Excel 2. udgave Per Vejrup-Hansen Statistik med Excel Per Vejrup-Hansen Statistik med Excel 2. trykte udgave 2012 1. e-bogsudgave 2012 Samfundslitteratur 2012 e-isbn: 978-87-593-1736-5

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

Der er ikke væsentlig niveauforskel i opgaverne inden for de fire emner, men der er fokus på forskellige matematiske områder.

Der er ikke væsentlig niveauforskel i opgaverne inden for de fire emner, men der er fokus på forskellige matematiske områder. Dette tema lægger forskellige vinkler på temaet biografen. Udgangspunktet er således ikke et bestemt matematisk område, men et stykke virkelighed, der bl.a. kan beskrives ved hjælp af matematik. I dette

Læs mere

Økogården. Virksomheds- og situationsbeskrivelse. Problemformuleringer. Økogården

Økogården. Virksomheds- og situationsbeskrivelse. Problemformuleringer. Økogården Økogården Økogården Virksomheds- og situationsbeskrivelse I 2008 besluttede 8 landmænd at lave et kooperativ, der som nicheproduktion skulle producere og forhandle økologiske madvarer direkte til forbrugeren.

Læs mere

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen 1 Velkommen til kurset Teoretisk Statistik Lærer: Niels-Erik Jensen Plan for i dag: 1. Eks: Er euro'en skæv? 4. Praktiske informationer 2. Eks: Regressionsmodel (kap. 1) 5. Lidt om kursets indhold 3. Hvad

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel: Normal fordeling Tæthedsfunktion for normalfordeling med middelværdi µ og varians σ 2 : Program (8.15-10): f() = 1 µ)2 ep( ( 2πσ 2 2σ 2 ) E µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4 1. vigtige sandsynlighedsfordelinger:

Læs mere

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave]

Statistik med TI-Nspire CAS version 3.2. Bjørn Felsager September 2012. [Fjerde udgave] Statistik med TI-Nspire CAS version 3.2 Bjørn Felsager September 2012 [Fjerde udgave] Indholdsfortegnelse Forord Beskrivende statistik 1 Grundlæggende TI-Nspire CAS-teknikker... 4 1.2 Lister og regneark...

Læs mere

Bemærkninger til den mundtlige årsprøve i matematik

Bemærkninger til den mundtlige årsprøve i matematik Spørgsmål til årsprøve 1v Ma 2008 side 1/5 Steen Toft Jørgensen Bemærkninger til den mundtlige årsprøve i matematik IT-værktøjer Jeg forventer, at I er fortrolige med lommeregner TI-89 og programmerne

Læs mere

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER

UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER UNDERVISNINGSEFFEKT-MODELLEN 2006 METODE OG RESULTATER Undervisningseffekten udregnes som forskellen mellem den forventede og den faktiske karakter i 9. klasses afgangsprøve. Undervisningseffekten udregnes

Læs mere

Fagårsplan 10/11 Fag: Matematik Klasse: 7.ABC Lærer: Henrik Stillits. Fagområde/ emne

Fagårsplan 10/11 Fag: Matematik Klasse: 7.ABC Lærer: Henrik Stillits. Fagområde/ emne Fagårsplan 10/11 Fag: Matematik Klasse: 7.ABC Lærer: Henrik Stillits. Fagområde/ emne Matematiske færdigheder Grundlæggende færdigheder - plus, minus, gange, division (hele tal, decimaltal og brøker) Identificer

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Asbjørn Madsen Årsplan for 8. klasse Matematik Jakobskolen

Asbjørn Madsen Årsplan for 8. klasse Matematik Jakobskolen Årsplan for matematik i 8. klasse Årsplanen er opbygget ud fra kapitlerne i kernebogen Kontext+ 8. De forskellige kapitler tager udgangspunkt i matematikholdige kontekster, som eleverne på den ene eller

Læs mere

Bilag 1: Prisudvikling, generelt effektiviseringskrav og robusthedsanalyser FORSYNINGSSEKRETARIATET AUGUST 2014 VERSION 3

Bilag 1: Prisudvikling, generelt effektiviseringskrav og robusthedsanalyser FORSYNINGSSEKRETARIATET AUGUST 2014 VERSION 3 Bilag 1: Prisudvikling, generelt effektiviseringskrav og robusthedsanalyser FORSYNINGSSEKRETARIATET AUGUST 2014 VERSION 3 Indholdsfortegnelse Indledning Prisudvikling 2.1 Prisudviklingen fra 2014 til

Læs mere

Middelværdi med mere... 76 Hyppighed og frekvens... 77 Diagrammer... 78 Hvilket diagram er bedst?... 80 Grupperede observationer...

Middelværdi med mere... 76 Hyppighed og frekvens... 77 Diagrammer... 78 Hvilket diagram er bedst?... 80 Grupperede observationer... Statistik Middelværdi med mere... 76 Hyppighed og frekvens... 77 Diagrammer... 78 Hvilket diagram er bedst?... 80 Grupperede observationer... 81 Statistik Side 75 Når man skal holde styr på mange oplysninger,

Læs mere