GRUNDLÆGGENDE STATISTIK

Transkript

1 Stephan Skovlund APRIL 2013 GRUNDLÆGGENDE STATISTIK Statistik med fokus på anvendelighed i erhvervslivet Statistik Excel - Dataanalyse Statlearn.com

2 Indholdsfortegnelse FORORD... 6 KAPITEL 1: STATISTIKKENS ABC... 8 KAPITEL 2: BESKRIVENDE STATISTIK Punktestimater beskrivelse af stikprøven Valg af gennemsnit eller median Alternative mål for spredning Kvartiler Procentiler Kurtosis Punktestimater for grupperede data Opsummering af punktestimater Grafer Illustration af data Indeks tal Appendiks Beskrivende statistik Øvelser i beskrivende statistik Løsninger til beskrivende statistik Anvendelse af Excel til beskrivende statistik Udvalgte videolektioner (klik på links) KAPITEL 3: GRUNDLÆGGENDE SANDSYNLIGHEDSREGNING Forskellige typer af sandsynligheder Grundlæggende forudsætninger Grundlæggende begreber Foreningsmængden ( ELLER hændelsen) Komplementær hændelsen Betingende sandsynligheder Afhængige hændelser Regneregler for sandsynligheder Øvelser Løsninger Videolektioner > s. 2

3 KAPITEL 4: STOKASTISK VARIABEL Regneregler for en stokastisk variabel Øvelser med stokastisk variabel Løsninger til stokastisk variabel KAPITEL 5: SANDSYNLIGHEDSFORDELINGER Relativ frekvens- og teoretiske fordelinger Forskellige fordelinger Oversigter over fordelinger og deres kendetegn Case Opsummering Fordelingsøvelser Løsninger til sandsynlighedsfordelinger Appendiks 1: Approksimationsregler KAPITEL 6: KONFIDENSINTERVALLER Konfidensintervaller som koncept Den centrale grænseværdisætning Normalfordelingens rolle Betydningen af konfidensniveauet Konfidensintervallets grundelementer Opsummering Bestemmelse af stikprøvestørrelse såfremt en specifik bredde af konfidensinterval er angivet Fremgangsmåde til beregning af konfidensintervaller Oversigt over konfidensintervaller, 1 stikprøve Beregning af konfidensintervaller (KI), 1 stikprøve Eksempler på konfidensintervaller for en stikprøve Konfidensintervaller for to stikprøver Oversigt over konfidensintervaller for differensen Beregning af konfidensintervaller for differensen Eksempler på konfidensintervaller for differens Øvelser med konfidensintervaller Løsninger til konfidensintervaller s. 3

4 KAPITEL 7: HYPOTESETEST Hypotesetest som koncept Opsummering Generel metode til løsning af hypotesetest Hypotesetest oversigt, 1 stikprøve Beregning af hypotesetest, 1 stikprøve Beregning af styrken (type 2 fejl) ved test af andele Beregning af styrken (type 2 fejl) ved test af gennemsnit Eksempler på hypotesetest med en stikprøve Hypotesetest med to stikprøver Beregning af hypotesetest, 2 stikprøver Eksempler på hypotesetest med 2 stikprøver Variansanalyse (ANOVA) Eksempel på variansanalyse Øvelser med hypotesetest Løsninger til hypotesetest KAPITEL 8: REGRESSIONSANALYSE Korrelationsanalyse Ekstreme observationer - Outliers Simpel lineær regression Mindste Kvadrat Metoden (MKM) Fremgangsmåde ved regressionsanalyse Eksempel på anvendelse af simpel lineær regression Forudsigelsesinterval Multipel regression Faldgrupper ved multipel regression Valg af den optimale regressionsmodel Sammenligning af regressionsmodeller Tilføjelse af en kvalitativ variabel (dummy variabel) Øvelser med regressionsanalyse Løsninger til regressionsanalyse s. 4

5 Appendiks til regressionsafsnit KAPITEL 9: STIKPRØVETEORI Introduktion til før og efterstratifikation Førstratifikation Punktestimater af andele og middelværdi ved stratifikation Eksempler på et stratificeret konfidensinterval Øvelser med stratifikation Løsninger til stratifikation KAPITEL 10: MULTINOMISKE HYPOTESETEST Beregning af multinomiske test Anvendelsesområder for multinomiske test Antalstabeller Analyse af teststørrelsen Formler til beregning af multinomiske test Eksempler på beregning af multinomiske test Øvelser med multinomiske hypotesetest Løsninger til multinomiske hypotesetest s. 5

6 Forord Ikølvandet på de sidste års rivende IT revolution har statistik gennemgået en drastisk udvikling. Den stigende digitalisering af virksomheders forretningsgange og hastigheden hvormed informationer spredes, har medført et øget behov for statistik til at tøjle de markante mængder af data der ophobes. Denne bog er skrevet i erkendelse af, at mange studerende får brug for praktiske talfærdigheder på deres fremtidige arbejdsplads. Her vil der være et behov for solidt kendskab til grundlæggende dataanalyse og effektiv håndtering af store datamængder. I det perspektiv vil det være i de færrestes interesse, at få en uddybende gennemgang af teoretisk statistik og matematisk bevisførelse. Derfor har denne bog nedtonet mængden af formler og i stedet øget mængden af forklaringer. Målet er at gøre de statistiske koncepter intuitive og mest af alt mulige at omsætte i praksis. For at styrke den studerende i anvendelsen af statistiske analyser medfølger et statistikprogram, som kan anvendes til at beregne alle de analyser der bliver gennemgået i bogen. Herudover er der et grundlæggende kursus i Excel, som er en forudsætning for at arbejde effektivt med tal. Excel fik i 2007 en gennemgribende opgradering og der kom mange vigtige funktioner som bliver gennemgået i Excelkurset. Excelkurset baseres på videolektioner som du kan finde på ccved at logge dig ind med din tilsendte adgangskode. I skrivende stund er der omkring 500 stillingsopslag på hvor gode Excel kundskaber er et krav - God læselyst! Med venlig hilsen Stephan Skovlund Videolektioner > s. 6

7 KAPITEL 1 STATISTIKKENS ABC Statlearn.com

8 KAPITEL 1 Statistikkens ABC Statistikkens ABC Statistik tager sit udgangspunkt i den del af matematikken, der har til formål at indsamle, beskrive og analysere tal. I stort set alle dele af samfundet indgår statistik som et centralt Statistik element tager i de sit processer udgangspunkt der skal i den skabe del overblik af matematikken, og hjælpe os der med har at til træffe formål de rigtige at indsamle, beskrive beslutninger. og analysere tal. I stort set alle dele af samfundet indgår statistik som et centralt element i de processer, der skal skabe overblik og hjælpe os med at træffe de rigtige beslutninger. Ordet statistik kommer af status som er den latinske betegnelse for tilstand. I tidernes morgen Ordet statistik kommer af status, som er den latinske betegnelse for tilstand. I tidernes morgen blev statistik anvendt til at skabe overblik over befolkningsvækstens under romerrigets blev statistik anvendt til at skabe overblik over befolkningsvækstens under romerrigets ekspansion. I den efterfølgende ekspansion. tid I den har statistik efterfølgende undergået tid har en statistik drastisk undergået udvikling, en og drastisk er i dag blevet udvikling, en sofistikeret og i dag videnskab, blevet der en har sofistikeret spredt sig videnskab til alle hjørner der har af samfundet. spredt sig til Essensen alle hjørner af statistik af samfundet. er dog Essensen uændret. af Behovet statistik for omdanne er dog uændret. store datamængder Behovet for at til omdanne viden og store tydeliggøre datamængder sammenhænge, til viden og er tydeliggøre mindst ligeså aktuel i dag som dengang romerne skulle optælles. sammenhænge, er mindst ligeså aktuel i dag som dengang romerne skulle optælles. Helt grundlæggende kan vi opdele statistik i to områder, den beskrivende og induktive statistik. Helt grundlæggende kan vi opdele statistik i to områder, den beskrivende og induktive statistik. Ligesom ord kan beskrive karaktertræk for et ansigt, kan beskrivende statistik anvendes til at beskrive Ligesom karaktertræk ord kan for data. beskrive karaktertræk for et ansigt, kan beskrivende statistik anvendes til at Med induktiv beskrive statistik karaktertræk forsøger for man, data. generalisere for en hel population på baggrund af en stikprøve. Induktiv statistik er, når man udtager en stikprøve på eksempelvis 100 danskere og ud fra Med induktiv statistik forsøger man, at generalisere for en hel population på baggrund af en denne stikprøve forsøger at sige noget om hele populationen, der består af alle danskere. stikprøve. Induktiv statistik er, når man udtager en stikprøve på eksempelvis 100 danskere og ud fra denne stikprøve FIGUR 1: forsøger at sige noget om hele populationen der består af alle danskere. N n For at kunne anvende statistik må vi nødvendigvis have data at arbejde med. Data kan enten For at kunne anvende statistik må vi nødvendigvis have data at arbejde med. Data kan enten komme fra en population (N) eller en stikprøve (n). komme fra en population (N) eller en stikprøve (n). Populationen kan defineres som du ønsker. Afhængig af formålet med din analyse kan en population være alt fra et lands befolkning til antallet af bildæk på et lager. Populationen skal Videolektioner > s. 8 Af Stephan Skovlund (Copyright) Side 7

9 Statistikkens ABC Populationen kan defineres som du ønsker. Afhængig af formålet med din analyse kan en population være alt fra et lands befolkning til antallet af bildæk på et lager. Populationen skal opfattes som den samlede mængde af mulige observationer - eksempelvis alle danskere eller alle bildæk på et lager. Stikprøven er et antal observationer udtaget fra den givne population. At indsamle data for en hel population er både tids- og ressourcekrævende, derfor anvender man næsten altid stikprøvedata. Formålet med stikprøven er, at skabe en minipopulation som derefter kan anvendes til at beskrive tendenser eller særlige karakteristika for hele populationen, hvilket kendetegner induktiv statistik. Op til et valg i Danmark udtager medierne jævnligt stikprøver, exit pools, for at se hvilket parti der vil få flest stemmer. I denne sammenhæng er populationen (N) samtlige 2,3 millioner stemmeberettigende danskere. Stikprøven (n) er sammensat af tilfældigt udvalgte personer fra populationen og udgør blot en lille del af den samlede population. De termer vi anvender for en population og stikprøve er byggestenene i statistik, så lad os derfor bruge et kort øjeblik på at definere begreberne. Termer som eksempelvis gennemsnit og standardafvigelse anvendes for både population og stikprøve, men angives med forskellige symboler. De beregninger der foretages ud fra populationsdata kaldes populationsparametre og angives hovedsagligt med græske bogstaver. De beregninger der foretages ud fra en stikprøve kaldes punktestimater og angives med bogstaverne fra vores eget alfabet. De mest gængse termer fremgår af den nedenstående tabel. Deres betydning diskuteres i afsnittet: Beskrivende statistik. Er du er en anelse forvirret over de nye fagtermer så holdt fast i, at essensen af statistik er at beskrive en hel population på baggrund af en stikprøve. TABEL 1: Populationsparametre og punktestimater Betegnelse Populationsparameter Punktestimat Gennemsnit m x Standardafvigelsen s s Varians s 2 s 2 Andel p pˆ Intensitet l lˆ Formler til de enkelte beregninger findes i appendiks til afsnittet om Beskrivende statistik. s. 9

10 KAPITEL 2 BESKRIVENDE STATISTIK Statlearn.com

11 KAPITEL 2 Beskrivende Statistik Vi fortolker dagligt mere eller mindre bevidst store mængder informationer. Medierne er blevet relativt sofistikerede til at anvende grafer og nøgletal for at reducere store datamængder til letforståelige informationer. Den del af statistikken, som beskriver data med estimater og grafer, betegnes som beskrivende statistik. Ofte er anvendelsen af beskrivende statistik ikke en mulighed, men en nødvendighed. Når du kommer ud i en virksomhed vil du sandsynligvis skulle håndtere store datamængder i et regneark som Excel. Om det er finansielle nøgletal eller ren og skær dataanalyse er sådan set underordnet. Formålet er at reducere data til essentiel information, og præsentere det på en letforståelig måde. Beskrivende statistik omfatter at reducere data til essentiel information, og præsentere det på en letforståelig måde. Indledningsvis skal det nævnes, at de beregninger vi anvender i forbindelse med dette afsnit, alle kan foretages med Statlearn programmet. Punktestimater beskrivelse af stikprøven Som vi var inde på i afsnittet: Statistikkens ABC sondres der mellem punktestimater og populationsparametre. Ligesom ord kan beskrive karaktertræk ved et ansigt, kan punktestimater og populationsparametre beskrive karaktertræk for en stikprøve eller en population. Dette er ikke synderligt relevant, hvis du arbejder med få data, men hvis du sidder med datarækker i et regneark og mangler overblikket, kan punktestimater give dig en hurtig og værdifuld indsigt. Lad os antage du arbejder som aktieanalytiker i Danske Bank. Du er i den forbindelse blevet bedt om at foretage en risikoanalyse af tre aktier. Formålet med analysen er at undersøge hvordan aktiekurserne for hhv. Microsoft, Nike og Danisco har udviklet sig i perioden januar juli Resultatet af analysen skal anvendes til at rådgive en kunde, som ønsker sig en aktie med en lav risikoprofil. Kaster vi et hurtigt blik på kurserne i tabel 2, kan vi umiddelbart se, at alle aktierne har haft en vis variation i perioden. Skal vi grave et spadestik dybere og udpege den aktie, der oplevede det største kursudsving og dermed var mest risikobetonet, bliver det straks en anelse vanskeligere at vurdere ved blot at læse tallene i tabellen. Videolektioner > s. 11

12 Beskrivende Statistik TABEL 2: Aktiekurser til beskrivende statistik Microsoft Nike Danisco jan 35,8 64,3 73,6 feb 31,1 61,6 66,2 mar 27,2 60,2 66,2 apr 28,8 68,6 70,4 maj 28,5 66,8 67,0 jun 28,2 68,3 65,9 jul 25,9 58,4 65,7 For at udvikle et sammenligningsgrundlag for de tre aktier, kan vi starte med at beregne gennemsnitskursen. Gennemsnittet, som også betegnes middelværdi og forventet værdi, er et mål for den centrale værdi i datasættet, heraf betegnelsen middelværdi. TABEL 3: Beregning af gennemsnit Populationsparameter for gennemsnit m 5 1 N N x i i51 Punktestimat af gennemsnit x 5 1 n n x i i51 Valg af gennemsnit eller median Et gennemsnit skal anvendes med det forbehold, at data skal være relativt normalfordelt 1 som i nedenstående fordeling A. I afsnittet om fordelinger kommer vi nærmere ind på betydningen af normalfordelingen. Indtil videre kan vi blot hæfte os ved, at data kan være fordelt forskelligt som i figur 1. FIGUR 2: Normal versus skæve fordelinger P(X) A Normal fordeling B Højreskæv fordeling C Venstreskæv fordeling 1 Normalfordelingen refererer til data, der følger en klokkeformet symmetrisk fordeling omkring gennemsnittet, se mere herom i afsnittet om fordelinger. s. 12

13 Beskrivende Statistik Er fordelingen af data enten højre- eller venstreskæv som i henholdsvis B og C, tyder det på, at enkelte observationer afviger meget i forhold til de øvrige, heraf skævheden. I de tilfælde er medianen et mere repræsentativt mål end et gennemsnit. Medianen er værdien af den midterste observation i et datasæt, der er sorteret fra laveste til højeste værdi, hvilket med andre ord kaldes, at datasættet er sorteret stigende. I modsætning til gennemsnittet er medianen ikke påvirkelig for ekstremobservationer, da den repræsenterer værdien af datasættets midterobservation. Medianen påvirkes dermed ikke af de ekstraordinære høje eller lave værdier, som kendetegner skæve fordelinger. TABEL 4: Beregning af median og gennemsnit i en stikprøve Median (stikprøve) Median 5 (n 1 1) 2 Gennemsnit (stikprøve) 1 x 5 n n x i i51 Lad os tage et simpelt eksempel. Forestil dig en by hvor 99 % af husstandene tjener kr., og den sidste 1 % af husstandene tjener 100 millioner. Vi kan ræsonnere os til, at gennemsnittet vil blive trukket gevaldigt op af den ene procents høje indkomster. I denne situation vil vi have en meget højreskæv fordeling af indkomsten. Gennemsnittet vil således blive alt for højt og dermed et dårligt mål for datasættets centrale værdi. Det er derfor vigtigt at fastlægge, i hvor høj grad dine data er normalfordelte, inden et gennemsnit tages i brug. For at beregne om data er normalfordelte eller skæve, anvendes et mål for skævheden. Skævhed indikerer i hvor høj grad dine data er skæve eller symmetriske. Formlen for skævheden fremgår af appendiks til dette afsnit. Er skævhedens værdi negativ, er fordelingen af data venstreskæv, og omvendt vil fordelingen af data være højreskæv ved en positiv skævhedsværdi. Er data helt normalfordelte er skævheden tilnærmelsesvis 0. TABEL 5: Fortolkning af fordelingens skævhed Venstreskæv Normalfordelt Højreskæv skævhed, 0 skævhed 5 0 skævhed. 0 For en mere eksakt vurdering af hvorvidt data er normalfordelte anvendes en hypotesetest, se mere herom i afsnittet om multinomiske hypotesetest. Vender vi tilbage til eksemplet med kursudviklingen for de tre aktier og antager at kursudviklingen er normalfordelt, beregnes den gennemsnitlige kurs som i følgende. s. 13

14 Beskrivende Statistik TABEL 6: Gennemsnit for de tre aktiekurser (ud fra stikprøve) Microsoft Nike Danisco Sum af kurserne 205,5 448,2 475 Antal obs. (n) x (sum/n) 29, ,9 Nu hvor vi har identificeret gennemsnittet, er det næste skridt at se på variationen i kurserne. Denne information er afgørende for at kunne sammenholde risikoen ved at investere i de tre aktier. En af de hyppigste metoder til at beregne variation er standardafvigelsen. Standardafvigelsen kan tolkes som observationernes normale afvigelse fra gennemsnittet, eller mere konkret: observationernes gennemsnitlige afvigelse fra gennemsnittet. Beregning af standardafvigelsen: TABEL 7: Populationsparameter Punktestimat s 5 1 n N (x i 2 m) 2 s 5 i51 1 (n 2 1) n (x i 2 x ) 2 i51 EKSEMPEL: Standardafvigelsen for Microsoft s aktiekurs: s 5 1 (7 2 1) n (35,8 i51 n 2 29,4) (31,1 2 29,4) 2 5 3,3 i51 NB: Observationerne kommer fra tabel 2 Standardafvigelsen for alle tre aktiekurser fremgår af nedenstående: TABEL 8: Estimater for aktiekurser Microsoft Nike Danisco Standardafvigelse (s) 3,3 4,1 3 Gennemsnit (x ) 29, ,9 s. 14

15 Beskrivende Statistik Med standardafvigelsen har vi kvantificeret de gennemsnitlige kursudsving. Umiddelbart ser det ud til, at Nike er den aktie som har de største kursudsving. Denne konklusion er dog kun delvist korrekt - vi mangler at sætte standard-afvigelsen i relation til størrelsen af selve gennemsnittet. Ud fra fordeling X og Y i nedenstående kan vi ræsonnere os til, at en standardafvigelse på 4 ud fra et gennemsnit på 10 som i fordeling X, er en højere relativ variation end en tilsvarende standardafvigelse for et gennemsnit på 100 som i fordeling Y. FIGUR 3: X m 5 10 s 5 4 Y m s 5 4 m m For at gøre kursudsvingene på de tre aktier sammenlignelige, kan vi beregne variationskoefficienten (VK): VK 5 Standardafvigelse Standardafvigelse 5 s (eller s for populationen) x m TABEL 9: Aktiekurser og estimater Microsoft Nike Danisco Standardafvigelse (s) 3,3 4,1 3 Gennemsnit (x ) 29, ,9 VK 11 % 6 % 4 % På baggrund af variationskoefficienten kan vi tydeligt se, at kursen for Microsoft har de største relative udsving, og i den sammenhæng indtager - statistisk set - pladsen som den mest risikobetonede aktie. Da en myriade af faktorer påvirker kursen på en aktie, kan den beskrivende statistisk ikke stå alene, men som et redskab til at kvantificere generelle tendenser, og til at gøre forskellige aktier sammenlignelige, er det et yderst værdifuldt redskab. s. 15

16 Beskrivende Statistik Alternative mål for spredning Ligesom medianen anvendes frem for et gennemsnit ved skæve fordelinger, er det vigtigt at forholde sig kritisk til anvendelsen af standardafvigelsen. Standardafvigelsen bør kun anvendes på data, der tilnærmelsesvis følger normalfordelingen. Følger data skæve fordelinger, benyttes i stedet interkvartilbredden, også betegnet IQR 2, som et alternativt mål for spredningen. Interkvartilbredden bygger på samme logik som medianen og er dermed ikke følsom overfor ekstremobservationer, som det eksempelvis er tilfældet med et gennemsnit og standardafvigelse. Interkvartilbredden beregnes som forskellen mellem første og tredje kvartil: TABEL 10: Interkvartilbredden (IQR: Inter Quartile Range) Interkvartilbredden (IQR) 1. kvartil 3. kvartil 3 Kvartil 2 1 kvartil IQR er et mål for spredningen og anvendes når data følger skæve fordelinger (n 1 1) Den observation der ligger 25% inde i datasættet når data sorteres stigende (n 1 1) Den observation der ligger 75% inde i datasættet når data sorteres stigende Ved at tage afstanden mellem 1. og 3. kvartil bliver interkvartilbredden et stabilt mål. Dette skyldes at interkvartilbredden ikke påvirkes af de ekstremobservationer der enten ligger i intervallet minimum - 1. kvartil (x-værdi: 26-33) eller i intervallet 3. kvartil - maksimum (x-værdi: 37-43). Se nedenstående Box and Whisker diagram. FIGUR 4: Eksempel på Box and Whisker diagram (data er fiktive) IQR Inter Quartile Range s. 16

17 Beskrivende Statistik Kvartiler Når du arbejder med store datasæt, kan kvartiler være en hjælp til at skabe overblik over værdierne af dine observationer. Når data er sorterede stigende fra mindst til størst, anvendes kvartiler til at inddele dine data i fire grupper. Beregning af kvartiler: (n 1 1) K 4 hvor K repræsenterer 1, 2 eller 3 kvartil EKSEMPEL: Med udgangspunkt i nedenstående observationer, som viser højden på 15 tilfældigt udvalgte personer, beregnes det første kvartil. TABEL 11: Obs Højde (cm) Kvartil beregnes: (15 1 1) Værdien af den 4 observation svarer til 167 cm. Med andre ord er de 167 cm den største værdi blandt de første 25 % af observationerne. Tilsvarende vil det andet kvartil svare til værdien af den midterste observation hvilket er 172 cm (5medianen). Hvis du arbejder med et datasæt, som medfører at dine kvartilberegninger bliver ulige tal eksempelvis 1. kvartil 5 30,5 bør du vælge den værdi, der ligger i midten af observation 30 og 31. Hvis observation nr cm og observation nr cm er værdien af første kvartil således 185 cm (gennemsnittet). Procentiler Antag at du havde været til statistikeksamen og ønskede at se din karakter i relation til de øvrige studerende. Hvis du befinder dig i det 70 procentil betyder det, at 70 % af de studerende har fået en karakter, som var lavere end din - eller omvendt, at du ligger blandt de 30 %, som har fået højst karakterer. På den måde kan en procentil hurtigt sætte en enkelt observation (en enkelt karakter) i relation til de samlede observationer (alle karakterer). Procentiler beregnes på samme vis som med kvartiler. I stedet for kvartiler K anvendes procentsatsen P jf. nedenstående. Beregning af procentil: (n 1 1) P hvor P repræsenterer procentsatsen 100 s. 17

18 Grundlæggende statistik Beskrivende Statistik Kurtosis Hvor skævheden er et mål for fordelings symmetri, anvendes kurtosis til at beregne fordelingens stejlhed. På samme måde som med skævheden kan kurtosis give os et værdifuldt indblik i fordelingens egenskaber. Dette kan især være til gavn i situationer hvor mange variable inddrages, eksempelvis i forbindelse med aktieanalyse, hvor kursudviklingen for mange virksomheder sammenlignes. Beregning af kurtosis: n(n 1 1) x (n 2 1)(n 2 2)(n 2 3) i 2 x s 4 Kurtosis betegner om en fordeling er relativ spids eller flad sammenlignet med en normalfordeling. En positiv kurtosis betyder at fordelingen er relativ spids (leptokurtisk fordeling) hvorimod en negativ kurtosis (platykurtisk fordeling) er tegn på en flad fordeling. En fuldkommen normalfordeling (mesokurtisk fordeling) vil have en kurtosis på 0. FIGUR 5: Flad fordeling Spids fordeling Normal fordeling I relation til aktieanalyse vil en spids fordeling være et tegn på at relativt mange observationer har samme værdi som gennemsnittet, og at de resterende ligger relativt spredt fra gennemsnittet. Omvendt vil en flad fordeling have mange observationer fordelt omkring gennemsnittet og dermed alt andet lige være mindre udsat for store kursudsving. s. 18

19 Beskrivende Statistik Punktestimater for grupperede data Ofte når vi arbejder med store datamængder, eksempelvis i forbindelse med markedsanalyser, inddeles observationerne i intervaller for at skabe overblik. Når vi arbejder med observationer grupperet i intervaller, kender vi ikke den eksakte værdi af en observation, men vi ved blot, at den kan antage en vilkårlig værdi indenfor det givne interval. TABEL 12: Grupperet data Interval Obs. 0 X , X , X , X , X Ud fra tabellen har vi et godt overblik over, hvordan observationerne fordeler sig i de enkelte intervaller. Det fremgår eksempelvis, at de fleste observationer ligger mellem og Overblikket er imidlertid sket på bekostningen af detaljerede informationer om de enkelte observationers værdi. Vi kender med andre ord ikke den eksakte værdi af hver af de 93 observationer i intervallet Det eneste vi ved om observationerne er, at de ligger i intervallet. Af samme årsag kan vi ikke beregne gennemsnittet som tidligere anvist, da metoden kræver, at vi kender den eksakte værdi af hver enkelt observation. Som alternativ anvendes intervallets midtpunkt som et substitut for den reelle værdi. Denne tilgang har åbenlyse svagheder såfremt data ikke er normalfordelt. I de tilfælde vil observationerne overvejende ligge i den ene ende af intervallet, hvilket betyder at intervallets midtpunkt (M i ) ikke bliver repræsentativt. Gennemsnit for grupperet datasæt (stikprøve): x 5 1 n n i51 f i M i hvor M i 5 (Nedre intervalgrænse i 1Øvre intervalgrænse i ) 2 s. 19

20 Beskrivende Statistik TABEL 13: Beregning af gennemsnit for grupperet data Interval Obs (f i ) Midtpunkt (M i ) f i M i 0 X , X , X , X , X Total x 5 1 n n f i M i i ,63 Standardafvigelsen for et grupperet datasæt (stikprøve): s 5 1 n 2 1 n f i (M i 2 X ) 2 i51 TABEL 14: Beregning af standardafvigelsen for grupperet data Interval Obs (f i ) Midtpunkt (M i ) f i (M i x ) 2 0 X , X , X , X , X Sum s 5 1 n 2 1 n f i (M i 2 X ) 2 5 i ,66 s. 20

21 Beskrivende Statistik Opsummering af punktestimater Ligesom ord kan beskrive et ansigt, kan punktestimater beskrive karaktertræk for data. Dette er ikke synderligt relevant, hvis du arbejder med få data, men hvis du en dag sidder med talrækker i et regneark og mangler et overblik, kan punktestimater give dig en hurtig og værdifuld indsigt. Mål som gennemsnit og standardafvigelse er gode til at indikere datasættets midtpunkt, samt det interval hvori vi kan Grafer forvente de Illustration fleste af vores af data observationer vil ligge. Er vores data normalfordelt, kan vi med et gennemsnit Som vi diskuterede og en standardafvigelse i forrige afsnit, indkredse er punktestimater det interval velegnede hvori ca. til 70 at % beskrive af vores store observationer vil ligge. På den måde får vi nogle hurtige rough-cut betragtninger om det interval, datamængder med nøgletal som f.eks. gennemsnit og standardafvigelse. Grafer tjener samm hvor størstedelen af vores observationer vil ligge. formål. Tilgangen er her blot at præsentere data visuelt med vægten lagt på letforståelig En forudsætning for at anvende gennemsnittet og standardafvigelsen er, at data er relativt normalfordelt. Det er derfor altid et godt udgangspunkt at beregne skævheden for at undersøge i hvor høj kommunikation. Styrken ved grafer er, at de fleste kan tyde en visuel fremstilling af data, grad vores data er symmetrisk mens færre har fordelt. kendskab Er data til betydningen skævt fordelt af anvendes begreber som medianen standardafvigelse og interkvartilbredden som alternativ interkvartilbredde. til gennemsnittet og og standardafvigelsen. I det følgende gennemgår vi de mest hyppige grafer. Afsnittet rundes af med en diskussion a Grafer Illustration af data de faldgruber og områder, hvor du skal være særlig opmærksom på visuel manipulation. Som vi diskuterede i forrige afsnit, er punktestimater velegnede til at beskrive store datamængder med nøgletal som f.eks. gennemsnit og standardafvigelse. Grafer tjener samme formål. Tilgangen er her blot at præsentere data visuelt med vægten lagt på letforståelig kommunikation. Styrken ved grafer er, at de fleste Cirkeldiagrammer kan tyde en visuel fremstilling af data, mens færre har kendskab til betydningen af begreber som standardafvigelse og interkvartilbredde. Cirkeldiagrammer (Pie charts) ser vi næsten hver dag i aviser og tv. Cirklen repræsenterer I det følgende gennemgår som udgangspunkt vi de mest hyppige hele datasættet, grafer. Afsnittet som herefter rundes brydes af med ned en på diskussion forskellige af kategorier de af cirk faldgruber og områder, hvor du skal være særlig opmærksom på visuel manipulation. Cirkeldiagrammer er yderst intuitive når få kategorier sammenlignes, men øges antallet af kategorier mistes overblikket hurtigt. Det skyldes til dels at farvenuancerne kan være Cirkeldiagrammer vanskelige at adskille, og yderligere at et cirkeldiagram angiver værdierne ud fra den vinkel Cirkeldiagrammer (Pie charts) ser vi næsten hver dag i aviser og tv. Cirklen repræsenterer som udgangspunkt hele enkelte datasættet, kategorier som danner herefter i cirklen. brydes ned på forskellige kategorier af cirklen. Cirkeldiagrammer er yderst intuitive når få kategorier sammenlignes, FIGUR 6: Cirkeldiagrammer med markedsandele Figur 3: Cirkeldiagrammer med markedsandele men øges antallet af kategorier mistes overblikket hurtigt. Det skyldes til dels at farvenuancerne kan være vanskelige at adskille, og yderligere at et cirkeldiagram angiver værdierne ud fra den vinkel de enkelte kategorier danner i Markedsandele Markedsandele cirklen. A B C A B C D E F Rent fysiologisk er vi bedre rustet til at se forskel på lodrette streger end vinkler. Data illustreret med et søjlediagram er derfor mere velegnet til at synliggøre små s. forskelle 21 end et cirkeldiagram, hvilket tydeligt fremgår af de to nedenstående figurer.

22 15 10 Grundlæggende statistik 10 Beskrivende Statistik 5 0 er Rent fysiologisk er vi bedre rustet til at se forskel på lodrette streger end vinkler. Data illustreret med et søjlediagram er derfor mere velegnet til at synliggøre små forskelle end et cirkeldiagram, hvilket tydeligt fremgår af de to nedenstående figurer. A B C Figur 4: Søjlediagram FIGUR 7: Søjlediagram med markedsandele med markedsandele Markedsandele A B C Piktogrammer et eksempel kan være en situation hvor salget af biler er steget kraftig Piktogrammer Skal data fremstå så grafisk som overhovedet muligt er piktogrammer oplagte. Piktogrammer Skal data fremstå så grafisk som overhovedet muligt, er piktogrammer oplagte. Piktogrammer streret er i nedenstående yderst velegnede til at kommunikere figur. Ulempen en tydelig tendens. ved Dataværdierne denne vil type ofte være diagrammer stærkt er, yderst velegnede til at kommunikere en tydelig tendens. Dataværdierne vil ofte være stærkt unu- unuancerede, et eksempel et eksempel kan kan være være en situation en situation hvor hvor salget salget af biler af biler steget er steget kraftigt kraftigt over over en årrække en årrække illustreret illustreret i nedenstående i nedenstående figur. Ulempen figur. Ulempen ved denne ved type denne diagrammer type diagrammer er, at er, det at kan det være kan en anelse det være diffust en anelse at vurdere diffust hvor at vurdere meget en hvor bil, meget som ikke en bil er hel som svarer ikke til er i hel reelt svarer salg, til se i f.eks. reelt salg, salg i se 2007 i den nedenstående figur. f.eks. salg i 2007 i den nedenstående figur. FIGUR 8: Markedsandele stå så grafisk som overhovedet muligt er piktogrammer oplagte. Pikt A B C D E F gnede til at kommunikere en tydelig tendens. Dataværdierne vil ofte v nelse diffust at vurdere hvor meget en bil som ikke er hel svarer til i re 007 i den nedenstående figur. 5 0 A B C D E F Søjlediagrammer Søjlediagrammerne (Bar charts) som du kan se i nedenstående figurer er relativt selvforklarende. mer merne (Bar charts) som du kan se i nedenstående figurer er relativt de s A B C D A B C D

23 Søjlediagrammer Beskrivende Statistik Søjlediagrammerne (Bar charts) som du kan se i nedenstående figurer er relativt Søjlediagrammer Søjlediagrammerne selvforklarende. (Bar charts) som du kan se i nedenstående figurer er relativt selvforklarende. FIGUR 9: Der er enkelte punkter du bør være opmærksom på. Bredden af søjlerne og afstanden imellem 0 A B C D 0 A B C D dem spiller ingen rolle, det er udelukkende højden som har betydning for værdien af de enkelte søjler. Af Der Stephan er enkelte Skovlund punkter (Copyright) du bør være opmærksom på. Bredden af søjlerne og afstanden Side imellem 21 dem Søjlediagrammets spiller ingen rolle, y-akse det skal er udelukkende som udgangspunkt højden altid som starte har betydning med værdien for 0, værdien dog kan af det de være enkelte søjler. en en god ide at lade søjlen starte i en højere værdi for at tydeliggøre forskellen mellem søjlerne. Hvis du i dit arbejde vælger denne tilgang, er det yderst vigtigt at du kommenterer at Søjlediagrammets y-akse skal som udgangspunkt altid starte med værdien 0, dog kan det være en god søjlediagrammet ide, at lade søjlen ikke starter i en i 0højere og at forskellen værdi mellem at tydeliggøre enkelte forskellen søjler mellem dermed søjlerne. vil være Hvis du i forstærket. dit arbejde vælger denne tilgang, er det yderst vigtigt at du kommenterer at søjlediagrammet ikke starter i 0, og at forskellen mellem de enkelte søjler dermed vil være forstærket. Figur 5: Søjlediagram hvor y-aksen ikke starter i "0" FIGUR 10: Søjlediagram hvor y-aksen ikke starter i A B C D I Excel har du mulighed for at justeres bredden og afstanden mellem søjlerne samt angive en I startværdi Excel har for du y-aksen, mulighed se for videolektion: at justeres Graf bredden og formatering. og afstanden mellem søjlerne samt angive en startværdi for y-aksen, se videolektion: Graf og formatering. Linjediagrammer s. 23 Linjediagrammer er velegnede til at vise en udvikling over en længere periode. Linjediagrammer er udbredte i forbindelse med rapportering af virksomheders nøgletal, eksempelvis i form af aktiekurs. En af de helt store fordele ved ved linjediagrammer er at de

24 Beskrivende Statistik Linjediagrammer Linjediagrammer er velegnede til at vise en udvikling over en længere periode. Linjediagrammer er udbredte i forbindelse med rapportering af virksomheders nøgletal, eksempelvis i form af aktiekurs. En af de helt store fordele ved linjediagrammer er, at de kan komprimeres drastisk uden at information går tabt. Figur 6: Linjediagram FIGUR 11: for Linjediagram en aktiekurs for en aktiekurs 400 Novo Nordisk aktiekurs Et linjediagram har den unikke egenskab, at det kan reduceres til frimærkestørrelse, uden at Et væsentlig linjediagram information har den unikke går tabt. egenskab, at det kan reduceres til frimærkestørrelse, uden at væsentlig information går tabt. Figur 7: Formindsket linjediagram for aktiekurs (Novo Nordisk ) FIGUR 12: Formindsket linjediagram for aktiekurs (Novo Nordisk ) Nu Min. Maks Nu 337 Min. Maks Øjet er hurtigt til at afkode et forløb repræsenteret af en linje. Hvis blot enkelte støttepunkter i form af maksimum og minimumskurs tilføjes, er det relativt simpelt at perspektivere udviklingen for hele perioden. Øjet er hurtigt til at afkode et forløb repræsenteret af en linje. Hvis blot enkelte støttepunkter i form af maksimum og minimumskurs tilføjes, er det relativt simpelt at perspektivere udviklingen for hele perioden. Histogram Histogrammer forveksles ofte med søjlediagrammer, men ser vi nærmere på graferne fremgår det, at der er nogle væsentlige forskelle. I modsætning til et søjlediagram har bredden af søjlerne betydning når vi aflæser et histogram. X-aksen bygger på en numerisk skala, som s. 24 tildeler hvert interval en specifik værdi og Y-aksen angiver antallet af observationer i hvert interval. Ofte tildeles y-aksen ingen titel, da et histogram som udgangspunkt altid illustrerer et antal observationer målt som frekvens eller sandsynlighed.

25 Beskrivende Statistik Histogram Figur 8: Histogrammer Histogrammer forveksles ofte med søjlediagrammer, men ser vi nærmere på graferne fremgår det, at der er nogle væsentlige forskelle. Karakterer I modsætning (frekvens) til et søjlediagram har bredden af søjlerne betydning når vi aflæser et histogram. 15 X-aksen bygger på en numerisk skala, som 30% tildeler hvert interval en specifik værdi, og Y-aksen angiver antallet af observationer i hvert interval. Ofte tildeles y-aksen ingen titel, da et histogram 10 som udgangspunkt altid illustrerer et antal 20% observationer målt som frekvens eller sandsynlighed. Figur FIGUR 8: Histogrammer 13: Histogrammer % 1 Karakterer (frekvens) Karakterer (sandsynlighed) Indeks tal Lad os tage et simpelt eksempel. Virksomheder der klarer sig godt har som regel en stige tal Indeks tal omsætning, men denne omsætning er i høj grad påvirket af inflationen. Når vi analysere Indekstal ser vi i mange sammenhænge, eksempelvis forbindelse med udviklingen af Indekstal ser vi i mange omsætningen, sammenhænge, kan eksempelvis det være interessant i forbindelse at undersøge med udviklingen om omsætningen af boligmarkedet, blot er fulgt med boligmarkedet, hvor indekstal hvor anvendes indekstal anvendes til at beskrive den relative prisudvikling i forhold til et inflationen til at eller beskrive om der den har relative været en prisudvikling reel vækst, hvilket i forhold blot til betyder bestemt at omsætningen år. er s Fordelen bestemt ved år. Fordelen indekstal ved indekstal er at, de omregner en bestemt udvikling til et tal, som er mere er, at end omregner inflationen. en Da bestemt inflation udvikling er et makroøkonomisk til et tal, som er nøgletal sammenligneligt kan det ikke umiddelb med sammenligneligt andre indeks. med andre indeks. sammenlignes med en virksomheds omsætning. Men hvis vi omregner et indeks der vis Lad os tage et simpelt Lad os tage et simpelt udviklingen eksempel. Virksomheder eksempel. Virksomheder for både inflation der der klarer og klarer omsætning sig godt sig godt har har som vi derved som regel en stigende regel fået en stigende et sammenligningrundlag omsætning, men denne omsætning kan være påvirket af prisstigninger. Når vi analyserer omsætningen, omsætning, men kan denne i nedenstående det være omsætning interessant er figur. i at høj grad påvirket af inflationen. Når vi analyserer undersøge omsætningen, omsætningen kan det være interessant blot fulgt at undersøge om omsætningen blot er fulgt med Figur 9: Simpelt indeks FIGUR 14: Simpelt indeks med inflationen den procentvise eller om prisstigning, der har været eller en reel om vækst, hvilket blot betyder at omsætningen er steget der mere har end været inflationen. reel Da vækst, inflation hvilket er blot 150% Omsætning et makroøkonomisk nøgletal kan det ikke umiddelbart Inflation betyder at omsætningen er steget mere sammenlignes med en virksomheds omsætning. 130% Men hvis vi omregner et indeks der viser end prisstigningerne. De procentvise prisstigninger udviklingen kan for ikke både umiddelbart inflation og sammenlignes i nedenstående med en virksomheds figur. omsætning. 90% omsætning har 110% vi derved fået et sammenligningrundlag, som Men hvis vi omregner det til et indeks, der 70% viser Figur udviklingen 9: Simpelt for indeks både prisstigning og 50% omsætning, har vi derved fået et sammenligningrundlag, som vist i 150% Omsætning figuren. 130% 5 110% 90% s % Af Stephan Skovlund (Copyright) 50% 30% 20% Indekstal ser vi i mange sammenhænge, eksempelvis i forbindelse med udviklingen af boligmarkedet, hvor indekstal anvendes til at beskrive den relative prisudvikling i forhol 10% bestemt år. Fordelen ved indekstal er at, de omregner en bestemt udvikling til et tal, som 0% sammenligneligt med andre indeks Inflation 10% Karakterer (sandsynlighed)

26 Af grafen fremgår det, at væksten er fulgt med inflationen og at omsætningen kun i et enkelt år var marginalt højere end inflationen. Det tyder på, at virksomhedens omsætning har været godt Grundlæggende statistik Med hjulpet fokus på af samfundets erhvervslivet generelt stigende velstand. Herfra er der ikke langt til antagelsen Beskrivende om Statistik sammenhængen formentligt også vil gælde, hvis inflationen falder. Det kan her diskuteres om Af omsætningsfremgangen grafen fremgår det, at væksten er reel eller er fulgt blot inflationsbåret. med inflationen, og at omsætningen kun i et enkelt år var marginalt højere end inflationen. Det tyder på, at virksomhedens omsætning har været godt Simple versus sammensatte indeks hjulpet af samfundets generelt stigende velstand. Herfra er der ikke langt til antagelsen om at sammenhængen Når vi taler formentligt om indeks kan også vi vil sondre gælde, mellem hvis inflationen indeks der falder. baseret Det kan på hhv. her diskuteres én eller flere om omsætningsfremgangen er reel eller blot inflationsbåret. faktorer. Sidstnævnte indeks kaldes sammensatte indeks og anvendes eksempelvis når prisudviklingen for en hel gruppe af varer skal sammenlignes internationalt. Da forbrugere har Simple versus sammensatte indeks et væld af muligheder for at anvende deres indkomst, er det nødvendigt at nuancere indekset Når vi taler om indeks kan vi sondre mellem indeks, der er baseret på hhv. én eller flere faktorer. Sidstnævnte så det repræsenterer indeks kaldes et bredt sammensatte udsnit af varer. indeks og anvendes eksempelvis når prisudviklingen for en hel gruppe af varer skal sammenlignes internationalt. Da forbrugere har et væld af muligheder Lad os indledningsvis tage et eksempel med et simpelt indeks og forestille os et samfund, hvor for at anvende deres indkomst, er det nødvendigt at nuancere indekset, så det repræsenterer et bredt man udsnit kun kan af varer. købe varen brød. Lad Såfremt os indledningsvis at prisen på tage brød et stiger eksempel fra 12 med til 15 et kroner simpelt er indeks det ikke og forestille helt tilstrækkeligt os et samfund, at sige hvor at brød man kun er kan steget købe med varen 3 kroner, brød. da det ikke fortæller os hvor stor den relative stigning har været. Hvis Såfremt brødet at stiger prisen fra på brød stiger kr. vil fra den 12 nominelle til 15 kroner, prisstigning er det ikke på helt 3 kr. tilstrækkeligt være den samme, at sige, mens at brød er steget den relative med 3 kroner, prisstigning da det er ikke omkring fortæller syv os gange hvor mindre stor den (3/15 relative versus stigning 3/103). har været. Hvis brødet stiger fra kr. vil den nominelle prisstigning på 3 kr. være den samme, mens den relative prisstigning Der er således er omkring behov syv for at gange måle mindre den relative (3/15 prisudvikling, versus 3/103). hvilket er essensen af et indeks. Et Der indeks er således viser os behov den relative for måle udvikling den relative af en variabel prisudvikling, i forhold hvilket til en bestemt er essensen periode, af et f.eks. indeks. Et indeks prisudviklingen viser os den for relative brød de udvikling seneste af 5 en år variabel eller befolkningstilvæksten i forhold en bestemt de seneste periode, 10 f.eks. år. prisudviklingen for brød de seneste 5 år eller befolkningstilvæksten de seneste 10 år. Simpelt prisindeks 5 p n p o Pris i indeværende år Pris i basis år 100 Figur 10: FIGUR Simpelt 15: prisindeks Simpelt prisindeks (brød) (brød) 150% 100% 50% 0% År Indeks , , , , ,14 Af Stephan Skovlund (Copyright) Side 25 s. 26

27 Beskrivende Statistik Vær opmærksom på at indeks som regel angives i procent og at udgangspunktet, basisåret, altid er 100 %. Det betyder at indeksværdier over 100 vil repræsentere en stigning i forhold til basisåret, og indeksværdier under 100 omvendt vil repræsentere et fald i forhold til basisåret. Fra vores indekstal i figur 13 fremgår det, at prisstigningen fra var på 11 %. Men ser vi på udviklingen fra 2002 til 2003, kan vi ikke overføre logikken sige at prisen steg med 6 %. Udviklingen for indeks er altid i forhold til basisåret. Så for at beregne udviklingen fra 2002 til 2003 skal vi i stedet sætte disse to års værdier i forhold til hinanden, ved at dividere indekset for 2003 med indekset for 2002: 1,17/1,11 5 1,054. Hermed ses en reel prisstigning på 5,4 %. Lad os udvide eksemplet og antage, at forbrugerne i landsbyen kan købe andre varer end brød. For at beregne et prisindeks skal vi nu tage højde for at indekset repræsenterer et bredt udsnit af dagligvarer, og at husstande ikke fordeler deres indkomst ligeligt på alle varegrupperne. I den forbindelse kan vi tage udgangspunkt i en hel gruppe af varer kaldet varekurven. Den repræsenterer den gennemsnitlige husstands typiske indkøb. Værdien af denne varekurv bliver vores udgangspunkt i basisåret. I de efterfølgende år ser vi så, hvordan varekurvens priser har udviklet sig. Som du muligvis har gættet, er problemet med denne tilgang, at vi antager, at folk køber den samme kvantitet af varer som i basisåret uanset prisudviklingen. For at beregne mere repræsentative indeks anvendes to forskellige metoder, henholdsvis Laspeyres og Paasches indeks. Laspeyres indeks Laspeyres indeks bygger på antagelsen om, at folk til stadighed køber den samme mængde varer som i basissåret, den eneste ændring bliver derved prisudviklingen. I den forstand er Laspeyres indeksets udgangspunkt, at det er prisen der alene bestemmer indeksudviklingen. Laspeyres formel: k o,a p n,a k o,a p o,a hvor K er kvantitet og P pris NB: n,a tolkes som vare a i år n og betegnelsen o,a er vare a i basisåret o. Lapeyres oversat: Kvantiteterne i basisåret til de nuværende priser Kvantiteterne i basisåret til priserne i basis året Paasches indeks Ved anvendelse af Paasches indeks er udgangspunktet det modsatte, nemlig at folk købte det samme i basisåret, som de køber nu. Købes der 30 brød i indeværende år er antagelsen, at der også blev købt 30 brød i udgangsåret. Paasche indeks: k n,a p n,a k n,a p o,a hvor K er kvantitet og P pris s. 27

28 Beskrivende Statistik NB: n,a tolkes som vare a i år n og betegnelsen o,a er vare a i basisåret o. Paasche oversat: De nuværende kvantiteter til de nuværende priser De nuværende kvantiteter til de nuværende priser Spørgsmålet er hvilket af de to indeks, der er det bedste at anvende? Da begge indeks har forsimplede antagelser om forbrug, er spørgsmålet nærmere hvilken af de to forsimplinger der betyder mindst for dig. Med Laspeyres indeks er antagelsen, at folk køber den samme mængde af en specifik vare som sidste år. Beregnes Laspeyres indekset i en periode på 10 år, svarer det til at forbruget af varer er uændret i 10 år. Denne antagelse kan være ganske sand for visse varetyper, eksempelvis tandpasta, men for andre varer, hvor salget præges af mode og trends, vil antagelsen om et statisk forbrug gøre indekset upræcist. Paasche indekset tager højde for at forbruget ændrer sig, men er i modsætningen til Laspeyres mere tidskrævende at beregne. Antag at vi skulle beregne Paasche indekset for en varegruppe bestående af flere hundrede produkter. For hvert af disse produkter skal vi ud over prisudviklingen indsamle informationer om mængden, der bliver købt. Herudover kan basisindekset, som er indekset for basisåret, beregnes en gang for alle med Laspeyres metoden. Med Paasche metoden ændres indekset for basisåret hvert år, hvilket betyder, at alle indekstallene derfor vil ændre sig, hver gang indekset opdateres med ny data. FIGUR 16: Beregning af sammensatte indeks (Paasche og Laspeyres indeks) p 0 k 0 p n k n p 0 k 0 p 0 k n p n k 0 p n k n Rugbrød Pasta Mælk Sum Laspeyres indeks 101,27 % Paasche indeks 101,14 % s. 28

29 Beskrivende Statistik Appendiks Beskrivende statistik Populations parametre Betegnelse Symbol Excel Formel Gennemsnit m 5middel( ) Standardafvigelse s 5stdafvp( ) 1 N N x i i51 1 N (x i 2 m) 2 Varians s 2 5varians( ) 1 N (x i 2 m) 2 Andel p - x i N Median M 5median( ) (N 1 1)/2 Population størrelsen N 5antal( ) Skævhed 1 N N x i 2 m s i51 3 Populations parametre for grupperede data Betegnelse Symbol Excel Formel Gennemsnit m Beregnes med tabel 1 N N f i M i i51 Varians s 2 Beregnes med tabel 1 N N f i (M i 2 m) 2 i51 Standardafvigelse s Beregnes med tabel 1 N N f i (M i 2 m) 2 i51 s. 29

30 Beskrivende Statistik Punktestimater (estimater baseret på en stikprøve) Betegnelse Symbol Excel Formel Stikprøvegennemsnit x 5middel( ) Varians s 2 5varians( ) 1 n n x i i51 1 n 2 1 (x i 2 x ) 2 Standardafvigelse s 5stdafv( ) 1 n 2 1 (x i 2 x ) 2 Andel pˆ - x i n Median m 5median( ) (n 1 1)/2 Stikprøvestørrelsen n 5antal( ) Skævhed 1 n n x i 2 x s i51 3 Punktestimater for grupperede data (estimater baseret på en stikprøve) Betegnelse Symbol Excel Formel Gennemsnit x Beregnes med tabel Varians s 2 Beregnes med tabel 1 n 1 n 2 1 n f i M i i51 n f i (M i 2 m) 2 i51 Standardafvigelse s Beregnes med tabel n 1 n 2 1 f i (M i 2 m) 2 i51 s. 30

31 Beskrivende Statistik Øvelser i beskrivende statistik De første spørgsmål er relateret til fortolkning. Du skal her med dine egne ord forsøge at forklare betydningen af specifikke parametre og estimater. De efterfølgende opgaver vil være beregningsøvelser. Fortolkningsøvelser 1. Hvordan vil du fortolke forskellen på et gennemsnit og en median? 2. Hvornår er det hensigtsmæssigt at anvende median frem for et gennemsnit? 3. Hvad er forskellen på standardafvigelsen og interkvartilbredden? 4. Hvad er det grundlæggende kendetegn ved data, som er normalfordelt? 5. Hvorfor bør du beregne skævheden for en fordeling? 6. I hvilke tilfælde giver det mere mening at anvende interkvartilbredden frem for standardafvigelsen? Beregningsøvelser Opgave 1. I nedenstående tabel ses den månedlige udvikling af salget for to produkter. TABEL 15: Interkvartilbredden (IQR: Inter Quartile Range) jan feb mar apr maj jun jul aug sep Bolsjer Lakridser Spørgsmål 1. Beregn gennemsnit og standardafvigelsen for begge produkter med anvendelse af Statlearn programmet. Spørgsmål 2. Foretag tilsvarende beregninger med anvendelse af en pivot tabel. s. 31

32 Beskrivende Statistik Opgave 2. I nedenstående ses en række punktestimater, som beskriver priserne (kr.) på lejligheder i henholdsvis København og London. Hvordan vil du ud fra data vurdere prisforskellene i de to byer? Hvilke parametre er særlig værd at bemærke? TABEL 16: Punktestimater London København Middel Median Standardafvigelsen Skævhed 1,351-0,287 Minimum Maksimum Sum Antal obs Opgave 3. Gå ind på og find 3 aktier hvorefter gennemsnit og standardafvigelse for den månedlige kurs beregnes for de sidste 3 år. Hvilken af de 3 aktier er mest attraktiv at investere i, hvis der ønskes en lav risikoprofil? (se evt. videolektion om Import af aktiekurser på statlearn.com) Opgave 4. I forbindelse med en undersøgelse af elevantallet på skoler i København blev følgende data indsamlet. TABEL 17: Antal studerende Obs (skoler) Total 200 Spørgsmål 1. Beregn gennemsnittet og standardafvigelsen af antallet af elever. s. 32

33 Beskrivende Statistik Opgave 5. I den nedenstående tabel ses aktiekursen for de to konkurrerende virksomheder, IBM og HP. På hvilken måde kan man med indekstal sammenligne de to virksomheders relative kursudvikling? Hvorfor giver det mening at anvende indekstal i denne sammenhæng? TABEL 18: Måned (2008) jan feb mar apr maj jun jul aug sep okt nov dec IBM (kurs) HP (kurs) Opgave Indsæt en pivottabel som bygger på datasættet: Omsætning - Datasættet ligger i Statlearn programmet under punkt 9.a. Med udgangspunkt i pivottabellen ønskes følgende information: a) Summen af omsætningen for hele datasættet. b) Identifikation af den sælger, som omsætter mest. c) Identifikation af det produkt, som sælger mest i antal stk. 6.2 På baggrund af pivottabellen opstilles et søjlediagram/histogram, der viser omsætningen for hver enkelt sælger. 6.3 Beregn den månedlige omsætning i henholdsvis 2008 og Beregn gennemsnitsomsætningen og standardafavigelsen for hvert år. Hvad kan du udlede af beregningerne? 6.5 Hvor stor en procentdel af omsætningen tegner sælgeren Henriksen sig for i 2008? 6.6 I hvilken måned i 2009 havde Henriksen den største omsætningsfremgang i forhold til 2008? 6.7 Hvilket kvartal i 2008 og 2009 tegner sig for den største omsætning? 6.8 Hvor mange procent af omsætningen udgør de 3 produkter med størst salgsvolumen (målt på stk.)? s. 33

34 Beskrivende Statistik Løsninger til beskrivende statistik Fortolkning: 1. Både median og gennemsnit er mål for den centrale værdi i et datasæt. Et gennemsnit er summen af observationer divideret med antallet, hvorimod medianen repræsenterer værdien af datasættets midterste observation. 2. I forbindelse med skæve fordelinger er det mere hensigtsmæssigt, at anvende en median i stedet for et gennemsnit. Et gennemsnit baseres på alle observationer og påvirkes derfor i høj grad af ekstremobservationer (outliers). I modsætning til et gennemsnit lader en median sig ikke påvirke af ekstremobservationer, da den repræsenterer datasættets midterste værdi. 3. Når data er relativt normalfordelt, anvendes standardafvigelsen som et mål for spredningen fra gennemsnittet. Interkvartilbredden er også et mål for spredningen, men anvendes i forbindelse med skæve fordelinger. Standardafvigelsen hører sammen med et gennemsnit på samme vis som medianen hører sammen med interkvartilbredden. 4. Symmetrisk klokkeformet fordeling med gennemsnittet i midten. 5. Skævheden beregnes for at se i hvor høj grad data er normalfordelte. Som mål for centralværdi og spredning anvendes gennemsnit og standardafvigelse ved data der følger normalfordelingen, ved skæve fordelinger anvendes tilsvarende median og interkvartilbredde. 6. Når data følger en skæv fordeling. Beregning: Opgave 1. TABEL 19: Punktestimater Lakridser Bolsjer Sum Antal obs. 9 9 Maksimum værdi Minimum værdi Gennemsnit ,22 Standardafvigelse 52,71 24,33 Median s. 34

35 Beskrivende Statistik Opgave 2. Den beskedne stikprøve på 20 observationer betyder, at punktestimaterne skal tages med de forbehold omkring usikkerhed, som små stikprøver altid giver anledning til. Data indikerer, at gennemsnitsprisen (middel) på lejligheder er højst i København. I den sammenhæng ses, at standardafvigelsen i København også er væsentlig højere end i London. Dette er med til at skabe usikkerhed om den reelle gennemsnitspris. Den positive skævhed indikerer, at observationerne i London er højreskæve, og at enkelte lejligheder dermed har en markant højere pris end de øvrige i stikprøven. Indikationen af højreskævhed styrkes af, at den relative afstand mellem gennemsnit og maksimumsværdien er højst i London, som angivet nedenfor (Maksimum/Middel). TABEL 20: Punktestimater London København Middel Maksimum Maksimum/Middel 1,962 1,632 Opgave 3. Beregningen i nedenstående punktestimater er baseret på Microsoft, Coca-Cola og Apples aktiekurser i perioden Kursdata findes på Kurserne er baseret på månedsniveau, således at der i alt er 36 observationer for hver enkelt virksomhed. Punktestimaterne fremgår af nedenstående tabel. TABEL 21: Virksomhed Middelkurs Standardafvigelse Variationskoefficient Microsoft 26,815 3,628 14% Coca-Cola 47,905 6,642 14% Apple 115,743 43,048 37% Tabellen indikerer at Apples aktiekurs har den største relative variation (varianskoefficient) og dermed, statistisk set, må antages at være mere risikobetonet end de to andre virksomheder. s. 35

36 Beskrivende Statistik Opgave 4. TABEL 22.A TABEL 22.B Interval-midtpunkter Obs Punktestimater Gennemsnit (x ) Varians (s 2 ) 74307, Standardafvigelse (s) 272, Opgave 5. Indekstallene Opgave er med 5. til at gøre aktiekurserne relative. Dermed kan udviklingen af aktiekurserne bedre sammenlignes, udviklingen fremgår af nedenstående. Indekstallene er med til, at gøre aktiekurserne relative. Dermed kan udviklingen af aktiekurserne bedre FIGUR sammenlignes, 17: udviklingen fremgår af nedenstående. 130% 100% 70% jan feb mar apr maj jun jul aug sep okt nov dec IBM 100% 107% 108% 113% 122% 112% 120% 115% 111% 88% 78% 80% HP 100% 109% 105% 107% 109% 102% 102% 109% 107% 88% 81% 81% s. 36

37 Beskrivende Statistik Opgave Indsæt en pivottabel som bygger på datasættet. Med udgangspunkt i pivottabellen ønskes følgende information: TABEL 23: Bentsen Henriksen Produkt navn Salg (stk) Omsætning Salg (stk) Omsætning Total Salg (stk) Total Omsætning Hekse Hjul Køer Måner Piercings Skærme Sole Tattoos Toppe Hovedtotal a) Summen af omsætningen for hele datasættet Den totale sum af omsætningen er ca kr. b) Identifikation af den sælger som omsætter mest Henriksen omsætter for mest ( kr. mod Bentsens kr.). c) Identifikation af det produkt som sælger mest i antal stk. Der bliver solgt flest Toppe, nemlig stk. 6.2 På baggrund af pivottabellen opstilles et søjlediagram/histogram, der viser omsætningen for hver enkelt sælger. Grafen viser ligesom pivottabellen, at Henriksen er den sælger, der omsætter for mest. FIGUR 18: Bentsens og Henriksens omsætning Bentsen Henriksen s. 37

38 Beskrivende Statistik 6.3 Beregn den månedlige omsætning i henholdsvis 2008 og Vi kan se, at år 2009 er det bedste år. Desuden er sommermånederne bedst i begge år (juli og august især) og vintermånederne dårligst, hvilket tyder på et sæsonpræget salg. TABEL 24: Måned jan feb mar apr maj jun jul aug sep okt nov dec Hovedtotal Beregn gennemsnitsomsætningen og standardafavigelsen for hvert år. Hvad kan du udlede af beregningerne? TABEL 25: Gennemsnit Stdafv Gennemsnit Stdafv jan feb mar apr maj jun jul aug sep okt nov dec Hovedtotal s. 38

39 Beskrivende Statistik Vi kan udlede, at der i gennemsnit sælges for kr. pr. dag i 2008 og for kr. pr. dag i Af standardafvigelserne kan vi udlede, at der er en stor spredning fra gennemsnittet, dvs. at omsætningens størrelse svinger megetæa dag tiæag. Vi skal dog være kritiske over for både gennemsnit og standardafvigelse, hvis data for omsætningen følger normalfordelingen hvis data i stedet følger skæve fordelinger, er det mere hensigtsmæssigt at anvende median og interkvartilbredde, da disse ikke er følsomme over for ekstremobservationer Hvor stor en procentdel af omsætningen tegner sælgeren Henriksen sig for i 2008? TABEL 26: Sum af Omsaetning Saelger År Bentsen Henriksen ,09% 66,91% Henriksen tegner sig for knapt 67 % af omsætningen i I hvilken måned i 2009 havde Henriksen den største omsætningsfremgang i forhold til 2008? TABEL 27: Sælger Henriksen Dato jan 21% feb 7% mar 28% apr 7% maj 3% jun 14% jul 15% aug 21% sep 6% okt 33% nov 6% dec 4% Henriksen opnåede den største omsætningsfremgang i oktober måned 2009 i forhold til samme måned året før hans omsætning var med andre ord 33 % større i oktober 09 end i oktober 08. s. 39

40 Beskrivende Statistik 6.7. Hvilket kvartal i 2008 og 2009 tegner sig for den største omsætning? TABEL 28: Omsætning i % Kvartal , ,4 Kvartal1 10% 12% Kvartal , ,7 Kvartal2 14% 14% Kvartal , ,0 Kvartal3 16% 18% Kvartal , ,4 Kvartal4 8% 9% I begge år er 3. kvartal det bedste, hvad angår omsætningen. 6.8 Hvor mange procent af omsætningen udgør de 3 produkter med størst salgsvolumen (målt på stk.)? TABEL 29: Produkt navn Omsætning Salg (stk) Toppe 40,5% 41,9% Måner 29,9% 30,0% Hekse 18,9% 17,2% Sole 5,2% 5,8% Piercings 3,7% 3,4% Tattoos 0,7% 0,6% Skærme 0,5% 0,5% Hjul 0,5% 0,6% Køer 0,0% 0,0% s. 40

41 Anvendelse af Excel til beskrivende statistik Grundlæggende statistik Når Anvendelse vi arbejder med af Excel data skal til beskrivende vi ofte beregne statistik simple Beskrivende statistikker Statistik som gennemsnit, s lignende. Når vi Til arbejder denne med type data beregninger skal vi ofte er regneark beregne som simple Excel statistikker et glimrende som gennemsn redskab. Funktionerne lignende. Til til de denne mest type gængse beregninger beregninger regneark - se nedenstående som Excel screenshot et glimrende - kan redsk me Anvendelse af Excel til beskrivende statistik anvendes Når vi arbejder med data, skal Funktionerne hvis du vi ofte beregne til blot de ønsker simple mest statistikker gængse nogle få beregninger hurtige estimater. som gennemsnit, - se nedenstående Kræver din sum og lignende. Til denne type beregninger anvendes er screenshot analyse derimo - kan beregninger er regneark hvis en pivot som du blot tabel Excel ønsker mere et glimrende nogle velegnet. få redskab. hurtige Vi vender estimater. tilbage Funktionerne Kræver til pivot til de din tabeller analyse sene der mest gængse beregninger - se nedenstående beregninger er screenshot en pivot tabel - kan mere med velegnet. fordel anvendes, Vi vender hvis tilbage du blot Når du anvender en funktion, er det vigtigt at sikre at du har markeret til pivot alle de tabeller data s ønsker nogle få hurtige estimater. Kræver din analyse derimod flere beregninger, er en pivot tabel mere velegnet. Vi vender tilbage indgå Når til i pivot beregningen, du anvender tabeller hvilket senere. funktion, er illustreret det vigtigt i nedenstående at sikre at screenshot du har markeret hvor cellerne alle de da F summeres. indgå i beregningen, hvilket er illustreret i nedenstående screenshot hvor cellern Når du anvender en funktion, er det vigtigt at sikre, at du har markeret alle de data, som skal indgå i beregningen, hvilket er illustreret summeres. i nedenstående screenshot hvor cellerne F3:F6 summeres. TABEL 30: Parameter Funktion Måned Salg Sum 5 sum( ) jan 1740 Gennemsnit 5 middle( ) feb 1684 Standardafvigelse (n) 5 stdafv( ) mar 1996 Standardafvigelse (N) 5 stdafvp( ) apr 1658 Median 5 median( ) Minimums værdi 5 min( ) 5SUM(F3:F6) Er du i tvivl om al data er medtaget, kan du markere cellen med formlen og efterføl maksimums værdi 5 maks( ) dig Antal observationerer i formellinjen. du i tvivl tæ( om Her ) al data vil du er se medtaget, markering kan af du det markere data som cellen indgår med i formlen, hvilket og efte nedenstående Kvartil dig i formellinjen. tilfælde 5 kvartil( ) Her F2-F3. vil du se markering af det data som indgår i formlen, hvi nedenstående tilfælde er F2-F3. Er du i tvivl om al data er medtaget, kan du markere cellen med formlen og efterfølgende stille dig i formellinjen. Her vil du se markering af det data som indgår i formlen, hvilket i nedenstående tilfælde er F2-F3. Hvis du glemmer eller har brug for mere avancerede funktioner, kan du altid finde over Hvis samtlige du glemmer funktioner eller når har du brug aktiverer for mere fx ikonet: avancerede funktioner, kan du altid fin Hvis du glemmer eller har brug for mere avancerede funktioner, kan du altid finde en liste over samtlige funktioner over samtlige funktioner når du aktiverer fx ikonet: når du aktiverer fx ikonet: Af Stephan Skovlund (Copyright) Af Stephan Skovlund (Copyright) s. 41

42 Beskrivende Statistik Autoberegninger Autoberegninger Autoberegninger kan kan anvendes som et et alternativ til til at at skrive skrive funktionen funktionen manuelt. manuelt. Det eneste Det eneste autoberegningerne kræver er, at du markerer dine data. Så længe de er markerede, vil standardberegningerne fremgå som i nedenstående screenshot. autoberegningerne kræver er, at du markerer dine data. Så længe de er markerede vil standardberegningerne fremgå som i nedenstående screenshot. Ønsker Ønsker du du mulighed mulighed for for at at vælge vælge flere flere autoberegninger, autoberegninger, eksempelvis eksempelvis antal antal observationer observationer, skal skal du blot du højreklikke blot højreklikke på beregningerne på på værktøjslinien. på En af En ulemperne af ulemperne ved ved autoberegninger er, at de er, forsvinder at forsvinder så snart så data snart ikke data længere ikke længere markeret. markeret. Pivottabeller (se video) Pivottabeller Pivottabeller er et af de vigtigste redskaber i hele Microsoft Office pakken. Med pivottabeller kan du på sekunder få et fortrinligt overblik over flere tusind datarækker. At anvende Excel uden pivottabeller, Pivottabeller svarer er til et kun af at de bruge vigtigste første redskaber gear i en i hele formel Microsoft 1 bil. Office pakken. Med pivottabeller Pivottabeller kan du på sekunder er ingen få ny et opfindelse, fortrinligt overblik de har eksisteret over flere tusind næsten datarækker. lige så længe At anvende som Excel. Excel Alligevel skønnes uden pivottabeller, det, at kun de svarer færreste til kun Excel at brugere første kender gear til i en pivottabeller, formel 1 bil. og at endnu færre anvender dem hensigtsmæssigt. 3 Pivottabeller er ingen ny opfindelse, de har eksisteret næsten ligeså længe som Excel. Jeg har arbejdet med virksomheder og set personer blive % mere effektive, efter de lærte at Alligevel skønnes det, at kun de færreste Excel brugere kender til pivottabeller og at endnu anvende pivottabeller. Af samme grund ønsker jeg, at du kommer til at mestre netop denne del af Excel. færre anvender dem hensigtsmæssigt. 3 At Jeg pivotere har arbejdet betyder med "at virksomheder dreje et fast og punkt", set personer og det blive er hvad pivot % mere tabellerne effektive går efter ud på: de "At lærte dreje beregninger at anvende pivottabeller. (statistikker), Af hvor samme rækkeoverskrifter grund ønsker jeg, og kolonneoverskrifter at du kommer til at mestre kan skifte netop plads, denne mens beregningen af data forbliver uændret. del af Excel. Forudsætningen for at bruge Pivot tabellen er, at data er samlet i databaseformat: det betyder helt konkret, At pivotere at hver betyder kolonne "at dreje skal være om et angivet fast punkt", med et og navn, det er dvs. hvad en pivot overskrift, tabellerne og at går felternes ud på: "At indhold i de dreje respektive beregninger kolonner (statistikker), skal være hvor formateret rækkeoverskrifter som: tekst, og et kolonneoverskrifter tal eller en dato. kan skifte plads, mens beregningen af data forbliver uændret. 3 Kilde: Bil Jelen: Number crunching with Pivot Tables 3 Kilde: Med fokus Bil Jelen: på erhvervslivet Number crunching with Pivot Tables s. 42 Af Stephan Skovlund (Copyright) Side 39

43 Beskrivende Statistik TABEL 31: Sælger Produkt Dato Salg Lund Nielsen Det er vigtigt, at formaterne ikke kombineres således, at der i kolonnen med dato ikke pludselig indgår bogstaver, og at der i kolonnen med sælgere ikke pludselig indgår tal som i nedenstående tabeller. TABEL 32: Sælger Produkt Dato Salg Nielsen Rislund 70 Marts Egefelt Hvad angår datoen, er pivottabellen meget følsom for at formatet genkendes som en Excel dato. Nogle vælger derfor at angive dato som en kolonne med måneder og en kolonne med år. Det er i midlertidigt ikke hensigtsmæssigt, da man fraskriver sig vigtige pivotfunktioner, eksempelvis muligheden for at konsolidere datoen fra uger til år, hvis ikke datoen formateres korrekt. Er du i tvivl, kan du altid anvende funktionen dato, som indikerer hvordan data skal angives. TABEL 33: Optimalt Uhensigtsmæssigt Dato Uge Måned År dec nov 2008 En anden vigtig detalje er, at dine data ikke afbrydes af tomme rækker som i nedenstående. Afbrydes dit datasæt af en tom række, dvs. en række uden et eneste tegn, vil pivottabellen opfatte det som et afbræk i datasættet, hvilket medfører at pivotabellen ikke medtager alle data. I tilfælde af tomme rækker kan du indsætte et enkelt tegn - som anvist i nedenstående. TABEL 34: Forkert Korrekt Uge Salg Uge Salg s. 43

44 Uge Salg Uge Salg Beskrivende Statistik Grundlæggende funktioner i pivottabeller Grundlæggende funktioner i pivottabeller I det følgende anvendes en pivottabel til at skabe et hurtigt overblik og beregne enkle estimater som gennemsnit I det følgende og standardafvigelsen. anvendes en pivottabel Øvelsen til at skabe baseres et hurtigt på overblik fiktive og data, beregne som enkle du estimater finder i Excel filen Salgsdata som under gennemsnit menuen og standardafvigelsen. Data på hjemmesiden Øvelsen baseres på fiktive data som du finder i Excel filen Salgsdata under menuen Data på hjemmesiden Når du åbner filen, er det første skridt at markere den øverste celle i venstre hjørne, celle A1. For at sikre, at pivottabellen Når du åbner filen medtager er det første alle skridt data at når markere den den oprettes, øverste celle er grundreglen i venstre hjørne, altid celle at A1. stille sig i datasættets første For at celle, sikre, hvilket at pivottabellen som regel medtager er celle alle data A1. når Når den du oprettes, har markeret grundreglen hele altid dit datasæt, stille vælger du Pivottabel i sig værktøjslinjen i datasættets første og celle, klikker hvilket ok i som den regel dialogboks er celle A1. der Når kommer du har markeret frem. hele dit datasæt vælger du Pivottabel i værktøjslinjen og klikker ok i den dialogboks der kommer frem. Det næste du ser, er et nyt ark med selve pivottabellen. Det næste du ser, er et nyt ark med selve pivottabellen. Af Stephan Skovlund (Copyright) Side 41 Arket er opdelt i et område med en tom tabel og et område med feltlister, som repræsenterer alle de forskellige kolonner i datasættet. s. 44 Nedenfor ses feltlisten der indeholder fire bokse. Hver boks svarer til et bestemt område i pivottabellen. Kolonner med talværdier, eksempelvis salg, skal i værdiboksen. Boksen til række- eller kolonne felter giver dig mulighed for at vende og dreje dine data (pivotering).

45 Beskrivende Statistik Arket er opdelt i et område med en tom tabel og et område med feltlister, som repræsenterer Arket alle er de opdelt forskellige i et område kolonner med i datasættet. en tom tabel og et område med feltlister, som repræsenterer alle de forskellige kolonner i datasættet. Nedenfor ses feltlisten der indeholder fire bokse. Hver boks svarer til et bestemt område i Nedenfor ses feltlisten, der indeholder fire bokse. Hver boks svarer til et bestemt område i pivottabellen. Kolonner med talværdier, eksempelvis salg, skal i værdiboksen. Boksen til række- eller pivottabellen. Kolonner med talværdier, eksempelvis salg, skal i værdiboksen. Boksen til række- eller kolonne felter giver dig mulighed for at vende og dreje dine data (pivotering). kolonne felter giver dig mulighed for at vende og dreje dine data (pivotering). Lad Lad os os tage tage et et simpelt eksempel. Antag Antag at at du du ønsker ønsker at se at det se samlede det samlede salg for salg hele for perioden. hele perioden. Denne simple forespørgsel svarer til at føre feltet Salg Salg fra feltlisten fra feltlisten ned i boksen ned i boksen med værdier, med værdier, som som i i nedenstående: Resultat ses omgående i tabel området. Ved at føre feltet Salg (stk.) ned i værdiboksen har Resultat tabellen ses omgående summeret salget i tabel for området. hele perioden Ved at føre feltet Salg (stk.) ned i værdiboksen har tabellen Af Stephan summeret Skovlund salget (Copyright) for hele perioden Side 42 Lad os nu antage, at vi ønsker at se fordelingen af salget på de enkelte salgskanaler. Da feltet Salgskanaler er baseret på tekst, skal vi enten føre feltet op i boksen med kolonne- eller række s. 45 felter. Føres feltet over i række boksen ses det totale salg nu fordelt på de enkelte salgskanaler.

46 Beskrivende Statistik Lad Lad os nu os antage, nu antage, at at vi vi ønsker ønsker at at se se fordelingen fordelingen af af salget salget på på de enkelte de enkelte salgskanaler. salgskanaler. Da feltet Da feltet Salgskanaler er baseret på tekst, skal vi enten føre feltet op i boksen med kolonne- eller række Salgskanaler er baseret på tekst, skal vi enten føre feltet op i boksen med kolonne- eller række felter. Føres feltet over i række boksen, ses det totale salg nu fordelt på de enkelte salgskanaler. felter. Føres feltet over i række boksen ses det totale salg nu fordelt på de enkelte salgskanaler. Med disse få trin har vi uden beregninger fået et godt overblik over et datasæt som rummer rækker. Af Stephan Pivottabeller Skovlund (Copyright) rummer et væld af funktioner, som kan være en fantastisk hjælp, når Side du arbejder med dataanalyse. I nedenstående er der links til en række videolektioner som viser de grund- 43 læggende og mere avancerede pivotfunktioner (hvis du ikke har adgangskode, kan denne bestilles på hjemmesiden). Udvalgte videolektioner (klik på links) Grundlæggende færdigheder 2.1 Markering af data 2.2 Flyt data 2.3 Vend data (indsæt speciel) 2.4 Cellereferencer 2.5 Regler for anvendelse af formler 2.6 Opsætning af grafer Redskaber til dataanalyse 3.1 Anvendelse af autofilter 3.2 Avancerede funktioner til autofilter 3.3 Pivottabeller 3.4 Feltindstillinger i pivottabeller 3.5 Manuelle beregninger med pivottabel 3.6 Kategorisering af data med pivottabel s. 46

47 KAPITEL 3 GRUNDLÆGGENDE SANDSYNLIGHEDSREGNING Statlearn.com

48 KAPITEL 3 Grundlæggende sandsynlighedsregning Sandsynlighedsregning er paradoksalt nok både et af de mest simple og samtidig et af de mest komplekse områder af statistik. En del af forklaringen skyldes, at sandsynlighedsregning rummer mulighed for at kombinere, udelukke og inkludere forskellige sandsynligheder, hvilket kan øge kompleksiteten betydeligt. Eksempelvis kan vi ræsonnere os frem til, at sandsynligheden for at slå en sekser i et enkelt terningkast nødvendigvis må være 1/6. Men udvides regnestykket til at kombinere 3 terninger, er sandsynligheden for at slå seks med dem alle mindre gennemskuelig. I dette afsnit starter vi med den grundlæggende sandsynlighedsregning og efterfølgende ser vi på mulighederne for at arbejde med mere komplekse problemstillinger. Lad os starte med en definition af sandsynlighedsbegrebet. Ordet er i sig selv er relativt selvforklarende, men hvad betyder det egentligt, når vi siger at sandsynligheden for at slå en sekser ved et terning kast er en 1/6? Rent matematisk er 6 1/6 netop 100 %, men betyder det så, at vi efter 6 kast kan være sikre på at få en sekser? Som du formentligt allerede ved eller har gættet, skal sandsynligheder betragtes som sandsynligheder i det lange løb, altså sandsynligheder, der vil indtræde hvis et eksperiment, som eksempelvis et terningkast udføres et uendeligt antal gange. Hvis et eksperiment kun udføres et få antal gange kan udfaldene fremstå som tilfældige. Der er med andre ord ingen garanti for at få en sekser ved seks terningkast, men har du tålmodighed til at kaste terningen en milliard gange, vil antallet af seksere tilnærmelsesvis være 1/6. Forskellige typer af sandsynligheder Når vi taler om sandsynlighedsregning sondres mellem 3 forskellige typer: objektive, estimerede og subjektive sandsynligheder. Objektive sandsynligheder kendetegnes ved, at vi kan ræsonnere os frem til den eksakte sandsynlighed for en given hændelse, hvilket eksempelvis er tilfældet med et terningkast. Forudsætningen for elementær sandsynlighedsregning er, at alle udfald er lige sandsynlige, hvilket passer fint med terningkast, hvor alle udfald må antages at være lige sandsynlige. Udover terninger er de fleste kasinospil klassiske eksempler på objektive sandsynligheder. Videolektioner > s. 48

49 Grundlæggende sandsynlighedsregning I den virkelige verden er det relativt sjældent, at vi arbejder ud fra eksakte sandsynligheder. Ofte må vi estimere os frem til sandsynligheder ud fra en stikprøve. Estimerede sandsynligheder betegnes eksperimentel sandsynlighedsregning, hvilket refererer til at vi må eksperimentere os frem til sandsynligheden. Et eksempel kan være den amerikanske valgkamp i 2008, hvor der dagligt blev foretaget stikprøvebaserede analyser for at estimere sandsynligheden for en sejr til Obama. Estimaterne vil ikke være eksakte som i tilfældet med terningkast, men sandsynlighederne vil blive mere eksakte jo større stikprøven er. Med andre ord vil en stikprøve på 250 mio. amerikanere give en mere eksakt sandsynlighed for andelen af amerikanske vælgere, der vil stemme på Obama, end en stikprøve på kun 10. amerikanske vælgere. Den sidste type sandsynligheder kan beskrives som subjektive, i den forstand at vi ikke har et faktuelt grundlag at beregne dem ud fra. I modsætning til terningkast - hvor vi ved, at der er seks mulige udfald - er der hver dag en række situationer, hvor vi ikke har denne slags information til rådighed. Hvis du eksempelvis en dag sætter alle dine spareskillinger på en ny hest som aldrig før har løbet væddeløb, må sandsynligheden for at hesten vinder i høj grad bero på din egen subjektive vurdering af hestens kvalifikationer. Grundlæggende forudsætninger Sandsynlighedsregning bygger på nogle enkle og relativt intuitive forudsætninger. Som det første skal alle sandsynligheder være mellem 0 og 1 eller i procent ligge mellem 0 og 100 %. I daglig tale falder der ofte bemærkninger som jeg er 110 % sikker på at... Daglig tale og knastør statistikteori er ikke helt forenelige størrelser. Den næste forudsætning er, at sandsynlighederne TABEL 36: Summering af sandsynligheder for alle de mulige udfald af variablen X i skal summeret blive lig med 1 (100 %). Hvis vores variabel Forudsætning 2: n i51 P(X i ) 5 1 eksempelvis er summen af et terningkast, så skal sandsynlighederne af de mulige udfald af terningkastet kunne summeres til 1 (100 %). Ved et terningkast er der 6 mulige udfald, hvor hvert udfald har en sandsynlighed på 1/6, hvilket netop giver en samlet sandsynlighed på 1 (6 1/6). Som den sidste grundlæggende forudsætning skal sandsynligheden for en bestemt hændelse (H i ) være summen af alle de sandsynligheder, der tilhører denne hændelse. Ved et enkelt terningkast vil sandsynligheden for hændelsen mindst 5 derved blive summen af sandsynligheden for at få 5 og 6. TABEL 35: Interval for sandsynligheder Forudsætning 1:0 P(X i ) 1 TABEL 37: Sandsynlighed for en hændelse Forudsætning 3: P(H) 5 n X i H P(X i ) s. 49

50 Grundlæggende sandsynlighedsregning Grundlæggende begreber Inden vi ser nærmere på regneregler for sandsynligheder, skal vi først have begreberne et udfald, et udfaldsrum og en hændelse på plads. Et udfald kan vi definere som resultatet af et eksperiment. Et eksperiment fører tankerne hen mod hvide kitler og Frankenstein, men er i princippet blot udtryk for en bestemt handling. Denne handling kunne være at kaste en mønt eller udfaldet af Wimbledon finalen. Begge eksempler rummer nogle klare udfald, ved møntkastet får vi enten plat eller krone, og ved Wimbledon finalen taber eller vinder en af tennisspillerne. Udfaldsrummet (U) kan vi definere som alle de mulige udfald i et eksperiment. Kaster vi en enkelt terning kan udfaldsrummet defineres som U(1,2,3,4,5,6) 5 6 mulige udfald. En hændelse (H i ) defineres som det udfald vi ønsker at beregne sandsynligheden for. Hvis du ved et møntkast vinder, hvis resultatet bliver krone, defineres hændelsen: H(Krone). Hvis du ved et terningkast vinder, hvis summen er mindst 4, så defineres hændelsen: H(4,5,6) I nedenstående ses begreberne illustreret. Kassen repræsenterer selve eksperimentet og dermed alle de mulige udfald (U). Cirklen repræsenterer hændelse H. FIGUR 19: H H H er den komplementære mængde, hvilket er de(t) udfald, som ikke indgår i hændelsen H. Tilsammen udgør H og H det samlede udfaldsrum U. Objektive sandsynligheder Forestil dig at du var med i lodtrækningen om at vinde en million kr. Selve lodtrækningen foregår ved, at der tilfældigt udtages en ud af 100 nummererede kugler. Hvis kuglen der trækkes har nummer 1 vinder du. Jeg håber at du er enig i at sandsynligheden for at udtage en vinderkugle, kugle nummer 1, nødvendigvis må være 1/100 eller 1 %. Med andre ord har vi fundet sandsynligheden for at hændelsen vinderkugle indtræffer ud af alle de mulige hændelser. Formelt set betegnes sandsynligheden for en hændelse med: P(hændelse) - i dette eksempel P(vinderkugle). Sandsynligheder der beregnes i vinderkugleeksemplet kaldes a priori sandsynligheder. A priori refererer til, at vi kan beregne den eksakte sandsynlighed før hændelsen indtræffer. Vi kan med andre s. 50

51 Grundlæggende sandsynlighedsregning ord på baggrund af den viden vi har om eksperimentet, ræsonnere os frem til, at sandsynligheden for en vinderkugle må være 1/100. A priori sandsynligheder bygger på en grundlæggende forudsætning om, at alle udfald skal være lige sandsynlige. For at vores sandsynlighed med vinderkuglen skal holde stik, er det nødvendigt, at kuglerne er udformet ens - der må eksempelvis ikke være forskel på vægt eller størrelse. TABEL 38: A priori sandsynlighed A priori sandsynligheder beregnes som: Antal mulige udfald af X P(X) 5 Antal mulige udfald i alt EKSEMPEL: Hvis de første 4 ud af de 20 kugler var vinderkugler angives sandsynligheden: P(Vinderkugle) 5 X(1,2,3,4) U(1 20) 5 4/20 5 1/5 Estimerede sandsynligheder Grundlaget for at beregne a priori sandsynligheder er, at vi kender antallet af mulige udfald, og kan tælle antallet af de mulige hændelser vi ønsker. Vi antager at logistikchefen for Post Danmark ønsker at kende sandsynligheden for, at sorteringsmaskinen begår fejl. Han er derfor nødt til at observere maskinen i en given periode og efterfølgende tælle antallet af fejl. Spørgsmålet er, i hvor lang tid han skal observere maskinen, for at få den retvisende sandsynlighed for fejl. Du vil forhåbentligt være enig i, at 5 minutter vil være i underkanten, men hvad så med at observere maskinen en hel dag eller uge? På den ene side vil vi, alt andet lige, nærme os en mere præcis sandsynlighed for maskinens fejl, jo længere vi observerer den. På den anden side forekommer det ligeså intuitivt, at vi formentligt vil få to forskellige resultater, hvis vi observerer maskinen i to forskellige uger. Dermed vil vi opnå forskellige sandsynligheder for maskinens fejl, hvilket kan illustreres således: P(Fejl i uge 1) 5 P(Fejl i uge 2) , , I modsætning til de objektive sandsynligheder som i eksemplet med terningkast, er der her to forhold der gør sig gældende. For det første kan vi ikke på forhånd beregne sandsynligheden for at maskinen laver en fejl. Vi er nødt til at foretage et eksperiment, hvor maskinens fejl tælles over en periode. s. 51

52 Grundlæggende sandsynlighedsregning For det andet kan vi se, at estimerede sandsynligheder ændrer sig ved hvert forsøg. Vi kan derfor ikke tale om eksakte sandsynligheder, men derimod estimerede (tilnærmede) sandsynligheder. TABEL 39: Estimerede sandsynligheder Estimerede sandsynligheder beregnes som: Antal hændelser (X) P(X) 5 Antal eksperimenter(n) Subjektive sandsynligheder I gennemgangen af sandsynligheder har vi indtil videre beskæftiget os med situationer, hvor data enten kan måles objektivt eller ud fra estimater. Subjektive sandsynligheder falder uden for begge kategorier. Som navnet antyder, er subjektive sandsynligheder baseret på erfaring og fornemmelser - ikke tal. Vi er dagligt omgivet af subjektive sandsynligheder. Eksempelvis er din fornemmelse af om en person taler sandt ofte en subjektiv vurdering. Hver dag er mange af vores handlinger mere eller mindre ubevidst styret af subjektive sandsynligheder. Vi kunne muligvis kalde det instinktive handlinger. Fællesmængden ( OG hændelsen ) Indtil videre har vi diskuteret sandsynligheder for en enkelt hændelse, eksempelvis sandsynligheden for at vi med en enkelt terning kan slå en sekser, eller for at en sorteringsmaskine hos Post Danmark laver fejl. Det vi nu skal se, er hvordan vi kan kombinere sandsynligheder og dermed beregne sandsynligheder for, at to eller flere forskellige hændelser indtræffer. Helt grundlæggende kan hændelser kombineres på to måder, enten sandsynligheden for hændelse A og B eller hændelsen A eller B. Med fællesmængden søger vi sandsynligheden for at to hændelser indtræffer samtidigt. Fællesmængden kan vi illustrere med nedenstående Venn diagram. FIGUR 20: Fællesmængden illustreret i et Venn diagram A B Det område som begge cirkler har til fælles betegnes fællesmængden, hvilket er det grå område i diagrammet. s. 52

53 Grundlæggende sandsynlighedsregning TABEL 40: A priori sandsynlighed Beregning af fællesmængden (forudsat uafhængighed mellem A og B): P(A B) 5 P(A) P(B) EKSEMPEL: Antag at vi har en hvid og en sort terning, og ønsker sandsynligheden for at få en sekser med dem begge. Vi ved at sandsynlighed for en sekser med en enkelt terning er 1/6, så hvordan kan vi beregne sandsynligheden for, at begge terninger bliver seksere? Definition af hændelserne: A Hvid (6) P(A Hvid ) B Sort (6) P(B Sort ) P(A B) 5 P(A) P(B) ,78% Det kan undre os, at sandsynligheden for at få to seksere kun er 2,78%, når vi samtidig tænker på, at sandsynligheden for at få en enkelt sekser er ca. 17 %. Hvorfor er der denne store forskel, og hvorfor er det seks gange mindre sandsynligt at slå to seksere frem for en sekser? Illustreres udfaldsrummet for to terninger vil du hurtigt kunne se hvorfor. FIGUR 21: Fællesmængden ved to terningkast Sort terning Hvid terning Med en enkelt terning har vi seks mulige udfald, derfor ved vi at sandsynligheden for en sekser må være 1/6, men med to terninger er vores udfaldsrum ikke blot fordoblet, men seksdoblet til 36. Dette forklarer at sandsynligheden for to seksere (gråt felt) må være seks gange mindre end sandsynligheden for at få en sekser med en enkelt terning. s. 53

54 Grundlæggende sandsynlighedsregning Fællesmængden er ikke kun begrænset til 2 hændelser, da kombinationsmulighederne i princippet er uendelige. Sandsynligheden for at 3 terninger alle bliver seksere vil eksempelvis være: P(A B C) 5 P(A) P(B) P(C) ,005 Foreningsmængden ( ELLER hændelsen) I modsætning til fællesmængden hvor hændelserne A og B skal indtræffe, er foreningsmængden mindre krævende. Med foreningsmængden søger vi, at mindst en af hændelserne indtræffer. For at illustrere dette, kan vi anvende et Venn diagram, hvor foreningsmængden repræsenterer det samlede areal af begge cirkler. FIGUR 22: Foreningsmængden illustreret i et Venn diagram A B Foreningsmængden er således opfyldt, når enten A eller B eller både A og B indtræffer. Hvis vi for simpelheden skyld genbruger eksemplet med de to terninger, vil foreningsmængden være sandsynligheden for at den hvide eller sorte terning bliver en sekser, eller at de begge gør det. TABEL 41: Beregning af foreningsmængden Beregning af foreningsmængden (forudsat uafhængighed mellem A og B): P(A B) 5 P(A) 1 P(B) 2 P(A B) EKSEMPEL: Hvis vi fortsætter eksemplet med den hvide og den sorte terning, hvad er så sandsynligheden for at få foreningsmængden, dvs. enten at slå seks med hvid, sort eller begge terninger? A Hvid (6) P(A Hvid ) B Sort (6) P(B Sort ) P(A B) 5 P(A) 1 P(B) 2 P(A B) * s. 54

55 Grundlæggende sandsynlighedsregning Årsagen til at vi fratrækker fællesmængden fra summen af A og B er, at fællesmængden både er en del af A og B. Når vi adderer sandsynligheden for A og B betyder det, at vi kommer til at medtage fællesmængden to gange - se det mørkegrå felt i celle 66 i nedenstående. FIGUR 23: Fællesmængden ved to terningkast Sort terning Hvid terning Komplementær hændelsen Komplementær hændelsen kan defineres som den modsatte hændelse af den vi har defineret. Hvis hændelsen (A) defineres som udfaldet krone ved et møntkast, så er den komplementære hændelse (A ) at få plat. TABEL 42: Beregning af komplementærsandsynligheden Beregning af komplementærsandsynligheden: P(A ) P(A) Når vi bruger komplementære sandsynligheder, så er det ofte for at beregne fælles- eller foreningsmængden på en mere simpel måde. EKSEMPEL: Antag at vi har et samlebånd, hvor to kontrolmekanismer skal sikre, at defekte varer kasseres. Hver kontrolmekanisme er 99 % præcis, og der er således kun 1 % sandsynlighed for fejl. Som produktionschef er du interesseret i at kende sandsynligheden for, at en defekt vare slipper igennem begge kontrolmekanismer uden at blive opdaget. Denne sandsynlighed kan løses ved anvendelse af foreningsmængden, hvor vi finder sandsynligheden for, at fejlen enten spottes af kontrol 1, kontrol 2 eller af begge kontroller: A: Fejl opdages af kontrol 1 P(A) 5 0,99 B: Fejl opdages af kontrol 2 P(B) 5 0,99 P(A B) 5 P(A) 1 P(B) 2 P(A B) 5 0,99 1 0,99 2 0,99 * 0,99 5 0,9999 s. 55

56 Grundlæggende sandsynlighedsregning I stedet for at anvende foreningsmængden kan sandsynligheden løses mere simpelt (elegant J) med komplementærmængden. Frem for at finde sandsynligheden for at fejl opdages af en eller begge kontroller, kan vi blot finde sandsynligheden for, at en fejl ikke opdages og efterfølgende fratrække denne fra 1 hvilket svarer til vores totale 4 sandsynlighed (100 %). A : Fejl opdages ikke af kontrol 1 P(A ) 5 0,01 B : Fejl opdages ikke af kontrol 2 (B ) 5 0,01 NB: Bemærk at hændelsen A er det modsatte af hændelsen A, hvilket markeres med en streg over bogstavet. 1 2 P(A B ) ,01 0, , ,9999 Betingende sandsynligheder Afhængige hændelser Indtil videre har vi set på hændelser som uafhængige hændelser, dvs. eksperimenter der har udfald som ikke afhænger eller påvirkes af hinanden. TABEL 43: Beregning af foreningsmængden Hvis uafhængighed mellem 2 hændelser gælder: P(A) 5 P(AIB) Hvis afhængighed gælder: P(A) P(AIB) Notationen med en streg der deler A og B(AIB) tolkes som A på betingelse af B, eller A når B er indtruffet. EKSEMPEL: Vi har stadig en hvid og en sort terning og definerer hændelsernes A: 1 med hvid terning og B: 6 med sort terning. Er der så tale om to uafhængige hændelser? Da udfaldet af den sorte terning på ingen måde påvirker udfaldet af den hvide terning gælder følgende: P(A) og P(AIB) Med andre ord påvirkes sandsynligheden for hændelsen A ikke af udfaldet af hændelse B. Dermed bekræftes reglen for uafhængighed. Alt har en modsætning, og som du sikkert har gættet, er der en række situationer, hvor vi ikke kan antage uafhængighed mellem A og B. I sådanne tilfælde gælder reglen: Afhængighed hvis P(A) P(AIB) 4 Et eksempel på den totale sandsynlighed findes i afsnittet: Regneregler for sandsynligheder. s. 56

57 Grundlæggende sandsynlighedsregning Ved afhængighed forstås at hændelsen A har indflydelse på hændelsen B eller omvendt. Når der er afhængighed så er P(A) ikke det samme som P(AIB), dvs. hændelsen B har indflydelse på sandsynligheden for A. EKSEMPEL: Antag at vi har et spil lotto med 10 nummererede kugler, hvor vinderkriteriet er at få kugle nr. 1. Vi ved at sandsynligheden for at få en given kugle i første forsøg nødvendigvis må være 1 ud af 10. Hermed definerer vi hændelserne: A: Kugle nr.1 P(A) ,1 B: Kugle nr.2 P(B) ,1 Men hvad med P(AIB)? Såfremt kugle nr. 1 ikke bliver trukket i første forsøg vil der nu, hvor den næste kugle trækkes, nødvendigvis være en sandsynlighed på 1/9 for at kugle nr. 1 udtrækkes. Sandsynligheden for kugle nr. 1 er således øget fra 1/10 til 1/9, når kugle to er udtaget. Dermed er der en kugle mindre, hvilket bekræfter reglen for afhængighed: P(A) P(AIB) da Omvendt betingede sandsynligheder (Bayes teorem) Den omvendt betingende sandsynlighed, eller rettere Bayes teorem, gør os i stand til at finde P(A I B) når kun P(B I A) er givet, dermed betegnelsen omvendt betingede sandsynlighed. TABEL 44: Beregning af den omvendt betingede sandsynlighed Beregning af den omvendt betingede sandsynlighed (Bayes teorem): P(A) P(BIA) P(A I B) 5 P(B) EKSEMPEL: Antag at Bilka fra erfaring ved at 30 % af kunderne køber Coca-Cola og at 20 % køber chips. Herudover har Bilka fundet frem til, at hvis en kunde køber Coca-Cola, så er der 40 % sandsynlighed for at vedkommende også køber chips. Hvis en kunde køber chips, hvad er så sandsynligheden for, at kunden også køber Coca-Cola? s. 57

58 Grundlæggende sandsynlighedsregning LØSNING Det vi ved indtil videre: P(A Cola ) 5 0,3 P(B Chips ) 5 0,2 P(B Chips I A Cola ) 5 0,4 Den omvendt betingede sandsynlighed, hvilket svarer til sandsynligheden for at købe cola, når man har købt chips: P(A Cola IB Chips ) 5 P(A Cola) P(B Chips IA Cola ) P(B Chips ) 5 0,3 0,4 0,2 5 0,6 Der er hermed 60 % sandsynlighed for, at en vilkårlig kunde, der køber chips også vil købe Coca- Cola. Det kan undre at forholdet mellem Coca-Cola og Chips ikke er 1:1 begge veje, hvorfor påvirkes sandsynligheden af, om man først lægger chips eller cola i indkøbskurven først? Problemstillingen kan illustreres med følgende matrix, der består af 100 celler. FORKLARING Vi ved, at 30% af kunderne køber Coca-Cola. Vi kan derfor anvende en matrix med 100 felter (5100 %), hvoraf de 30 felter er de kunder der køber Coca-Cola, hvilket svarer til det grå område i den nedenstående matrix. FIGUR 24: Symbolforklaring Køber Coca-Cola Vi ved, at der er 20% af kunderne der køber chips, men vi ved ikke hvordan disse fordeler sig i forhold til de 30% af kunderne der køber Coca Cola. Vi ved derimod, at hvis en kunde køber Coca-Cola, s. 58

59 Grundlæggende sandsynlighedsregning så er der 40 % chance for, at kunden også køber chips. Derfor skal 40 % af det grå område reserveres til chips, hvilket svarer til 12 felter, som markeres med 1 i nedenstående matrix. FIGUR 25: Symbolforklaring Køber Coca-Cola 1 Køber Chips Når vi ved, at der er 20 % sandsynlighed for at der købes chips, må de resterende 8 felter således tilhøre det segment der ikke køber Coca-Cola (hvidt område) Såfremt en kunde køber chips - område markeret med 1 - kan vi se at der er 12 felter med chips i Coca-Cola området, hvilket betyder at sandsynligheden for at købe chips, når der købes Coca-Cola, er 12/ %. FIGUR 26: s. 59

60 Grundlæggende sandsynlighedsregning Regneregler for sandsynligheder 1. A priori sandsynligheder (objektive sandsynligheder) TABEL 45: P(X) 5 Antal mulige udfald af X Antal mulige udfald i alt 5 X U(5udfaldsrum) EKSEMPEL: Hvad er sandsynligheden for at slå en 6 er i et terningkast? X: Sum af et terningkast 5 6 P(X 5 6) Summering af sandsynligheder TABEL 46: n P(H) 5 P(X i) hvor H(X i51 ) X i5n ) X i H EKSEMPEL: Hvis vi har 12 kugler hvoraf der er 5 røde, 4 blå og 3 er grønne, hvad er så sandsynligheden for at få en rød eller en blå kugle? Definition af hændelsen (H): H(X R1,X R2,X R3,X R4,X R5,X B1,X B2,X B3,X B4 ) n P(H) 5 P(X i) i51 3. Fællesmængden når A og B er uafhængige ( OG hændelsen) TABEL 47: P(A B) 5 P(A) P(B) Fællesmængden tolkes som hændelsen A og B. s. 60

61 Grundlæggende sandsynlighedsregning EKSEMPEL: Vi har to terninger, en hvid og en sort, hvad er sandsynligheden for at slå 1 med begge terninger? A Hvid 5 1 P(A Hvid ) B Sort 5 1 P(B Sort ) P(A B) Fællesmængden ved afhængighed mellem A og B (betinget sandsynlighed) TABEL 48: P(A B) 5 P(A) P(BIA) Ved afhængighed forstås at hændelsen A har indflydelse på hændelsen B eller omvendt. Når der er afhængighed er P(A) ikke det samme som P(AIB), dvs. hændelsen B har indflydelse på sandsynligheden for A. EKSEMPEL: Vi observerer et spil lotto med 10 kugler, nummereret fra 1 til 10. Blandt de 10 kugler udtrækkes der 2 kugler. Vinderkriteriet er at udtrække kugle nr. 1 og 2 rækkefølgen er underordnet. Hvad er sandsynligheden for at vinde? Sandsynligheden for at få kugle nr. 1 eller 2 i første udtræk må nødvendigvis være 1 ud af 10. Hvis vi hypotetisk antager, at vi i første udtræk udtager kugle nr. 1, så er sandsynligheden for at udtage kugle nr. 2 ikke længere 1 ud af 10 men 1 ud af 9, da der kun er 9 kugler tilbage. P(A B) 5 P(A) P(BIA) P(1 2) 5 P(1) P(2I1) Regneregel for uafhængighed TABEL 49: Hvis der er uafhængighed gælder P(A) 5 P(AIB) EKSEMPEL: Hvis vi har to terninger og ønsker at slå 1 med den hvide terning (A) og 2 med den sorte terning (B), er der så tale om to uafhængige hændelser? Da udfaldet af den sorte terning ikke har indflydelse på udfaldet af den hvide terning gælder: P(A) og P(AIB) Hvilket svarer til at P(A) 5 P(AIB), dermed er der uafhængighed. I tilfælde af at reglen for uafhængighed ikke er opfyldt, er der tale om afhængige hændelser. s. 61

62 Grundlæggende sandsynlighedsregning 6. Foreningsmængden ( ELLER hændelsen) TABEL 50: P(A B) 5 P(A) 1 P(B) 2 P(A B) Foreningsmængden tolkes hændelserne A eller B eller både A og B. EKSEMPEL: Antag at vi kaster to terninger, en hvid (A) og en sort (B). Hvad er sandsynligheden for at få mindst en 6 er? A Hvid 5 6 P(A Hvid ) B Sort 5 6 P(B Sort ) Af regneregel følger: P(A B) Komplementærmængden ( OG hændelsen) TABEL 51: P(A ) P(A) Komplementærmængden kan opfattes som det modsatte af hændelsen A. EKSEMPEL: Hvad er den komplementære sandsynlighed til at slå en etter med en terning? A(1) P(A) P(A ) P(A) Sandsynligheden er 5 ud af 6, hvilket er det vi forventer, da den komplementære mængde til at slå en etter vil være at slå alt andet end en etter. s. 62

63 Grundlæggende sandsynlighedsregning 8. Den totale sandsynlighed TABEL 52: P(A 5 P(A B) 1 P(A B ) Den totale sandsynlighed bruges til at beregne sandsynligheden for en hændelse, som er sammensat af flere sandsynligheder. EKSEMPEL: Ud af alle studerende er der 30 % som er mænd og som har haft erhvervserfaring, men kun 25 % af alle studerende er kvinder med tilsvarende erhvervserfaring. Hvor mange studerende har haft erhvervserfaring? A(Erhvervserfaring) B(Mænd) B (Kvinder) P(A) 5 P(A B) 1 P(A B ) P(A) 5 0,3 1 0,25 5 0, % 9. Den omvendte betingede sandsynlighed (Bayes teorem) TABEL 53: P(A I B) 5 P(A) P(BIA) P(B) EKSEMPEL: Fra Danske Banks statistiske afdeling oplyses det, at sandsynligheden for at en tilfældig låner anmoder om et lån på mere end kr. er 0,45. Yderligere oplyses det, at sandsynligheden for, at et lån på mere end kr. er optaget af en husejer, er 0,60. Antag at sandsynligheden for, at en vilkårlig låner er husejer, er 0,35. Hvad er sandsynligheden for at en låner, som er husejer, optager et lån på mere end kr. Det vi ved: A: Låner der anmoder om mere end kr. B: Husejer P(A) 5 0,45 P(B) 5 0,35 P(BIA) 5 0,6 Den omvendt betingede sandsynlighed, dvs. sandsynligheden for at anmode om et lån på kr. når man er husejer: P(A I B) 5 P(A) P(BIA) P(B) 5 0,45 0,6 0,35 5 0,771 s. 63

64 Grundlæggende sandsynlighedsregning Øvelser De første spørgsmål er relateret til fortolkning, dvs. her skal du forsøge med egne ord at forklare betydningen af de forskellige sandsynlighedsbegreber. Efterfølgende er opgaverne rettet mod beregninger. Fortolkningsøvelser 1. Anvend et Venn diagram (to overlappende cirkler) til at illustrere fælles- og foreningsmængden for følgende to hændelser: A) at købe en Audi og B) at købe et B&O lydanlæg til en bil. 2. Hvad er forskellen på fælles, forenings og komplementærmængden? 3. Hvordan ville formlen for fællesmængden se ud, hvis der eksempelvis var tre hændelser: A, B og C. 4. Hvad menes med a priori sandsynligheder? 5. Nævn tre eksempler på a priori sandsynligheder. 6. I hvilke tilfælde må man anvende subjektive frem for objektive sandsynligheder? Beregningsøvelser Opgave 1. Antag at vi observerer et spil, hvor en enkelt terning kastes. Spørgsmål 1. Definer udfaldsrummet. Spørgsmål 2. Hvad er sandsynligheden for, at terningkastet viser mere end 3? Spillet udvides nu til to terninger, en hvid og en sort. Hvad er sandsynligheden for: Spørgsmål 3. At få en enkelt etter når de to terninger kastes? Spørgsmål 4. At mindst en af terningerne viser 1? Spørgsmål 5. At få 3 med den sorte og 2 med den hvide terning. Spørgsmål 6. At summen af terningkastet er mindre end 4. Spørgsmål 7. Hvad er sandsynligheden for at slå tre 6 ere i et enkelt kast med 3 terninger? s. 64

65 Grundlæggende sandsynlighedsregning Opgave 2. Forestil dig afholdelsen af 2 VM semifinaler i fodbold, hvor alle 4 hold (A, B, C, D) har samme sandsynlighed for at vinde, tabe eller spille uafgjort. I den første semifinale mødes hold A og B, og i den anden mødes hold C og D. Spørgsmål 1. Hvad er sandsynligheden for at begge semifinaler ender uafgjort? Spørgsmål 2. Hvad er sandsynligheden for at semifinale 1 vindes af hold A, og semifinale 2 tabes af hold D? Opgave 3. Ved et pokerbord er der allerede uddelt 10 kort, hvoraf 6 er hjerter, og ingen er billedkort. Hvad er sandsynligheden for at det næste kort bliver en spar, klør eller ruder? Opgave 4. Sandsynligheden for en københavner går til fitness (A) er 0,3 og tilsvarende er sandsynligheden for, at en tilfældig københavner ejer en Nokia mobiltelefon (B) 0,35. Såfremt at en københavner ejer en Nokia mobiltelefon, er der en sandsynlighed på 0,45 for at vedkommende også går til fitness. Er hændelserne A og B da uafhængige? Opgave 5. På Niels Brock er der 1000 studerende hvoraf 500 læser finansøkonomi, 400 læser til markedsføringsøkonom og 100 læser multimediedesign. Hvad er sandsynligheden for, at en tilfældigt udvalgt elev læser en økonomisk uddannelse? Opgave 6. Antag at 10 % af alle lærebøgerne købes brugt og at 70 % af alle elever køber deres bøger fra starten af semesteret. Hvis der forudsættes uafhængighed mellem tidspunkt for bogkøb og bogens tilstand, hvad er da sandsynligheden for, at en tilfældig elev har købt en: Spørgsmål 1. Ny bog ved semester start? Spørgsmål 2. Brugt bog efter semester start? Spørgsmål 3. (Opgave 6 fortsat). Ny bog efter semester start? s. 65

66 Grundlæggende sandsynlighedsregning Opgave 7. Ud af alle københavnere med videregående uddannelse er der: 25 % mandlige akademikere som har haft lederstillinger og 8 % kvindelige akademikere som har haft lederstillinger. Hvad er sandsynligheden for at en akademiker i København har haft en lederstilling? Opgave 8. Antag at boligmarkedet stiger med en sandsynlighed på 50 %, og at renten falder med 40 % sandsynlighed. Hvis renten falder, er der 80 % sandsynlighed for at boligmarkedet vil stige. Spørgsmål 1. Er der uafhængighed mellem renten og et stigende boligmarked? Hvis ja/nej hvorfor ikke? Spørgsmål 2. Hvad er sandsynlighed for at boligmarkedet stiger og renten falder? Spørgsmål 3. Hvad er sandsynligheden for at renten falder, når boligmarkedet stiger? Opgave 9. På Carlsberg er der en række sikkerhedsforanstaltninger, der skal sikre, at tappemaskinen ikke går i stå, selvom der sker en kortslutning i maskinens kredsløb. For at sikre optimal sikkerhed er der 2 mekanismer, som uafhængigt af hinanden overvåger om tappemaskinen er velfungerende. Sandsynligheden for at en fejl ikke opdages er 1 % for hver af de 2 mekanismer. Spørgsmål 1. Hvad er sandsynligheden for at en fejl opdages? Overvej om der er tale om fælles eller foreningsmængden? (Opstil evt. en matrix over mulighederne) Spørgsmål 2. Hvad er sandsynligheden for at en fejl ikke bliver opdaget? s. 66

67 Grundlæggende sandsynlighedsregning Løsninger Fortolkningsøvelser: 1. Når hændelsen A er at købe en Audi og B er at købe et B&O lydanlæg til en bil, så illustreres fællesmængden - P(A B) - som det skraverede område i nedenstående: FIGUR 27: A B Fællesmængden er således den hændelse hvor der købes en Audi og et B&O lydanlæg til bilen. 2. Foreningsmængden inkluderer de hændelser, hvor der købes en Audi eller et B&O lydanlæg til bilen eller begge dele - se nedenstående Venn diagram. FIGUR 28: A B Foreningsmængden kan siges at være mindre krævende end fællesmængden, da denne er opfyldt når enten A eller B eller både A og B indtræffer. For fællesmængden gælder at begge hændelser skal indtræffe. Sandsynligheden for foreningsmængden vil derfor altid være højere end for fællesmængden. Komplementærmængden - P(A ) - er den modsatte sandsynlighed af hændelsen A. Hvis hændelsen A er solskin, så vil komplementærmængden være sandsynligheden for regnvejr. s. 67

68 Grundlæggende sandsynlighedsregning 3. P(A B C) 4. A priori sandsynligheder er betegnelsen for sandsynligheder som på forhånd er givet. 5. Møntkast, terningkast og roulette Alle tre aktiviteter har det til fælles at vi kender sandsynligheden for et bestemt udfald. Vi ved på forhånd at sandsynligheden for krone er 50%, at sandsynligheden for at slå en sekser er en 1/6 osv. 6. Subjektive sandsynligheder anvendes når vi ikke har et datagrundlag eller på anden måde kan beregne sandsynligheden for en bestemt hændelse. Beregningsøvelser: Opgave 1. Spørgsmål 1. U(1,2,3,4,5,6) Spørgsmål 2. U(1,2,3,4,5,6) X(4,5,6) P(X) 5 Antal mulige udfald af X Antal mulige udfald i alt (U) Spørgsmål 3. A: Terningøjne viser 1 med sort terning B: Terningøjne viser 1 med hvid terning Foreningsmængden fratrukket fællesmængden: P(A B) 2 P(A B) 5 P(A) 1 P(B) 2 P(A B) 2 P(A B) Nb: Vi er nødt til at fratrække fællesmængden fra foreningsmængden, da sidstnævnte indeholder muligheden for, at slå en etter med begge terninger. Spørgsmål 4. A: Terningøjne viser 1 med sort terning B: Terningøjne viser 1 med hvid terning Foreningsmængden: P(A B) 5 P(A) 1 P(B) 2 P(A B) s. 68

69 Grundlæggende sandsynlighedsregning Spørgsmål 5. A: Terningøjne viser 3 med sort terning B: Terningøjne viser 2 med hvid terning Fællesmængden: P(A B) 5 P(A) P(B) Spørgsmål 6. U(11,12,13..66) 5 36 X(11,12,21) 5 3 (ved de tre kombinationer er summen mindre end 4) P(X) 5 Antal mulige udfald af X Antal mulige udfald i alt (U) Spørgsmål 7. A: Terningøjne viser 6 med terning nr. 1 B: Terningøjne viser 6 med terning nr. 2 C: Terningøjne viser 6 med terning nr. 3 P(A B C) Opgave 2. Spørgsmål 1. X: Semifinale nr. 1 ender uafgjort og Y: Semifinale nr. 2 ender uafgjort Spørgsmål 2. X: Semifinale nr. 1 vindes af hold A og Y: Semifinale nr. 2 tabes af hold D P(X Y) P(X Y) s. 69

70 Grundlæggende sandsynlighedsregning Opgave 3. Ud af 52 kort er der udtaget 10, heriblandt 6 hjerter: Det betyder at der er ud af de resterende 42 kort må være 7 hjerter tilbage. X: Klør, spar eller ruder. P(X) 5 Opgave 4. A: Københavner går til fitness B: københavner der ejer en Nokia telefon Antal mulige udfald af X Antal mulige udfald i alt (U) P(A) 5 0,3 P(AIB) 5 0,45 Opgave 5. X(finansøkonom, markedsføringsøkonom) Afhængighed da P(A) P(AIB) P(X) 5 Antal mulige udfald af X Antal mulige udfald i alt (U) 5 ( ) ,9 Opgave 6. A: Lærebøgerne købes nye P(A) 5 0,9 A : Lærebøgerne købes brugt P(A ) 5 0,1 B: Lærebøgerne købes fra starten af semesteret P(B) 5 0,7 B : Lærebøgerne købes efter semesteret er startet P(B ) 5 0,3 Spørgsmål 1. Sandsynligheden for at en elev køber en ny bog ved starten af semesteret: P(A B) 5 0,9 0,7 5 0,63 Spørgsmål 2. Sandsynligheden for at en elev køber en brugt bog efter starten af semesteret: P(A B :) 5 0,1 0,3 5 0,03 Spørgsmål 3. Sandsynligheden for at en elev køber en ny bog efter starten af semesteret: P(A B ) 5 0,9 0,3 5 0,27 s. 70

71 Grundlæggende sandsynlighedsregning Opgave 7. A: Lederstillinger B: Mænd B : Kvinder P(A) 5 P(A B) 1 P(A B ) 5 0,25 1 0,08 5 0,33 Opgave 8. Spørgsmål 1. A: Boligmarkedet stiger B: Renten falder Afhængighed da P(A) P(AIB) P(A) 5 0,5 P(B) 5 0,4 P(AIB) 5 0,80 Spørgsmål 2. Sandsynligheden for at boligmarkedet stiger og renten falder: P(A B) 5 0,8 0,32 5 0,2 Spørgsmål 3. Sandsynligheden for at renten falder, når boligmarkedet stiger (Bayes teorem): P(BIA) 5 P(B) P(AIB) P(A) 5 0,4 0,8 0,5 5 0,64 Opgave 9. A: Fejl opdages af mekanisme 1 P(A) 5 0,99 B: Fejl opdages af mekanisme 2 P(B) 5 0,99 Spørgsmål 1. Sandsynligheden for at en fejl opdages (foreningsmængden): P(A B) 5 0,99 1 0,99 2 0,99 0,99 5 0,9999 Spørgsmål 2. Sandsynligheden for at en fejl ikke opdages (komplementærmængden til foreningsmængden): 1 2 P(A B) , ,0001 s. 71

72 KAPITEL 4 STOKASTISK VARIABEL Statlearn.com

73 KAPITEL 4 Stokastisk variabel En stokastisk variabel klinger som et fremmedord, men er reelt blot betegnelsen for en variabel, der antager numeriske værdier med en tilknyttet sandsynlighed for hvert udfald. Et terningkast er en stokastisk variabel, da summen af terningøjne angives med tal, og hvert udfald har en bestemt sandsynlighed for at indtræffe (1/6). Enhver stokastisk variabel har tilknyttet en sandsynlighedsfordeling, som angiver sandsynligheden for de forskellige udfald af variablen. I eksemplet med terningen er der til hver af de seks mulige udfald knyttet en sandsynlighed på 1/6. Sandsynlighedsfordelinger, som vi kommer nærmere ind på i følgende afsnit, bygger på stokastiske variable. Lad os derfor indledningsvis opridse de grundlæggende karakteristika for den stokastiske variabel. En stokastisk variabel defineres som P(X 5 x) hvor P referer til sandsynligheden, X repræsenterer variablen og x svarer til selve talværdien. Ved et terningkast repræsenterer X selve terningen og x værdien af terningkastet, summen af øjnene. Ved sandsynligheden for at en terning viser 4 skrives: X: Sum af øjne ved et terningkast P(X 5 x) Helt grundlæggende sondres mellem to typer stokastiske variable, diskrete og kontinuerte. Diskrete variable kan opfattes som hele enheder, eksempelvis et hus, et menneske, en ipod osv. Fælles for diskrete variable er, at de kan tælles i hele enheder. Som du formentligt har gættet, er kontinuerte variabler den direkte modsætning. Kontinuerte variable kan ikke afgrænses i hele enheder, og kan derfor ikke tælles som et eksakt antal. Eksempler på kontinuerte variabler er temperatur og hastighed. Da begge er målbare enheder, som kan antage et uendeligt antal decimaler, er det ikke muligt af fastlægge den helt eksakte temperatur eller hastighed. Det er således ikke muligt at måle den præcise værdi af en kontinuert variabel, da vi altid, rent teoretisk, kan tilføje en ekstra decimal i målingen. Videolektioner > s. 73

74 Stokastisk variabel Regneregler for en stokastisk variabel I nedenstående tabel ses en række generelle regneregler for middel og varians af en stokastisk variabel. For at eksemplificere regnereglerne tages efterfølgende udgangspunkt i nogle simple eksempler. Efter gennemgangen af de enkelte regneregler, er der et mere avanceret eksempel. TABEL 54: Regneregler for en stokastisk variabel Middelværdi Varians 1. E(X) 5 n x i f(x i ) VAR(X) 5 i51 n (x i 2 m) 2 f(x i ) i51 2. E x i 5 E(x i) VAR( X i ) 5 VAR( X i ) 3. E(X Y) 5 E(X) E(Y) VAR(X Y) 5 VAR(X) VAR(Y) 4. E(k) 5 k VAR(k) E(k X) 5 k E(X) k 2 VAR(X) Eksempler på regneregler Til gennemgang af regneregler defineres X som summen af terningøjne ved et kast med hvid terning, og tilsvarende defineres Y som et terningkast med en sort terning. Konstanten k sættes til 2 hvilket også gælder k 0 og k 1. Regneregel 1: n E(X) 5 x i f(x i ) ,5 (5 m) 6 6 i51 n VAR(X) 5 (x i 2 m) 2 f(x i ) (1 2 3,5) (6 2 3,5) ,5 6 6 i51 Regneregel 2: E( x i ) ( ) 6 5 3,5 VAR( x i ) (1 2 3,5)2 (6 2 3,5) ,917 s. 74

75 Stokastisk variabel Regneregel 3: E(X Y) 5 E(X) E(Y) 5 3,5 1 3,5 5 7 eller 3,5 2 3,5 5 0 Samme fremgangsmåde med variansen Regneregel 4: Da en konstant (k) ingen variation har, må middelværdien nødvendigvis være det samme som konstanten. Regneregel 5: E(K X) HVOR (K 5 2) Alternativ: k E(X) 5 2 3,5 VAR (X) 5 k 2 VAR(X) ,91 I det følgende er et praktisk eksempel på anvendelse af regneregler for middelværdi og varians for en stokastisk variabel. Hos Nokia i København ønsker HR-afdelingen 5 at undersøge de forventede udgifter i forbindelse med sygedage. Fra erfaring ved HR ved vi at der er: 1. 7 sygedage i middelværdi for de mandlige ansatte med en standardafvigelse på 3 dage sygedage i middelværdi for kvindelig ansatte med en standardafvigelse på 2 dage. Hvis vi antager, at en sygedag for en mandlig og en kvindelig ansat henholdsvis koster 2000 kr. og 1800 kr. Hvad kan HR så forvente at de årlige omkostninger til sygefravær bliver blandt 39 kvinder og 64 mænd. (både middelværdi og standardafvigelse beregnes). Data: M: Sygedage mandlig ansat K: Sygedage kvindelig ansat E(M) 5 7 VAR(M) K m n m 5 64 E(K) 5 5 VAR(K) K k n k Human ressource / personaleafdelingen s. 75

76 Stokastisk variabel De totale forventede udgifter til sygedage: Forventede mandlige sygedage: n E(M i) 5 i i Forventede udgifter til mandlige sygedage: E(K M M) 5 K M E(M) Forventede kvindelige sygedage: n E(K i) 5 i i Forventede udgifter til kvindelige sygedage: E(K K K) 5 K K E(K) De totale forventede udgifter til sygedage: E(M 1 K) 5 E(M) 1 E(K) Standardafvigelsen for de totale udgifter til sygedage: Variansen for mandlige sygedage: n VAR(M i) 5 i i Variansen for udgifterne til mandlige sygedage: 2 VAR(K M? M) 5 K M 1 VAR(M) ? Variansen for de kvindelige sygedage: n VAR(K i) 5 i i Variansen for udgifterne til kvindelige sygedage: 2 VAR(K K? K) 5 K K 1 VAR(K) ? s. 76

77 Stokastisk variabel Den totale varians for udgifterne til sygedage: VAR(M 1 K) 5 VAR(M) 1 VAR(K) Den totale standardafvigelse for udgifterne til sygedage: Std.Afv. (M 1 K) 5 VAR(M 1 K) ,15 Øvelser med stokastisk variabel De første spørgsmål er relateret til fortolkning, her skal du med egne ord forsøge at forklare betydningen af begreber relateret til en stokastisk variabel. I de efterfølgende opgaver er fokus rettet mod beregninger. Fortolkningsøvelser: 1. Hvordan vil du definere en stokastisk variabel? 2. Nævn eksempler på variable som er stokastiske. 3. Hvad er forskellen på en diskret og en kontinuert variabel? 4. Antag at DMI 6 en given sommerdag måler temperaturen til 18 grader celsius. Sandsynligheden for at DMI har ret er lig med nul - hvorfor? Beregningsøvelser: Opgave 1. For en studerende på Niels Brock forventes det, at de daglige udgifter til mad udgør 35 kr. med en standardafvigelse på 7 kr. Der går 1000 elever på Niels Brock, heraf er de 55 % drenge. Spørgsmål 1. Hvad er de forventede udgifter til mad for hele Niels Brock? Spørgsmål 2. Hvad er standardafvigelsen for de forventede udgifter? Det antages, at de forventede udgifter til mad for en pige er 27 kr. med standardafvigelse på 5 kr. For en dreng er de tilsvarende forventede udgifter på 39 kr. med en standardafvigelse på 11 kr. Spørgsmål 3. Hvad er nu de forventede udgifter til mad for hele Niels Brock? Spørgsmål 4. Hvad er nu standardafvigelsen for de forventede udgifter? 6 Dansk Meteorologisk Institut s. 77

78 Stokastisk variabel Opgave 2. I starten af semesteret ønsker Niels Brock at estimere de samlede udgifter til bærbare computere for studerende på 2 forskellige skoler: Nørre Voldgade og Kultorvet. På Nørre Voldgade oprettes 15 hold og det forventes, at der er 30 elever pr. hold med en standardafvigelse på 4 elever. Tilsvarende oprettes 12 hold på skolen ved Kultorvet, hvor det forventes, at der er 28 elever pr. klasse med en standardafvigelse på 6 elever. Spørgsmål 1 Hvor mange elever kan man samlet forvente kommer til at gå på begge skoler? Studerende ved Nørre Voldgade er med i en særordning, hvor de kan købe bærbare computere til 3000 kr., mens de studerende ved Kultorvet derimod må betale 3500 kr. Spørgsmål 2. Antag at alle nye studerende fra på begge skoler køber bærbare computere. Hvad bliver de forventede udgifter? Spørgsmål 3. Hvad bliver standardafvigelsen for de forventede udgifter til bærbare computere på begge skoler? Løsninger til stokastisk variabel Fortolkningsøvelser: 1. En stokastisk variabel er betegnelsen for en numerisk variabel med en tilknyttet sandsynlighed for alle de mulige udfald. 2. Terningspil, roulette, lotto, aldersfordeling i en population. 3. Diskrete variable kan opfattes som hele enheder, eksempelvis et hus, et menneske, en ipod etc. Fælles for diskrete variabler er, at de forekommer i hele enheder. Kontinuerte modsætningen til diskrete variable. Eksempelvis kan en kontinuert variabel som temperatur ikke afgrænses til en bestemt værdi, da vi kan tilføje et uendeligt antal decimaler til en temperaturmåling. 4. Det er ikke muligt at måle en eksakt værdi af en kontinuert variabel, da der kan tilføjes et uendeligt antal decimaler, derfor er sandsynligheden for en eksakt værdi ikke til stede. s. 78

79 Stokastisk variabel Beregningsøvelser: Opgave 1. Spørgsmål 1. X 5 Udgift til mad pr.elev (kr) E(X 1000 i) kr. i51 Spørgsmål 2. VAR(X i) i kr. Standardafvigelsen ,359 kr. Spørgsmål 3. X 5 Udgift til mad for piger Y 5 Udgift til mad for drenge E(X 450 i) kr. i51 E(Y 550 i) kr. i51 E(X Y) 5 E(X) E(Y) kr kr kr Spørgsmål VAR(X i) kr. i51 VAR(Y 550 i) kr. i51 VAR(X Y) 5 VAR(X) VAR(Y) kr kr kr Standardafvigelsen (X Y) 5 VAR(X Y) ,927 kr. s. 79

80 Stokastisk variabel Opgave 2. Spørgsmål 1. Hvor mange elever kan man samlet forvente fra begge skoler? X 5 Elever ved Nørre Voldgade Y 5 Elever ved Kultorvet E(X 15 i) kr. i51 E(Y 12 i) i51 E(X Y) 5 E(X) E(Y) Spørgsmål 2. K X kr. K y kr. E(K X? X) 5 K X? E(X) ? kr. E(K X? X) 5 K X? E(X) ? kr. E(X Y) 5 E(X) E(Y) kr. Spørgsmål 3. 2 VAR(K X? X) 5 K X? VAR(X) ? kr. 2 VAR(K Y? Y) 5 K Y? VAR(Y) ? kr i i VAR(X Y) kr. Standardafvigelsen (X Y) 5 VAR(X Y) ,967 kr. s. 80

81 KAPITEL 5 SANDSYNLIGHEDSFORDELINGER Statlearn.com

82 KAPITEL 5 Sandsynlighedsfordelinger Sandsynlighedsfordelinger En sandsynlighedsfordeling kan beskrives som en illustration af sandsynlighederne for de En sandsynlighedsfordeling kan beskrives som en illustration af sandsynlighederne for de En forskellige sandsynlighedsfordeling værdier af en given kan variabel. forskellige værdier af en given variabel. beskrives som en illustration af sandsynlighederne for de forskellige værdier af en given variabel. Lad os antage at vores variabel er resultatet af et terningkast. Hvert af de 6 mulige udfald af Lad os antage at vores variabel er resultatet af et terningkast. Hvert af de 6 mulige udfald af Lad terningkastet os antage at er vores lige sandsynlige, variabel er resultatet derfor må sandsynligheden af et terningkast. for Hvert et enkelt af de udfald 6 mulige være udfald 1/6. af terningkastet terningkastet lige er sandsynlige, sandsynlige, derfor derfor må må sandsynligheden for for et et enkelt udfald være være 1/6. Sandsynlighedsfordelingen for variablen vil derfor antage en kasselignende form som i 1/6. Sand- Sandsynlighedsfordelingen variablen for variablen vil derfor vil derfor antage antage en en kasselignende form form som som i nedenstående. i nedenstående. Fordelingen illustrerer, at alle de forskellige værdier af terningkastet er lige Fordelingen nedenstående. illustrerer, Fordelingen at alle illustrerer, de forskellige at alle værdier de forskellige af terningkastet værdier af er terningkastet lige sandsynlige. er lige sandsynlige. sandsynlige. FIGUR 29: P(x) P(x) 20% 20% 15% 15% 10% 10% 5% 5% 0% 0% x (sum af terningkast) x (sum af terningkast) Når vi arbejder med data, er det sjældent at alle udfald er lige sandsynlige som med terninger. Når Når vi arbejder vi arbejder med med data, data, er er det det sjældent at alle udfald er lige sandsynlige som med terninger. Det Det vil oftest være værdier, der ligger omkring gennemsnittet, som har den højeste vil oftest Det vil være oftest værdier, være værdier, der ligger der ligger omkring omkring gennemsnittet, som som har har den den højeste sandsynlighed for at forekomme. sandsynlighed for at forekomme. sandsynlighed for at forekomme. Forestil Forestil dig dig at vi at vejer vi vejer de de studerende i din klasse og grupperer observationerne i i vægtintervaller. Forestil dig at vi vejer de studerende i din klasse og grupperer observationerne i Sandsynlighedsfordelingen vægtintervaller. Sandsynlighedsfordelingen kunne eksempelvis kunne se ud eksempelvis som i følgende: se ud som i følgende: vægtintervaller. Sandsynlighedsfordelingen kunne eksempelvis se ud som i følgende: FIGUR 30: P(x) 40% P(x) 40% 30% 30% 20% 20% 10% 10% 0% 0% Vægt Interval (kg) Obs. Relativ frekvens Vægt Interval (kg) Obs. 3 Relativ 8% frekvens % 8% % 15% % 36% % 23% Total % 100% Total % Videolektioner > s. 82 Af Stephan Skovlund (Copyright) Side 87 Af Stephan Skovlund (Copyright) Side 87

83 Med Gennemsnitsvægten fokus på erhvervslivetligger tydeligvis i midten og de fleste observationer Sandsynlighedsfordelinger ligger tæt på gennemsnittet med enkelte studerende, der vejer henholdsvis langt mere og mindre end gennemsnittet. Gennemsnitsvægten ligger tydeligvis i midten, og de fleste observationer ligger tæt på gennemsnittet Når med vi enkelte arbejder studerende, med store datamængder der vejer henholdsvis giver fordelinger langt mere et og hurtigt mindre overblik end gennemsnittet. over de mest Når sandsynlige vi arbejder værdier. med store Skulle datamængder vi eksempelvis giver udarbejde fordelinger en et tilsvarende hurtigt overblik analyse over af de mest sandsynlige vægtfordelingen værdier. Skulle for vi alle eksempelvis 5 mio. danskere, udarbejde kan en fordeling tilsvarende illustrere, analyse hvor af vægtfordelingen stor en andel af for alle 5 mio. danskere, kan en fordeling illustrere, hvor stor en andel af befolkningen som befinder sig i befolkningen som befinder sig i de forskellige vægtintervaller. de forskellige vægtintervaller. Relativ frekvens- og teoretiske fordelinger Der er fordelinger baseret på det data du indsamler og der er fordelinger baseret på teoretiske Relativ frekvens- og teoretiske fordelinger sandsynligheder. For at redegøre for forskellen kan vi antage, at vi ønsker at se hvordan Der er fordelinger baseret på det data du indsamler, og der er fordelinger baseret på teoretiske højden af alle danskere over 18 år er fordelt. Da du ikke har tid til at måle højden af alle sandsynligheder. For at redegøre for forskellen kan vi antage, at vi ønsker at se hvordan højden af alle danskere, udtager over 18 du år i er stedet fordelt. en stikprøve Da du ikke på har 100 tid personer. til at måle Du højden grupperer af alle herefter danskere, de udtager du observerede i stedet en stikprøve værdier af på højden 100 personer. i nogle intervaller Du grupperer og beregner herefter de intervallets observerede relative værdier størrelse af højden som i nogle vist intervaller i nedenstående. og beregner intervallets relative størrelse som vist i nedenstående. Figur 16: Relativ FIGUR frekvensfordeling 31: Relativ frekvensfordeling baseret på 100 baseret observationer på 100 observationer P(x) 18 % 12 % 6 % 0 % x (Højde i cm) Denne måde at illustrere sandsynligheder på kaldes for en relativ frekvens fordeling. Det Denne søjlediagrammet måde at illustrere viser, er sandsynligheder andelen af observationer på kaldes i hvert for interval, en relativ i forhold frekvens til det fordeling. totale antal Det søjlediagrammet viser, er andelen af observationer i hvert interval, i forhold til det totale antal observationer. Sagt på en anden måde beskriver fordelingen den relative sandsynlighed af de observationer. Sagt på en anden måde beskriver fordelingen den relative sandsynlighed af de forskellige forskellige observationer observationer i stikprøven. i stikprøven. Højde/cm TABEL 55: Frekvens versus relativ frekvens F(x) Højde/cm P(x) 5% 9% 10% 13% 16% 12% 11% 10% 9% 5% Tabel F(x) 24: Frekvens 5 versus relativ 9 frekvens P(x) 5% 9% 10% 13% 16% 12% 11% 10% 9% 5% Af Stephan Skovlund (Copyright) Side 88 s. 83

84 Sandsynlighedsfordelinger Den teoretiske sandsynlighedsfordeling er baseret på en matematisk fremstilling af virkeligheden. Den teoretiske sandsynlighedsfordeling kan opfattes som en model, der afspejler de teoretiske sandsynligheder for en hel population, eksempelvis hvordan højden af alle danskere er fordelt. Teoretiske sandsynlighedsfordelinger er universelle, de kan anvendes for alle variable, så længe variablen opfylder bestemte kriterier. Ofte er ressourcer til at indsamle data for en hel population relativt begrænsede. I den sammenhæng kan en teoretisk sandsynlighedsfordeling med fordel anvendes som model for, hvordan data er fordelt i hele populationen. Forskellige fordelinger Der findes mange forskellige fordelinger, og det som adskiller dem er en række forudsætninger, som vi skal se nærmere på. Helt grundlæggende sondres mellem fordelinger der bygger på diskrete og kontinuerte variable. Som vi var inde på i afsnittet om stokastiske variable, kan en diskret variabel afgrænses til en enkelt enhed, eksempelvis en bil eller et hus. Kontinuerte variable er modsætningen, hvor enheden ikke kan opgøres præcist, med derimod kun måles. Eksempler på kontinuerte variable er temperatur, vægt og hastighed. Kontinuerte variabler er kendetegnet ved, at sandsynligheden for en bestemt værdi af variablen er nul. Helt konkret kan vi sige, at sandsynligheden for, at det en dag i juni bliver præcist 20 grader er nul. Vi kan ræsonnere os til at 20 grader ligeså vel kunne være 19,99999 eller 20, Rent teoretisk er 20 grader således en værdi, som kan antage et uendeligt antal decimaler og som derfor ikke kan måles eksakt. Som nævnt er der forskellige typer af fordelinger. Dem vi skal se på er de mest gængse og kan indtil videre klassificeres som værende kontinuerte eller diskrete fordelinger. For at skabe et overblik over forskellen på de enkelte fordelinger, og hvordan de anvendes, vil der i det følgende være en kort gennemgang af egenskaberne for de enkelte fordelinger. Herefter vil der være en case, hvor fordelingerne anvendes i en praktisk sammenhæng. s. 84

85 Sandsynlighedsfordelinger Binomialfordeling Model: X~b(n, p) Parametre: Hvor n er stikprøvestørrelsen og p populationsandelen af mærkede elementer. Forudsætninger: a) Diskret variabel - variablen skal kunne opgøres i hele enheder. b) n eksperimenter observeres. Hver observation i stikprøven opfattes som udfaldet af ét blandt n antal eksperimenter. c) Konstant sandsynlighed. Udfaldet af de enkelte eksperimenter er uafhængige af hinanden. d) Hvert element kan enten defineres som mærket eller ikke-mærket. Heraf betegnelsen binomial som refererer til to mulige udfald. Formel: P(X 5 x) 5 n x px (1 2 p) n2x Hvor p er populationsandelen og n er stikprøvestørrelsen og hvor Middelværdi og varians: n x 5 n! x!(n 2 x)! E(X) 5 n? p VAR(X) 5 n? p? (1 2 p) EKSEMPEL: En formueforvalter hos PFA ved fra erfaring, at der er 15 % sandsynlighed for, at hun vælger en aktie, som efter et år har givet et negativt afkast. Hun har lige investeret i 10 forskellige aktier og ønsker nu at beregne sandsynligheden for, at alle aktier vil give et positivt afkast efter et år. Løsning: X: Aktie der efter et år giver et negativt afkast X ~ b(p 5 0,15, n 5 10) Beregning med formel: Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg binomial og indsæt værdier P(X 5 0) ,150 (1 2 0,15) ,19687 P(X 5 0) 5 0,19687 Der er således 19,69 % sandsynlighed for, at der vil være 0 aktier, som giver et negativt afkast efter et år. Omvendt er der omkring 80 % sandsynlighed for, at mindst 1 af aktierne vil give et negativt afkast. s. 85

86 Sandsynlighedsfordelinger Hypergeometrisk fordeling Model: X~h(N, m, n) Parametre: N 5 populationens størrelse, m 5 antal mærkede elementer i populationen og n 5 stikprøvestørrelsen. Forudsætninger: a) Diskret variabel (variablen skal kunne opgøres i hele størrelser). b) n elementer udtages fra en endelig population N (N skal være kendt, eller som minimum være mulig at opgøre/tælle). c) Der er ikke konstant sandsynlighed. Udfaldet af de enkelte eksperimenter er afhængige af hinanden. d) Hvert element kan defineres som mærket (m) eller ikke mærket (m). Formel: P(X 5 x) 5 m x n2m n2x n n Hvor m x 5 m! x!(m 2 x)! Middelværdi og varians: Såfremt p beregnes som m N gælder: E(X) 5 n? p VAR(X) 5 n? p? (1 2 p)? N 2 n N 2 1 EKSEMPEL: I en særlig version af lotto er der 12 kugler som nummereres fra Kuglerne 1-4 defineres som vinderkugler. Antag at 4 tilfældige kugler udtrækkes blandt de 12. Hvad er sandsynligheden for at alle vinderkuglerne udtrækkes? Løsning: X: Vinderkugle (kugle 1 2 4) X~h(N 5 12, m 5 4, n 5 4) s. 86

87 Sandsynlighedsfordelinger Beregning med formel: P(X 5 4) 5 Beregning med Statlearn programmet: a) Vælg fordeling ,00202 b) Vælg hypergeometrisk og indsæt værdier P(X 5 4) 5 0,00202 Der er således 0,2 % (2 promille) sandsynlighed for at være så heldig, at alle 4 vinderkugler udtages. Poissonfordeling Model: X ~ Ps(l) Parametre: Intensiteten, l, fortolkes som det gennemsnitlige antal forekomster i et givent tidsrum eller indenfor et bestemt kvantum. Forudsætninger: n 5 antal perioder som l baseres på. a) Diskret variabel (variablen skal kunne opgøres i hele enheder) b) Antal af forekomster af mærkede elementer observeres over en periode eller opgøres pr. kvantum. Eksempelvis antal ulykker pr. måned eller antal kvindelige studerende pr. klasse. c) Elementerne indtræffer uafhængigt af hinanden i den givne periode (dvs. konstant sandsynlighed ligesom i binomialfordelingen) Formel: P(X 5 x) 5 lx x! e2l Hvor l repræsenterer populationsintensiteten og e er en konstant med værdien 2,718 Middelværdi og varians: E(X) 5 l VAR(X) 5 l s. 87

88 Sandsynlighedsfordelinger EKSEMPEL: Et hospital modtager hver dag gennemsnitligt 3,4 patienter med et brækket ben. Hvad er sandsynligheden for, at hospitalet en tilfældig dag modtager 5 patienter med brækket ben? Løsning: X: Patient med et brækket ben. X~Ps(l 5 3,4) Beregning med formel: P(X 5 5) 5 lx x! e2l 5 3,45 5! ,4 5 0,12636 Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg poisson og indsæt værdier Fortolkning: P(X 5 5) 5 0,12636 Der er 12,6 % sandsynlighed for, at der på en given dag vil være 5 patienter, der kommer ind med et brækket ben på hospitalet. Normalfordelingen Model: X~N(m, s 2 ) alternativt X~N(x, s 2 ) Parametre: m / x er gennemsnit og s 2 /s 2 er standardafvigelsen for population/stikprøve. Forudsætninger: a) Data er tilnærmelsesvis normalfordelt. b) Kontinuert variabel. Hvis variabel er diskret vil denne kunne approksimeres, dvs. føres over i normalfordelingen, såfremt approksimationsbetingelserne herfor er opfyldt. En mere detaljeret redegørelse for approksimationsbetingelserne findes i Appendiks 1 i slutningen af afsnittet om fordelinger. Formel: P(X # x) 5 P(Z # z) 5 x 2 m s 5 f x 2 m s s. 88

89 Sandsynlighedsfordelinger Alle normalfordelte variable kan med ovenstående formel omdannes til z-værdier. Z-værdier fortolkes som det antal standardafvigelser vi er fra normalfordelingens midtpunkt - mere herom under gennemgangen af normalfordelingen i afsnit Fejl! Henvisningskilde ikke fundet. Bemærk at normalfordelingen er en kumulativ tæthedsfunktion 7 (f) baseret på en kontinuert variabel. Kontinuerte variable kan, i modstæning til de diskrete, ikke afgrænses til en hel enhed. I normalfordelingen er det derfor sandsynligheden for intervaller der beregnes - ikke sandsynligheden for eksakte værdier. Eksempelvis beregnes sandsynligheden for, at det bliver mellem 24 og 25 grader og ikke sandsynligheden for, at det vil blive eksakt 25 grader. Af samme årsag anvender vi i normalfordelingen kun symbolerne højst # og mindst $ men ikke 5. EKSEMPEL: En meteorolog ved, at det i tidsrummet gennemsnitligt er 19,3 grader celsius i juni måned med en standardafvigelse på 4,5 grader. Hvad er sandsynligheden for, at det bliver mindst 22 grader? Løsning: X: Temperatur i dagtimerne (grader celsius) i juni måned. X~N(m 5 19,3, s 5 4,5) Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg normalfordeling og indsæt værdier P(X $ 22) 5 0,274 Der er således 27,4 % sandsynlighed for, at det mindst vil blive 22 grader i dagtimerne i juni måned. 7 En kumulativ tæthedsfunktion beskriver tætheden af observationerne for en værdi af en given kontinuert variable. s. 89

90 Sandsynlighedsfordelinger Oversigter over fordelinger og deres kendetegn TABEL 56: Oversigt over diskrete sandsynlighedsfordelinger Diskrete fordelinger Hypergeometrisk Binomial Poisson Model: X ~ h(n, m, n) Model: X~b(n, p) Model: X~Ps Kendetegn: - Diskret variabel - Ikke konstant sandsynlighed EKSEMPEL: Fra en æske med 100 skruer hvoraf 20 er rustne udtages en stikprøve på 10 skruer. Hvad er sandsynligheden for, at stikprøven indeholder mindst 3 rustne skruer? X: Rusten skrue X ~ h(n 5 100, m 5 20, n 5 10) P(X $ 3) 5 0,318 Beregning med Statlearn program: Vælg fordelinger og derefter Hypergeometrisk Kendetegn: - Diskret variabel - Konstant sandsynlighed EKSEMPEL: En tappemaskine der producerer Coca-Cola flasker fylder med 5 % sandsynlighed for meget i flasken. Hvad er sandsynligheden for at 2 ud af 100 flasker indeholder for meget? X: Overfyldt flaske X ~ b(p 5 0,05, n 5 100) P(X 5 2) 5 0,081 Beregning med Statlearn program: Vælg fordelinger og derefter Binomial TABEL 57: Kontinuert sandsynlighedsfordeling (normalfordelingen) Model: X ~ N(m,s 2 ) Normalfordelingen (kontinuert fordeling) Kendetegn: - Kontinuert variabel - Fordelingen er symmetrisk og klokkeformet med gennemsnittet i midten. Med andre ord må fordelingen ikke være venstre- eller højreskæv. Kendetegn: - Diskret variabel - Forekomster i en periode EKSEMPEL: Hvad er sandsynligheden for, at et hospital modtager mere end 5 patienter med brækket ben, hvis det daglige gennemsnit er 3,4 patienter? X: Patient med brækket ben X ~ Ps 5 3,4) P(X $ 6) 5 0,129 Beregning med statlearn program: Vælg fordelinger og Poisson EKSEMPEL: En meteorolog ved fra erfaring, at det i juni i dagtimerne gennemsnitligt er 19,3 grader med en standardafvigelse på 6 grader. Hvad er sandsynligheden for, at det en tilfældig juni dag i dagtimerne bliver mindst 25 grader? X: Grader (celsius) i dagtimerne i juni. X ~ N(m 5 19,3, s ) P(X $ 25) 5 0,171 Beregning med Statlearn program: Vælg fordelinger og derefter Normalfordeling s. 90

91 Sandsynlighedsfordelinger Case Virksomheden Gene Food har specialiseret sig i at sælge fødevarer tilsat planteekstrakter med kolesterolsænkende virkning. Siden lanceringen i 2003 har virksomheden oplevet en forrygende vækst, men væksten har ikke været uden omkostninger. Et stigende antal kunder er begyndt at klage over produkterne. Kundernes klager er især møntet på de tre største produkter: 1. Mangodrik der sælges i kasser á 30 stk. 2. Chokoladebagels som sælges i poser á 2 kg 3. Nødder der sælges i æsker á 500 gram. Hvad angår Mangodrik er klagerne møntet på, at etiketterne ofte vender forkert. Med chokoladebagels klages over manglende chokoladeovertræk, og med nødderne klages over at æskerne vejer væsentligt mindre end de 500 gram som står angivet. Som du muligvis har gættet, er alle tre kvalitetsproblemer relateret til sandsynligheder. I tilfældet med Mangodrik er det sandsynligheden for, at etikettemaskinen vender etiketten forkert. Med chokoladebagels er det sandsynligheden for, at overtræksmaskinen mangler chokolade, og med nødderne er det sandsynligheden for, at en æske underfyldes. Som du kan se, varierer forudsætningerne for de enkelte kvalitetsproblemer. Hvad angår flaskerne er variablen diskret, og sandsynligheden for, at etikettemaskinen laver en fejl kan vi med rimelighed antage at være konstant. Hvis etikettemaskinen vender en etikette forkert, påvirker det ikke sandsynligheden for, at den efterfølgende flaske ligeledes får vendt etiketten forkert. Med chokoladebagels er variablen også diskret, men da størrelsen og vægten på en bagel varierer, i modsætning til mangodrik med præcist 30 flasker i en kasse, ved vi ikke nøjagtigt hvor mange bagels der er i en pose. Den sidste klage går på, at æskerne med nødder ofte vejer mindre end 500 gram. Nødderne måles således på vægten af æskerne og er derfor en kontinuert variabel. For at få overblik over de nuværende produktionsforhold, indsamler du information fra din erfarne produktionsleder, som oplyser følgende: 1. Sandsynligheden for en etikettefejl er 5%. 2. Der er i gennemsnit 0,4 bagels der ikke får chokoladeovertræk. 3. Der opfyldes gennemsnitligt 505 gram nødder i æskerne, standardafvigelsen er på 15 gram. s. 91

92 Sandsynlighedsfordelinger I forbindelse med Mangodrik måler vi antallet af flasker med etikettefejl. Antal flasker opgøres i hele enheder og er derfor en diskret variabel. Udfordringen er nu at finde den rette diskrete fordeling. Da vi arbejder med et bestemt antal eksperimenter og ikke et gennemsnit eller tidsinterval, kan vi udelukke poissonfordelingen. Spørgsmålet er nu, om variablen følger en hypergeometrisk- eller en binomialfordeling. Kravet til binomialfordelingen er konstant sandsynlighed, dvs. at udfaldet af hændelserne fejl og ikke-fejl ikke må påvirke hinanden. Hvis vi antager, at en flaske der får en etikettefejl ikke påvirker sandsynligheden for, at den efterfølgende flaske også får en etikettefejl, er der tale om konstant sandsynlighed. Det passer med binomialfordelingen. Fra produktionslederen ved vi, at etikettefejl opstår med 5 % sandsynlighed, hvad er så sandsynligheden for, at en hel kasse med 30 flasker indeholder etikettefejl? Fremgangsmåde med binomialfordeling: Variabel: X: Flaske med etikettefejl Model: X ~ b(p 5 0,05, n 5 30) Hvor p er sandsynligheden for et udfald af vores variabel, etikettefejl, og n er stikprøvestørrelsen. Forudsætninger a) Diskret variabel (hele flasker). b) n elementer observeres (30 flasker pr. kasse). c) Konstant sandsynlighed, dvs. uafhængighed mellem de enkelte eksperimenter. d) Hvert element kan defineres som mærket eller ikke-mærket. Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg binomial og indsæt værdier P(X 5 0) 5 0,215 s. 92

93 Sandsynlighedsfordelinger Der er 21,5 % sandsynlighed for at en kasse indeholder flasker uden etikettefejl. Det er således en anelse bekymrende, at en kunde med ca. 80 % sandsynlighed vil modtage flasker med etikettefejl, hver gang der bestilles en kasse Mangodrik. (Eksempel fortsat) For at sikre dine kunder ikke får varer der indeholder fejl, har du og dine medarbejdere brugt mange kræfter på at kontrollere varerne på lageret. Blandt 100 paller med Mangodrik har i frasorteret 7 paller der skal kasseres. Ved en fejl blev de 7 defekte paller ikke kasseret, men flyttet tilbage sammen med de øvrige paller. Din største kunde har lige bestilt 15 paller Mangodrik og du ønsker derfor hurtigt at beregne sandsynligheden for, at han har modtaget én eller flere paller med defekte varer. Ligesom med flaskerne er en palle en diskret variabel, en variabel der kan opgøres i hele enheder. Men i modsætning til flaskerne ved vi præcist hvor mange mærkede elementer m (defekte paller 5 7) der er i vores population N (alle paller 5 100). Ved hvert udtag fra populationen (N) ændres sandsynligheden derfor for at udtage en defekt palle. Ved første udtag er sandsynligheden for en defekt palle: Afhængig af om der er blevet udtaget en normal eller en defekt palle, er sandsynligheden for en defekt palle ved andet udtag: 6 99 eller 7 99 Som det fremgår ændres sandsynligheden for en defekt palle således efter hvert udtag. Når vi har en diskret variabel (palle), en kendt population (100 paller) med et bestemt antal mærkede elementer (defekt palle) er variablen hypergeometrisk. Vendes tilbage til udgangspunktet ønskes sandsynligheden for at der blandt 15 paller er en eller flere defekte paller. s. 93

94 Sandsynlighedsfordelinger Fremgangsmåde i den hypergeometriske fordeling: Definition af variabel: X: Defekt palle Model: X ~ h(n 5 100, m 5 7, n 5 15) Hvor N er antal elementer i populationen, m antal mærkede elementer og n stikprøvestørrelsen. Forudsætninger: a) Diskret variabel (en palle) b) n elementer udtages fra en endelig population N (en kunde køber 15 paller ud af i alt 100). c) Ikke konstant sandsynlighed, dvs. afhængighed mellem de enkelte eksperimenter som i foregående eksempel. d) Hvert element kan defineres som mærket eller ikke mærket (ikke-defekt palle/defekt palle). Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg hypergeometrisk og indsæt værdier P(X $ 1) 5 0,6916 Der er således 69,2 % sandsynlighed for, at der som minimum vil være 1 defekt palle blandt de 15 som kunden har bestilt. (Eksempel fortsat) Hvad angår kvalitetsproblemerne med chokoladebagels klages der over, at de ofte mangler chokoladeovertræk. Produktionslederen har estimeret, at der gennemsnitligt er 0,4 bagels, som mangler chokoladeovertræk pr. pose á 2 kg. På den baggrund ønsker du at kende sandsynligheden for, at en given pose vil indeholde en eller flere bagels uden chokoladeovertræk. Da vægten og størrelsen af bagels varierer, er der ikke altid det samme antal bagels i en 2 kg s pose. I stedet for at arbejde med et præcist antal eksperimenter, som i eksemplet med mangodrikken og defekte paller, anvendes et gennemsnit. Herudover er en bagel på lige fod med de to førnævnte variable diskret, hvilket leder os over i poissonfordelingen. Hvad er sandsynligheden for, at en enkelt bagelpose indeholder bagels uden chokoladeovertræk? s. 94

95 Sandsynlighedsfordelinger Fremgangsmåde med poisonfordeling: Definition af variabel: X: Chokoladebagel uden chokoladeovertræk Model: X ~ Ps(l 5 0,4) Forudsætninger: a) Diskret variabel (hele bagels) b) Antal af forekomster af mærkede elementer observeres over en periode el. kvantum (pose á 2 kg). c) Elementerne indtræffer uafhængigt af hinanden. Da en bagel med fejl ikke ændrer på sandsynligheden for, at den næste bagel også produceres med fejl, er produktionsfejl uafhængige af hinanden. Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg poisson og indsæt værdier P(X 5 0) 5 0,6703 Fortolkning: Der er hermed 67 % sandsynlighed for, at en pose bagels ikke indeholder fejl, dvs. bagels uden chokoladeovertræk. Omvendt er der 33 % sandsynlighed for, at en pose indeholder fejl, hvilket ikke kan siges at være helt tilfredsstillende for kunderne. Fremgangsmåde ved normalfordeling: Med nødderne klager kunderne over, at vægten på æskerne med nødder ofte er under de 500 af gram, der står angivet på æsken. I de foregående eksempler kunne vi helt eksakt tælle antallet etikettefejl, defekte paller og chokoladebagels uden overtræk, men med nødderne beskæftiger vi os med vægten pr. æske. I modsætning til diskrete variable er vægt en mere udefinerbar størrelse. Når vi vejer en genstand kender vi aldrig den eksakte vægt, da denne kan angives med uendeligt antal decimaler. Af samme årsag klassificeres variablen vægt som kontinuert, hvilket leder os over i normalfordelingen. s. 95

96 (Eksempel fortsat) Grundlæggende statistik Med Med fokus nødderne på erhvervslivet klager kunderne over, at vægten på æskerne med nødder Sandsynlighedsfordelinger ofte er under de 500 gram der står angivet på æsken. I de foregående eksempler kunne vi helt eksakt tælle antallet etikettefejl, defekte paller og chokoladebagels uden overtræk, men med nødderne beskæftiger Normalfordelingen er alle fordelingers moder og spiller en helt central rolle i statistisk. Betegnelsen vi os med vægten pr. æske. I modsætning til diskrete variable er vægt en mere udefinerbar normalfordelingen skyldes, som du sikkert har gættet, at langt de fleste variable følger en normalfordeling. størrelse. De har Når en vi klokkeformet vejer en genstand sandsynlighedsfordeling kender vi aldrig den med eksakte gennemsnittet vægt da denne i midten kan angives og et ligeligt antal med uendeligt observationer antal på decimaler. hver side. Af samme årsag klassificeres variablen vægt som kontinuert hvilket leder os over i normalfordelingen. FIGUR 32: Normalfordelingen (Standard normalfordeling) Normalfordelingen er alle fordelingers moder og spiller en helt central rolle i statistisk. Betegnelsen P(z) normalfordelingen skyldes, som du sikkert har gættet, at langt de fleste variable følger en normalfordeling. De har en klokkeformet sandsynlighedsfordeling med gennemsnittet i midten og et ligeligt antal observationer på hver side. Figur 17: Normalfordelingen P(z) z z For at forstå tanken med normalfordelingen kan vi antage, at vi udtager en stikprøve på 10 æsker med For nødder at forstå og vejer tanken hver med enkelt normalfordelingen æske. Efterfølgende kan vi inddeler antage, at vi vi observationerne udtager en stikprøve i kategorier på 10 som vist i nedenstående. æsker med nødder og vejer hver enkelt æske. Efterfølgende inddeler vi observationerne i kategorier som vist i nedenstående. FIGUR 33: Fordeling af vægten på 10 tilfældigt udvalgte æsker med nødder Figur 18: Fordeling af vægten på 10 tilfældigt udvalgte æsker med nødder P(x) 30% 20% 10% 0% < 475 x (vægtintervaller af æsker målt i gram) Af Stephan Skovlund (Copyright) Side 105 s. 96

97 Sandsynlighedsfordelinger Fordelingen er tydeligvis usymmetrisk uden de store fællestræk med den normalfordeling, du lige har Fordelingen set. Men øger tydeligvis stikprøvestørrelsen usymmetrisk til uden bare de 100 store æsker, fællestræk vil du med se en den langt normalfordeling mere udglattet du og symmetrisk lige har set. (normal) Men øger fordeling. vi stikprøvestørrelsen til bare 100 æsker vil du se en langt mere udglattet og symmetrisk (normal) fordeling. FIGUR 34: 25% P(x) 20% 15% 10% 5% 0% > < 475 x (vægtintervaller af æsker målt i gram) Årsagen til denne transformation er, at vi har fået flere observationer, der dækker et bredere Årsagen spektrum til denne af værdier. transformation Det betyder er, at vi vi har kan fået inddele flere observationerne observationer, der i mindre dækker og et mere bredere snævre spektrum af værdier. Det betyder at vi kan inddele observationerne i mindre og mere snævre intervaller, intervaller, som er med til at udglatte fordelingens kurve. Bliver vi ved med at øge som er med til at udglatte fordelingens kurve. Bliver vi ved med at øge stikprøvestørrelsen vil vores stikprøvestørrelsen vil vores intervaller blive uendeligt små, hvilket vil få vores fordeling til at intervaller blive uendeligt små, hvilket vil få vores fordeling til at ligne en glat kurve med gennemsnittet ligne i midten glat og kurve tilnærmelsesvis med gennemsnittet halvdelen i midten af observationerne og tilnærmelsesvis på hver halvdelen side af gennemsnittet. af En variabel observationerne der fordeler på sig hver som side netop af gennemsnittet. beskrevet er normalfordelt. En variabel der fordeler sig som netop Det beskrevet der reelt er menes normalfordelt. med normalfordelte variable er, at de har samme egenskaber som FIGUR 35: Det der reelt menes med normalfordelte variable er, at de har samme egenskaber 95% som standardnormalfordelingen. Standardnormalfordelingen er en matematisk model hvor gennem- model, der ligger standardnormalfordelingen. Standardnormalfordelingen er den matematiske 68% snittet til grund er 0, for og eksemplet standardafvigelsen med nødder 1-modellen vi lige har diskuteret. Standardnormalfordelingen baseres betegnes: på såkaldte X~N(m z-værdier, 5 0, s 5 hvilket 1). Standardnormalfordelingen baseres på såkaldte z-værdier, hvilket svarer til et antal standardafvigelser fra gennemsnittet, dvs. midten af fordelingen. Standardnormalfordelingen kendetegnes ved at have en fast svarer til et antal standardafvigelser fra gennemsnittet, dvs. midten af fordelingen. Standardnor- m 1 z sammenhæng mellem antallet af standardafvigelser (z-værdier) fra gennemsnittet m og selve malfordelingen arealet af fordelingen kendetegnes som ved illustreret at have nedenfor. en fast m 2 z sammenhæng mellem antallet af standardafvigelser (z-værdier) fra gennemsnittet og selve arealet af fordelingen som illustreret nedenfor. s. 97 Af Stephan Skovlund (Copyright) Side 106

98 Sandsynlighedsfordelinger Som vi kan se, er der eksempelvis 68 % sandsynlighed for, at en vilkårlig observation vil ligge i intervallet mellem 1 standardafvigelse fra gennemsnittet, når variablen følger en normalfordeling. Vender vi tilbage til eksemplet med nødderne, ved du at maskinen gennemsnitligt fylder 505 gram i æskerne med en standardafvigelse på 15 gram. Da vægt er en kontinuert variabel, antages variablen at være normalfordelt 8, hvilket betyder at 1/2 68 % af vores observationer (æsker) vil ligge i intervallet 490 til 520 gram. Det bliver nu helt tydeligt, at en væsentlig del af æskerne vil veje mindre end den vægt der er angivet på æskerne. Hvad er i den forbindelse sandsynligheden for, at en æske højst vejer 500 gram? Se videoforklaring af normalfordelingen> Fremgangsmåde med en normalfordeling: Definition af variabel: X: Vægten på en æske med nødder Model: N(m gram, s 5 15 gram) Forudsætninger: a) Indsættes data i et normalfraktildiagram skal de tilnærmelsesvis er omkring en ret linje. b) Uafhængighed mellem de enkelte observationer. Beregning med Statlearn programmet: a) Vælg fordeling b) Vælg normalfordeling og indsæt værdier P(X # 500) 5 0,3694 Fortolkning: Der er således 36,9 % sandsynlighed for, at en æske højst vil veje 500 gram, når gennemsnittet er 505 gram og standardafvigelsen 15 gram. Det betyder således, at omkring en tredjedel af æskerne vil være underfyldt. 8 Formelt set kan variablen testes for at se om den følger normalfordelingen, se afsnittet om multinomiske test. s. 98

99 Sandsynlighedsfordelinger Opsummering Vi har nu været inde på fire grundlæggende fordelinger, tre diskrete og en kontinuert. Binomialfordelingen anvendes når vi har konstant sandsynlighed, dvs. uafhængighed mellem de enkelte eksperimenter. I eksemplet med Mangodrik var der en konstant sandsynlighed for, at etikettemaskinen lavede en fejl. Der var med andre ord uafhængighed mellem hver enkelt flaske der passerede etikettemaskinen. I modsætning til binomialfordelingen, er sandsynligheden ikke konstant ved en hypergeometrisk fordeling. I den hypergeometriske fordeling ændres sandsynligheden for det mærkede element, ved hvert udtag fra populationen. Dette skyldes at populationen indeholder et eksakt antal mærkede elementer. I eksemplet med lotto var der 4 vinderkugler (mærkede elementer) ud af i alt 12 kugler (population). Hver gang en kugle udtages fra populationen (alle lottokuglerne), ændres sandsynligheden for at udtage de resterende vinderkugler, da der efter hver udtrækning er en kugle mindre tilbage. Poissonfordelingen baseres ligesom de to foregående fordelinger på en diskret variabel. I modsætning til binomialfordelingen, hvor vi har et fast antal eksperimenter, så mangler denne information for en variabel der følger poissonfordelingen. I tilfældet med chokoladebagels ved vi ikke præcist hvor mange bagels der er i en pose, og derfor tager vi udgangspunkt i et gennemsnitligt antal defekte bagels pr. pose. Normalfordelingen anvendes når vi arbejder med kontinuerte variable. I eksemplet med nødderne er variablen kontinuert, da vægt er en målbar enhed, der kan angives med et uendeligt antal decimaler. Som vi var inde på, er alle normalfordelte variabler baserede på standardnormalfordelingen, som bygger på en fast sammenhæng mellem antallet af standardafvigelser fra gennemsnittet og arealet af fordelingen. Antallet af standardafvigelser fra gennemsnittet udtrykkes i standardnormalfordelingen med z-værdier. Fordelingsøvelser De første spørgsmål er relateret til fortolkning, her skal du med egne ord forsøge at forklare betydningen af de forskellige fordelinger. Efterfølgende er opgaverne rettet mod beregninger hvor Statlearn programmet anvendes. Fortolkningsøvelser: 1. Hvorfor anvendes sandsynlighedsfordelinger i det hele taget? 2. Hvordan vil du fortolke forskellen på en diskret og en kontinuert sandsynlighedsfordeling? 3. Hvordan vil du forklare forskellen på en binomial- og en hypergeometrisk variabel? 4. I hvilken sammenhænge anvendes poissonfordelingen? 5. I både poisson og normalfordelingen indgår et gennemsnit til at beregne sandsynligheder. Hvordan ved du om du skal anvende en poissonfordeling i stedet for en normalfordelingen? s. 99

100 Sandsynlighedsfordelinger Beregningsøvelser Opgave 1. De tre nedenstående spørgsmål er en øvelse i at finde de eksakte fordelinger. Du skal kun tage stilling til hvilken fordeling variablen følger og derfor ikke beregne sandsynligheder. Til alle tre spørgsmål er det vigtigt, at du forsøger at definere variablen (X) og opstiller den korrekte notation for de forskellige fordelinger. Spørgsmål 1. Til det årlige møde i FN er topembedsmænd samlet fra alle nationer. Hvad er sandsynligheden for, at en stikprøve med 10 embedsmænd indeholder tre fra Afrika. Spørgsmål 2. På en bestemt strækning ved Lyngby motorvej, er der en given sandsynlighed for en ulykke. Hvad er chancen for, at der sker 4 ulykker når 2000 biler er kørt forbi strækningen? Spørgsmål 3. En ejendomsmægler ved, at der gennemsnitligt sælges 10 sommerhuse pr. måned i sommerhalvåret hvad er sandsynligheden for at der sælges 30 sommerhuse på 2 måneder i sommerhalvåret? Opgave 2. Antag at studerende på Niels Brock med 40 % sandsynlighed kommer direkte fra gymnasiet, og at der udtages en stikprøve på 100 studerende. Spørgsmål 1. Hvilken fordeling følger vores variabel? (Uddyb) Spørgsmål 2. Hvad er sandsynligheden for, at stikprøven indeholder mere end 40 og højst 70 studerende, der kommer direkte fra gymnasiet? Opgave 3. En gruppe rejsende ankommer til Barbados i to forskellige fly, A og B. Gruppen er i alt på 100 turister, hvoraf 30 rejser med fly A. Du er som rejseleder blevet informeret, at der blandt de 100 kufferter er mistet 5, og skal nu meddele det til gruppe A som lige er landet. Inden du taler med gruppe A ønsker du at kende sandsynligheden for, at der overhovedet er mistede kufferter blandt denne gruppe? Spørgsmål 1. Definer fordeling og uddyb valg. Spørgsmål 2. Hvad er sandsynligheden for at gruppe A ingen mistede kufferter har? (Husk at definere variabel) Spørgsmål 3. Hvad er sandsynligheden for, at kun én person har mistet en kuffert i gruppe B? (Husk at definere variabel) s. 100

101 Sandsynlighedsfordelinger Opgave 4. En læge skal bestille en ny sending Epo 9 til patienter med svækket iltoptagelse. Lægen ved, at der er 100 patienter der til dagligt skal have 10 ml Epo, og at lægemidlet virker i 90 % af tilfældene. For de resterende 10 % skal patienterne have dobbeltdosis for at medikamentet virker. Ved dobbeltdosis antages Epo at virke med 100 % sandsynlighed. Spørgsmål 1. Hvad er sandsynligheden for, at Epo en given dag virker for mindre end 83 patienter ved en enkelt dosis? Spørgsmål 2. Hvad er sandsynligheden for at mindst 9 og højst 12 patienter skal have dobbeltdosis en given dag? Spørgsmål 3. Hvad er sandsynligheden for, at der er mindre end 65 patienter, der skal have dobbeltdosis på en uge (7 dage)? Spørgsmål 4. Hvor mange liter Epo må lægen forvente, at der bruges på en hel uge? Opgave 5. En børsmægler har igennem længere tid fulgt Nokias aktiekurs. Hun har observeret, at aktien i gennemsnit stiger 5 % med en standard afvigelse på 1,3 %, når virksomheden i kvartalsregnskaberne øger indtjeningen udover det forventede. Antag at det kommende kvartalsregnskab bliver bedre end forventet. Hvad er da sandsynligheden for, at kursen stiger med mindst 6,5 %? Opgave 6. Salgsdirektøren for BMW Odense forventer, at der i sommerhalvåret gennemsnitligt sælges 30 biler pr. måned. Spørgsmål 1. For at tilpasse lageret ønsker logistiklederen at du beregner sandsynligheden for, at der sælges mellem 30 og 40 biler i juni måned? Spørgsmål 2. Hvad er sandsynligheden for, at der i sommerhalvåret sælges over 200 biler? 9 Epo (el. Erythroprotein) er et hormon, som naturligt produceres i nyrerne for at stimulere knoglemarven til produktion af røde blodlegemer, der er nødvendige til transport af ilt til musklerne. s. 101

102 Sandsynlighedsfordelinger Opgave 7. Vi antager at de små Coca-Cola flasker på 15 ml, der serveres på fly har en gennemsnitlig fyldhøjde på 10 cm og en standardafvigelse på 1 cm. Hvis fyldehøjden er under 8,2 cm er flasken underfyldt, og hvis den er over 11,5 cm er den tilsvarende overfyldt. Spørgsmål 1. Hvad er sandsynligheden for, at en flaske er overfyldt? Illustrer området med en normalfordeling. Spørgsmål 2. Hvad er sandsynligheden for, at en flaske enten vil være over- eller underfyldt? Illustrer som i spørgsmål 1. Spørgsmål 3. Hvis en kasse indeholder 30 Coca-Cola flasker, hvad er så sandsynligheden for, at den gennemsnitlige fyldehøjde for en hel kasse er større end 8,2 cm? Spørgsmål 4. Hvis vi har en z-værdi på 3, hvad svarer det så til i fyldehøjde for en enkelt flaske? Hvad er fyldehøjden hvis z-værdien er 1? Opgave 8. Antag antallet af klager der hver måned modtages i Nordeas kundeservice, følger en poissonfordeling med et gennemsnit på 255. Spørgsmål 1. Hvad er sandsynligheden for at Nordea: a) En given måned modtager mere end 300 klager? b) I løbet af 3 måneder maksimalt modtager 750 klager? c) I løbet af 1 dag ingen klager modtager (forudsat 23 arbejdsdage/måned)? Spørgsmål 2. Hvad er sandsynligheden for, at Nordea i to sammenhængende måneder præcist modtager 255 klager i hver måned? Der forudsættes uafhængighed mellem antallet af de månedlige klager. (Tip: Fællesmængden) s. 102

103 Sandsynlighedsfordelinger Løsninger til sandsynlighedsfordelinger I det følgende fremgår løsninger til øvelserne for sandsynlighedsfordelinger. Det skal nævnes, at løsningerne for simpelhedens skyld er reduceret til et resultat og få øvrige informationer. I en eksamenssituation er det vigtigt, at din opgave løses så den indeholder alle de oplysninger der fremgår ved beregninger foretaget med Statlearn program statistikprogrammet. Fortolkningsøvelser 1. Fordelinger anvendes for at beregne sandsynligheder på en effektiv måde. Styrken ved fordelinger ligger i akkumulation af sandsynligheder. Uden fordelinger ville det være nødvendigt at beregne sandsynligheder manuelt for hver enkelt værdi af den stokastiske variabel. Eksempelvis skulle sandsynligheden: P(X # 3) beregnes ved at summere sandsynlighederne for fire separate beregninger: P(X 5 0) 1 P(X 5 1) 1 P(X 5 2) 1 P(X 5 3). Med en sandsynlighedsfordeling kan aflæses direkte i fordelingen, derved udgås tidskrævende beregninger. 2. En diskret variabel kan opgøres i hele enheder, eksempelvis et hus eller en bil. Kontinuerte variable kan ikke på samme vis afgrænses til hele enheder. Kontinuerte variable kendetegnes ved at være størrelser, der ikke kan måles helt eksakt. Værdien af en kontinuert variabel kan tilføjes et uendeligt antal decimaler - eksempler herpå er temperatur, hastighed og tid. 3. Binomiale variable kendetegnes ved konstant sandsynlighed for hvert udfald af et eksperiment. Kastes en terning er sandsynligheden for et bestemt udfald 1/6. Uanset hvor mange gange terningen kastes, forbliver sandsynligheden 1/6 for et bestemt udfald deraf konstant sandsynlighed. Med en hypergeometrisk variabel forholder det sig omvendt. I forbindelse med Lotto (36 kugler) er der ved første udtag en sandsynlighed på 1/36 for at udtage en bestemt kugle. Efter hvert udtag ændres sandsynligheden, da der er færre kugler tilbage. 4. Poissonfordelingen anvendes i forbindelse med diskrete variable, hvor hændelserne indtræffer uafhængigt af hinanden i et bestemt tidsinterval. 5. Poissonfordelingen baseres på en diskret variabel, hvorimod normalfordelingen baseres på en kontinuert variabel. s. 103

104 Sandsynlighedsfordelinger Beregningsøvelser Opgave 1. Spørgsmål 1. X: Antal FN embedsmand fra Afrika. X ~ h(n 5 alle FN embedsmænd, m 5 FN embedsmænd fra Afrika, n 5 10) P(X 5 3) Forudsætninger: a) Diskret variabel b) n elementer udtages fra en endelig population (N) c) Ikke konstant sandsynlighed, dvs. afhængighed mellem de enkelte eksperimenter d) Hvert element kan defineres som mærket eller ikke-mærket (Afrika, ikke-afrika) Spørgsmål 2. X: Antal ulykker ved Lyngby motorvej X ~ b(p, n) P(X 5 4) Forudsætninger: a) Diskret variabel b) n elementer observeres c) Konstant sandsynlighed, dvs. uafhængighed mellem de enkelte eksperimenter (en bil) d) Hvert element kan defineres som mærket eller ikke-mærket (ulykke, ikke-ulykke) Spørgsmål 3. X: Antal solgte sommerhuse pr. måned i sommerhalvåret. X ~ Ps(l 5 20) P(X 5 30) Forudsætninger: a) Diskret variabel b) Antal af forekomster af mærkede elementer observeres over en periode (solgte sommerhuse) c) Elementerne indtræffer uafhængigt af hinanden d) Konstant sandsynlighed for forekomst af et mærket element s. 104

105 Sandsynlighedsfordelinger Opgave 2. Spørgsmål 1. X: Antal Niels Brock studerende der kommer direkte fra gymnasiet X ~ b(p 5 0,4 n 5 100) da der er konstant sandsynlighed for, at en elev kommer direkte fra gymnasiet Spørgsmål 2. P(41 # X # 70) 5 0, Opgave 3. Spørgsmål 1. X ~ h(n m 5 5 n kendes endnu ikke) Den hypergeometriske fordeling vælges, da sandsynligheden for en mistet kuffert ændres hver gang en turist udvælges. Der er således ikke tale om konstant sandsynlighed for en mistet kuffert. Spørgsmål 2. X: Antal turister med mistet kuffert fra gruppe A X ~ h(n m 5 5 n 5 30) P(X 5 0) 5 0, Spørgsmål 3. Y: Antal turister med mistet kuffert fra gruppe B Y ~ h(n 5 100, m 5 5, n 5 70) P(Y 5 1) 5 0,02548 Opgave 4. Spørgsmål 1. X: Antal patienter som kun skal have en enkelt dosis Epo X ~ b(p 5 0,9 n 5 100) da variablen er diskret, og der er uafhængighed mellem patienter der skal have Epo P(X # 82) 5 0, s. 105

106 Sandsynlighedsfordelinger Spørgsmål 2. Y: Antal patienter som skal have en dobbeltdosis Epo Y ~ b(p 5 0,1 n 5 100) P(9 # X # 12) 5 0,4809 Spørgsmål 3. Y: Antal patienter som skal have en dobbeltdosis Epo på en uge (7 dage) Y ~ b(p 5 0,1 n 5 700) P(X # 64) 5 0, Spørgsmål 4. X: Enkelt dosis Epo (10 ml) Y: Dobbeltdosis Epo (20 ml) E(X) 5 n p , ml ml E(Y) 5 n p , ml ml E(X) 1 E(Y) ml 5 7,7 l Opgave 5. X: Nokias aktiekurs når virksomheden i kvartalsregnskaberne øger indtjeningen udover det forventede X ~ N(m 5 0,05 s 5 0,013) Normalfordelingen vælges da aktiekursen er en kontinuert variabel P(X $ 0,065) 5 0, Opgave 6. Spørgsmål 1. X: Antal biler der sælges pr. måned i sommerhalvåret (6 måneder) X ~ Ps(l 5 30) P(30 # X # 40) 5 0, Spørgsmål 2. X: Antal biler der sælges i sommerhalvåret X ~ Ps(l 5 180) P(X $ 201) 5 0, s. 106

107 Sandsynlighedsfordelinger Opgave 7. Spørgsmål 1. X: fyldehøjden på en enkelt flaske (i cm) X ~ N(m 5 10, s 5 1) da højde er en kontinuert variabel. P(X $ 11,5) 5 0,0668 Spørgsmål 2. P(X # 8,2) 1 P(X $ 11,5) 5 0, , ,1027 Spørgsmål 3. X: Gennemsnitlig fyldehøjde for en kasse med 30 flasker. X ~ N(m 5 10, s x 5 P(X $ 8,2) 1 dvs. 100 % ,183) Spørgsmål 4. Når den gennemsnitlige fyldehøjde er 10 cm og standardafvigelsen er 1 cm, så svarer en z-værdi på 3 til en fyldehøjde på 13 cm og en z-værdi på -1 til en fyldehøjde 9 cm. Z-værdier svarer til antallet af standardafvigelser fra centrum af fordelingen (gennemsnittet). Opgave 8. Spørgsmål 1. a) P(X $ 301) 5 0, b) P(X # 750) 5 0, c) P(X 50) 5 0, der tages udgangspunkt i et gennemsnit på 11 (255/23) Spørgsmål 2. P(255 klager måned klager måned 2) 5 0, , , s. 107

108 Sandsynlighedsfordelinger Appendiks 1: Approksimationsregler For at approksimere er der nogle forudsætninger, der skal være opfyldt: Fra hypergeometrisk til normalfordelingen: n p (1 2 p ) N 2 n N 2 n Fra binomial til normalfordelingen: Fra poisson til normalfordelingen:. 9 er opfyldt Approksimation ok n p (1 2 p )? 9 er opfyldt Approksimation ok n lˆ. 9 er opfyldt Approksimation ok Udføres konfidensintervallet med Statlearn program udføres automatisk en kontrol af om approksimationsbetingelserne er opfyldt. s. 108

109 KAPITEL 6 KONFIDENSINTERVALLER Statlearn.com

110 KAPITEL 6 Konfidensintervaller Antag at du op til det amerikanske præsidentvalg i 2008 var kampagnerådgiver for Barack Obama og disponerede over et astronomisk kampagnebudget. For at udnytte budgettet maksimalt er din opgave at identificere de stater, hvor der er størst potentiale for at hente stemmer. I den forbindelse udtages en stikprøve i Texas, der viser at 63 % vil stemme på Obama. Du ved, at stikprøver ikke er helt pålidelige, så inden du åbner champagnen, vælger du for en sikkerheds skyld at foretage en ny stikprøveundersøgelse. Denne gang viser andelen i stikprøven, at opbakningen kun er på 48 %! Hvilket estimat kan du stole på? Hvordan kan du med sikkerhed vide, om det er fornuftigt at bruge af kampagnereserverne i Texas, når det ene estimat indikerer at Obama vil vinde, og det andet indikerer det modsatte? De spørgsmål kan et konfidensinterval hjælpe med at besvare. Et konfidensinterval er et interval som rummer et populationsparameter, eksempelvis en populationsandel med en given sandsynlighed. Resultat af et konfindensinterval kunne lyde: Andelen af alle amerikanere der stemmer på Obama ligger mellem % med en sandsynlighed på 95 % I det indledende kapitel om beskrivende statistik var vi inde på forskellen mellem punktestimater og populationsparametre. Populationsparametre anvendes når vi arbejder med populationsdata, når alle data for vores population er til rådighed. Som regel er det yderst tids- og ressourcekrævende at indsamle data for en hel population, og derfor anvendes der i stedet stikprøver. Formålet med stikprøver er at skabe et retvisende billede af hele populationen ud fra et (lille) udsnit af populationen. TABEL 58: Betegnelse Populationsparameter Punktestimat Gennemsnit m x Standardafvigelsen s s Varians s 2 s 2 Andel p p Intensitet (obs. i en periode) l lˆ Videolektioner > s. 110

111 Konfidensintervaller Punktestimater er baseret på en stikprøve og skal opfattes som et estimat eller en tilnærmelse af det tilsvarende populationsparameter. Da et punktestimat er baseret på en stikprøve, må vi forvente, at det afviger en smule fra det givne populationsparameter spørgsmålet er blot hvor meget estimatet afviger. Hvis vi eksempelvis ønsker at undersøge den gennemsnitlige husstandsindkomst i Danmark og i den forbindelse udtager en stikprøve på 100 personer (n), er det intuitivt, at punktestimatet for den gennemsnitlige indkomst (x) ikke vil være helt identisk med den sande gennemsnitlige indkomst (m), dvs. det sande gennemsnit vi havde fået, hvis hele populationen af danske husstande (N) var blevet adspurgt. På den baggrund kan vi ræsonnere os frem til, at et punktestimat rummer en vis usikkerhed, og at punktestimatets nøjagtighed afhænger af stikprøvens størrelse. Jo større stikprøve desto mere vil stikprøven ligne populationen, og jo mere præcist vil punktestimatet derfor være. Lad os tage et simpelt eksempel. Antag at du kaster en mønt 5 gange og kun observerer et enkelt udfald af krone. Baseret på denne stikprøve er punktestimatet for andelen af krone (pˆ) kun 20 % til trods for at populationsandelen (p) er 50 % 10. Den store afvigelse mellem punktestimatet og populationsandelen kan tilskrives, at stikprøvens størrelse er relativt lille. Øges stikprøvestørrelsen fra 5 til 1000 møntkast vil du se, at andelen af plat og krone tilnærmelses bliver 50 % hver. Nu hvor vi har ræsonneret at stikprøvestørrelsen har en afgørende betydning for præcisionen af punktestimatet, dukker et nyt problem op. Selvom vi ved, at et punktestimat baseret på 1000 observationer er mere nøjagtigt end et på 10, ved vi ikke hvor meget mere nøjagtigt det vil være. Uanset stikprøvens størrelse ved vi således ikke hvor tæt punktestimatet er på det givne populationsparameter. Et konfidensinterval kompenserer for denne problemstilling. Med et konfidensinterval kan vi beregne et interval, der indkredser hvor det sande populationsparameter med en vis sandsynlighed vil ligge. Definition: Et konfidensinterval er et intervalestimat der rummer et populationsparameter med en given sandsynlighed 10 Sandsynligheden for plat og krone betegnes en a priori sandsynlighed, dvs. en sandsynlighed hvor vi på forhånd (a priori) kan beregne den eksakte sandsynlighed for plat og krone. s. 111

112 Konfidensintervaller Konfidensintervaller som koncept Lad os se nærmere på konceptet for et konfidensinterval. Hvis du forestiller dig en bilfabrik der kun har fremstillet 10 biler (N 5 10). Alle 10 biler er blevet testet for, hvor langt de kan køre på en 1 liter benzin, og resultatet kan du se i nedenstående. TABEL 59: Obs (Bil) Km/l Parametre 1 11 m 11, s 2, N Gennemsnitsforbruget er således 11,10 km/l med en standardafvigelse på 2,77. Bemærk at notationen for populationsparametrene anvendes, da data omfatter hele populationen bestående af 10 biler. Lad os nu antage at vi udtager stikprøver på 3 biler (n 5 3). Hvis vi tog alle kombinationsmuligheder af 3 biler ud af populationen på 10, ville vi få forskellige stikprøver og et tilsvarende antal forskellige punktestimater af gennemsnittet. For at danne os et overblik over de mange forskellige værdier af punktestimater, kan vi illustrere dem i en frekvensfordeling. FIGUR 36: F(x) < < NB: Bemærk at her er tale om en fordeling af punktestimater (x) og ikke af enkeltstående observationer (x). x (af n 5 3) Ud fra fordelingen af punktestimater kan vi se at en drastisk forskel på de største og mindste 11 værdier. Til beregning Til trods af antal for kombinationer vi tidligere anvendes beregnede excelfunktionen: populationsgennemsnittet 5kombin(10;3) til 11,1 km/l kan vores punktestimater af gennemsnittet baseret på 3 observationer variere fra omkring 9 til 14,33 km/l! s. 112 En anden og meget vigtig observation er, at fordelingen af punktestimaterne ser ud til følge en normalfordeling, dvs. en symmetrisk og klokkeformet fordeling.

113 Grundlæggende statistik < < Konfidensintervaller Ud fra fordelingen af punktestimater kan vi se at en drastisk forskel på de største og mindste Ud fra fordelingen værdier. Til af punktestimater trods for at vi tidligere kan vi beregnede se en drastisk populationsgennemsnittet forskel på de største og til mindste 11,1 km/l værdier. kan Til trods for at vi tidligere beregnede populationsgennemsnittet (m) til 11,1 km/l, kan vores punktestimater af gennemsnittet baseret på 3 observationer variere fra omkring 10 til 14,33 km/13! vores punktestimater af gennemsnittet baseret på 3 observationer variere fra omkring 9 til 14,33 km/l! En anden og meget vigtig observation er, at fordelingen af punktestimaterne ser ud til følge en normalfordeling, En anden dvs. og en meget symmetrisk vigtig observation og klokkeformet er, at fordelingen fordeling. af punktestimaterne ser ud til følge en normalfordeling, dvs. en symmetrisk og klokkeformet fordeling. FIGUR 37: < < En vigtig pointe En vigtig er at pointe punktestimater er punktestimater for andele for andele og gennemsnit, og gennemsnit, uagtet uagtet variablens variablens oprindelige fordeling, følger fordeling, normalfordelingen følger normalfordelingen når stikprøven når stikprøven er stor, hvilket er stor, i den hvilket sammenhæng i den sammenhæng betyder betyder mindst 30 observationer. mindst 30 observationer. Den centrale grænseværdisætning Den centrale grænseværdisætning Udtager man en stor stikprøve (n < 30) fra en population med en vilkårlig fordeling, vil Udtager man en stor stikprøve (n. 30) fra en population med en vilkårlig fordeling, vil fordelingen fordelingen af punktestimaterne (for stikprøvegennemsnit og -andele) tilnærmelsesvis være af punktestimaterne (for stikprøvegennemsnit og -andele) tilnærmelsesvis være normalfordelte. Det interessante normalfordelte. ved denne sætning Det interessante er, at lige ved meget denne om sætning fordelingen er, at lige for meget den enkeltstående om fordelingen observation for den er højre- eller enkeltstående venstreskæv, observation så vil fordelingen er højre- eller af dennes venstreskæv, punktestimat så vil fordelingen være normalfordelt. af dennes Dette har en helt central betydning FIGUR 38: Højre- og venstreskæve fordelinger for anvendelsen af hypotesetest og konfidensintervaller, som primært baseres på indbygger i Hollywood Af Stephan Skovlund (Copyright) Fordelingen af indkomsten Side pr. 123 normalfordelingen. (enkeltstående observation) Lad os tage et eksempel med indkomsten i Hollywood som sandsynligvis er højreskæv, dvs. at mange har en middelmådige indkomst og få har (meget) høje indkomster. x x Fordelingen af den gennemsnitlige indkomst (punktestimat) i Hollywood s. 113

114 Konfidensintervaller Som det fremgår af den ovenstående figur, er fordelingen af punktestimater normalfordelt, til trods for at indkomsten pr. indbygger i Hollywood følger en højreskæv fordeling. Det forhold vil jævnfør den centrale grænseværdisætning altid gøre sig gældende for fordelinger af punktestimater for andele og gennemsnit, så længe de er baseret på stikprøver, som er større end 30 observationer. Vi opsummerer kort de grundlæggende aspekter af konfidensintervaller: a. Punktestimater beregnes på baggrund af stikprøver, som blot er et udsnit af en population. Da et punktestimat ikke er beregnet på baggrund af alle populationens elementer, kan der være stor forskel på værdien af et punktestimat, og værdien af det populationsparameter der søges. b. For at imødekomme usikkerheden ved et punktestimat, kan man beregne et konfidensinterval. Et konfidensinterval vil rumme det givne populationsparameter med en vis sandsynlighed. c. Konfidensintervaller baseres på normalfordelingen 12. Fordelingen af punktestimater for andele og gennemsnit følger jf. den centrale grænseværdisætning altid normalfordelingen når stikprøven overstiger 30 observationer. Normalfordelingens rolle Nu hvor vi har opridset det grundlæggende koncept for konfidensintervaller, kan vi fortsætte med et mindre konstrueret eksempel. Antag at du op til præsidentvalget i 2008 havde udtaget en stikprøve på 100 tilfældige amerikanere, hvoraf de 52 ville stemme på Obama (pˆ 5 0,52). Nu ønsker du at vide, hvor præcist punktestimatet (pˆ) er i forhold til den sande andel (p), den andel du havde fået hvis du havde adspurgt samtlige 200 millioner amerikanske vælgere. Fra den centrale grænseværdisætning fremgik det at punktestimater følger en normalfordeling. Som nævnt er normalfordelingen praktisk i den forstand, at der er en fast sammenhæng mellem antallet af standardafvigelser fra gennemsnittet og arealet af normalfordelingen. FIGUR 39: Standardafvigelser og gennemsnit i normalfordelingen. 95% 68% m m 1? z m 2? z 12 Med undtagelse af konfidensintervaller for standardafvigelsen som baseres på x 2 - fordelingen s. 114

115 Konfidensintervaller Denne sammenhæng er selve hjørnestenen i et konfidensinterval. Er vi eksempelvis 2 standardafvigelser på hver side af gennemsnittet dækkes 95 % af fordelingen, som det fremgår af ovenstående figur. FIGUR 40: Punktestimater der fratrækkes og adderes 2 standardafvigelser. Det må nødvendigvis betyde, at et vilkårligt punktestimat som fratrækkes og adderes m X med 2 standardafvigelser, resulterer i et interval som krydser midten af fordelingen X med 95 % sandsynlighed. X Da midten af fordelingen repræsenterer populationsgennemsnittet X (m) betyder det, at vi har skabt et interval som med 95 % sandsynlighed rummer populationsgennemsnittet - således har vi skabt et konfidensinterval. Essensen af et konfidensinterval er at fratrække og addere et antal standardafvigelser fra punktestimatet, og dermed skabe et interval hvori populationsparameteret vil ligge med en given sandsynlighed. Betydningen af konfidensniveauet Konfidensniveauet kan opfattes som sandsynligheden eller sikkerheden for, at vores interval indeholder det givne populationsparameter. Jo højere konfidensniveau desto mere sikkert er det, at intervallet indeholder populationsparameteret. Men vær opmærksom på at konfidensniveau og bredden af selve konfidensintervallet er sammenhængende kræfter. FIGUR 41: Standardnormalfordelingen 95% 80% Nb: Eksemplet som bygger på z-fordelingen forudsætter kendt populationsvarians, dvs. at variansen er beregnet på baggrund af data for hele populationen. Er variansen ikke kendt anvendes i stedet t-fordelingen, som er en tilnærmelse til z-fordelingen. m m 1,28? Z m 1,96? Z s. 115

116 Konfidensintervaller Som regel anvendes altid et 95 % konfidensniveau, men det står dig frit for at anvende andre niveauer. Du skal blot være opmærksom på, at bredden af konfidensintervallet øges i takt med konfidensniveauet. Jo højere konfidensniveau desto bredere og mere unøjagtigt bliver konfidensintervallet. Sammenhængen mellem konfidensniveau og konfidensintervallets bredde kan illustreres med følgende eksempel. En meteorolog kan med 100 % sikkerhed estimere at temperaturen Sankt Hans aften kommer til at ligge mellem og 100 grader. Alternativt kan meteorologen tilsvarende estimere, at temperaturen Sankt Hans aften med 80 % sandsynlighed vil ligge mellem 16 og 23 grader. Trods det sidste interval har et lavere konfidensniveau og dermed er mindre sikkert, er det langt mere nøjagtigt og anvendeligt. Konfidensintervallets grundelementer Indtil videre har vi diskuterer konceptet for konfidensintervaller. I dette afsnit redegøres for selve opbygningen af konfidensintervallet. Der findes forskellige typer af konfidensintervaller, men helt grundlæggende er fundamentet det samme: TABEL 60: Punktestimat konfidensniveau standardafvigelsen 13 Punktestimatet og dennes standardafvigelse er baseret på stikprøven og er således faste værdier. Konfidensniveauet kan vi justere som tidligere illustreret. Hvad angår standardafvigelsen, er det vigtigt at notere, at vi her ikke taler om standardafvigelse for den enkeltstående observation, men om standardafvigelsen for selve punktestimatet. EKSEMPEL Antag at du ønskede at finde gennemsnitsalderen i din klasse. Du indhenter oplysninger om alderen for alle dine medstuderende og beregner efterfølgende gennemsnit og standardafvigelse. I dette eksempel defineres variablen som alderen for den enkelte elev i din klasse. Du ønsker nu at udvide undersøgelsen for at finde gennemsnitsalderen for hele skolen. Med flere hundrede studerende er det for tidskrævende at indhente oplysninger fra alle eleverne. I stedet udtager du 10 tilfældige stikprøver med 20 elever i hver og beregner herefter gennemsnitsalderen for hver stikprøve. 13 Med standardafvigelsen forstås standardafvigelsen af punktestimatet s. 116

117 Konfidensintervaller I denne sammenhæng er vores observation ikke længere alderen på en enkelt studerende, men den gennemsnitlige alder for en hel stikprøve på 20 studerende. Standardafvigelsen skal i overensstemmelse hermed beregnes for punktestimatet (de 20 elever) og ikke den enkeltstående observation (en enkelt elev). Standardafvigelse for et punktestimat påvirkes af stikprøvestørrelsen, jo større stikprøvestørrelse desto mindre vil standardafvigelsen for punktestimatet være. Sammenhængen mellem stikprøvestørrelsen og standardafvigelsen kan illustreres relativt simpelt. Kastes en terning et uendeligt antal gange vil gennemsnittet af summen af terningøjne blive 3,5 (m). Lad os nu antage at vi i stedet kaster en terning to gange og får to 1 ere og efterfølgende får to 6 ere. Gennemsnittet for begge forsøg er henholdsvis 1 og 6. Øger vi stikprøvestørrelsen til eksempelvis 1000 terningkast, vil det være usandsynligt at få 1000 identiske resultater. I stedet må vi forvente en mere jævn spredning af høje og lave resultater, som trækker gennemsnittet ind mod midten (m 5 3,5). Udføres flere eksperimente med 1000 terningkast, vil de respektive gennemsnit således afvige langt mindre end et tilsvarende eksperiment, hvor kun to terninger kastes. FIGUR 42: 1 6 X X X Gennemsnit af 3 eksperimenter, hvor en terning kastes 2 gange i hvert eksperiment. 1 X X X 6 Gennemsnit af 3 eksperimenter, hvor en terning kastes 1000 gange gange i hvert eksperiment. Beregning af standardafvigelsen for punktestimatet i forbindelse med konfidensintervaller forgår automatisk, når du anvender Statlearn program. I afsnit 0 ses formlerne konfidensintervaller. Opsummering Punktestimater beregnes på baggrund af stikprøver og rummer dermed en vis usikkerhed. Stikprøvestørrelsen har betydning for denne usikkerhed. Jo større stikprøve desto mere nøjagtigt bliver punktestimatet. Til trods for at punktestimater kan blive relativt nøjagtige, kan vi aldrig vide præcist hvor tæt estimatet ligger på det estimerede populationsparameter. Det er i den forbindelse, at et konfidensinterval bliver anvendeligt. Et konfidensinterval er et intervalestimat, der rummer den sande værdi af et populationsparameter med en vis sandsynlighed. Med et konfidensinterval kan vi således kvantificere præcisionen af et punktestimat. s. 117

118 Konfidensintervaller Et konfidensinterval beregnes på baggrund af tre elementer: Punktestimat konfidensniveau standardafvigelsen Bredden af konfidensinterval afgøres af standardafvigelsen og konfidensniveauet. Hvor standardafvigelsen er en værdi beregnet ud fra stikprøven, kan konfidensniveauet justeres alt afhængig af den sandsynlighed man ønsker for, at intervallet skal rumme populationsparameteret. Når konfidensniveauet øges, bliver konfidensintervallet bredere, og hermed øges sandsynligheden for at intervallet rummer det givne populationsparameter. Ulempen ved at øge konfidensniveauet er således, at intervallet bliver mere bredt og dermed unøjagtigt. Bestemmelse af stikprøvestørrelse såfremt en specifik bredde af konfidensinterval er angivet I forbindelse med afsnittet om konfidensintervallets grundelementer fremgik det, at bredden af intervallet påvirkes af henholdsvis konfidensniveau og standardafvigelsen af punktestimatet. Som vi tidligere var inde på, påvirkes standardafvigelsen for punktestimatet af stikprøvestørrelsen (n). Når stikprøvestørrelsen påvirker standardafvigelsen, betyder det nødvendigvis at bredden af konfidensintervallet også påvirkes. Jævnfør nedenstående kan bredden af et konfidensinterval beregnes ud fra stikprøvestørrelsen. TABEL 61: Beregning af interval bredde Kriterium Formel Forudsætning Populationens størrelse er ukendt Populationens størrelse er kendt n $ (Z2 12a/2? s) 2 L 2 0 n $ Z2 12a/2? p(1 2 p) L 2 0 n $ Z2 12a/2? 0,25 L 2 0 s 2 n $ (L 0 /Z 12 a 2 ) 2 1 s 2 /N p(1 2 p) n $ (L 0 /Z 12 a 2 ) 2 1 p(1 2 p)/n 0,25 n $ (L 0 /Z 12 a 2 ) 2 1 0,25/N Ved kendskab til s Ved kendskab til p p kendes ikke Ved kendskab til s Ved kendskab til p p kendes ikke s. 118

119 Konfidensintervaller Hvor Z værdien tolkes som det antal standardafvigelser, der svarer til konfidensniveauet, og L 0 er konfidensintervallets margin. a (alfa) er sandsynligheden for fejl. Ved et 95 % konfidensniveau er a 5 5%. EKSEMPEL: Bestemmelse af stikprøvestørrelsen for andel. En forsker hos Novo Nordisk ønsker at beregne et 95 % konfidensinterval for andelen af bivirkninger ved et nyt insulinpræparat. Der stilles det særlige krav, at intervallet maksimalt må have en bredde på 0,04 (dvs. at afstanden mellem den nedre og øvre grænse af intervallet maksimalt må være 0,04). Hvor stor skal stikprøven være, for at imødekomme kravet til intervallets bredde? Løsning beregnet med formel uden kendskab til p: n $ Z2 12a/2? 0,25 L ,962? 0,25 0, (husk at runde op) Løsning beregnet med formel ved kendskab til p (estimeres til 0,5): n $ Z2 12a/2? p(1 2 p) L ,962? 0,5 (1 2 0,5) 0, (husk at runde op) NB: Størrelsen af stikprøven kan beregnes med Statlearn programmet. Fremgangsmåde til beregning af konfidensintervaller En generel fremgangsmåde til at beregne konfidensintervaller skitseres i nedenstående. Efterfølgende diskuteres de enkelte punkter hver for sig. 1. Definition af variabel 2. Angiv model 3. Opstil data i form af punktestimater og stikprøve 4. Forudsætninger, herunder evt. approksimation 5. Angiv formel for interval 6. Beregning 7. Fortolkning NB: Konfidensintervaller som beregnes med Statlearn program følger denne fremgangsmåde. s. 119

120 Konfidensintervaller Ad 1: Definition af variabel Hermed forstås en kort og præcis beskrivelse af variablen uden inddragelse af tal eller punkestimater. Er du i tvivl om hvad variablen er i opgaven, så stil dig selv spørgsmålet: Hvad er det som kan variere? EKSEMPEL: I forbindelse med Obama s valgkampagne foretog hans medarbejdere dagligt exit polls for at beregne andelen af Obama-stemmer. Her defineres variablen: Antallet af vælgere der stemmer på Obama. Ad 2: Angivelse af model Der findes mange forskellige fordelinger som en variabel kan følge, derfor er det vigtigt at redegøre for den eksakte fordeling. Følger en variabel binomialfordelingen, men anvendes en approksimativ normalfordeling, er det vigtigt at angive, at modellen er binomial. Under forudsætninger kommenteres, at variablen approksimeres fra binomial til en normalfordeling. Se mere om approksimation under punkt 4 (Ad 4). Såfremt der beregnes et interval for et gennemsnit, er det vigtigt at identificere om gennemsnittet er beregnet ud fra hele populationens data (dermed siges variansen at være kendt), eller om beregningen er foretaget ud fra en stikrpøve (hvilket betyder at variansen er ukendt). Ad 3: Data Her opstilles datagrundlaget for intervallet i form af punktestimater som gennemsnit, standardafvigelse og stikprøvestørrelse. Ad 4: Forudsætninger, herunder approksimation Her beskrives de forudsætninger, der ligger til grund for intervallet. Er intervallet baseret på en approksimation, er det vigtigt at skrive om approksimationsbetingelserne er opfyldt. Approksimation betyder, at man skifter den oprindelige fordeling ud med en anden fordeling, som regel normalfordelingen. Det skyldes at hovedparten af konfidensintervaller baseres på normalfordelingen. Da variablen man arbejder med ikke altid er normalfordelt, kan det være nødvendigt at approksimere fra en diskret fordeling (hypergeometrisk, binomial og poissonfordelingen) over til normalfordelingen. For at approksimere er der nogle forudsætninger, der skal være opfyldt, hvilket fremgår af Appendiks 1 i slutningen af afsnittet om fordelinger. I den forbindelse skal det bemærkes, at der til alle konfidensintervaller, der beregnes med Statlearn programmet, udføres en automatisk kontrol af om approksimationsbetingelserne er opfyldt. Ad 5 og 6: Formel samt beregning Her angives formel og konfidensintervallet beregnes. Ad 7: Fortolkning Beregning af konfidensintervallet er i sig selv sjældent en god afslutning på en opgave. Det er vigtigt at koble det beregnede interval til selve spørgsmålet. Eksempelvis kan et konfidensinterval for en Obama exit poll have en nedre og øvre grænse på henholdsvis 45 % og 65 %. Fortolkning: Andelen af Obama vælgere ligger med 95 % sandsynlighed mellem 45 og 65 %. s. 120

121 Konfidensintervaller Oversigt over konfidensintervaller, 1 stikprøve FIGUR 43: Gennemsnit (m) Intensitet (l) Std.afvigelse (s) Andel (p) Er variansen baseret på en stikprøve? Approks. Z-KI af l x 2 -KI af s Er variablen binomial (B) eller hypergeo. (H) (Nej) (Ja) (H) (B) Z-KI (Nej) Er stikprøven større end 30 (Ja) Approk. Z-KI med korrektionsfaktor Approks. Z-KI T-KI Approks. Z-KI s. 121

122 Konfidensintervaller Beregning af konfidensintervaller (KI), 1 stikprøve TABEL 62: Oversigt over konfidensinterval, 1 stikprøve Konfidensinterval Formel Forudsætning z-ki for m Approksimativt z-ki for m t-ki for m m x Z 12a/2 s n s m x Z 12a/2 n s m x t n21,12a/2 n s er kendt (standardafvigelsen for hele populationen) n. 30 s er ukendt, derfor anvendes standard-afvigelsen for stikprøven s χ2-ki for s (n 2 1)s 2 x 2 n21,12a/2 # s # (n 2 1)s 2 x 2 n21,a/2 Approksimativt z-ki for p p p Z 12a/2 p (1 2 p ) n n p (1 2 p ). 9 Approksimativt z-ki for l l l Z 12a/2 l n n l. 9 l tolkes som x s. 122

123 Konfidensintervaller Eksempler på konfidensintervaller for en stikprøve Eksempel 1: 95% KI for gennemsnit, ukendt varians X~N(m,s 2 ) Blandt en stikprøve på 100 studerende på Niels Brock var den gennemsnitlige indkomst kr. med en standardafvigelse på kr. Beregn et 95 % konfidensinterval for den gennemsnitlige indkomst. Variabel: Indkomst for en studerende på Niels Brock Model: X~N(m, s 2 ) Data: n 100 x kr. s kr. Forudsætning: X ~ normalfordelingen jf. den centrale grænseværdisætning da n. 30 Formel: m x t n21,12a/2 s n Beregning: Nedre grænse ,458 kr. Øvre grænse ,542 kr. Fortolkning: Den gennemsnitlige indkomst for (alle) Niels Brock studerende ligger med 95 % sandsynlighed i intervallet ,458 til ,542 kr. Eksempel 2: 95% KI for gennemsnit, kendt varians X~N(m, s 2 ) En undersøgelse blandt 414 kvinder, der abonnerer på magasinet Eurowoman viste, at gennemsnitsalderen for kvinderne var 19,7 år. På baggrund af mange tidligere studier har man erfaring for, at standardafvigelsen er 5 år. Beregn et 95 % konfidensinterval for gennemsnitsalderen for kvinder der abonnerer på magasinet Eurowoman. Variabel: Alderen for kvinder der abonnerer på Eurowoman. Model: X~N(m, s) Data: n 414 x 19,7 s 5 s. 123

124 Konfidensintervaller Forudsætning: Populationens varians er kendt Observationer er normalfordelt Formel: m x Z 12a/2 s n Beregning: Nedre grænse 5 19,218 Øvre grænse 5 20,182 Fortolkning: Med 95 % sandsynlighed er den gennemsnitlige alder for kvinder der abonnerer på Eurowoman mellem 19,2 og 20,2 år. Eksempel 3: 95% KI af andele når X~b(p,n) På Niels Brock har man blandt 125 studerende fundet frem til, at 22 ønsker at fortsætte studiet med en HA. Beregn et 95 % konfidensinterval for andelen af de studerende der forventes at fortsætte med en HA. Variabel: Antal studerende der ønsker at fortsætte med en HA. Model: X~b(n, p) Data: n 125 x 22 p 0,176 Forudsætning: a) Diskret variabel b) n elementer observeres c) Konstant sandsynlighed, dvs. uafhængighed mellem eksperimenterne d) Hvert element kan defineres som mærket eller ikke-mærket Formel: p p Z 12a/2 p (1 2 p ) n Beregning: Nedre grænse 5 0,109 Øvre grænse 5 0,243 Fortolkning: Der er 95% sandsynlighed for, at andelen af studerende på Niels Brock, der ønsker at fortsætte med en HA, ligger mellem ca. 11 og 24%. s. 124

125 Konfidensintervaller Eksempel 4: 90% KI for intensiteten X~Ps(l) På rigshospitalet blev der gennem 30 tilfældigt udvalgte dage observeret et gennemsnit på 3,8 patienter med diagnosen svær lungebetændelse. Beregn et 90 % konfidensinterval for det gennemsnitlige antal patienter der hver dag får stillet diagnosen svær lungebetændelse. Variabel: Antal patienter med svær lungebetændelse pr. dag Model: X~Ps(l) Data: n 30 l 3,8 Forudsætning: a) Diskret variabel b) Antal af forekomster af mærkede elementer observeres over en periode c) Elementerne indtræffer uafhængigt af hinanden d) konstant sandsynlighed for forekomst af et mærket element Formel: p l Z 12a/2 l n Beregning: Nedre grænse 5 3,215 Øvre grænse 5 4,385 Fortolkning: Vi kan med 90 % sandsynlighed konkludere, at det gennemsnitlige antal patienter, der hver dag kommer til rigshospitalet med svær lungebetændelse, ligger mellem 3,2 og 4,4. Eksempel 5: 95 % KI for standardafvigelsen X~N(m,s 2 ) For at sikre at der ikke opstår flaskehalse ved kassen hos IRMA, er målsætningen at ventetiden i kø maksimalt må have en standardafvigelse på 5 minutter. Ud fra en stikprøve på 50 kunder blev standardafvigelsen for ventetiden målt til 4,3 minutter. Tyder det på at målsætningen overholdes? Variabel: Ventetid i kø hos IRMA (ventetid opgøres i minutter) Model: X~N(m, s) Data: n 50 s 4,3 Forudsætninger: X ~ normalfordelingen jf. den centrale grænseværdisætning da n. 30 s. 125

126 Konfidensintervaller Formel: (n 2 1)s 2 x 2 n21,12a/2 # s # (n 2 1)s 2 x 2 n21,/2 Beregning: Nedre grænse 5 3,592 Øvre grænse 5 5,358 Fortolkning: Der er 95 % sandsynlighed for at standardafvigelsen for ventetiden i en kø ligger mellem 3,6 og 5,4 minutter. Da intervallets øvre grænse overstiger 5 minutter kan vi ikke afvise, at ventetiden i en kø hos IRMA overstiger 5 minutter. Konfidensintervaller for to stikprøver Som vi på nuværende tidspunkt ved, kan et punktestimat fra en stikprøve anvendes til at indkredse et interval, hvori det tilsvarende populationsparameter vil ligge med en given sandsynlighed. Når vi taler om konfidensintervaller for to stikprøver, er formålet at sammenligne to variabler. Eksempelvis for at undersøge om der kan være forskel på to gennemsnit. I den sammenhæng er et konfidensinterval for to stikprøver en beregning af et interval for differensen mellem to populationsparametre. EKSEMPEL Vi ønsker at beregne om der er forskel på gennemsnitsalderen for henholdsvis mænd og kvinder der bruger sms er på deres mobiltelefoner. Der udtages to stikprøver med henholdsvis 100 mænd og kvinder. I stikprøven for mænd var der 78 der anvendte sms er, og for kvinder var antallet 84. Kan vi på denne baggrund konkludere, at der er flere kvinder end mænd der anvender sms? Nej, resultaterne er baserede på stikprøver, som i sig selv er genstand for en vis usikkerhed. Derfor kan vi ikke alene på baggrund af stikprøveresultaterne komme med en endegyldig konklusion. For at anvende en statistisk sammenligningsmetode kan vi i stedet beregne et konfidensinterval for differensen mellem gennemsnitsforbruget af sms er for mænd og kvinder. Lad os for simpelheden skyld antage, at det beregnede konfidensinterval for differensen resulterer i en nedre grænse på 2 og en øvre grænse på 6. Konfidensintervallet for differensen kan opfattes som to konfidensintervaller, hvor de nedre og øvre grænser fratrækkes hinanden. Den nedre grænse på minus 2 svarer i dette tilfælde til, at den nedre grænse for kvinder er fratrukket den øvre grænse for mænd. At tallet bliver negativt betyder blot, at den størst mulige værdi for mænd er større end den lavest mulige for kvinder. Omvendt er den øvre grænse på 6 udtryk for den øvre grænse for kvinder fratrukket den nedre grænse for mænd. Hvis konfidensintervallet for differensen overlapper 0, dvs. har en nedre grænse som er negativ og en øvre grænse som er positiv betyder det, at vi ikke kan afvise, at begge variable kan have ens gennemsnit. Det betyder helt konkret, at konfidensintervallerne for hver variabel vil overlappe hinanden. s. 126

127 Konfidensintervaller Fortolkning af konfidensinterval for differensen: 1. Har konfidensintervallet for differensen en nedre grænse som er negativ og en øvre grænse der er positiv betyder det, at de sammenlignede populationsparametre kan være identiske. 2. Har konfidensintervallet for differensen en nedre og øvre grænse, som begge er negative eller begge er positive betyder det, at de sammenlignede populationsparametre sandsynligvis er forskellige. I eksemplet med sms forbruget for kvinder og mænd var udgangspunktet et gennemsnit, men konfidensintervaller for differensen kan lige såvel være for andele, intensiteter og varians, hvilket senere vil fremgå af eksempelberegningerne. Oversigt over konfidensintervaller for differensen Ved konfidensintervaller for differensen mellem to populationsandele eller intensiteter anvendes kun en type interval for hver, derfor undlades denne type intervaller af oversigten. Hvad angår konfidensintervaller for differensen mellem to gennemsnit, er der hele tre muligheder som det fremgår af nedenstående. FIGUR 44: Gennemsnit (m) Er begge stikprøver større end 30? (Ja) Z-KI (Nej) Er populationsvariansen kendt? (Nej) F-test af varianshomogenitet (Ja) Z-KI Upooled T-KI (Nej) Er der varianshomogenitet? (Ja) Pooled T-KI s. 127

128 Konfidensintervaller Beregning af konfidensintervaller for differensen TABEL 63: Oversigt over konfidensintervaller, 2 stikprøver Konfidensinterval Formel Forudsætning Z-KI for m x 2 m y (x 2 y) Z 12a/2? s 2 x n x 1 s2 y n y s 2 x og s 2 y er kendte Approksimativt Z-KI for m x 2 m y (x 2 y) Z 12a/2? s 2 x n x 1 s2 y n y n x. 30 og n y. 30 Pooled T-KI for m x 2 m y Hvor (n (x 2 y) t x1n y22) 12a/ 2? s 1 2 p 1 1 n x n y s 2 p 5 (n x 2 1)s 2 x 1 (n y 2 1)s 2 y (n x 1 n y 2 2 s 2 x og s 2 y er ukendte, forudsat varianshomogenitet, dvs. ens varians Approksimativt T-KI for p x 2 p y ( p x 2 p y ) Z 12a/2? p x (1 2 p x ) n x 1 p y(1 2 p y ) n y n x? p x (1 2 p x ). 9 n y? p y (1 2 p y ). 9 Upooled T-KI for m x 2 m y (x 2 y) t fg 12a/2? Hvor fg (frihedsgrader) 5 1 n x 2 1? s 2 x n x s 2 x n x 1 s2 y n y s 2 x n x 1 s2 y n y 1 n y 2 1? s 2 y n y 2 s 2 x og s 2 y antages ukendte og der er ikke varianshomogenitet, dvs. ikke ens varians Approksimativ T-KI for l x 2 l y (l x 2 l y ) Z 12a/2? l x n x 1 l x n y n x? l x. 9 n y? l y. 9 Hvor l x 9 og l y svarer til henholdsvis og s. 128

129 Konfidensintervaller Eksempler på konfidensintervaller for differens Eksempel 1: 95% KI for differensen mellem 2 populationsandele I forbindelse med en markedsundersøgelse udsendte en virksomhed 150 breve med tilbud om en ny type fladskærm samt en bærbar pc. Virksomheden modtog efterfølgende 19 ordrer på den bærbare pc og tilsvarende 17 ordrer for fladskærmen. Giver dette anledning til at tro, at der vil blive solgt flere bærbare pc er end fladskærme? Variabel: X: Antal solgte bærbare pc er Y: Antal solgte fladskærme Model: X og Y ~ b(p, n) Data: n x 150 x 19 p x 0,127 n y 150 y 17 p y 0,113 Forudsætning: Normalfordelingsapproksimation: n p (1 2 p ). 9 er opfyldt for både X og Y Formel: ( p x 2 p y ) Z 12a/2? p x (1 2 p x ) n x 1 p y(1 2 p y ) n y Beregning: Nedre grænse 5 20,060 Øvre grænse 5 0,087 Fortolkning: Da intervallet for differensen har en negativ nedre grænse og en positiv øvre grænse, kan vi med 95 % sandsynlighed ikke udelukke at begge (populations) andele er ens. s. 129

130 Konfidensintervaller Eksempel 2: 95% KI for differensen mellem 2 gennemsnit,kendt varians En undersøgelse blandt 630 mænd og 414 kvinder, der har en videregående uddannelse, viste at gennemsnitsalderen for mænd var 28,2 år og for kvinder 25,7 år. Fra tidligere undersøgelser ved man at standardafvigelsen for både mænd og kvinder er 5 år. Kan man med 95 % sandsynlighed sige, at der er forskel i den gennemsnitlige alder for mænd og kvinder på videregående uddannelser? Variabel: X: Alder for mænd (år) Y: Alder for kvinder (år) Model: X og Y ~ b(p, n) Data: n x 630 x 28,2 s x 5 n y 414 Forudsætning: Begge populationsvarianser er kendte Observationer er normalfordelte y 25,7 s y 5 Formel: (x 2 y) Z 12a/2? s 2 x n x 1 s2 y n y Beregning: Nedre grænse 5 1,879 Øvre grænse 5 3,120 Fortolkning: Da intervallet for differensen ikke overlapper 0, kan vi med 95 sandsynlighed konkludere, at gennemsnitsalderen for mænd med videregående uddannelse er højere end for kvinder. Der er således forskel på den gennemsnitlige alder. s. 130

131 Konfidensintervaller Øvelser med konfidensintervaller De første spørgsmål er relateret til fortolkning, her skal du med egne ord forsøge at forklare betydningen af de forskellige begreber relateret til konfidensintervaller. I de efterfølgende opgaver er fokus rettet mod beregninger. Fortolkningsøvelser: 1. Hvad er forskellen på et punktestimat og et konfidensinterval? 2. Hvad er formålet med at anvende et konfidensinterval i stedet for et punktestimat? 3. Jo større stikprøve der udtages, desto mere præcise bliver de beregnede punktestimater. Hvis man har udtaget en stor stikprøve, er det så ikke tilstrækkeligt at beregne et punktestimat, da vi ved, at dette vil være relativt præcist? 4. Er konfidensintervaller altid et forsøg på at indkredse værdien af et populationsparameter, eller kan man også beregne konfidensintervaller for punktestimater? 5. Hvad betyder konfidensniveau? 6. Hvilken betydning har konfidensniveauet for bredden af et konfidensinterval? 7. Hvorfor vælge et 95 % konfidensniveau, når vi kan øge sikkerheden ved at vælge et niveau på 99 %? 8. Hvad er formålet med at beregne et konfidensinterval for differensen mellem to gennemsnit? Beregningsøvelser: Opgave 1. Danske Bank har en spirende fornemmelse af, at en del kunder er stærkt utilfredse med rådgivningen omkring optagelse af boliglån. For at få et overblik udtages en stikprøve på 193 kunder der har optaget boliglån, heriblandt var 17 stærkt utilfredse med den rådgivning de havde fået. Beregn et 95 % konfidensinterval for andelen af stærkt utilfredse kunder. Opgave 2. En undersøgelse blandt 338 mænd og 254 kvinder der bruger Apples iphone viste, at gennemsnitsalderen for mænd var 23,2 år og for kvinder kun 20,6 år. Antag at populationens standardafvigelse for begge køn er 5 år. Spørgsmål 1. Definer variabel og beregn et 90 % konfidensinterval for gennemsnitsalderen for henholdsvis mænd og kvinder. Spørgsmål 2. Vurder på baggrund af forrige spørgsmål, om der kan antages at være en forskel på gennemsnitsalderen for mænd og kvinder, der bruger iphone. s. 131

132 Konfidensintervaller Spørgsmål 3. Beregn et 95 % konfidensinterval for differensen for gennemsnitsalderen for mænd og kvinder, der bruger iphone. Spørgsmål 4. Antag at der blandt brugere af iphone er 45 % mænd. Hvis der udtages en stikprøve på 300 iphone brugere, hvad er da sandsynligheden for at mere end halvdelen er mænd? Opgave 3. Novo Nordisk har lige haft problemer med kvalitetskontrollen i forbindelse med produktionen af deres insulinsprøjter. Produktionen er derfor midlertidigt stoppet, og alle kræfter er sat ind på, at få et overblik over hvor mange af de insulinsprøjter, der ikke overholder kvalitetskravene. I en stikprøve på 300 insulinsprøjter fandt man 10 der skulle kasseres. Beregn på denne baggrund et 99 % konfidensinterval for andelen af det samlede antal insulinsprøjter, der skal kasserers. Opgave 4. I forbindelse med forberedelsen på en stor reklamekampagne for en ny type bilforsikring har Codan udarbejdet en forundersøgelse. Blandt 200 testpersoner var der 38 der tilkendegav interesse i den nye forsikring. Spørgsmål 1. For at få overblik over markedspotentialet, ønskes et estimat af den øvre og nedre grænse for det forventede antal interesserede i den nye bilforsikring. Spørgsmål 2. I forbindelse med forundersøgelsen udsendte Codan også et tilbud om en ny type livsforsikring, som 47 af testpersonerne var interesserede i. Giver det anledning til at tro, at livsforsikringen er mere populær end bilforsikringen? Opgave 5. Som logistikansvarlig for Coca-Cola i Danmark er en af dine opgaver, at bestille sirup til alt det Coca- Cola, der skal produceres i den kommende måned. Du er derfor meget optaget af, om salgsprognoserne er retvisende. Fra erfaring ved du, at prognoserne i juni måned som regel er for høje. Du har lige modtaget salgsprognosen for juni, som lyder på 68 tønder sirup. Baseret på de sidste 10 års salgshistorik for juni måned har du beregnet, at der i gennemsnit bruges 57 tønder sirup. Spørgsmål 1. Definer variabel og fordeling Spørgsmål 2. Beregn et 95 % konfidensinterval for det forventede forbrug af sirup i juni. Spørgsmål 3. Hvor stor er sandsynligheden for, at næste uges salg vil være mindst liter Coca-Cola, hvis det antages, at det ugentlige gennemsnitsalg er liter med en standardafvigelse på liter? s. 132

133 Konfidensintervaller Opgave 6. Bilvirksomheden Porsche har iværksat en stor markedsundersøgelse, for at stille skarpt på hvilke modeller der køres i de forskellige alderssegmenter. TABEL 64: Alderssegment (år) Porsche model 911 Boxter Cayenne Cayman Total Total Spørgsmål 1. Opstil et 95 % konfidensinterval for andelen årige Porschebilister der kører modellen Boxter? Spørgsmål 2. Beregn et 99 % konfidensinterval for hvor stor en andel Boxter modellen udgør blandt samtlige modeller. Spørgsmål 3. Benyt et konfidensinterval til at vurdere om andelen af dem, der kører Cayenne er større end dem, der kører Cayman i alderssegmentet årige. Opgave 7. Det verdensomspændende reklamefirma, Publicys, har udviklet en metode til at sikre, at kun de meste effektive reklamer bliver vist. For hver kunde udvikles mindst to forskellige reklamer, som herefter bedømmes af relevante personer i målgruppen. Publicys har længe arbejdet på en ny reklamekampagne for Nokia og har nu indsnævret feltet til to reklamer. Hver reklame bliver testet på en 10 punkt skala og bedømt af forskellige personer - resultatet ses i nedenstående: Reklame nr. 1: Blandt 31 personer var den gennemsnitlige karakter 7,1 med en standardafvigelse på 1,7. Reklame nr. 2: Blandt 42 personer var den gennemsnitlige karakter 7,9 med en standardafvigelse på 2,4. Da reklame nr. 1 er væsentlig billigere at producere end reklame nr. 2, ønskes en statistisk vurdering af, om der er en signifikant forskel på de to reklamer. Beregn i den forbindelse et 95 % konfidensinterval for differensen mellem de to gennemsnitskarakterer og kommenter hvilken reklame, der vil være mest hensigtsmæssig at anvende. s. 133

134 Konfidensintervaller Opgave 8. Du er ansat i EDC s markedsføringsafdeling og vil gerne vide, hvor effektiv jeres webside er med henblik på eventuelle forbedringer. Derfor har du udtaget en stikprøve på 215 kunder, og bl.a. spurgt dem om, hvordan deres opfattelse af layoutet på websiden er. Ud af de 215 kunder svarede 21, at de synes, layoutet er kedeligt. Beregn et 95 % konfidensinterval for andelen af kunder, som synes layoutet er kedeligt. Opgave 9 Hos IT producenten Acer har man foretaget en kundetilfredshedsundersøgelse, hvor man har fundet ud af, at mange kunder er utilfredse med den tid, det tager, at få sin computer repareret. En stikprøve på 389 reparationer viste, at det i gennemsnit tager 2,9 uger med en standardafvigelse på 1 uge, før kunden får sin computer tilbage. Beregn et 95 % konfidensinterval for den gennemsnitlige reparationslængde (i uger). Opgave 10 Hos Google er man ved at lave en brugervenlighedstest over Android Market (ejes af Google), som bruges til at hente applikationer til mobiltelefoner. I den forbindelse har man spurgt 350 brugere, hvad de mener om overskueligheden på markedet. Ud af de 350 brugere tilkendegav 214, at de opfatter Android Market som meget overskueligt. Beregn et 95 % konfidensinterval for andelen af brugere, der opfatter Android Market som meget overskueligt. Tidligere eksamensøvelser med konfidensintervaller Eksamensøvelserne samt facit kan downloades fra statlearn.com under menupunktet: Ekstra øvelser. Øvelser med konfindensintervaller (sideangivelse samt opgavenummer): Side 3 /4.3 Side 4 /1.2 Side 10 /1.2 Side 14 /4.2 Side 21 /3.1 (anvendelse af rå data) Side 27 /2.2 (anvendelse af rå data Side 28 /3.2 (anvendelse af rå data) Side 30 /1.3 (anvendelse af rå data) Side 31 /2.3 Side 32 /3.1 Side 37 /2.3 s. 134

135 Konfidensintervaller Løsninger til konfidensintervaller I det følgende fremgår løsninger til øvelserne for konfidensintervaller. Det skal nævnes, at løsningerne for simpelhedens skyld er reduceret til et resultat og få øvrige informationer. I en eksamenssituation er det vigtigt, at din opgave løses så den indeholder alle de informationer, som er nævnt under fremgangsmåden i dette afsnit, se afsnittet: Fremgangsmåde til beregning af konfidensintervaller. Fortolkningsøvelser: 1. Et punktestimat kan opfattes som et simpelt estimat baseret på en stikprøve. Punktestimatet anvendes som en indikator for værdien af det givne populationsparameter, eksempelvis gennemsnittet for populationen. Et konfidensinterval kan opfattes som et punktestimat, hvor der tilføjes et ekstra lag information. Et konfidensintervallet er et interval, hvor i det estimerede populationsparameter vil ligge med en given sandsynlighed. 2. Et konfidensinterval er mere informativt end et simpelt punktestimat. 3. Lige meget hvor stor en stikprøve der udtages, kan man med et punktestimat aldrig vide hvor tæt det ligger på det estimerede populationsparameter. Man kan således ikke kvantificere præcisionen af punktestimatet, med mindre man anvender et konfidensinterval. 4. Konfidensintervaller beregnes på baggrund af punktestimater, men gælder altid for populationsparametre. 5. Konfidensniveauet er sandsynligheden for, at intervallet rummer det givne populationsparameter. Jo højere konfidensniveau desto bredere bliver konfidensintervallet. 6. Ligesom konfidensniveauet har stikprøvestørrelsen betydning for intervallets bredde. Jo større stikprøve desto smallere bliver intervallet alt andet lige. Det skyldes, at stikprøven indgår i beregningen af standardafvigelsen, som er et led i intervallets beregning. 7. Fordi et 99 % interval er bredere og dermed mere unøjagtigt end et tilsvarende interval med et 95 % konfidensniveau. 8. At finde frem til om det er en forskel på værdien af de to populationsgennemsnit. s. 135

136 Konfidensintervaller Beregningsøvelser: Opgave 1. X: Antal stærkt utilfredse kunder. X ~ b(p, n) 95% konfidensinterval for andel Nedre grænse: 0, Øvre grænse: 0, Opgave 2. Spørgsmål 1. X: Alderen (år) for mænd der bruger en iphone X ~ N(x 5 23,2 s 5 5 ) 95% konfidensinterval for gennemsnit Nedre grænse: 22, Øvre grænse: 23, Y: Alderen (år) for kvinder der bruger en iphone Y ~ N(x 5 20,6 s 5 5 ) 95% konfidensinterval for gennemsnit Nedre grænse: 19, Øvre grænse: 21, Spørgsmål 2. Umiddelbart fremgår det, at konfidensintervallets øverste grænse for kvinders gennemsnitsalder er lavere end konfidensintervallets nedre grænse for mænds alder. Det tyder således på, at kvinders gennemsnitlige alder er lavere end mænds, hvad angår brugere af iphone. Når to gennemsnit sammenlignes, er det statistisk set mere korrekt, at anvende et konfidensinterval for differensen mellem to gennemsnit - se næste spørgsmål (spørgsmål 3). Spørgsmål 3. 95% konfidensinterval for differensen mellem 2 gennemsnit (m x 2 m y ) X: Alderen (år) for mænd der bruger iphone Y: Alderen (år) for kvinder der bruger iphone n s x X ,2 Y Nedre grænse: 1, Øvre grænse: 3, Konfidensintervallets positive nedre- og øvre grænse indikerer, at kvinders gennemsnitlige alder er lavere end mænds blandt brugere af iphone. s. 136

137 Konfidensintervaller Spørgsmål 4. X: Antal mænd der bruger iphone X ~ b(p 5 0, 45 n 5 300) P(X $ 151) 5 0, Opgave 3. X: Antal insulinsprøjter der skal kasseres X ~ b(p, n 5 300) 99% konfidensinterval for andel Nedre grænse: 0,0066 Øvre grænse: 0,06 Konklusion: Samlet skal der med 99 % sandsynlighed kasserers mellem 79 og 720 insulinsprøjter ud af i alt sprøjter. Opgave 4. Spørgsmål 1. X: Antal interesserede i ny bilforsikring X ~ b(p, n 5 200) 95% konfidensinterval for andel Nedre grænse: 0, Øvre grænse: 0, Spørgsmål 2. X: Antal interesserede i ny bilforsikring Y: Antal interesserede i ny bilforsikring 95 % konfidensinterval for differensen mellem 2 andele (p x 2 p y ) Nedre grænse: 20, Øvre grænse: 0, Konklusion: Da intervallet overlapper 0, kan det ikke udelukkes, at begge andele er lige store. s. 137

138 Konfidensintervaller Opgave 5. Spørgsmål 1. X: Antal tønder med Coca-Cola sirup som skal bruges i juni X ~ Ps(l 5 57) da variablen er diskret og baseres på tidsinterval Spørgsmål 2. 95% konfidensinterval for intensitet Nedre grænse: 52,32065 Øvre grænse: 61,67935 Spørgsmål 3. P(x $ ) 5 0,13326 Opgave 6. Spørgsmål 1. X: Antal årige bilister der kører Porsche Boxter X ~ b(p, n 5 190) da variablen er diskret, og hændelserne er uafhængige 95% konfidensinterval for andel Nedre grænse: 0, Øvre grænse: 0, Spørgsmål 2. X: Antal bilister der kører Porsche Boxter X ~ b(p, n 5 855) da variablen er diskret, og hændelserne er uafhængige 99% konfidensinterval for andel Nedre grænse: 0, Øvre grænse: 0, Spørgsmål 3. X: Antal bilister der kører Porsche Cayenne Y: Antal bilister der kører Porsche Cayman 95% konfidensinterval for differensen mellem 2 andele (p x 2 p y ) Nedre grænse: 0, Øvre grænse: 0, s. 138

139 Konfidensintervaller Opgave 7. X: Karakter for reklame nr. 1 (10 punkt skala, hvor 10 er bedst) Y: Karakter for reklame nr. 2 (10 punkt skala, hvor 10 er bedst) X og Y ~ N(m, s) da begge stikprøver er større end 30 jævnfør den centrale grænseværdisætning 95% konfidensinterval for differensen mellem 2 gennemsnit (m x 2 m y ) Nedre grænse: 21, Øvre grænse: 0, Opgave 8. X: Antal der mener at layoutet er kededeligt X ~ b(p, n 5 215) 95% konfidensinterval for andel Nedre grænse: 0, Øvre grænse: 0, Altså kan det med 95 % sandsynlighed konkluderes, at andelen af kunder der synes, at layoutet er kedeligt, er mellem ca. 6 og 14 %. Opgave 9. X: Reparationslængden (i uger). X ~ N(x = 2,9 s 5 1 ) 95% interval for gennemsnit, ukendt populationsvarians Nedre grænse: 2, Øvre grænse: 2, Opgave 10. X: Antal kunder der opfatter Android Market som meget overskueligt X ~ b(p, n 5 350) 95% konfidensinterval for andel Nedre grænse: 0, Øvre grænse: 0, Altså kan det med 95 % sandsynlighed konkluderes, at andelen af kunder, der opfatter Android Market som meget overskueligt, er mellem ca. 56 og 66 % s. 139

140 KAPITEL 7 HYPOTESETEST Statlearn.com

141 KAPITEL 7 Hypotesetest Udgangspunktet for en hypotesetest er, at verificere en given hypotese. Helt konkret kan en hypotesetest opfattes som en kamp mellem to modstridende hypoteser, eller nærmere betegnet to modstridende påstande. En hypotese kan tolkes som en antagelse, der ikke er faktuel, men som tager sit udgangspunkt i et subjektivt skøn. En hypotese kunne eksempelvis være et udsagn om, at folk i lyset af finanskrisen er mindre tilbøjelige til at købe nye biler. Det er en antagelse som umiddelbart virker plausibel, men som indtil den er påvist med data kun er en antagelse. Udgangspunktet for en hypotesetest er at definere to modstridende hypoteser: H 0 og H 1. H 0 hypotesen repræsenterer det, der må antages at være det gældende eller det sande, indtil andet er bevist. H 1 hypotesen er derimod vores formodning, som opstilles på baggrund af et punktestimat fra en stikprøve. Hypotesetestens formål er, at afgøre hvorvidt H 1 eller H 0 er sand. Rent konceptuelt kan en hypotesetest sammenlignes med en retssag, hvor man har indsamlet bevismateriale som tyder på, at en given person er skyldig (H 1 ). Udgangspunktet for retssagen er imidlertid, at den anklagede er uskyldig, indtil andet er bevist (H 0 ). Formålet med retssagen er ligesom med hypotesetesten, at gennemføre en proces som resulterer i en dom: skyldig (H 1 accepteres) eller uskyldig (H 0 accepteres). Hypotesetest som koncept Antag at du var en sportschef med ansvar for at udtage længdespringerne op til de Olympiske Lege. For at deltage på holdet skal længdespringerne bevise, at de i gennemsnit springer længere end 5 meter. Du er overbevist om at Max Johnson, som er holdets bedste længdespringer springer mere end 5 meter i gennemsnit, men da det endnu ikke er bevist, må du antage, at længden af hans gennemsnitspring maksimalt er 5 meter. Du ønsker derfor, at udføre en hypotesetest der skal bevise, at han gennemsnitligt springer længere end 5 meter, og at han dermed er kvalificeret til OL. Videolektioner > s. 141

142 Hypotesetest Som træner har du ikke noteret længden af hver enkelt spring Max har udført, og du kan således ikke beregne den eksakte værdi af hans gennemsnitsspring, hvilket svarer til populationsgennemsnittet (m). I stedet laver du et forsøg, hvor du en enkelt dag måler længden af 10 spring (n 5 10) og beregner punktestimatet til at være 6,5 meter (x 5 6,5). Det virker lovende, men som vi var inde på i afsnittet om konfidensintervaller, kan værdien af et punktestimat variere meget i forhold til populationsgennemsnittet, særligt ved små stikprøver. FIGUR 45: Fordelingen af punktestimater for et gennemsnit x x x x x x x x m x x x x Når vi ved, der kan være relativ stor spredning i fordelingen af punktestimaterne (x), kan vi ikke udelukke, at populationsgennemsnittet (m) kan være mindre end 5 meter til trods for, at punktestimat er 6,5 meter. FIGUR 46: x 5 6,5m m 5 5m x m 5 4m x Grundet variationen i værdien af punktestimater er det som illustreret muligt at få punktestimater på 6,5 meter (x), selvom populationsgennemsnittet kun er 4 meter (m). På den anden side forekommer det intuitivt, at jo større afstanden er mellem H 0 og punktestimatet, desto mere beviser det, at H 0 må være usandsynlig, og H 1 hypotesen dermed rigtig. s. 142

143 Hypotesetest FIGUR 47: x 5 10m m 5 5m (H 0 ) x Fra fordelingen kan vi se, at et punktestimat på 10 meter kun er marginalt sandsynligt, hvis populationsgennemsnittet er 5 meter (H 0 ). Med andre ord indikerer punktestimatet på de 10 m, at Max højst sandsynligt har et gennemsnitsspring der overstiger 5 m (H 1 ). Dette rejser spørgsmålet: Hvor meget større end 5 meter skal punktestimatet (x) værre, hvis vi skal konkludere at H 1 er sand, og længdespringeren Max derved springer længere end 5 meter i gennemsnit? Spørgsmålet bringer os til essensen af hypotesetesten: Testniveauet. Testniveauet angiver det område af fordelingen hvor H 0 forkastes, området betegnes også det kritiske område. NB: Det kritiske område repræsenterer et testniveau på 5 % og er markeret med sort. FIGUR 48: H 1. H 0 H 0 accepteres H 0 forkastes H 1, H 0 H 0 forkastes H 0 accepteres Testniveauets størrelse afhænger af hvor sikker du vil være for at undgå en fejlagtig konklusion, eller med andre ord undgå at forkaste H 0 når denne er sand. s. 143

144 Hypotesetest Vælges eksempelvis et testniveau på 5 % betyder det at der er 5 % sandsynlighed for at få observationer, punktestimater, i det kritiske område såfremt Ho virkelig er sand. Sagt på en anden måde er der kun 95 % sandsynlighed for ikke at havne i det kritiske område, hvis Ho er sand. Får vi en observation, der ligger i det kritiske område, er testens konklusion derfor, at Ho med 95 % sandsynlighed kan forkastes. Lad os vende tilbage til eksemplet med længdespringeren Max. Vi ønsker at undersøge, om hans gennemsnitsspring er længere end 5 meter. Udgangspunktet må nødvendigvis værre, at han højst kan springe 5 meter, indtil andet er bevist: H 0 : m # 5 m og H 1 : m. 5 m På baggrund af en stikprøve på 10 spring beregnes gennemsnittet til 6,5 meter (x) og standardafvigelsen (s) til 2 meter. Spørgsmålet er nu, om de 6,5 meter ligger inden - eller udenfor det kritiske område? Beregnes hypotesetesten, bliver resultatet en p-værdi på 2 %. P-værdien er beregnet på baggrund af vores stikprøvedata og kan tolkes som punkestimatet på 6,5 meter (x) omregnet til en skala, som er sammenligneligt med testniveauet, der også angives i procent. En p-værdi på 2 % betyder således, at punktestimatet på de 6,5 m ligger i de yderste 2 % af fordelingen der hvor H 0 forkastes. FIGUR 49: P-værdi 5 2% (stikprøve observation) Testniveau 5 5% (kritisk område) H 0 accepteres H 0 forkastes Da vores testniveau er 5 %, ligger p-værdien således indenfor det kritiske område, hvilket betyder at H 0 forkastes. Dermed kan vi med 95 % sandsynlighed konkludere, at det sande gennemsnitsspring (m) for Max er længere end 5 meter. s. 144

145 Hypotesetest Type 1 og 2 fejl Konklusioner fra en hypotesetest er ikke 100 % sikre, der vil altid være en sandsynlighed for fejl afhængig af testniveauets størrelse. Vælges et testniveau på 5 %, er der tilsvarende 5 % sandsynlighed for, at vi kommer til at forkaste en sand Ho hypotese, hvilket formelt betegnes en type 1 fejl: Type 1 fejl 5 a 5 P(forkast H 0 I H 0 er sand) Udover en type 1 fejl er der en anden og mere subtil fejltype fejl, som ikke overraskende betegnes type 2 fejl: Type 2 fejl 5 b 5 P(forkast H 0 I H 0 er sand) Som du formentligt har bemærket, er en type 1 og 2 fejl baseret på betingede sandsynligheder, hvilket vil sige sandsynligheder under betingelsen af, at Ho enten er sand (type 1 fejl) eller falsk (type 2 fejl). TABEL 65: type 1 og 2 fejl H 0 er sand H 0 er falsk H 0 forkastes Ho er sand, men forkastes Type 1 fejl (a) Ho er falsk og forkastes H 0 accepteres Ho er sand og accepteres Ho er falsk, men accepteres Type 2 fejl (b) Som nævnt er alle hypotesetest forbundet med en sandsynlighed for type 1 og 2 fejl. Hvad angår type 1 fejl reguleres denne udelukkende af testniveauets størrelse. Er testniveauet 5 %, er sandsynligheden for en type 1 fejl tilsvarende 5 %. Så hvorfor ikke mindske testniveauet til 0, og dermed eliminere sandsynligheden for type 1 fejl? Årsagen er, at type 1 og 2 fejl er modsætninger. Mindskes sandsynligheden for en type 1 fejl, øges den tilsvarende for en type 2 fejl. Valget af hvilken fejltype du bør minimere, er afhængig af den givne situation. EKSEMPEL Køkkenchefen på hotel D Angleterre har travlt og vil gerne undgå, at blive forstyrret midt i sine gastronomiske udfoldelser. Desværre har restauranten en brandalarm, der ofte ringer falsk alarm. For at stoppe afbrydelserne, køber du en ny alarm som ifølge garantien, kun ringer falsk alarm med en sandsynlighed på 0,00001 %. I dette eksempel må vi som udgangspunkt gå ud fra, at der ikke er brand, indtil andet er bevist. I den forbindelse kan vi definere H 0 som Ikke brand og H 1 som Brand. s. 145

146 Hypotesetest Falsk alarm svarer således til en type 1 fejl, hvor vi forkaster H 0 hypotesen til trods for, at denne er sand. Med andre ord er den fejlagtige konklusion, at det brænder når dette ikke er tilfældet. TABEL 66: a 5 Type 1 fejl 5 P(forkast H 0 I H 0 er sand) Opstår en type 2 fejl, er situationen straks værre. Her accepterer vi, at det ikke brænder, til trods for at der er brand. TABEL 67: b 5 Type 2 fejl 5 P(forkast H 0 I H 0 er sand) I dette eksempel har vi betragtet to typer fejl, den ene er irriterende, mens den anden er livsfarlig. Det er ikke altid sådan at type 2 fejl er vigtigere end type 1 fejl, det afhænger af situationen. Du skal blot huske på, at en minimering af den ene type fejl, fører til en øget sandsynlighed for den anden type fejl. I modsætning til en type 1 fejl, der udelukkende afgøres af testniveauet, afhænger en type 2 fejl i teorien af uendeligt mange værdier af H 1. Derfor angives type 2 fejl med en styrkekurve, som viser sandsynligheden for at begå type 2 fejl for varierende værdier af H 1. FIGUR 50: Styrkekurven når H 1, H 0 Styrkekurven når H 1. H 0 100% 100% Styrken (1-b) Styrken (1- b) 0% % s. 146

147 Hypotesetest Eksempel på styrkefunktionen (funktionen for 1-b) Ejeren af en stor æbleplantage har erfaring for, at æblerne i gennemsnit vejer 100 gram med en standardafvigelse på 5 gram. I en stikprøve på 25 æbler var gennemsnittet 97. På den baggrund opstilles følgende hypoteser: H 0 : m $ 100 gram (Gennemsnitsvægten af æblerne er højst 100 gram) H 1 : m $ 100 gram (Gennemsnitsvægten af æblerne er mindre end 100 gram) I forbindelse med testen ønskes en beregning af styrken, hvilket vil sige sandsynligheden for at forkaste en type 2 fejl (1 2 b). Styrkefunktionen afhænger af det populationsparameter der testes, samt hvordan hypoteserne vender - se oversigt over styrkefunktionerne 171 på side Beregning af styrken (type 2 fejl) ved test af andele. I dette eksempel testes populationsgennemsnittet og H 1. H 0, herved anvendes følgende styrkefunktion: TABEL 68: b 5 P Z, m 0 2 m 1 s? n 1 Z a gælder ved H 1, H 0 Hvor m 1 tolkes som varierende værdier af H 1. For simpelhedens skyld beregnes styrkekurven i nedenstående ud fra kun tre mulige punkter af H 1 (97, 98, 99). Styrken skal i den sammenhæng opfattes som sandsynligheden for at forkaste H 0 for hver af de tre værdier af H 1. EKSEMPEL BEREGNING: P Z, ? ,645 5 P(Z, 1,355) 5 0,912 TABEL 69: Hypoteser m 1 α 5 P(type 1 fejl) Styrken b P(type 2 fejl) H P(Z, 0,355) 5 0, P(Z, 1,355) 5 0, P(Z, 20,645) 5 0,26 H P(Z, 22,645) 5 0, P(Z, 21,645) 5 0,05 s. 147

148 Hypotesetest FIGUR 51: Styrkekurve eksempel 100% m 0 Styrken (1-β) 0% m 1 Styrkekurven for 1-b t taler sit tydelige sprog - jo længere værdien af H 1 (m 1 ) flytter sig fra værdien af H 0 hypotesen (m 0 ), desto større er sandsynligheden for at forkaste H 0. Fra styrkekurven kan vi eksempelvis udlede, at såfremt gennemsnitsvægten af æblerne for hele populationen er 97 gram, vil sandsynligheden for at forkaste H 0 være omkring 90%. Eksemplet med styrketesten tog udgangspunkt i gennemsnit, lignende styrkeberegning kan foretages med test af andele. Opsummering Essensen af en hypotesetest er, at opstille to modsatrettede hypoteser, H 0 og H 1. H 0 hypotesen repræsenterer erfaringen, som er det vi indtil videre må gå ud fra er sandt, og H 1 hypotesen er vores formodning baseret på en stikprøve. Hypotesetestens formål er, at afgøre om H 1 er sand eller falsk. H 0 accepteres eller forkastes ud fra et valgt testniveau. Dette testniveau kan tolkes som den kritiske grænse, som punktestimatet i form af en p-værdi skal overskride, før vi forkaster H 0. Der kan forekomme to typer fejl, når en hypotesetest anvendes. Type 1 fejl er sandsynligheden for at forkaste H 0 når denne er sand, og type 2 fejl er sandsynligheden for at acceptere H 0 når denne er falsk. En type 1 fejl afhænger udelukkende af testniveauets størrelse. Er testniveauet 5 %, er sandsynligheden for en type 1 fejl også 5 %. En type 2 fejl kan ikke isoleres til en bestemt værdi, så denne fejl illustreres i stedet med en styrkekurve for alle de mulige værdier af H 1. s. 148

149 Hypotesetest Generel metode til løsning af hypotesetest En generel metode til at beregne hypotesetest opridses i nedenstående. Efterfølgende diskuteres punkterne enkeltvist. 1. Definition af variabel 2. Angiv model 3. Opstil data i form af punktestimater og stikprøve 4. Hypoteser 5. Forudsætninger valideres, herunder approksimation 6. Formel for beregning af teststørrelse 7. Vælg testniveau og beregn p-værdi 8. Konklusion NB: Hypotesetest som beregnes med Statlearn programmet følger denne fremgangsmåde. Ad 1: Definition af variabel Udgangspunktet for alle statistiske test er en klar definition af variablen, der skal testes. Hermed forstås en kort og præcis beskrivelse af variablen uden inddragelse af tal eller punkestimater. Er du i tvivl om, hvad variablen er så stil dig selv spørgsmålet: Hvad er det, der kan variere? EKSEMPEL: I forbindelse med lanceringen af en ny hybridbil ønsker Ford, at teste om kørslen gennemsnitligt overstiger 25 km/l ved bykørsel. Her defineres variablen som: Antal kørte km pr. liter benzin ved bykørsel. Ad 2: Angiv af model Der findes mange forskellige fordelinger, en variabel kan følge. Derfor er det vigtigt, at redegøre for den eksakte fordeling. Følger en variabel binomialfordelingen, men approksimeres og testes i en normalfordeling er det vigtigt at angive. Under punktet med forudsætninger kommenteres at variablen approksimeres fra binomial til en normalfordeling (se mere om approksimation på side 119). Ad 3: Data Her opstilles datagrundlaget for intervallet i form af punktestimater som gennemsnit, standardafvigelse og stikprøvestørrelse. Ad 4: Hypoteser Det kan godt volde en del vanskeligheder, at vende hypoteserne korrekt. Som udgangspunkt kendetegnes H 0 hypotesen ved at repræsentere den formodning, der må antages at være sand, indtil andet er bevist. s. 149

150 Hypotesetest EKSEMPEL: Ejeren af en æbleplantage har 30 års erfaring for, at æblerne gennemsnitligt vejer mere end 100 gram (m). En stikprøve på 50 æbler resulterede i et gennemsnit på 110 gram (x) og en standardafvigelse på 40 gram (s). Tyder det på, at æblerne vejer mere end 100 gram i gennemsnit? H 0 :m # 100 gram H 0 :m. 100 gram Ho repræsenterer det man har erfaring for, i den forbindelse at æblerne gennemsnitligt vejer 100 gram. En stikprøve har sået tvivl om rigtigheden af de 100 gram. Punktestimatet (x) indikerer med sine 110 gram, at populationsgennemsnittet (m) kunne formodes at være større end 100 gram. Hypotesetesten anvendes for at afgøre, om de 110 gram er en signifikant afvigelse fra de 100 gram og dermed et bevis for, at populationsgennemsnittet er større end 100 gram. Ad 5: Forudsætninger, herunder approksimation Her beskrives de forudsætninger, der ligger til grund for testen. Er testen f.eks. baseret på en approksimation, er det vigtigt, at skrive om approksimationsbetingelserne er opfyldt. Approksimation betyder, at man går fra den oprindelige fordeling over til en anden fordeling, oftest fra en diskret fordeling (binomial, poisson og hypergeometrisk) til normalfordelingen. Hypotesetest er hovedsagligt baserede på normalfordelingen, men det er ikke altid, at den variabel man arbejder med er normalfordelt. Det kan derfor være nødvendigt at approksimere til normalfordelingen. For at approksimere er der nogle forudsætninger, der skal være opfyldt, hvilket fremgår af Appendiks 1 i slutningen af afsnittet om fordelinger. I den forbindelse skal det bemærkes, at der til alle konfidensintervaller der beregnes med Statlearn programmet, udføres en automatisk kontrol af om approksimationsbetingelserne er opfyldt. Ad 6: Formel for beregning af teststørrelse Formel for beregning af teststørrelsen opstilles. Teststørrelsen er nødvendig for at beregne p-værdien. Det er ved sammenligning af p-værdien og testniveauet, at vi konkluderer, om H 1 hypotesen er sand eller falsk. Ad 7: Testniveau og p-værdi Angiv testniveau. Hvis ikke testniveauet er nævnt i opgaven, vælges som regel et testniveau på 5 %. Vær opmærksom på at et testniveau er et udtryk for sandsynligheden for at begå en type 1 fejl: Type 1 fejl:p(forkast H 0 I H 0 ) Vælges et testniveau på 5 % er der tilsvarende 5 % sandsynlighed for at forkaste Ho når denne er sand. Som vi tidligere var inde på, øges sandsynligheden for en type 2 fejl, hvis testniveauet mindskes, derfor kan man ikke uden omtanke sænke testniveauet for at minimere sandsynligheden for en type 1 fejl. s. 150

151 Hypotesetest Ad 8: Konklusion Er p-værdien mindre end testniveauet, forkastes H 0. Hvis testniveau og p-værdi er relativt tæt på hinanden, er konklusionen niveaufølsom, hvilket betyder at konklusionen kan gå begge veje, hvis testniveauet ændres marginalt. I dette eksempel beregnes p-værdien til 4,1% hvilket betyder at H 0 forkastes H Men ændres testniveauet marginalt fra 5 til 4 % accepteres H 0. Husk på at p-værdien er et resultat af stikprøvedata og kan dermed ikke ændres, derimod kan testniveauet reguleres. Hypotesetest oversigt, 1 stikprøve FIGUR 52: Gennemsnit (m) Intensitet (l) Andel (p) Std.afvigelse (s) Er variansen baseret på en stikprøve? Approks. Z-test a l Er variablen binomial (B) eller hyp. geometrisk (H) x 2 -test af s (B) (H) (Nej) Z-test (Ja) Approks. Z-test uden korrektionsfaktor Approks. Z-test med korrektionsfaktor Er stikprøven større end 30 (Nej) T-KI (Ja) Approks. Z-test s. 151

152 Hypotesetest Beregning af hypotesetest, 1 stikprøve TABEL 70: Oversigt over hypotesetest, 1 stikprøve Hypotesetest Formel Forudsætning Z-test af m Z 5 x 2 m o s/ n s er kendt (standardafvigelsen for populationen) Approksimativ Z-test af m (Med n-1 frihedsgrader) Z 5 x 2 m o s/ n n. 30 T-test af m (Med n-1 frihedsgrader) t 5 x 2 m o s/ n s er ukendt, i stedet anvendes standardafvigelsen for stikprøven, s x 2 -test af s (Med n-1 frihedsgrader) x 2 5 (n 2 1)s2 s 2 o Approksimativ Z-test af p p 2 p o Z 5 p o (1 2 p o )/n n? p o (1 2 p o ). 9 Approksimativ Z-test af l Z 5 l 2 l o l o /n n? l o. 9 l tolkes som x Beregning af styrken (type 2 fejl) ved test af andele TABEL 71: Beregning af styrken ved test af andele Hypoteser Formel når H 1. H 0 b P Z, m 0 2 m 1 s? n 1 Z a21 når H 1, H 0 b 5 P Z, m 0 2 m 1 s når H 1 H P Z, m 0 2 m 1 s? n 1 Z a? n 1 Z a21 2 P Z, m 0 2 m 1 s? n 1 Z a s. 152

153 Hypotesetest Beregning af styrken (type 2 fejl) ved test af gennemsnit TABEL 72: Beregning af styrken ved test af gennemsnit Hypoteser Formel når H 1. H 0 b P Z, p 0 2 p 1 p 1 (1 2 p 1 )? n 1 Z a? p 0 (1 2 p 0 ) p 1 (1 2 p 1 ) når H 1, H 0 b 5 P Z, p 0 2 p 1 p 1 (1 2 p 1 )? n 1 Z a? p 0 (1 2 p 0 ) p 1 (1 2 p 1 ) p 0 2 p 1 når H 1 H P Z, p 1 (1 2 p 1 )? n 1 Z a? p 0 (1 2 p 0 ) p 1 (1 2 p 1 ) p 0 2 p 1 2 P Z, p 1 (1 2 p 1 )? n 1 Z a? p 0 (1 2 p 0 ) p 1 (1 2 p 1 ) Eksempler på hypotesetest med en stikprøve Eksempel 1: T-test af gennemsnit når varians er ukendt X ~ N(m,s 2 ) Ud af 50 biler var gennemsnitskørslen 26,5 km/l med en standardafvigelse på 2,9 km/l. Kan det konkluderes, at bilerne gennemsnitligt kører længere end 25 km/l? Variabel: Distance (km) pr. liter benzin Model: X ~ N(m,s) Data: n 50 x 26,5 Hypoteser: H 0 : m # 25 H 1 : m. 25 s 2,9 Forudsætninger: X ~ normalfordelingen jf. den centrale grænseværdisætning da n. 30 Formel for teststørrelse: t 5 x 2 m o s/ n s. 153

154 Hypotesetest Testniveau og p-værdi: Testniveau 5 0,05 og p-værdi 5 0, Konklusion: H 0 forkastes da p-værdi, testniveau. Hermed konkluderes med 95 % sandsynlighed, at bilerne kører mere end 25 km i gennemsnit pr. liter. Eksempel 2: Z- test af gennemsnit i en normalfordeling, varians kendt X ~ N(m,s 2 ) I forbindelse med Nordeas årlige kundeundersøgelse baseret på 80 spørgeskemaer, blev den gennemsnitlige tilfredshed med kunderådgivning målt til 70,48. Kan Nordea på denne baggrund konkludere, at tilfredsheden for alle kunder mindst er 70? Det antages, at standardafvigelsen for denne type undersøgelser er 3. Variabel: Tilfredshed med kunderådgivning (skala 0-100) Model: X ~ N(m,s) Data: n 80 x 70,48 Hypoteser: H 0 : m # 70 H 1 : m. 70 s 3 Forudsætninger: Populationens varians er kendt Observationerne er normalfordelte Formel for teststørrelse: Z 5 x 2 m o s/ n Testniveau og p-værdi: Testniveau 5 0,05 og p-værdi 5 0, Konklusion: H 0 accepteres da p-værdi. testniveau. Hermed kan det med 95% sandsynlighed ikke afvises, at kundetilfredsheden højst er 70. s. 154

155 Hypotesetest Eksempel 3: Chi-test af standardafvigelsen i en normalfordeling Et vigtigt serviceparameter er, at der ikke er stor forskel på ventetiden i de forskellige køer hos Netto. Kravet er, at standardafvigelsen højst må være 3 minutter. Ud af en stikprøve på 47 kunder var standardafvigelsen 2,7 min. Test på 5% niveauet om Nettos krav til ventetiden er opfyldt? Variabel: Ventetid i kø (min.) Model: X ~ N(m,s) Data: n 47 s 2,7 Hypoteser: H 0 : s $ 3 H 1 : s, 3 Forudsætninger: X ~ normalfordelingen jf. den centrale grænseværdisætning da n. 30 Formel for teststørrelse: (n 2 x 2 1)s2 5 s 2 o Testniveau og p-værdi: Testniveau 5 0,05 og p-værdi 5 0, Konklusion: H 0 accepteres da p-værdi. testniveau. Hermed kan det med 95% sandsynlighed ikke afvises, at standardafvigelsen på ventetiden er mere end 3 minutter. Nettos krav er dermed ikke opfyldt. Eksempel 4: Approksimativ Z-test af populationsandelen i en binomialfordeling En investeringsfond garanterer at 70 % af deres aktier giver et afkast på mindst 12 %. Blandt en stikprøve på 50 af fondens aktier som blev målt over en 1-årig periode, var der 36 aktier med et afkast på mindst 12 %. Tyder det på at garantien overholdes? Variabel: Antal aktier med et afkast på mindst 12% Model: X ~ b(n,p) Data: n 50 x 36 p 0,72 s. 155

156 Hypotesetest Hypoteser: H 0 : p # 0,70 H 1 : p. 0,70 Forudsætninger: Normalfordelingsapproksimation: n p (1 2 p ). 9 er opfyldt Approksimation er ok Formel for teststørrelse: p 2 p o Z 5 p o (1 2 p o )/n Testniveau og p-værdi: Testniveau 5 0,05 og p-værdi 5 0, Konklusion: H 0 accepteres da p-værdi. testniveau. Hermed kan det med 95 % sandsynlighed afvises, at andelen af aktier med et afkast på 12 % er mindst 70 %. Eksempel 5: Approksimativ Z-test af intensiteten i en poisson fordeling Som direktør for en ejendomsmæglerkæde der sælger luksushuse i Sydeuropa, har du erfaring for, at der gennemsnitligt sælges mere end 15 huse pr. måned. Baseret på de sidste 2 års salgshistorik var det månedlige gennemsnit 16,4. Er antagelsen om et gennemsnitsalg på mere end 15 huse korrekt? Variabel: Antal solgte sommerhuse pr. måned Model: X ~ Ps(l) Data: n 24 l 16,4 Hypoteser: H 0 : l # 15 H 1 : l. 15 Forudsætninger: Normalfordelingsapproksimation: n l. 9 er opfyldt Approksimation er ok Formel for teststørrelse: l 2 lo Z 5 l o /n s. 156

157 Hypotesetest Testniveau og p-værdi: Testniveau 5 0,05 p-værdi 5 0,0383 Konklusion: H 0 forkastes da p-værdi, testniveau. Hermed tyder det med 95 % sandsynlighed på, at gennemsnitsalget overstiger 15 huse pr. måned. Hypotesetest med to stikprøver Med hypotesetest for to stikprøver er fremgangsmåde den samme som med test baseret på en enkelt stikprøve. Forskellen er blot, at vi sammenligner to populationsparametre, eksempelvis om det gennemsnitlige afkast er højere for aktie A end B. For at finde frem til den korrekte test for to populationsparametre, kan nedenstående oversigt anvendes. Bemærk at ligesom med konfidensintervaller for differens mellem to populationsparamtre er det kun test af gennemsnit, som fører til forskellige testmuligheder. For test af andele og intensitet er der kun en type test, hvorfor disse ikke inkluderes i oversigten. FIGUR 53: Gennemsnit (m) Er begge stikprøver større end 30? (Ja) (Nej) Z-test Er populationsvariansen kendt? (Nej) Test af varianshomogenitet (Ja) Z-test Upooled t-test (Nej) Er der varianshomogenitet? (Ja) Pooled t-test s. 157

158 Hypotesetest Beregning af hypotesetest, 2 stikprøver TABEL 73: Oversigt over hypotesetest, 2 stikprøver Hypotesetest Formel Forudsætning Z-test for Z 5 m x 2 m y x 2 y 2 D s 2 x n x 1 s2 y n y s 2 x og s 2 y er kendte. Ved direkte sammenligning af x og y sættes D til 0. Approksimativ Z- test for m x 2 m y Z 5 x 2 y 2 D s 2 x n x 1 s2 y n y n x. 30 og n y. 30 Ved direkte sammenligning af x og y sættes D til 0. Pooled T- test for m x 2 m y Upooled T-test for m x 2 m y Approksimativ T-test for m x 2 m y Approksimativ T-test for p x 2 p y Approksimativ T-test for l x 2 l y t 5 x 2 y 2 D s 2 p 1 n x 1 1 n y s 2 p 5 (n x 2 1)s 2 x 1 (n y 2 1) s 2 y (n x 1 n y 2 2) Z 5 t 5 t 5 x 2 y 2 D s 2 x n x 1 s2 y n y x 2 y 2 D s 2 x n x 1 s2 y n y p 2 p y 2 D p o (1 2 p o )/ 1 n x 1 1 n y Hvor p o 5 x 1 y n x 1 n y Z 5 l x 2 l y 2 D l x n x 1 l y n y s 2 x og s 2 y er ukendte, men varianshomogenitet, dvs. ens varians. Ved direkte sammenligning af x og y sættes D til 0. s 2 x og s 2 y antages ukendte, og der er ikke varianshomogenitet, dvs. ikke ens varians. Ved direkte sammenligning af x og y sættes D til 0. s 2 x og s 2 y antages ukendte, og der er ikke varianshomogenitet, dvs. ikke ens varians. Ved direkte sammenligning af x og y sættes D til 0. n x p x (1 2 p x ). 9 n y p y (1 2 p y ). 9 Ved direkte sammenligning af x og y sættes D til 0. n x l x. 9 n y l y. 9 Ved direkte sammenligning af x og y sættes D til 0. T-test for f 5 s x 2 s y s 2 x s 2 y Anvendes hyppigt i forbindelse med test af varianshomogenitet s. 158

159 Hypotesetest Eksempler på hypotesetest med 2 stikprøver Eksempel 1: Approksimativ Z-test af differensen mellem 2 pop. gennemsnit To reklamer blev bedømt på en 5 punkt skala af 40 personer. For reklame 1 og 2 var gennemsnittet henholdsvis 4,3 og 3,9 og standardafvigelse var tilsvarende på 1,7 og 1, 2. Kan det på den baggrund konkluderes, at reklame 1 får en bedre gennemsnitsbedømmelse end reklame 2? Variabel: X: Karakter for reklame 1 Y: Karakter for reklame 2 Model: X og Y ~ N(m,s) Data: n x x s x n y y s y 40 4,3 1,7 40 3,9 1,2 Hypoteser: H 0 : m x # m y H 1 : m x. m y Forudsætninger: Normalfordelingsapproksimation: n x og n y er begge. 30 Approksimation er ok Formel: Z 5 x 2 y 2 D s 2 x 1 s2 y n x n y Testniveau og p-værdi: Testniveau 5 0,05 og p-værdi 5 0,11204 Konklusion: Ho accepteres da p-værdi. testniveau. Det kan med 95 % sandsynlighed ikke afvises, at gennemsnitsbedømmelsen for begge reklamer kan værre ens. s. 159

160 Hypotesetest Eksempel 2: Approksimativ Z-test af differensen mellem 2 pop. intensiteter I en undersøgelse blandt folk der lider af migræneanfald, blev der nedsat to grupper (A og B) med 50 personer i hver. Begge grupper testede en ny pille mod migræne, men i gruppe B var alle pillerne placebo (piller uden effekt). Det gennemsnitlige antal migræneanfald for gruppe A var 2,4 og for B var gennemsnittet 4,1. Kan det herudfra konkluderes, at den nye pille har effekt? Variabel: X: Antal migræneanfald i gruppe A Y: Antal migræneanfald i gruppe B Model: X og Y ~ Ps(l) Data: n x l x n y l y 12 2,4 12 4,1 Hypoteser: H 0 : l x $ l y H 1 : l x, l y Forudsætninger: Normalfordelingsapproksimation: n? l. 9 er opfyldt for både X og Y Formel: Z 5 l x 2 l y 2 D l x 1 l y n x n y Testniveau og p-værdi: Testniveau 5 0,05 og p-værdi 5 0, Konklusion: Ho forkastes da p-værdi, testniveau. Det betyder, at migrænemedicinen med 95 % sandsynlighed har en effekt. s. 160

161 Hypotesetest Eksempel 3: Approksimativ Z-test for differensen mellem 2 populationsandele For at se om der er en relation mellem kendskabsgraden til bagerkæden Emmerys og geografisk bopæl, udtages en stikprøve på 45 århusianere (Å) og 54 københavnere (K). Blandt århusianerne var der 15 som kendte til Emmerys og blandt københavnerne var antallet 27. Har geografi betydning for kendskabsgraden til Emmerys? Variabel: X: Antal hyppigt besøgende (i Århus) Y: Antal hyppigt besøgende (i Kbh.) Model: X og Y ~ b(p,n) Data: n x x p x n y y p y , ,5 Hypoteser: H 0 : p x $ p y H 1 : p x, p y Forudsætninger: Normalfordelingsapproksimation: n p (1 2 p ). 9 er opfyldt for både X og Y Formel: Z 5 p 2 p y 2 D p o (1 2 p o )/ 1 n x 1 1 n y Testniveau og p-værdi: Testniveau 5 0,05 og p-værdi 5 0,0474 Konklusion: Ho forkastes da p-værdi, testniveau. Det betyder at andelen af hyppigt besøgende med 95 % sandsynlighed kan siges at være større i København end i Århus. s. 161

162 Hypotesetest Variansanalyse (ANOVA) Variansanalyse er en statistisk metode, der anvendes til at vurdere, om der er forskelle mellem gennemsnitlige værdier på tværs af forskellige grupper (populationer). Som eksempel kan nævnes en undersøgelse af tilfredshedsgraden i forskellige banker. Her kan ANOVA anvendes til at vurdere, om tilfredshedsgraden er ensartet, eller om der er tegn på, at der i enkelte banker er en højere grad af tilfredshed end i de øvrige. Alternativt til ovenstående kvantitative variabel (tilfredshedsgrad) kan ANOVA også bruges til at analysere kvalitative variable, eksempelvis hvorvidt brugtvognspriser for et bestemt bilmærke påvirkes af bilens farve, indtræk etc. Således kan ANOVA anses som en fleksibel metode, der ikke nødvendigvis tager udgangspunkt i kvantitative variable, som det er tilfældet med regressionsanalyse. I det enkleste tilfælde, hvor kun to populationer sammenlignes, svarer ANOVA til en hypotesetest af forskellen mellem to gennemsnit. Men i modsætning til traditionelle test af to populationer er ANOVA-metoden egnet til at teste flere gennemsnit samtidigt. Ved envejs-anova vurderes effekten af en enkelt faktor på baggrund af en enkelt responsvariabel. For eksempel kan en fødevarevirksomhed være interesseret i at afgøre, om der er forskelle i præferencerne for fem nye produkter, der endnu ikke er lancerede. I den forbindelse udvælges fem forskellige testgrupper (stikprøver). I hver stikprøve afgiver respondenterne karakterer fra 1-10 (responsvariablen), hvorefter gennemsnittet i hver af de fem stikprøver beregnes. I ovenstående tilfælde kan ANOVA være med til at kvantificere om den variation, der er imellem de fem stikprøvegennemsnit, er tilstrækkelig høj (signifikant) til at konkludere, at der ikke kan være tale om fem identiske populationsgennemsnit, og altså at de fem produkter ikke kan antages at være lige populære. Efterfølgende vil det naturlige skridt være at analysere, hvilke produkter der blev foretrukket. At give dette svar ligger uden for ANOVA-metodens rammer At svare på dette spørgsmål vil kræve yderligere analyse med Tukey testen. ANOVA giver blot svar på, om de sammenlignede gennemsnit med en vis sandsynlighed, kan betragtes som værende ens. ANOVA bygger på Mindste Kvadrat Metoden, som også ligger til grund for regressionsanalyser og er uddybet i afsnittet om regressionsanalyse, se afsnit MKM. Forudsætninger for ANOVA 1. De populationer vi sammenligner, skal være normalfordelte 2. Stikprøverne skal være udvalgt ensartet tilfældigt fra de givne populationer 3. Populationerne skal have samme varians (varianshomogenitet) s. 162

163 Hypotesetest Eksempel på variansanalyse Du er ansat hos Nybolig, og er ved at undersøge prisniveauet for fritidshuse i Sverige, da I overvejer at udvide jeres salgsmarked. Du er interesseret i at vide, om prisniveauet er ensartet i 3 forskellige områder af Sydsverige, og har derfor udtaget 3 stikprøver en fra Kalmar, en fra Blekinge og en fra Kristianstad. Resultatet ses i nedenstående skema. Tabel 74: Kalmar Blekinge Kristianstad Er der forskel på det gennemsnitlige prisniveau i de 3 forskellige områder af Sydsverige (ved et signifikansniveau på 5%)? s. 163

164 Hypotesetest Hypoteser: H 0 : m 1 5 m 2 5 m i H 1 : Ej H 0 Data Tabel 75: Kilde SS fg MS F F kritisk P-værdi Imellem 1,33819E ,69096E+11 5,4571 3,2594 0,0085 Iblandt 4,41396E ,2261E+11 Total 5,75215E Forudsætninger Stikprøver er udvalgt simpelt tilfældigt Obs. er fra normalfordelte populationer Populationerne har ens varianser Konklusion Da p-værdi (0, ), testniveau (0,05) forkastes H 0 Da p-værdien er mindre end signifikansniveauet på 5 %, kan vi konkludere, at der er forskel på prisniveauet i de 3 forskellige områder af Sydsverige. s. 164

165 Hypotesetest Øvelser med hypotesetest De første spørgsmål er relateret til fortolkning, her skal du med egne ord forsøge at forklare betydningen af specifikke testbegreber. Efterfølgende er opgaverne rettet mod beregninger. Fortolkningsøvelser: 1. Hvad er ideen med en hypotesetest? 2. Hvad er forskellen på en hypotesetest og et konfidensinterval? 3. Hvordan opfatter du forskellen på H0 og H1 hypotesen? 4. Hvordan vil du fortolke testniveauet? 5. Hvilken effekt har størrelsen af testniveauet for konklusionen? 6. Hvornår ved du, at der er tale om en test af to variabler? Beregningsøvelser: Opgave 1. I forbindelse med at forberede markedsføringen af en ny type boliglån ønsker Jyske Bank, at danne sig et indtryk af hvordan boliglånet vil blive modtaget af kunderne. Derfor har banken, i samarbejde med dig, iværksat en undersøgelse, hvor folk i forskellige aldersintervaller, har vurderet om lånet var en god ide. Resultaterne fremgår af nedenstående. Tabel 76: Aldersinterval (år) Vurdering SUM God ide Neutral Dårlig ide SUM Spørgsmål 1. Test på 1 % niveauet om over halvdelen af kunderne vurderer, at det nye boliglån er en god ide. Spørgsmål 2. Test på 5 % niveauet om der er færre kunder mellem end.60 der mener at lånet er en god ide. Hvad betyder resultatet for kommunikationen til de to segmenter? s. 165

166 Hypotesetest Opgave 2. Grønklimas hastige salgsvækst har ikke været uden problemer. Et stigende antal kunder er begyndt at klage over produktfejl og mangler ved virksomhedens ventilationsanlæg. For at få et overblik over fejlprocenten, blev en stikprøve på 193 ventilationsanlæg udtaget, heriblandt var 10 defekte. Spørgsmål 1. Beregn et 95 % konfidensinterval for andelen af defekte ventilationsanlæg. Spørgsmål 2. Test på 5 % niveauet om defektprocenten kan siges at være maksimalt 5 %. For at imødekomme kundernes klager har Grønklima øget antallet af kvalitetskontroller i produktionen og garanteret kunderne en bedre kvalitet En måned efter den skærpede kvalitetskontrol udtog man en stikprøve på 236 ventilationsanlæg og fandt 11 fejl. Spørgsmål 3. Test på 5 % niveauet om den skærpede kvalitetskontrol har virket efter hensigten og medført færre fejl. Opgave 3. Det er snart nytårsaften og du skal holde stor fest. I avisen ser du et godt tilbud fra den lokale fyrværkeriforhandler men fordi fyrværkeriet er så billigt, er du nervøs for, om det gode tilbud skyldes et stort antal fusere i pakken. Nu lover forhandleren dig, at der er mindre end 10 % fusere, og du får lov til at tage en pakke med hjem og prøve af. Ud af 35 stk. er 7 fusere. Holder fyrværkeriforhandlerens løfte stik ved et signifikansniveau på 5 %? Opgave 4. Du arbejder for Acer, og I er ved at udvikle en ny notebook. For at få en fornemmelse af, hvad kunderne vil synes om den nye notebook, har I oprettet en testgruppe og spurgt deltagerne, hvordan de opfattede den foreløbige version. Testgruppen var på 230 mennesker. Resultaterne blev følgende 130 personer synes særdeles godt om den nye notebook. 26 personer er neutrale over for den nye notebook. 74 personer synes ikke godt om den nye notebook. Test på 5 %-niveauet om over halvdelen af kunderne synes særdeles godt om den nye notebook. Opgave 5. Københavns Lufthavn har på det seneste oplevet en del problemer med deres bagagebånd, som går i stå alt for ofte. Det har betydet utilfredse passagerer, og derfor har man udskiftet båndene. Før udskiftningen gik båndene i gennemsnit i stå 4 gange i løbet af en time, og efter udskiftningen har man foretaget en måling over det sidste døgn, som viser, at båndende i gennemsnit gik i stå kun 1,5 gange i timen. Københavns Lufthavn antager, at båndende nu går i stå under 2 gange i timen. Er Københavns Lufthavns antagelse korrekt? (Test på 5 %-niveauet) s. 166

167 Hypotesetest Opgave 6. Du arbejder for Megafon og har foretaget en meningsmåling over, hvorvidt der er tilslutning til afskaffelse af efterlønnen blandt befolkningen på tværs af politiske holdninger. Resultaterne fremgår nedenfor Tabel 77: Stemmer på rød blok Stemmer på blå blok SUM For afskaffelse Neutral Imod afskaffelse SUM Test på 5 %-niveauet om over halvdelen af de, der stemmer rødt, er for afskaffelse af efterlønnen, og vurder desuden konklusionens følsomhed. Opgave 7. Du er ansat hos et større analysebureau, og er i gang med at udarbejde en markedsanalyse for Finanstilsynet. De vil bl.a. gerne vide, om der er sammenhæng mellem, hvor stor tillid man har til den finansielle sektor, og hvor i landet man bor. Du udtager derfor en stikprøve på 150 århusianere og 200 københavnere. Blandt århusianerne er der 104, der har tillid til den finansielle sektor, og blandt københavnerne er der 132, der har tillid til den finansielle sektor. Er tilliden til den finansielle sektor større i Århus end i København? (Test på 5 %-niveauet) Opgave 8. Hos Apple har man netop færdigudviklet en ny version af Ipad s, som man nu ønsker at kende den gennemsnitlige batterilevetid på. Der udtages derfor en stikprøve på 32 af de nye Ipads, og man finder ud af, at den gennemsnitlige batterilevetid er 7,9 timer med en standardafvigelse på 1,8 timer. Hos ASUS har man ligeledes udviklet et konkurrerende produkt Ipaper, og her er der udtaget en stikprøve på 35 Ipaper s, hvor den gennemsnitlige batterilevetid er 8,1 timer med en standardafvigelse på 2,2 timer. Har ASUS Ipaper længere batterilevetid end Apples Ipad? s. 167

168 Hypotesetest Opgave 9. Du har sat dig for at undersøge gennemsnitsindkomsten for mænd og kvinder, og derfor har du udtaget to stikprøver resultatet af din undersøgelse ses nedenfor Tabel 78: Mænd Kvinder Observationer Gennemsnit Standardafvigelse Test på 1 %-niveauet om gennemsnitsindkomsten for mænd er større end gennemsnitsindkomsten for kvinder. Opgave 10. McDonald s er i færd med at ekspandere med 2500 franchise restauranter i Kina. Som et led i deres ekspansion ønsker McDonald s at vurdere, om der kan være stordriftsfordele i at opkøbe kartoffelplantager til deres pommes fritter, eller om det alternativt bedre kan svare sig, at importere dem. McDonald s har estimeret, at hver franchiserestaurant mindst skal aftage 3 kasser á 500 kg. kartofler om ugen, for at kartoffelplantagen kan betale sig. I en periode på 10 uger blev der indhentet ugentlige observationer fra forskellige franchiserestauranter. Det gennemsnitlige ugentlige forbrug blev estimeret til 3,9 kasser pr. franchise. Spørgsmål 1. Definer variabel og fordeling. Spørgsmål 2. Giver datagrundlaget anledning til, at McDonald s skal købe kartoffelplantagen? Spørgsmål 3. Hvor meget skal signifikansniveauet ændre sig, for at vi ændrer vores konklusion i spørgsmål 2? For ikke at besværliggøre det logistiske arbejde med at transportere kartoflerne fra plantagen ud til franchiserestauranterne må andelen af de restauranter, som har et ugentlig forbrug på højst 3 kasser, ikke overstige 15 %. På baggrund af de 85 observerede franchiserestauranterne fandt man, at der var 16 som højst aftog 3 kasser ugen. Spørgsmål 4. Test om andelen af butikker der højst aftager 3 kasser om ugen overstiger 15 %. Spørgsmål 5. Hvilken forskel havde det gjort, hvis vi i spørgsmål 1 i stedet for kasser fik oplyst, at det ugentlige forbrug skulle være på mindst 1242 kg pr. restaurant? s. 168

169 Hypotesetest Opgave 11. Den førende producent af IT-systemer til virksomheder, SAP, har indført et nyt projektstyringssystem, der skal gøre det lettere at implementere deres systemer og dermed sikre, at projekterne overholder tidsrammen. Der har erfaring for, at 43 % af projekterne overskrider tidsrammen, men med det nye system blev 39 ud af 60 projekter afsluttet til tiden. Spørgsmål 1. Definer variabel og fordeling Spørgsmål 2. Giver dette grund til at antage, at projektstyringssystemet fungerer? Spørgsmål 3. Hvad skal testniveauet ændres til, for at få den modsatte konklusion i spørgsmål 2? Spørgsmål 4. Hvis den sande andel af projekter der overskrider tidsrammen er 25 %, hvor stor er da sandsynligheden for, at højst 30 ud af 120 projekter overskrider tidsrammen? Opgave 12. For at teste de lydmæssige forbedringer for en ny mp3 afspiller har Apple nedsat to testgrupper. Gruppe A skulle vurdere lydkvaliteten af virksomhedens nuværende afspiller, og gruppe B vurderede lyden af den nye afspiller. Resultaterne ses i nedenstående tabel 1. Karakter blev givet på en 10-punkt skala med 10 som topkarakter. Tabel 79: Gruppe A Gruppe B Observationer Gennemsnit 4,79 6,26 Std. Afv. 2,08 1,53 Spørgsmål 1. Test på 5 % niveauet om gennemsnitskarakteren i gruppe B kan siges at være større end i gruppe A. I gruppe B var der 28 testpersoner, der mindst gav et syvtal i karakter. Spørgsmål 2. Test på 10 % niveauet om mere end halvdelen af karaktererne for den nye afspiller vil være større end 7. s. 169

170 Hypotesetest Opgave 13. Du er ansat hos et analysebureau, og er i færd med at udarbejde en analyse over, hvor tilfredse danskerne er med deres liv. I den forbindelse vil du undersøge, om alder har nogen indvirkning på, hvor tilfreds man er med tilværelsen. Du har udtaget 3 stikprøver inddelt i aldersintervaller, og bedt de medvirkende om, på en skala fra 1 til 10, at vurdere hvor tilfredse de generelt er med tilværelsen. Resultatet fremgår nedenfor. Er der forskel på gennemsnitstilfredshedsgraden på tværs af aldersgrupperne ved et signifikansniveau på 5 %? Tabel 80: Alder Alder Alder s. 170

171 Hypotesetest Tidligere eksamensøvelser med hypotesetest Eksamensøvelserne samt facit kan downloades fra statlearn.com under menupunktet: Ekstra øvelser. Øvelser med hypotesetest (sideangivelse samt opgavenummer): Side 2 /2.2 Side 4 /1.3 Side 4 /1.3 Side 5 /3.3 Side 8 /3.2 Side 8 /3.3 Side 9 /4.2 Side 9 /4.4 Side 10 /1.1 Side 10 /1.3 Side 10 /2.2 (rå data) Side 10 /2.3 (rå data) Side 10 /2.4 (resumé data kombineret med rå data) Side 10 /4.2 (fokus på niveaufølsomhed) Side 14 /4.3 Side 27 /2.3 (fokus på niveaufølsomhed) s. 171

172 Hypotesetest Løsninger til hypotesetest I det følgende fremgår løsninger til øvelserne for hypotesetest. Det skal nævnes, at løsningerne for simpelhedens skyld er reduceret til et resultat og få øvrige informationer. I en eksamenssituation er det vigtigt, at din opgave løses, så den indeholder alle de informationer, som er nævnt i afsnittet: Generel metode til løsning af hypotesetest. Fortolkningsøvelser: 1. At teste om en given påstand i form af en (H 1 ) hypotese er sand eller falsk. 2. En test fører til en konklusion, om et populationsparameter er mindre/større/forskellig fra en bestemt værdi fremsat i H 0 og H 1 hypotesen. Et konfidensinterval fører ikke til samme håndfaste konklusion, men er derimod et interval, der indeholder populationsparameteret med en given sandsynlighed (som regel 95 %). 3. H 0 hypotesen repræsenterer det vi indtil videre må gå ud fra er sandt. H 0 er med andre ord det vi - indtil andet er bevist - må gå ud fra er sandt. H 1 udfordrer H 0 hypotesen med den modsatte påstand. H 1 fremsættes på baggrund af et punktestimat, som indikerer, at H 0 hypotesen er forkert. For at teste hvilken af de to modsatrettede hypoteser der er sand, anvendes en hypotesetest. 4. Testniveauet er testens toleranceværdi. Testniveauet repræsenterer sandsynligheden for at begå en type 1 fejl, hvilket betyder at forkaste en sand H 0 hypotese. Jo lavere testniveau desto mindre bliver sandsynligheden for, at begå en type 1 fejl. På den anden side øges sandsynligheden for en type 2 fejl, når testniveauet mindskes (en type 2 fejl er at acceptere en falsk H 0 hypotese). Testniveauet bør derfor ikke sænkes uden at skele til effekten af en øget sandsynlighed for type 2 fejl. 5. Jo større testniveau desto større er sandsynlighed for at begå en type 1 fejl, og dermed forkaste en H 0 hypotese der er sand. 6. Når punktestimaterne kommer fra to forskellige stikprøver. s. 172

173 Hypotesetest Beregningsøvelser: Opgave 1. Spørgsmål 1. X: Antal kunder der vurderer, at det nye boliglån er en god ide X ~ b(p, n 5 533) da variablen er diskret og der er uafhængighed mellem hændelserne H 0 : p 0 H 1 : p 0 # 0,5. 0,5 Konklusion: Da p-værdi (0,000058), testniveau (0,01) forkastes H 0, hvilket vil sige, at mere end halvdelen af kunderne vurderer, at det nye boliglån er en god ide. Spørgsmål 2. A: årige der vurderer, at det nye boliglån er en god ide. B: 160 årige der vurderer, at det nye boliglån er en god ide. A ~ b(p, n 5 181) og B ~ b(p, n 5 157) da diskret variabel og uafhængighed H 0 : H 1 : p A $ p B p A, p B Konklusion: Da p-værdi (0,149076). testniveau (0,05) accepteres H 0. Således kan der ikke antages, at være forskel på andelen af dem der vurderer, at boliglånet er en god ide i de to forskellige aldersgrupper. Opgave 2. Spørgsmål 1. X: Antallet af defekte ventilationsanlæg X ~ b(p, n 5 193) da variablen er diskret, og der er uafhængighed mellem hændelserne 95% interval for andel Nedre grænse: 0, Øvre grænse: 0, Spørgsmål 2. X: Antallet af defekte ventilationsanlæg X ~ b(n, p) da variablen er diskret, og der er uafhængighed mellem hændelserne H 0 : p 0 H 1 : p 0 # 0,05. 0,05 s. 173

174 Hypotesetest Konklusion: Da p-værdi (0,454). testniveau (0,01) accepteres H 0, hvilket vil sige, at andelen af defekte ventilationsanlæg med 95% sandsynlighed kan siges at være højst 5%. Spørgsmål 3. A: Antallet af defekte ventilationsanlæg før forbedringstiltag B: Antallet af defekte ventilationsanlæg efter forbedringstiltag A og B ~ b(n, p) da variablen er diskret og der er uafhængighed mellem hændelserne Tabel 81: n x p A ,0518 B ,0466 H 0 : H 1 : p A # p B p A. p B Konklusion: Da p-værdi (0,4018). testniveau (0,05) accepteres H 0. Dermed kan vi ikke sige, at der er forskel på andelen af defekte ventilationsanlæg før- og efter forbedringstiltag. Opgave 3. X: Antal fusere X ~ b(p, n 5 35 da variablen er diskret, og der er uafhængighed mellem hændelserne H 0 : p 0 H 1 : p 0 # 0,05. 0,05 Da p-værdi (0, ), testniveau (0,05) forkastes H 0 Fyrværkeriforhandlerens løfte holder altså ikke stik. Opgave 4. X: Antal brugere der synes særdeles godt om den nye notebook X ~ b(p, n 5 230) da variablen er diskret og der er uafhængighed mellem hændelserne H 0 : p 0 H 1 : p 0 # 0,05. 0,05 Da p-værdi (0, ), testniveau (0,05) forkastes H 0 Vi må altså antage, at mere end halvdelen af brugerne synes særdeles godt om den nye notebook. s. 174

175 Hypotesetest Opgave 5. X: Antal gange bagagebåndene går i stå pr. time X ~ Ps(λ 5 1,5) H 0 : λ 0 H 1 : λ 0 # $2 0,0 5.,2 0, 0 5 Da p-værdi (0, ), testniveau (0,05) forkastes H 0 Københavns Lufthavns antagelse er således korrekt. Dog er konklusionen niveaufølsom, da p-værdien er tæt på testniveauet. Opgave 6. X: Antallet af røde stemmer der ønsker efterlønnen afskaffet. X ~ b(p, n 5 130) da variablen er diskret og der er uafhængighed mellem hændelserne H 0 : p 0 H 1 : p 0 #0,5 0, 5.0,5. Du arbejder for Megafon, og har foretaget en meningsmåling over, hvorvidt der er tilslutning til afskaffelse af efterlønnen blandt befolkningen på tværs af politiske holdninger. Resultaterne fremgår nedenfor Da p-værdi (0, ). testniveau (0,05) accepteres H 0 Vi kan altså ikke afvise, at under halvdelen af de, der stemmer rødt, er for afskaffelse af efterlønnen. Dog er konklusionen niveaufølsom, hvilket vil sige, at vi ikke skal ændre testniveauet ret meget, før konklusionen ville være den modsatte. Opgave 7. A: Århusianere der har tillid til den finansielle sektor B: Københavnerne der har tillid til den finansielle sektor H 0 : H 1 : pa # pb pa. pb Approksimativ z-test af forskellen mellem 2 andele Da p-værdi (0,255104). testniveau (0,05) accepteres H 0 Tilliden til den finansielle sektor er altså ikke større i Århus end i København. s. 175

176 Hypotesetest Opgave 8. A: Batterilevetid for Ipad (målt i timer) B: Batterilevetid for Ipaper (målt i timer) H 0 : H 1 : ma $ mb ma, mb Z-test af forskellen mellem 2 gennemsnit Da p-værdi (0, ). testniveau (0,05) accepteres H 0 Altså kan det ikke siges, at ASUS Ipaper har længere batterilevetid end Apples Ipad. Opgave 9. A: Indkomst for mænd B: Indkomst for kvinder H 0 : H 1 : ma # mb ma. mb Z-test af forskellen mellem 2 gennemsnit Da p-værdi (0, ), testniveau (0,01) forkastes H 0 Altså kan vi konkludere, at gennemsnitsindkomsten for mænd er større end gennemsnitsindkomsten for kvinder. Opgave 10. Spørgsmål 1. X: Antal kasser der forbruges pr. uge pr. franchise X ~ Ps(λ 5 3,9) Spørgsmål 2. (n 5 10) H 0 : l 0 H 1 : l 0 # 3. 3 Konklusion: Da p-værdi (0,05017). testniveau (0,05) accepteres H 0. Vi kan hermed ikke afvise, at franchiserestauranterne højst aftager 3 kasser kartofler om ugen. Spørgsmål 3. Ændres p-værdien nogle få promille fra 0,05017 til 0,04999, bliver konklusionen den modsatte. Da p-værdien er så tæt på testniveauet, er konklusionen således niveaufølsom, hvilket betyder, at konklusionen ved et testniveau på 5 % reelt kan gå begge veje. Da H0 hypotesen ikke afvises signifikant ved et testniveau på 5 %, kunne man med rimelighed argumentere for, at McDonald s alligevel skulle investere i kartoffelplantagen. s. 176

177 Hypotesetest Spørgsmål 4. H 0 : p 0 H 1 : p 0 # 0,15. 0,15 Konklusion: Da p-værdi (0,162). testniveau (0,01) accepteres H 0. Spørgsmål 5. I så fald havde vores variabel været kontinuert og i stedet for at teste på andele, skulle der testes for et gennemsnit. Opgave 11. Spørgsmål 1. X: Antal projekter der overskrider tidsrammen. X ~ b(p, n 5 60) da variablen er diskret og det antages, at der er uafhængighed mellem de forskellige projekter. I så fald er der konstant sandsynlighed for, at et projekt overskrider tidsrammen. Spørgsmål 2. H 0 : p 0 H 1 : p 0 $ 0,43, 0,43 Konklusion: Da p-værdi (0,105343). testniveau (0,05) accepteres H 0. Det betyder at vi kan afkræfte påstanden om, at projektstyringssystemet fungerer. Spørgsmål 3. Fra 0,05 til 0,11 (dvs. fra 5 til 11 %) Spørgsmål 4. X ~ b(p 5 0,25, n 5 120) P(x # 30) 5 0, Opgave 12. Spørgsmål 1. F-test af 2 standardafvigelser (homogenitetstest): H 0 H 1 s a 5 s b ej H 0 Konklusion: Da p-værdi (0,066). testniveau (0,05) accepteres H 0. Dermed antages varianshomogenitet, hvilket betyder, at de to populationsvarianser antages at være ens. s. 177

178 Hypotesetest Pooled t-test af forskellen mellem 2 gennemsnit (varianshomogenitet): H 0 : H 1 : ma $ mb ma, mb Konklusion: Da p-værdi (0, ), testniveau (0,05) forkastes H 0. Det betyder, at gennemsnitskarakteren med 95% sandsynlighed kan siges, at være større i gruppe B end i gruppe A. Spørgsmål 2. H 0 : p 0 H 1 : p 0 # 0,5. 0,5 Konklusion: Da p-værdi (0,124). testniveau (0,1) accepteres H 0. Det betyder, at maksimalt halvdelen af karaktererne for den nye afspiller vil være større end 7. Opgave 13. Hypoteser: H 0 : m 1 5 m 2 5 m i H 1 : Ej H 0 Data Tabel 82: Kilde SS fg MS F F kritisk P-værdi Imellem 41, ,689 3,3386 3,2199 0,0451 Iblandt 260, ,1968 Total 301, Forudsætninger Stikprøver er udvalgt simpelt tilfældigt Obs. er fra normalfordelte populationer Populationerne har ens varianser Konklusion Da p-værdi (0, ), testniveau (0,05) forkastes H 0 Konklusion: Modeller hinanden. Det betyder, at der er forskel på gennemsnitstilfredshedsgraden på tværs af aldersgrupperne ved et signifikansniveau på 5 %. s. 178

179 KAPITEL 8 REGRESSIONSANALYSE Statlearn.com

180 KAPITEL 8 Regressionsanalyse Regressionsanalyse er en metode til at etablere en lineær sammenhæng mellem to eller flere variable. Udgangspunktet for regressionsanalyse er, at man opstiller en model, der forudsiger udviklingen i en variabel ud fra udviklingen i den anden variabel. Når vi arbejder med at skabe sammenhænge i data, kan vi skelne mellem tre forskellige metoder, korrelationsanalyse, simpel lineær- og multipel lineær regression. Korrelationsanalyse kan opfattes som forstadiet til regression. Med korrelation måler vi udelukkende, om sammenhængen mellem to variabler er stærk eller svag. Det kunne eksempelvis være sammenhængen mellem udendørstemperatur og salg af is. Simpel lineær regression er en takt mere avanceret. Her opstilles en lineær funktion, der anvendes til at estimere værdien af den afhængige variabel (Y) ud fra en given værdi af den uafhængige variabel (X), eksempelvis hvor mange is der sælges (Y), når det er 25 grader (X). Funktion for ret linje (lineær funktion): Y 5 a 1 b? X FIGUR 54: Y b (hældning) Med multipel lineær regression anvendes mere end en uafhængig variabel, eksempelvis hvor mange is der sælges ud fra temperatur og prisen. a (skæring) X Korrelationsanalyse For at illustrere korrelationsanalyse ud fra en praktisk vinkel tages i det følgende udgangspunkt i en dansk IT virksomhed, der har specialiseret sig i at lade forbrugere sammensætte deres computer over Internettet. Lad os antage, at virksomheden ønsker, at ekspandere deres forretningsområde med løsninger til erhvervslivet. I den forbindelse ønsker ledelsen at kortlægge de faktorer, som bidrager mest til virksomhedens telesalg. Fra erfaring har ledelsen en formodning om, at telesalget særligt påvirkes af to forhold: Antallet af daglige salgsopkald (opkaldsfrekvensen) og sælgerens erfaring (angivet i måneder). Spørgsmålet er nu hvilken af disse to faktorer, der påvirker salget mest? Kan det vurderes ud fra en graf? Lad os forsøge. Videolektioner > s. 180

181 har ledelsen en formodning om, at telesalget særligt påvirkes af to forhold: Antallet af daglige har ledelsen en formodning om, at telesalget særligt påvirkes af to forhold: Antallet af daglige Grundlæggende salgsopkald (opkaldsfrekvensen) statistik og sælgerens erfaring (angivet i måneder). Med salgsopkald fokus på erhvervslivet (opkaldsfrekvensen) og sælgerens erfaring (angivet i måneder). Regressionsanalyse Spørgsmålet er nu hvilken af disse to faktorer, der påvirker salget mest? Kan det vurderes ud Spørgsmålet er nu hvilken af disse to faktorer, der påvirker salget mest? Kan det vurderes ud fra en graf? Lad os forsøge. fra FIGUR en graf? 55: Lad os forsøge. 100 Antal 30 Erfaring 100 Antal 30 opkald Erfaring i md. opkald i md Salg 0 Salg Salg 0 Salg Fra grafen der viser sammenhængen mellem opkald og salg ses umiddelbart en positiv og Fra grafen der viser sammenhængen mellem opkald og og salg ses ses umiddelbart en en positiv positiv og og stærk stærk sammenhæng. Jo flere opkald desto mere salg. Tilsvarende ser vi en tydelig sammenhæng. stærk sammenhæng. Jo flere Jo opkald flere opkald desto mere desto salg. mere Tilsvarende salg. Tilsvarende ser vi en ser tydelig vi en tydelig sammenhæng mellem sælgerens sammenhæng sammenhæng erfaring mellem mellem og salget. sælgerens sælgerens Kan erfaring erfaring vi ud fra og og graferne salget. Kan salget. bedømme, vi ud fra Kan vi ud fra hvilken graferne graferne disse bedømme, bedømme, to faktorer hvilken hvilken der har størst af disse indflydelse to faktorer på der salget? har størst indflydelse på salget? af disse to faktorer der har størst indflydelse på salget? Spørgsmålet er ikke helt åbenlyst, eftersom eftersom der der anvendes anvendes forskellige forskellige skalaer: skalaer: Telefonopkald målt i antal Spørgsmålet og salgserfaring ikke helt målt åbenlyst i år/tid. eftersom der anvendes forskellige skalaer: Telefonopkald målt i antal og salgserfaring målt i år/tid. målt i antal og salgserfaring målt i år/tid. For at gøre de to variable sammenlignelige, skal vi have en ensartet skala, og det er netop her, at korrelationsanalyse For gøre de to variable bliver sammenlignelige, anvendelig. Afhængig skal vi af have om en en relation ensartet er skala positiv og det elle er negativ, netop her varierer at For at gøre de to variable sammenlignelige, skal vi have en ensartet skala og det er netop her at korrelationskoefficienten korrelationsanalyse bliver (r anvendelig. for population Afhængig og r for af stikprøve) om en relation fra 2 er 1 positiv til 1 1. elle negativ korrelationsanalyse bliver anvendelig. Afhængig af om en relation er positiv elle negativ I varierer varierer nedenstående korrelationskoefficienten korrelationskoefficienten er begge relationer ( ( lineære men henholdsvis positive og fra fra negative. 1 til til + 1. I nedenstående er begge relationer lineære, men henholdsvis positive og negative. I nedenstående FIGUR 56: er begge relationer lineære, men henholdsvis positive og negative Pris i kr. Pris i kr karakter karakter Antal æbler 0 Antal æbler Antal fejl 0 Antal fejl Korrelationskoefficienten beregnes: SAP xy r xy 5 SAK x? SAK y Af Stephan Skovlund (Copyright) Side 197 Af Stephan Skovlund (Copyright) Side 197 s. 181

182 Formler Grundlæggende til beregning statistik af hjælpestørrelserne, og fremgår under punkt 3 på Regressionsanalyse side 203. Vender Formler vi til tilbage beregning til eksemplet af hjælpestørrelserne med IT virksomheden, SAP xy, SAKhvor x og SAK vi ser y fremgår på sammenhængen under punkt mellem 3 på side 203. salg/opkald og salg/erfaring beregnes korrelationskoefficienterne med Statlearn programmet Vender vi tilbage til eksemplet med IT virksomheden, hvor vi ser på sammenhængen mellem salg/ til opkald henholdsvis og salg/erfaring, beregnes og korrelationskoefficienterne. med Statlearn programmet til henholdsvis r opkald 5 0,831 og r erfaring 5 0,774. (Data for eksempelberegning findes i regressionsappendiks 1, side 226.) (Data for eksempelberegning findes i regressionsappendiks 1, side 223.) Begge Begge korrelationskoefficienter er er positive, positive, hvilket hvilket tyder tyder på på, at at både både telefonopkald telefonopkald og og erfaring erfaring har har en en positiv positiv indvirkning på salget. på salget. Men, Men, det det er endnu er endnu ikke ikke helt helt muligt muligt at konkludere, at at antallet at af opkald har af størst opkald indflydelse, har størst eftersom indflydelse, at korrelationskoefficienten eftersom korrelationskoefficienten blot er et punktestimat. blot er et I afsnittet antallet punktestimat. om hypotesetest I afsnittet var vi inde om hypotesetest på, at værdien var af vi punktestimater inde på at værdien skal af testes, punktestimater før man kan skal generalisere testes for populationen. Det samme gør sig gældende for punktestimater af korrelationskoefficienter. Se før man kan generalisere for populationen. Det samme gør sig gældende for punktestimater af test af modellens hældningskoefficienter under afsnittet Fremgangsmåde som starter på side 202. korrelationskoefficienter. Se test af modellens hældningskoefficienter under afsnittet Fremgangsmåde som starter på side 204. Ekstreme observationer - Outliers Ekstreme Det kan være observationer en god ide at - Outliers supplere din korrelationsanalyse med en graf. Grundlæggende er der to Det årsager kan være til at vise en god resultaterne ide supplere grafisk. din Når korrelationsanalyse du anvender en graf, med bliver en graf. det Grundlæggende muligt at spotte markante er der afvigelser to årsager også til betegnet at vise resultaterne outliers. grafisk. Når du anvender en graf bliver det muligt at spotte Som det markante fremgår afvigelser grafen også i nedenstående, betegnet outliers. kan outliers tolkes som observationer der afviger radikalt fra den normale sammenhæng. Uden en graf kan der være outliers skjult i dine data og dermed Som få en det manipulerede fremgår af grafen indvirkning i nedenstående, på værdien kan af outliers korrelationskoefficienten. tolkes som observationer der afviger radikalt fra den normale sammenhæng. Uden en graf kan det være outliers være skjult i dine data og dermed få en manipulerede FIGUR 57: indvirkning på værdien af korrelationskoefficienten. 80 Antal opkald 40 0 Salg Udover at manipulere korrelationskoefficienten kan outliers indeholde værdifuld information. Eksempelvis kan en outlier være en person, som har meget lidt salgserfaring, men som alligevel Af Stephan Skovlund (Copyright) Side 198 formår at sælge mere end en person med mange års erfaring. Vedkommende har muligvis ekstraordinært salgstalent eller en metode, der kan være interessant at se nærmere på. s. 182

183 der påvirker salget mest. I den forbindelse kunne det være interessant, hvis vi kunne be Simpel lineær regression Grundlæggende statistik I forrige afsnit kom vi frem til at opkaldsfrekvensen (antal salgsopkald pr. dag) er den v Regressionsanalyse hvor mange opkald der skal foretages for at nå et specifikt salgsmål. Det er her at simpe Simpel lineær lineær regression bliver anvendelig. Med simpel lineær regression søger vi at oprette en I forrige afsnit kom vi frem funktion til at for opkaldsfrekvensen (antal salgsopkald pr. dag) er den sammenhængen FIGUR mellem 58: to variable, eksempelvis som i nedenstående. variabel, der påvirker salget mest. I den forbindelse kunne det være interessant, hvis vi kunne beregne, hvor mange opkald der skal foretages for at nå et specifikt salgsmål. Det er her, at simpel lineær regression bliver anvendelig. Med simpel lineær regression Salg i 1000 stk. søger vi at oprette en lineær funktion for 0 Reklamebudget (kr.) sammenhængen mellem to variable, eksempelvis som i nedenstående. 0 1,500,000 3,000,000 Notationen for den simple Notationen lineære for regressionsmodel den simple lineære afhænger regressionsmodel af, om du arbejder afhænger med af om data du for arbejder med d hele populationen eller blot hele en populationen stikprøve. At eller indhente blot en data stikprøve. for en At hel indhente population data er for ressourcekrævende, derfor vil det næsten altid være den stikprøvebaserede regressionsmodel der anvendes. en hel population er ressourcekrævende, derfor vil det næsten altid være den stikprøvebaserede regressionsm Den lineære regressionsmodel der anvendes. for henholdsvis population og stikprøve angives: Regressionslinjen for populationen: Y 5 b 0 1 b 1? X 1 1 Den lineære regressionsmodel for henholdsvis population og stikprøve angives: Regressionslinjen for stikprøven: y 5 b 0 1 b 1? X 1 Regressionslinjen for populationen: Betegnelsen repræsenterer FIGUR 59: residualet, som er afvigelsen Regressionslinjen mellem regressionsmodellens estimat Y for stikprøven: (Y ) og den faktiske observation Betegnelsen (Y i ). repræsenterer residualet, som er afvigelsen mellem regressionsmodelle Det er værd at bemærke, at der estimat og den sjældent tales om observationer i Y i faktiske observation Det er værd at bemærke, at der sjældent ta forbindelse med regressionsanalyse. Det er i stedet residualerne, til når der tales om regressionsmodellens præcision eller mangel på samme. observationer i forbindelse med regressionsanalyse. Det er b i stedet residualerne, der ref 1 Y der refereres til, når der tales om reg regressionsmodellens præcision eller mangel på samme. b 0 På samme måde som et punktestimat er stikprøve regressionsmodellen et estimat af regressionsmodellen for hele populationen: Af Stephan Skovlund (Copyright) y 5 b 0 1 b 1 X 1 Y 5 b 0 1 b 1? X 1 1. X i X s. 183

184 Med Mindste fokus Kvadrat på erhvervslivet Metoden (MKM) Regressionsanalyse Som Mindste vi indledningsvis Kvadrat Metoden var inde på, (MKM) er simpel lineær regression et forsøg på, at skabe en lineær sammenhæng Som vi indledningsvis mellem den afhængige var inde på, (Y) er og simpel uafhængige lineær regression variabel (X). et forsøg Men hvorfor på, at skabe er der en lineær Mindste egentligt sammenhæng behov for Kvadrat mellem simpel den lineær afhængige Metoden regression? (Y) og Er det uafhængige (MKM) ikke relativt variabel simpelt, (X). at Men gennemskue hvorfor er der Som vi indledningsvis var inde på, er simpel lineær regression et forsøg på, at skabe en lineær sammenhæng mellem den afhængige (Y) og uafhængige variabel (X). Men hvorfor er der egentligt behov hvorvidt egentligt der er behov sammenhæng for simpel ud lineær fra et regression? dataplot og Er efterfølgende det ikke relativt tegne simpelt, en streg at som gennemskue følger observationerne? for simpel hvorvidt lineær der regression? er Lad sammenhæng os gøre et forsøg. Er det ud ikke fra relativt et dataplot simpelt, og at efterfølgende gennemskue tegne hvorvidt en streg der er som sammenhæng følger ud fra observationerne? et dataplot og efterfølgende Lad os gøre tegne et forsøg. en streg som følger observationerne? Lad os gøre et forsøg. I nedenstående ses to grafer der bygger på samme datagrundlag. I hver graf er der gjort et I forsøg nedenstående I nedenstående på at tegne ses den ses to grafer, linje, to grafer som der der bedst bygger bygger repræsenterer på på samme samme datagrundlag. sammenhængen datagrundlag. I hver I mellem hver graf graf er reklame er der der gjort gjort og et salg. et forsøg på at tegne den linje, som bedst repræsenterer sammenhængen mellem reklame og salg. forsøg på at tegne den linje, som bedst repræsenterer sammenhængen mellem reklame og salg FIGUR 60: Salg (mio. 80 kr.) Salg (mio. kr.) 40 Graf A Graf A Salg (mio. 80 kr.) Salg (mio. kr.) Til trods for at begge linjer har forskellige skæring og hældninger, forekommer de relativt Til trods for at begge linjer har forskellige skæring og hældninger, forekommer de relativt gode til gode Til til trods at illustrere for at begge udviklingen linjer har af salg forskellige i forhold skæring til reklameudgifter. og hældninger, Eksemplet forekommer skulle de relativt gerne at illustrere udviklingen af salg i forhold til reklameudgifter. Eksemplet skulle gerne illustrere, at illustrere, gode til at at det illustrere ikke helt udviklingen enkelt at af vælge salg den i forhold linje, til der reklameudgifter. bedst beskriver Eksemplet udviklingen skulle mellem det ikke er helt enkelt at vælge den linje, der bedst beskriver udviklingen mellem salg og reklame. gerne Hvilken salg illustrere, og betydning reklame. at det Hvilken kan ikke denne er betydning helt manglende enkelt kan at denne vælge præcision manglende den have? linje, der præcision bedst beskriver have? udviklingen mellem salg og reklame. Hvilken betydning kan denne manglende præcision have? For at besvare spørgsmålet kan vi estimere salget ved reklameudgifter på 25 mio. For linje A er estimatet er estimatet 55 mio., og for linje B er det tilsvarende 70 mio. Altså en afvigelse på 15 mio. En afvigelse i For besvare 55 mio. spørgsmålet og for linje kan B er vi det estimere tilsvarende salget 70 ved mio. reklameudgifter Altså en afvigelse på 25 på mio. 15 mio. For linje En A denne størrelsesorden kan være forskellen på succes og fiasko, derfor er det vigtigt, at beregne den afvigelse linje er som estimatet i denne mest præcist 55størrelsesorden mio. angiver og for sammenhængen linje kan B være er det forskellen tilsvarende på mellem 70 succes X og mio. og Y. Altså fiasko, en afvigelse derfor er på det 15 vigtigt mio. En at beregne afvigelse den i denne linje som størrelsesorden mest præcist kan angiver være sammenhængen forskellen på succes mellem og fiasko, X og Y. derfor er det vigtigt at beregne den linje FIGUR som 61: mest præcist angiver sammenhængen mellem X og Y. Salg (mio. kr.) 80 Salg (mio. kr.) Graf B 0 Reklame (mio. kr.) 0 Reklame (mio. kr.) Reklame (mio. kr.) 0 Reklame (mio. kr.) Graf B Linje A Linje Linje B A Linje B Reklame 10 (mio. 15kr.) Reklame (mio. kr.) Af Stephan Skovlund (Copyright) Side 201 Af Stephan Skovlund (Copyright) s. 184 Side 201

185 Med Nu fokus Nu hvor hvor på vi erhvervslivet vi har har set, set, at at placeringen af af regressionslinjen har har afgørende betydning for Regressionsanalyse for værdien af af regressionsestimatet Nu hvor vi har set, rejses at rejses placeringen spørgsmålet: af regressionslinjen Hvordan beregnes har den afgørende den regressionslinje, betydning der for der mest værdien mest af Nu nøjagtigt hvor regressionsestimatet vi har beskriver set, sammenhængen placeringen rejses spørgsmålet: af regressionslinjen mellem X Hvordan X og og Y. Y. har beregnes afgørende den regressionslinje, betydning for værdien der mest af regressionsestimatet, nøjagtigt beskriver rejses sammenhængen spørgsmålet: Hvordan mellem beregnes X og Y. den regressionslinje, der mest nøjagtigt beskriver Rent Rent konceptuelt sammenhængen kunne kunne et et mellem logisk logisk X bud bud og kunne kunne Y. være, være, at at vælge vælge den den linje, linje, der der minimerer afstanden til til alle Rent konceptuelt Rent alle observationerne. konceptuelt kunne kunne Lad Lad et logisk et os logisk os tage tage udgangspunkt bud være, bud kunne at vælge være, i denne i den at denne vælge tilgang linje, den som der linje, som illustreres minimerer der minimerer af graferne afstanden afstanden i i til alle observationerne. nedenstående. til alle observationerne. I Lad denne I denne os situation tage Lad udgangspunkt er os er den tage den bedste udgangspunkt linje, den i denne linje, den tilgang, i der denne der skær skær som tilgang igennem illustreres som begge illustreres begge af graferne punkter. graferne Dette i nedenstående. må må nødvendigvis nedenstående. I denne situation altid I denne altid gælde, er situation den når bedste når der er der kun den linje, kun er bedste er to den to observationer. linje, der skærer den der igennem skær igennem begge begge punkter. punkter. Dette Dette må Dette i nødvendigvis må nødvendigvis altid gælde, altid når gælde, der kun når er der to kun observationer. er to observationer. Y FIGUR Y 62: Y X X X Tilføjes yderligere to to observationer, kan kan vi vi rykke rykke linjen linjen så så den den nu nu minimerer afstanden til til alle alle Tilføjes yderligere to observationer, kan vi rykke linjen, så den nu minimerer afstanden til alle fire observationer. fire fire Tilføjes observationer. Indtil videre yderligere virker Indtil Indtil to tilgangen videre observationer, virker virker med tilgangen at kan minimere vi rykke med med afstanden at linjen at minimere så til den alle afstanden nu observationerne minimerer til til alle afstanden alle ganske til fint. alle observationerne fire observationer. ganske Indtil fint. fint. videre FIGUR virker 63: tilgangen med at minimere afstanden til alle observationerne ganske fint. Y Y Y X X X Ser Ser vi Ser på vi vi på et på et nyt et nyt sæt nyt sæt observationer, sæt observationer løber løber løber vi vi pludselig vi pludselig ind ind ind i vanskeligheder, i vanskeligheder, i hvis hvis hvis samme samme tilgang tilgang med at med minimere med Ser at at minimere vi på afstanden et nyt afstanden sæt til observationer alle til observationer til alle alle observationer løber anvendes. vi pludselig anvendes. ind i vanskeligheder, hvis samme tilgang med FIGUR at minimere 64: afstanden til alle observationer anvendes. Y A B Y A B Y Y Y A B Y X X X X X X Af Af Stephan Skovlund (Copyright) Side Side s. 185 Af Stephan Skovlund (Copyright) Side 202

186 Med fokus Til på trods erhvervslivet for at regressionslinje A har minimeret afstanden til observationerne Regressionsanalyse ved at skære igennem to punkter og ignorere det sidste, så forekommer linje B at være den linje der bedst Til trods beskriver for at regressionslinje sammenhængen A har mellem minimeret X og Y. afstanden Dette betyder til observationerne en metode, ved der at søger skære at igennem minimere to punkter afstanden og ignorere til alle observationer, det sidste, så paradoksalt forekommer kan linje resultere B at være i en linje, den linje, som ikke der bedst nødvendigvis beskriver er sammenhængen den mest retvisende. mellem X og Y. Dette betyder, at en metode der søger at minimere afstanden til alle observationer, paradoksalt kan resultere i en linje, som ikke nødvendigvis er den der er bedst til at forklare For at imødekomme sammenhængen denne mellem situation, X og baseres Y. regressionsanalyse på Mindste Kvadrat Metoden For at (MKM). imødekomme MKM denne går ud på situation, beregne baseres den regressionslinje, regressionsanalyse hvor på summen Mindste af Kvadrat de kvadrerede Metoden (MKM). afvigelser MKM går mellem ud på at de beregne enkelte observationer den regressionslinje, og regressionslinjen hvor summen er af mindst. de kvadrerede Anvendes afvigelser MKM mellem på de linje enkelte A og observationer B vi linjen og B regressionslinjen minimerer summen er mindst. af afvigelserne Anvendes og MKM derfor på er linje et bedre A og valg B, ser vi at linjen B minimerer summen af afvigelserne og derfor er et bedre valg end A. end A. FIGUR 65: 20 Y A x y y (y 2 y ) X Sum Y B x y y (y 2 y ) X Sum 38 MKM metoden er fundamentet i de beregninger, der indgår i en regressionsmodel. Alle formler der MKM metoden er fundamentet i de beregninger, der indgår i en regressionsmodel. Alle ligger til grund for beregninger af regressionsmodellen findes i følgende afsnit under punkt 3. Til formler der ligger til grund for beregninger af regressionsmodellen findes i følgende afsnit beregning af regressionsmodeller anvendes i praksis Excel og Statlearn programmet. under punkt 3. Til beregning af regressionsmodeller anvendes i praksis Excel og Statlearn I det følgende programmet. redegøres for den formelle fremgangsmåde, der anvendes til regressionsanalyse. I det følgende redegøres for den formelle fremgangsmåde, der anvendes til regressionsanalyse. Med Af fokus Stephan på erhvervslivet Skovlund (Copyright) s. Side

187 Regressionsanalyse Fremgangsmåde ved regressionsanalyse I dette afsnit diskuteres fremgangsmåden, der anvendes i forbindelse med simpel lineær regressionsanalyse. I korte træk kan fremgangsmåden opridses i nedenstående punkter: 1. Formuler regressionsmodel (simpel eller multipel). 2. Opstil modellens forudsætninger. 3. Beregn regressionskoefficienter (skæring og hældning). 4. Fortolkning af determinationskoefficient. 5. Test af modellens koefficienter. 6. Validering af om modellens forudsætninger er opfyldt (residualanalyse). I det følgende uddybes de enkelte punkter i fremgangsmåden. 1. Formuler regressionsmodel Simpel lineær regressionsmodel for henholdsvis stikprøve og population: Tabel 83: Stikprøvemodel y 5 b 0 1 b 1? X 1 Populationsmodel Y 5 b 0 1 b 1? X 1 1 Hvor y og Y er regressionsestimater, b 0 og b 0 er skæringen med y-aksen, b 1 og b 1 er hældningen, og b 0 og er residualet. Et residual er som tidligere nævnt et udtryk for afvigelsen mellem regressionsestimatet og den observerede værdi. 2. Opstil modellens forudsætninger a) Sammenhængen mellem X og Y skal være lineær b) Residualerne skal være normalfordelte med en middelværdi på nul c) Residualerne skal have konstant varians d) Residualerne skal være uafhængige af hinanden Forudsætningerne angives formelt som: ~ N(m,s) Ad a) Sammenhængen mellem X og Y skal være lineær. Illustreres data med en graf, skal der være en relativ lineær sammenhæng mellem X og Y. Det er vigtigt, at observationerne ikke følger en parabel, hyperbel eller anden kurvelignende funktion. Ad b) Residualerne skal være normalfordelte med en middelværdi på nul. s. 187

188 Regressionsanalyse Ad b) Residualerne skal være normalfordelte med en middelværdi på nul. Ad b) Residualerne skal være normalfordelte med en middelværdi på nul. Residualerne Ad b) Residualerne skal være skal normalfordelte være normalfordelte med en med middelværdi en middelværdi på nul. på I graf nul. B ses at den overvejende Residualerne skal være normalfordelte med en middelværdi på nul. I graf B ses at den andel Residualerne af residualerne skal være ligger normalfordelte under 0, hvilket med betyder en middelværdi at fordelingen på nul. ikke er I graf normal B ses men at den skæv. Dette overvejende andel af residualerne ligger under 0, hvilket betyder at fordelingen ikke er normal resulterer Residualerne i et negativt skal være residualgennemsnit. normalfordelte med en middelværdi på nul. I graf B ses at den overvejende andel af residualerne ligger under 0, hvilket betyder at fordelingen ikke er normal overvejende men skæv. Dette andel resulterer af residualerne i et negativt ligger under residualgennemsnit. 0, hvilket betyder at fordelingen ikke er normal Residualdiagram: men skæv. Dette Vurdering resulterer af i normalfordeling et negativt residualgennemsnit. men skæv. Dette resulterer i et negativt residualgennemsnit. Residualdiagram: Vurdering af normalfordeling Residualdiagram: FIGUR 66: Vurdering af normalfordeling Residualdiagram: Vurdering af normalfordeling Graf A: Middelværdi =0 Graf A: Middelværdi =0 Graf A: Middelværdi = Graf B: Negativ middelværdi Graf B: Negativ middelværdi Graf B: Negativ middelværdi Ad Ad c) c) Residualerne skal skal have have en en konstant konstant variation, variation, der der må må ikke ikke udvikles udvikles en stigende stigende variation, variation som Ad c) Residualerne skal have en konstant variation, der må ikke udvikles en stigende variation modvirker Ad som c) modvirker Residualerne konsistente konsistente skal regressionsestimater. have en konstant variation, der må ikke udvikles en stigende variation som modvirker konsistente regressionsestimater. Residualdiagram: som modvirker konsistente Vurdering regressionsestimater. af variation Residualdiagram: Vurdering af variation Residualdiagram: Vurdering af variation Residualdiagram: FIGUR 67: Vurdering af variation Graf A: Konstant varians Graf A: Konstant varians Graf A: Konstant varians Graf B: Stigende varians 200 Graf B: Stigende varians Graf B: Stigende varians Ad d) Residualerne skal være uafhængige af hinanden. Hvis det modsatte gør sig gældende, Ad Ad d) Residualerne skal være uafhængige af hinanden. Hvis det modsatte gør sig Ad kan d) d) der Residualerne Residualerne opstå mønstre skal skal i være være datasættet, uafhængige uafhængige hvilket af bryder hinanden. hinanden. forudsætningen Hvis Hvis det det modsatte modsatte om lineære gør gør sig sammenhænge. sig gældende, gældende, kan der kan opstå der mønstre opstå mønstre i datasættet, i datasættet, hvilket hvilket bryder bryder forudsætningen om lineære om lineære sammenhænge. Rent kan Rent der praktisk opstå mønstre vil afhængigheden i datasættet, reducere hvilket bryder nøjagtigheden forudsætningen af regressionsestimaterne. om lineære sammenhænge. praktisk Rent vil praktisk afhængigheden vil afhængigheden reducere reducere nøjagtigheden nøjagtigheden af regressionsestimaterne. af regressionsestimaterne. Rent praktisk vil afhængigheden reducere nøjagtigheden af regressionsestimaterne. Residualdiagram: Vurdering af afhængighed Residualdiagram: Vurdering af afhængighed Residualdiagram: Vurdering af afhængighed FIGUR 68: Graf A: Uafhængighed Graf A: Uafhængighed Graf A: Uafhængighed Graf B: Afhængighed 200 Graf B: Afhængighed Graf B: Afhængighed s. 188 Af Stephan Skovlund (Copyright) Side 205 Af Stephan Skovlund (Copyright) Side 205 Af Stephan Skovlund (Copyright) Side 205

189 Regressionsanalyse 3. Beregn regressionskoefficienter (skæring og hældning) Til beregning af regressionskoefficienterne anvendes Statlearn programmet. Formlerne for de enkelte koefficienter fremgår af nedenstående tabel. Tabel 84: Estimat b 0 b 1 SAP xy Beregning y 2 b 1? x SAP xy SAK x n (x i 2 x)(y i 2 y) i51 SAK x (x i 2 x) 2 i51 n SAK y (y i 2 y) 2 i51 n Bemærk at SAK y anvendes til beregning af determinationskoefficienten, se punkt Fortolkning af determinationskoefficient Den første indikation af regressionsmodellens overordnede anvendelighed læser vi ud fra determinationskoefficienten (R 2 ). R2 5 SAP2 xy SAK x Formler til beregning af hjælpestørrelserne SAP xy, SAK x og SAK y fremgår under punkt 3. Determinationskoefficienten er et overordnet mål for hvor meget af den totale variation mellem X og Y, der forklares af regressionsmodellen. Værdien af determinationskoefficienten spænder fra 0-1, jo nærmere 1 desto mere præcist vil regressionsmodellen gengive sammenhængen mellem X og Y. Det er vigtigt ikke at forveksle determinationskoefficienten med præcisionen af regressionsestimatet. En determinationskoefficient på 90 % betyder ikke, at regressionsmodellens estimater vil være 90 % nøjagtige. De 90 % er udelukkende et mål for modellens overordnede evne til at forklare sammenhængen mellem X og Y. s. 189

190 Med fokus på regressionsmodellens erhvervslivet estimater vil være 90 % nøjagtige. De 90 % er udelukkende Regressionsanalyse et mål for modellens overordnede evne til at forklare sammenhængen mellem X og Y. I nedenstående ses hvordan determinationskoefficienten afspejler sammenhængen mellem X og Y. I nedenstående ses hvordan determinationskoefficienten afspejler sammenhængen mellem X og Y. FIGUR 69: 100 Y R 2 = 0, Y R 2 = X X Test af modellens koefficienter: 5. Test af modellens koefficienter: Som nævnt er en høj R 2 en væsentlig indikation af regressionsmodellens anvendelighed. Som nævnt er en høj R 2 en væsentlig indikation af regressionsmodellens anvendelighed. Foruden en høj R 2 har Foruden det også en høj stor R 2 betydning, har det også at stor hældningskoefficienten betydning at hældningskoefficienten (b 1 ) er signifikant, hvilket er signifikant, vil sige at hældningen hvilket er vil forskellig sige at fra hældningen 0. Husk på er at forskellig regressionsmodellens fra 0. Husk på, hældning at en regressionsmodellens ofte beregnes ud fra en stikprøve, hældning og er derfor ofte beregnes ikke nogen ud fra garanti en stikprøve, for, at der og er er en derfor reel hældning. ikke nogen Derfor garanti testes for at altid der er om en reel hældningen er signifikant, hvilket i den sammenhæng betyder, at hældningen er forskellig fra 0. Er hældning. Derfor testes altid om hældningen signifikant, hvilket i den sammenhæng betyder at hældningen ikke signifikant, udelukker vi en sammenhæng mellem X og Y, hvilket fører til at regressionsmodellen hældningen forkastes. er forskellig fra 0. Er hældningen ikke signifikant udelukker vi en sammenhæng mellem X og Y hvilket fører til at regressionsmodellen forkastes. Generelt antages hældningskoefficienten at være signifikant, hvis p-værdien er mindre end 5 %. I nedenstående Generelt eksempel antages på hældningskoefficienten regressionsoutput fra at Excel være er signifikant p-værdien hvis for p-værdien hældningen er mindre tydeligvis end 5 %. signifikant, hvilket indikerer en stærk sammenhæng mellem de givne X og Y variable. I nedenstående eksempel på regressionsoutput fra Excel er p-værdien for hældningen tydeligvis signifikant, hvilket indikerer en stærk sammenhæng mellem de givne X og Y Tabel 85: variable. Koefficienter p-værdi Skæring 10,543 Koefficienter 0,4903 p-værdi Skæring 10,543 0,4903 Hældning 5,322 0,0004 Hældning 5,322 0,0004 Med fokus Af på Stephan erhvervslivet Skovlund (Copyright) s. 190Side 207

191 Regressionsanalyse Eksempel på anvendelse af simpel lineær regression I det følgende foretages en regressionsanalyse på baggrund af 20 tilfældigt udvalgte sælgere der sælger konsulentydelser til finanssektoren. Modellen ser på sammenhængen mellem. Analysen følger den fremgangsmåde, der blev skitseret i forrige afsnit. De data der ligger til grund for beregningerne findes i regressionsappendiks 2. Alle beregninger er udført med Statlearn programmet. Fremgangsmåde: 1. Regressionsmodel Stikprøvemodel: Populationsmodel: y 5 b 0 1 b 1? X 1 Y 5 b 0 1 b 1? X Forudsætninger a) Sammenhængen mellem X og Y skal være retlinjet (lineær). b) Residualerne skal være normalfordelte med en middelværdi på nul c) Residualerne skal have konstant varians d) Residualerne skal være uafhængige af hinanden Forudsætningerne betegnes 3. Beregning regressionskoefficienterne (Beregninger ses i regressionsappendiks 3) Skæring ,647 Hældning ,058 Estimeret regressionslinje: y , ,058? X 1 Hvor b 0 5 y 2 b 1 x og b 1 5 SAPxy SAK x SAPxy 5 n i51 (x 1 x )(y 1 y ) og SAKx 5 n i51 (x 1 x ) 4. Fortolkning af determinationskoefficient (Beregninger ses i regressionsappendiks 3) Determinationskoefficienten (R 2 ) er på 83 %, hvilket betyder, at regressionsmodellen forklarer 83 % af den samlede variation mellem anciennitet og salg. Den høje forklaringsgrad er det første tegn på, at modellen er god til at forklare den sammenhæng der analyseres. s. 191

192 Regressionsanalyse 5. Test af modellens koefficienter (Beregninger ses i regressionsappendiks 3 Ved test af modellens koefficienter afgøres om koefficienterne er signifikante, hvilket vil sige forskellige fra 0. Som vi var inde på, bør p-værdien være under 5 %, for at hældningen kan siges at være signifikant. I dette eksempel er p-værdien for hældningen tilnærmelsesvis nul, hvilket er en stærk indikation af sammenhæng mellem anciennitet og salg. Rent teoretisk betyder det, at hypotesen som angiver at hældningen er 0 forkastes. Tabel 86: Koefficienter t-stat P-værdi Skæring ,647 3,207 0,0049 Hældning ,058 9,387 ~ 0 6. Validering af modellens forudsætninger Regressionsanalysen afsluttes med en residualanalyse. En ofte anvendt metode er, at betragte et residualdiagram regressionsmodellens og vurdere om estimater residualerne vil være tilnærmelsesvis 90 % nøjagtige. er normalfordelte De 90 % er udelukkende og har konstant et mål for varians. I nedenstående modellens overordnede diagram forekommer evne til at forklare spredningen sammenhængen af residualer mellem relativt X og ensartede Y. og normalfordelte. Der er dog enkelte observationer ved 7 og 11 år, som ligger langt under regressionsmodellens I estimat, nedenstående hvilket ses fører hvordan til de determinationskoefficienten store residualafvigelser. afspejler sammenhængen mellem X og Y. FIGUR 70: 100 Y R 2 = 0, Y R 2 = X X Test af modellens koefficienter: Som nævnt er en høj R 2 en væsentlig indikation af regressionsmodellens anvendelighed. Foruden en høj R 2 har det også stor betydning at hældningskoefficienten er signifikant, hvilket vil sige at hældningen er forskellig fra 0. Husk på, at en regressionsmodellens hældning ofte beregnes ud fra en stikprøve, og er derfor ikke nogen garanti for at der er en reel hældning. Derfor testes altid om hældningen signifikant, hvilket i den sammenhæng betyder at hældningen er forskellig fra 0. Er hældningen ikke signifikant udelukker vi en sammenhæng Med fokus på mellem erhvervslivet X og Y hvilket fører til at regressionsmodellen forkastes. s. 192 Generelt antages hældningskoefficienten at være signifikant hvis p-værdien er mindre end 5 %. I nedenstående eksempel på regressionsoutput fra Excel er p-værdien for hældningen

193 Regressionsanalyse Forudsigelsesinterval Et regressionsestimat svarer til et simpelt punktestimat. Begge estimater har det til fælles, at de er baserede på stikprøver og derfor rummer en vis usikkerhed. For at kvantificere denne usikkerhed og bestemme nøjagtigheden af et regressionsestimat, kan et forudsigelsesinterval anvendes. Tanken med forudsigelsesintervallet er, at beregne et interval for værdien af den afhængige variabel (Y), når den uafhængige variabel (X) antager en vilkårlig værdi. Fortsættes eksemplet fra foregående afsnit, hvor vi så på sammenhængen mellem salg af konsulentydelser og salgsanciennitet, kan vi ud fra regressionsmodellen 14 beregne, at en sælger med 10 års anciennitet vil få et estimeret salg på kr. y , ,058? De kr. er et simpelt estimat på lige fod med et punktestimat beregnet ud fra en stikprøve. Præcisionen af regressionsestimatet kendes ikke. Det er i den forbindelse at et forudsigelsesinterval bliver relevant. Med et forudsigelsesinterval kan vi knytte en øvre og nedre grænse til regressionsestimatet og dermed sandsynliggøre, hvor konsulentens omsætning kommer til at ligge. Beregnes et 95 % forudsigelsesinterval af salget for en konsulent med 10 års salgsanciennitet, bliver resultatet et interval mellem og kr. I den sammenhæng kan det konkluderes, at en konsulent med 10 års erfaring kommer til at omsætte konsulentydelser for mellem og kr. med 95 % sandsynlighed. Tabel 87: 95 % Forudsigelsesinterval Estimat N. grænse Ø. grænse For Y når For E(Y) Formler for forudsigelsesintervallerne samt eksempelberegningerne i ovenstående fremgår af regressionsappendiks 4 og 5. Forudsigelsesinterval for Y betyder, at en enkelt konsulent med 10 års anciennitet med 95 % sandsynlighed vil omsætte for mellem og kr. Forudsigelsesinterval for E(Y) betyder derimod, at alle konsulenter med 10 års erfaring gennemsnitligt vil sælge mellem og kr. Intervallet for den forventede værdi E(Y) vil altid være mere snævert end intervallet for den enkeltstående observation (Y). Dette forhold kan tilskrives at variansen for et punktestimat altid er mindre end variansen for den enkeltstående observation Dette er beskrevet mere uddybende i afsnittet om konfidensintervaller. 14 Under punkt 3 i foregående afsnit blev regressionsmodellen estimeret til y , ,058? X s. 193

194 Regressionsanalyse Multipel regression Forskellen på multipel og simpel lineær regression er ligetil. Ved multipel regression anvendes mere end én uafhængig variabel til at forklare udviklingen i afhængige variabel. Derved tilføjes et ekstra led i notationen: Simpel lineær regression: Y 5 b 0 1 b 1? X 1 1 Multipel lineær regression: Y 5 b 0 1 b 1? X 1 1 b 2? X b n? X n 1 Formålet med multipel regression er at øge modellens forklaringsevne (R 2 ) ved at inddrage flere variable (x i,... X n ) til at forklare udviklingen i Y. I forrige afsnit var regressionsmodellen baseret på to variable: Salgsanciennitet (X 1 ) udtrykt i antal år og salg i kr. (Y) For at illustrere multipel regression kan vi udbygge eksemplet ved at inddrage en ny variabel (X 2 ) i form af Antal månedlige kundebesøg. Y 5 b 0 1 b 1? X 1 1 b 2? X 2 1 Hensigten med at inddrage en ekstra forklarende variabel er som nævnt, at skabe en mere nøjagtig model og dermed få bedre regressionsestimater af salget. EKSEMPEL I nedenstående fremgår beregningen af den multiple regressionsmodel. Det data der ligger til grund for beregningerne findes i regressionsappendiks 6. Statlearn programmet er anvendt til beregningen. Koefficienterne til den multiple regressionsmodel: Tabel 88: Koefficient Koefficientværdi Standardfejl t-stat p-værdi Skæring , ,186 1,327 0,203 X 1 : Anciennitet (år) , ,670 7,419 0,000 X 2 : Kundebesøg/måned , ,016 0,811 0,429 Således opstilles modellen: y , ,477? X ,294? X 2 Med den multiple regressionsmodel kan vi estimere salget ud fra ændringer i henholdsvis salgsancienitet og antallet af månedlige kundebesøg. Hvis vi eksempelvis antager, at en sælger har 5 års salgserfaring og aflægger 15 månedlige kundebesøg, så estimeres sælgerens salg til at være omkring 2,5 millioner kr. : y , ,477? ,294? kr. s. 194

195 Regressionsanalyse På lige fod med simple regressionsmodeller anvendes forudsigelsesintervaller også i forbindelse med multiple regressionsmodeller. Som nævnt i afsnittet om forudsigelsesintervaller er formålet at beregne et interval, hvori værdien af den afhængige variabel (Y) vil ligge med en given sandsynlighed. Denne relativt formeltunge beregning udføres med ToolBoox programmet og er dokumenteret i regressionsappendiks 5. Faldgrupper ved multipel regression Når du anvender multipel regression er forudsætningerne de samme som under simpel lineær regression, men der er et ekstra forhold, du skal være opmærksom på: Multikollinearitet. Multikollinearitet betyder, at en eller flere af de forklarende variable (X i X n ) er afhængige af hinanden. Tilstedeværelsen af multikollinearitet manipulerer regressionsmodellens koefficienter og dermed anvendelighed. Ideelt set bør de forklarende variable være 100 % uafhængige af hinanden, og hver især bidrage med unik information til at forklare sammenhængen med den afhængige variabel (Y). EKSEMPEL Chefen for telesalg hos Telia ønsker, at beregne en regressionsmodel der forklarer salget af erhvervsabonnementer ud fra antallet af daglige salgsopkald og sælgerens erfaring målt i måneder. Både antallet af salgsopkald og salgserfaring er variable, vi med rimelighed må antage kan påvirke salget. Dog er valget af de to variable problematisk, eftersom antallet af salgsopkald og erfaring formentligt også afhænger af hinanden. En sælger med lang erfaring vil formentligt kunne foretage flere opkald end en person uden tilsvarende erfaring. Der vil således være tale om multikollinearitet, da begge forklarende variable (X 1 og X 2 ) påvirker hinanden. I dette eksempel har vi kunne ræsonnere os frem til en situation med multikollinearitet. I praksis identificeres tilstedeværelsen af multikollinearitet ved at anvende korrelationsanalyse. Som nævnt i afsnittet om korrelationsanalyse, udtrykkes styrken af en sammenhæng mellem to variable af korrelationskoefficienten (r). Afhængig af om relationen er positiv eller negativ, varierer korrelationskoefficientenfra 1 til 1 1. Ideelt set bør korrelationskoefficienten for de uafhængige variable (X i X n ) i en multipel regressionsmodel altid være nul. Dette vil betyde, at der et fravær af multikollinearitet, og at de uafhængige variable ikke påvirker hinanden. I praksis vil der som regel kunne spores en vis grad af afhængighed. Der findes ingen håndfast definition af, hvor meget de forklarende variable må korrelere, inden der tales om multikollinearitet. I det lys vil jeg anbefale, at du vælger at kommentere, hvis enkelte variable i din multiple regressionsmodel er væsentligt mere korrelerede end de øvrige. Vær særlig opmærksom på store forandringer i determinationskoefficienten (R 2 justeret) når du tilføjer en ny variabel til din multiple regressionsmodel. Dette vil ofte skyldes multikollinearitet. s. 195

196 Regressionsanalyse EKSEMPEL I nedenstående korrelationsmatrix ses en tydelig afhængighed mellem antal kundebesøg (x 1 ) og anciennitet (x 2 ), hvilket er tegn på multikollinearitet. På den baggrund bør modellen reduceres således, at det kun er en enkelt variabel der anvendes til at forklare udviklingen af salget. Tabel 89: Variabel Salg i Kr. Anciennitet (år) Kundebesøg/måned Salg i kr. (Y) 1 Anciennitet i år (X1) 0,911 1 Kundebesøg/måned (X2) 0,602 0,618 1 I vores tilfælde er der tydelig korrelation mellem kundebesøg og anciennitet (x 1 og x 2 ), hvilket er tegn på multikollinearitet. Dog vil der ofte være en mindre grad af korrelation, uden at det behøver at have den store betydning. Der findes ikke håndfaste regler for hvor meget de forklarende variable må korrelere, men hvis du kan se, at der er store ændringer i determinationskoefficienten (R 2 ), når du tilføjer en ny variabel i din model, kan det anbefales at du laver en korrelationsanalyse og kommenterer i hvor høj grad variablerne er relaterede, se afsnit om korrelationsanalyse. Valg af den optimale regressionsmodel Et af de centrale omdrejningspunkter i forbindelse med regressionsanalyse er, at finde den model der er mest velegnet til at beskrive en lineær sammenhæng. Som vi var inde på med multipel regressionsanalyse, er det muligt at inddrage utallige variable (X i ) til at forklare udviklingen af Y. Kunsten er, at sammensætte regressionsmodellen med lige netop de variable, der bedst forklarer udviklingen af Y. Til det formål anvendes determinationskoefficienten (R 2 ). Med determinationskoefficienten har vi et kvantitativt mål for regressionsmodellens evne til at beskrive en sammenhæng. Som vi var inde på, er determinationskoefficienten en ratio for hvor meget af den totale variation mellem X i og Y der forklares af regressionsmodellen. Værdien af determinationskoefficienten spænder fra 0 til 1 jo tættere på 1 desto bedre er modellen til at forklare en mulig sammenhæng. Er værdien af determinationskoefficienten 1, betyder det en fuldstændig perfekt lineær sammenhæng, og tilsvarende vil en determinationskoefficient på 0 betyde, at der ingen sammenhæng er mellem X i og Y. s. 196

197 Regressionsanalyse Sammenligning af regressionsmodeller Antag at du har beregnet to regressionsmodeller til at forklare omsætningen i en virksomhed. Model 1 inddrager udelukkende antallet af sælgere til at forklare salget. Model 2 forklarer salget ud fra reklameudgifter til henholdsvis radio og internet. Modellernes determinationskoefficienter (R 2 ) ses i nedenstående: Model 1: Simpel regression: R 2 5 0,837 Model 2: Multipel regression: justeret R 2 5 0,630 Ud fra determinationskoefficienterne er det tydeligt, at model 1 er mest velegnet til at forklare salget. Mere konkret forklarer antallet af sælgere omkring 84 % af udviklingen i salget. Inddragelsen af en ekstra variabel i model 2 har således en skadelig effekt på modellens evne til at forklare salget. Pointen er, at modellens forklaringsevne (R 2 ) ikke nødvendigvis øges ved at tilføje en ny variabel i modellen. Tilføjelse af en kvalitativ variabel (dummy variabel) I de foregående afsnit har regressionsmodellerne været baseret på kvantitative (tal) variable, eksempelvis kundebesøg målt i antal og salgserfaring målt i år. Som du sikkert har gættet, kan der sagtens være variable der ikke er kvantitative, men som alligevel har stor indflydelse på den variabel vi søger at forklare (Y). Hvis du ønsker at udbygge din regressionsmodel med en kvalitativ variabel som eksempelvis køn, kan du tilføje en såkaldt dummy variabel. En dummy variabel er kendetegnet ved at antage to værdier: 0 eller 1. EKSEMPEL I nedenstående ses en regressionsmodel der viser sammenhængen mellem pensionsopsparing (Y), alder (X 1 ) og køn (X 2 ). Regressionsmodel: y 5 b 0 1 b 1? X 1 1 b 2? X 2 Hvor y er den estimerede pensionsopsparing, X 1 er alder målt i år og X 2 er køn, hvor 0 står for en mand og 1 for en kvinde. Statlearn programmet er anvendt til beregning af modellen. De data der ligger til grund for beregningerne findes i regressionsappendiks 7. y , ,627? X ,436? X 2 Den negative skæring på omkring kr. er ikke ensbetydende med, at et nyfødt barn (0 år) kommer til verden med en gæld på kr. Den negative skæring skyldes udelukkende regnetek- s. 197

198 Regressionsanalyse niske årsager, eftersom modellen skal gå igennem y-aksen i det punkt hvor X antager værdien nul. I den sammenhæng skal du være særlig opmærksom på, at regressionsmodeller kun må anvendes indenfor det datainterval, som modellen bygger på. I vores tilfælde ligger aldersobservationerne i intervallet fra 18 år til 88 år, hvilket betyder at regressionsestimaterne kun bør beregnes indenfor pågældende interval. Den negative hældning for dummy variablen (X 2 ) på knap kr. betyder, at det kvindelige køn har en negativ effekt på pensionsopsparing. Mere konkret estimeres at kvinder vil have mindre på deres pensionsopsparing end mænd. (NB: Data er fiktive ) Øvelser med regressionsanalyse De første spørgsmål er relateret til fortolkning, her skal du med egne ord forsøge at forklare betydningen af specifikke regressionsbegreber. Efterfølgende er opgaverne rettet mod beregninger. Fortolkningsøvelser 1. Hvad er formålet med regressionsanalyse? 2. Hvad er forskellen på korrelations og regressionsanalyse? 3. Hvad er forskellen på de to nedenstående regressionsmodeller: y 5 b 0 1 b 1? X 1 og Y 5 b 0 1 b 1? X 1? 4. I nedenstående ses en regressionsmodel for sammenhængen mellem salg af is og udendørstemperatur: y ? X hvor X er grader i celsius og y salget af is i antal. a) Hvordan vil du fortolke regressionslinjens hældning og skæring? b) Er der tale om simpel eller multipel regression? 5. Kan en regressionslinje have flere afhængige variable (Y i )? 6. Hvordan vil du beskrive betydningen af determinationskoefficienten (R 2 )? 7. Kan determinationskoefficienten alene bestemme om en regressionslinje er anvendelig? 8. Hvilke forudsætninger ligger til grund for regressionsanalyse? 9. I hvilken sammenhæng optræder begrebet multikollinearitet? 10. Hvorfor er det vigtigt, at p-værdien for hældningen er mindre end 5 %? s. 198

199 Regressionsanalyse Beregningsøvelser Opgave 1. For at budgettere rigtigt ønsker et biludlejningsfirma, at undersøge sammenhængen mellem vedligeholdelsesudgifter og antallet af kørte kilometer for biler i udlejningsklasse A. I nedenstående tabel ses data for 15 tilfældigt udvalgte biler i klasse A. Tabel 90: Kørte km (i ) Vedligeholdelse udgifter (i tusind) Spørgsmål 1. Spørgsmål 2. Spørgsmål 3. Spørgsmål 4. Spørgsmål 5. Spørgsmål 6. Spørgsmål 7. Spørgsmål 8. Spørgsmål 9. Identificer den afhængige og uafhængige variabel. Opstil uden beregninger en model, der kan beskrive sammenhængen mellem vedligeholdelsesudgifter og antallet af kørte kilometer. Estimer regressionsmodellens koefficienter (hældning og skæring). Hvordan vil du vurdere regressionslinjens evne, til at forklare variationen mellem vedligeholdelsesudgifter og antallet af kørte kilometer? Vurder om regressionsmodellen er anvendelig Beregn et estimat af vedligeholdelsesudgifterne, når en tilfældigt udvalgt bil har kørt km. Fortolk estimatet fra spørgsmål 6 og kommenter hvilket usikkerhedsmoment, der er forbundet hermed. Bestem et 80 % konfidensinterval for regressionslinjens skæring og hældning. Hvorfor det kan være en god ide, at beregne et forudsigelsesinterval for regressionsestimatet. Spørgsmål 10. Beregn et 95 % forudsigelsesinterval for vedligeholdelsesudgifterne, når en tilfældigt udvalgt bil har kørt km Opgave 2. Ledelsen af Hilton hotellerne er ved at evaluere, om en ny grund på Bahamas er egnet til hoteldrift. For at vurdere om hotellet ligger tæt nok på stranden, ønsker ledelsen at beregne en model, der beskriver sammenhængen mellem Hilton hotellernes belægningsprocent og afstanden til stranden. Herudover ønsker ledelsen også, at se effekten af at have mange swimmingpools. s. 199

200 Regressionsanalyse Stikprøve med data for belægningsprocent, afstand til stranden og antal swimmingpools Tabel 91: Belægningsprocent Afstand til stranden (m) Antal pools Spørgsmål 1. Identificer den afhængige og de uafhængige variable. Spørgsmål 2. Estimer modellens parametre og giv en fortolkning af modellens overordnede evne til at estimere belægningsprocenten. Spørgsmål 3. Hvis der er 2 swimmingpools og 250 meter til stranden, hvad er så estimatet for belægningsprocenten? Spørgsmål 4. Er der nogen af modellens parametre vi kunne udlade (modelreduktion)? Spørgsmål 5. Hvad kan skyldes at antallet at afstanden til stranden har en negativ effekt på belægningsprocenten? Spørgsmål 6. Hvilken betydning har den geografiske beliggenhed for belægningsprocenten? Anvend dummy variabel og fortolk hældningen. (Data fremgår af følgende side) Tabel 92: Belægningsprocent Afstand til stranden (m) Antal swimmingpools Dummy: USA (1) Europa (0) s. 200

201 Regressionsanalyse Tidligere eksamensøvelser med regressionsanalyse Eksamensøvelserne samt facit kan downloades fra statlearn.com under menupunktet: Ekstra øvelser. Øvelser med regressionsanalyse (sideangivelse samt opgavenummer): Side 12/ Side 17/ Side 28/4.3 Side 32/4.1 Side 36/ Side 42/4.1 Løsninger til regressionsanalyse Fortolkningsøvelser 1. At beregne en model for den lineære sammenhæng mellem to eller flere variable. 2. Med korrelationsanalyse beregnes udelukkende om styrken af sammenhængen mellem to variable er svag eller stærk. Ved anvendelse af regressionsanalyse beregnes en model, der anvendes til at estimere udviklingen af Y (den afhængig variabel) ved ændringer i X (den uafhængige/forklarende variabel). 3. Regressionsmodellen for stikprøven betegnes y 5 b 0 1 b 1? X 1 og for populationen gælder Y 5 b 0 1 b 1? X 1?. 4. Ved en temperatur på nul grader estimeres salget til 10 is. Når temperaturen stiger med 1 grad, estimeres salget at stige med 5 is. Der er tale om simpel lineær regression, da modellen kun har en enkelt uafhængig variabel (multipel regression har mindst 2) 5. En regressionsmodel har kun en afhængig variabel og en eller flere uafhængige variable. 6. Determinationskoefficienten (R 2 ) fortolkes som regressionsmodellens evne til at forklare den givne sammenhæng. R 2 er en ratio der spænder fra 0 til 1. Jo tættere på 1 desto større er sammenhængen mellem modellens variable. En R 2 på 1 (100 %) betyder, at der er fuldstændig lineær sammenhæng mellem de valgte variable Tilsvarende betyder en R 2 på 0, at der ingen sammenhæng er. 7. For at anvende regressionsmodellen, er det vigtigt at p-værdien for modellens hældning(er) ikke overstiger 5 %. En p-værdi der overstiger 5 % betyder, at H 0 hypotesen om at hældningen er nul accepteres. Accepteres H 0 hypotesen betyder det således, at X variablen ingen sammenhæng har med Y variablen. s. 201

202 Regressionsanalyse 8. Der skal først og fremmest være en lineær sammenhæng mellem X og Y. Herudover skal residualerne (forskellen på regressionsestimat og observation) være normalfordelte omkring regressionslinjen med en konstant varians. Som det sidste må der ikke være afhængighed mellem residualerne. Afhængigheden må kun være mellem X og Y. 9. Multikollinearitet opstår i forbindelse med multipel regressionsanalyse. Multikollinearitet betyder, at der er indbyrdes afhængighed mellem de uafhængige variable (X i ). 10. Er p-værdien for hældningen over 5 % er hovedreglen, at regressionsmodellen forkastes. Er der tale om multipel regression, er det ofte tilfældet at enkelte p-værdier overstiger 5 %. I det tilfælde kan de/den variabel som overstiger 5 % fjernes fra modellen. Efterfølgende beregnes en ny regressionsmodel med de resterende variable. Beregningsøvelser Opgave 1. Spørgsmål 1. Vedligeholdelsesudgifterne afhænger af antal kørte kilometer. Spørgsmål 2. y 5 b 0 1 b 1? X 1 (stikprøve regressionsmodel) Y 5 b 0 1 b 1? X 1 1 (regressionsmodel for population)" Hvor b 0 og b 0 er modellens skæring og b 1 samt b 1 er modellens hældning. Symbolet repræsenterer residualet, som er afvigelsen mellem regressionsestimatet og den faktiske observation af Y. Spørgsmål 3. Tabel 93: Koefficient Koefficient værdi b 0 : Skæring 3,187 b 1 : Kørte km (i ) 1,813 Spørgsmål 4. Modellen forklarer 97 % af variationen (R 2 ) mellem kørsel og vedligeholdelsesudgifter, hvilket er tæt på en fuldkommen lineær sammenhæng (5 god model). s. 202

203 Regressionsanalyse Spørgsmål 5. Modellen er særdeles anvendelig. Som nævnt er R 2 høj og p-værdien for hældningen er tilnærmelsesvis nul, hvilket er betydeligt mindre end de 5 %, der er toleranceværdien (5 testniveauet). Tabel 94: Koefficient Koefficient værdi p-værdi Skæring 3,1875 0,0208 Kørte km (i ) 1,8125 ~ 0 Spørgsmål 6. y 5 3, ,8125? ,3125 tusind kr. (nb: udgifter er angivet i 1000 og antal kørte km i ) Spørgsmål 7. Da udgifter måles i tusind betyder det, at de estimerede vedligeholdelsesudgifter er omkring kr., når en bil har kørt kilometer. Da regressionsestimatet for de forventede vedligeholdelsesudgifter er baseret på en stikprøve, vides ikke hvor tæt estimatet ligger på den reelle forventede udgift, hvilket vil sige den udgift, man havde beregnet med regressionsmodellen for en hel population. Spørgsmål 8. Tabel 95: Nedre 80 % Øvre 80 % Skæring 1,5516 4,8234 Hældning 1,6917 1,9333 Spørgsmål 9. Med et forudsigelsesinterval beregnes et interval, hvor i den forventede værdi af den afhængige variabel (Y) vil ligge med en given sandsynlighed. Spørgsmål 10. Forudsigelsesinterval for Y: 26,783 til 33,967 Forudsigelsesinterval for E(Y): 29,382 til 31,368 s. 203

204 Regressionsanalyse Opgave 2. Spørgsmål 1. Belægningsprocenten afhænger af de to øvrige variable. Spørgsmål 2. Tabel 96: Koefficient Koefficient værdi Skæring 97,056 Afstand til stranden (m) 20,029 Antal pools 0,765 Justeret R 2 0,870 Den høje determinationskoefficient (justeret R 2 ) vidner om, at modellen er god til at forklare udviklingen af belægningsprocenten ud fra antallet af swimmingpools og afstanden til stranden. Spørgsmål 3. y 5 97, ,029? ,765? ,38082 % Spørgsmål 4. Tabel 97: Koefficienter p-værdi Skæring 97,056 ~ 0 Afstand til stranden (m) 20,029 0,001 Antal swimmingpools 0,765 0,577 Som det fremgår, har hældningen for antallet af swimmingpools en p-værdi som overstiger 5 %. Denne variabel bør derfor fjernes, således at det kun er afstanden til stranden der forklarer belægningsprocenten. Spørgsmål 5. Jo længere væk fra stranden desto mindre atraktivt. s. 204

205 Regressionsanalyse Spørgsmål 6. Beliggenhed i USA påvirker belægningsprocenten negativt med 1,6 %. Tabel 98: Koefficient Koefficient værdi Skæring 99,143 Afstand til stranden (m) 20,025 Antal pools 0,078 Dummy: USA (1) Europa (0) 21,600 s. 205

206 Regressionsanalyse Appendiks til regressionsafsnit Appendiks 1 Opkald salg ,2 4,8 8 Erfaring salg Appendiks 2 Salg i Kr. Sælgers anciennitet (i år) s. 206

207 Regressionsanalyse Appendiks 3 Beregning er udført med Statlearn programmet REGRESSIONSSTATISTIK R-kvadreret 0,830 Justeret R-kvadreret 0,821 Standardafvigelse ,576 Observationer 20 ANAVA Fg SS MS F obs F kritisk p-værdi Regression 1 28,306,909,975,516 28,306,909,975,516 88,118 4,414 0,000 Residual 18 5,782,303,573, Total 19 34,089,213,549,006 KOEFFICIENTTEST OG INTERVALLER Parametre Koefficienter Standard Afv. t-stat p-vaerdi Nedre 95% Øvre 95% Skæring , ,736 3, Anciennitet (i år) , ,047 9, Appendiks 4 Forudsigelsesinterval for den forventede y-værdi E(y 0 ) givet x 0 E(y 0 ) t n22 12a/2? s 2? 1 n 1 (x 0 2 x) 2 SAK x Hvor SAK x 5 n i51(x i 2 x) 2 Appendiks 5 Forudsigelsesinterval for enkeltstående y-værdi givet x 5 x 0 y 0 t n22 12a/2? n 1 1 n 1 (x 0 2 x) 2 SAK x s. 207

208 Regressionsanalyse Appendiks 6 Salg i Kr. Anciennitet (år) Kundebesøg/måned s. 208

209 Regressionsanalyse Appendiks 7 Pensionsopsparing (i kr) Alder (år) Køn (0 5 M, 1 5 K) s. 209

210 KAPITEL 9 STIKPRØVETEORI Statlearn.com

211 KAPITEL 9 Stikprøveteori I de foreløbige afsnit har vi forudsat, at stikprøver var baseret på simpel tilfældig udvælgelse. Denne udvælgelsesform er udbredt, men ikke altid det mest hensigtsmæssige valg. Styrken ved simpel tilfældig udvælgelse ligger i simpliciteten. Svagheden er, at stikprøverne sjældent bliver tilstrækkeligt repræsentative, hvilket især gør sig gældende ved små stikprøvestørrelser. Forestil dig et lille øsamfund med kun 1000 indbyggere fordelt på to byer, New Port og Mount Caine. New Port har 800 indbyggere og Mount Caine de resterende 200. Hvis vi udtager en lille stikprøve på 10 indbyggere ved anvendelse af simpel tilfældig udvælgelse, er der en potentiel risiko for at alle observationerne vil stamme fra den mindste by. Sandsynligheden for at udtage en stikprøve der kun består af indbyggere fra Mount Caine er naturligvis lav, men eksemplet illustrerer, at simpel tilfældig udvælgelse ikke nødvendigvis fører til repræsentative stikprøver. Der er i den sammenhæng behov for alternative udvælgelsesmetoder til at sikre repræsentative stikprøver. Stratificeret stikprøveudvælgelse er en metode, som på sin vis tvinger stikprøven til at blive repræsentativ. Med repræsentativ forstås, at stikprøven afspejler populationens sammensætning, således at punktestimater fra stikprøven bliver så nøjagtige som muligt. Med stratificeret stikprøveudvælgelse tages udgangspunkt i populationens sammensætning, inden stikprøven udvælges. I forbindelse med øsamfundet kan indbyggerne inddeles i to strata (populationssegmenter), New Port og Mount Caine. Tanken med stratificeret udvælgelse er, at lade andelene for populationen afspejle sig i stikprøven. Det betyder, at en stratificeret stikprøveudvælgelse 15 på 10 indbyggere vil indeholde 8 indbyggere fra New Port og de resterende 2 fra Mount Caine. Som udgangspunkt bør man anvende en stratificeret stikprøveudvælgelse. Det resulterer i mere repræsentative stikprøver end ved simpel tilfældig udvælgelse. Dette gælder særligt ved små stikprøvestørrelser, og når populationens forskellige strata (New Port og Mount Caine) er mere ensartede end populationen som helhed. 15 Ved anvendelse af proportionel stratifikation Videolektioner > s. 211

212 Stikprøveteori Introduktion til før og efterstratifikation Stratifikation kan inddeles i før og efterstratifikation. Ved førstratifikation fastlægges hvor mange elementer, der skal udtage fra hvert stratum inden stikprøven udvælges. I forbindelse med efterstratifikation er stikprøven allerede udvalgt. Formålet med efterstratifikation er således, at korrigere den udvalgte stikprøve og gøre den mere repræsentativ. Både før og efterstratifikation kan beregnes med Statlearn programmet. Førstratifikation Som nævnt er formålet med førstratifikation, at beregne hvor mange observationer der ideelt set skal udvælges fra de enkelte strata. Der sondres mellem to forskellige metoder: Proportional og optimal stratifikation. Proportional førstratifikation Ved proportional stratifikation lader man populationsandelene for hvert enkelt stratum styre, hvor mange observationer der udtages. Tager vi udgangspunkt i øsamfundet, ved vi at 80 % af indbyggerne bor i New Port og de resterende 20 % i Mount Caine. Lad os antage, at du var interesseret i at estimere øens gennemsnitsindkomst og til det formål vil udtage en stikprøve på 75 personer. Hvis proportional stratifikation anvendes, hvordan skal stikprøven så sammensættes med indbyggere fra New Port og Mount Caine? I nedenstående ses beregningerne for stikprøvens sammensætning af indbyggere fra de to byer. Det fremgår at populationsandelen for de to strata (New Port 80 % og Mount Caine 20 %) afspejles i stikprøven heraf betegnelsen proportional stratifikation. Tabel 99: N j N j /N (N j /N)? n New Port 800 0,8 60 Mount Caine 200 0,2 15 Total (N) Hvor n j stikprøvestørrelsen i stratum j, N j er populationsstørrelsen i stratum j, N er størrelsen af hele populationen og n er selve stikprøvestørrelsen. s. 212

213 Stikprøveteori Optimal førstratifikation Ved optimal stratifikation tages variansen med i betragtning, når stikprøvestørrelsen skal beregnes for de enkelte strata. En høj varians er tegn på store afvigelser fra gennemsnittet, hvilket alt andet lige øger stikprøveusikkerheden. Optimal stratifikation korrigerer for denne situation ved, at tildele strata med høj varians ekstra observationer. Optimal stratifikation kompenserer således for den større usikkerhed ved, at øge stikprøvestørrelsen for strata med høj varians og tilsvarende mindske stikprøven for strata med lavere varians. Med udgangspunkt i samme eksempel som under proportional førstratifikation er spørgsmålet nu, hvor mange indbyggere der skal udvælges fra hvert stratum, såfremt den optimale metode anvendes? I den forbindelse antages det, at standardafvigelsen for indkomsten er kendt i både New Port og Mount Caine. Som det fremgår i nedenstående tabel, skal der ved optimal førstratifikation udtages 55 personer fra New Port og de øvrige 20 fra Mount Caine. Bemærk at variansen for Mount Caine er større end for New Port, hvilket betyder, at der med denne metode skal udtages flere fra Mount Caine end ved proportional stratifikation, se forrige tabel. Tabel 100: N j s j N j? s j N j? s j N j? s j? n New Port Mount Caine Total (N) Hvor s j er populationens standardafvigelse i stratum j, N j er populationsstørrelsen i stratum j og n er selve stikprøvestørrelsen. s. 213

214 Stikprøveteori Punktestimater af andele og middelværdi ved stratifikation I forrige afsnit var vi inde på stratificeret stikprøveudvælgelse. I nedenstående fremgår det, hvordan de grundlæggende punktestimater af gennemsnit og standardafvigelse beregnes for denne type stikprøveudvælgelse: Bemærk at Statlearn programmet kan anvendes til alle nedenstående beregninger Tabel 101: Stratificeret gennemsnit og varians Stratificeret andel og varians x s 5 N j N x j p s 5 N j N p j x 2 s 5 (x 2 x j) 2 (n j 2 1) VAR(p s) 5 N j N p j(1 2 p j) n j Tabel 102: Konfidensinterval (KI) Stratificeret Z-KI for m Stratificeret andel og varians m x s Z 12a/2 N j N 2 s2 j n j N j 2 n j N j Stratificeret Z-KI for p p p s Z 12a/2 N j N 2 p (1 2 p ) N j 2 n j n j N j Se afsnit om konfidensintervaller for nærmere gennemgang. I det følgende er et eksempel på et stratificeret konfidensinterval for gennemsnit og andele. s. 214

215 Stikprøveteori Eksempler på et stratificeret konfidensinterval Eks. 1: Stratificeret konfidensinterval for gennemsnit (m) Fra kundedatabasen kender Danske Bank den gennemsnitlige indtjening for tre forskellige geografiske kundegrupper. Banken ønsker nu et estimat for den samlede gennemsnitlige indtjening pr. kunde. Beregn et 95 % konfidensinterval for den gennemsnitlige indtjening pr. kunde. Variabel: Indtjening pr. kunde i Danske Bank (kr.) Data: Tabel 103: Formel: N j N j N n j x j S j Sjælland % Fyn % Jylland % Sum % m x s Z 12a/2 N j N 2 s2 j n j N j 2 n j N j Forudsætning: Approksimation til normalfordeling ok da n j. 30 Interval: Nedre intervalgrænse ,508 Øvre intervalgrænse ,027 Punktestimat ,267 Fortolkning: Den gennemsnitlige indtjening pr. kunde ligger med 95 % sandsynlighed mellem og kr. Eks. 2: Stratificeret konfidensinterval for andel (p) I forbindelse med en tilfredshedsundersøgelse ønsker PFA Pension, at estimere andelen af utilfredse kunder. I to stikprøver på henholdsvis 100 mænd og kvinder var andelen af utilfredse kunder som angivet under data. Beregn på den baggrund et 95 % konfidensinterval for andelen af utilfredse kunder. Variabel: Antallet af utilfredse kunder hos PFA Pension s. 215

216 Stikprøveteori Data: Tabel 104: N j Mænd % Kvinder % Sum % N j N n j x j Formel: p p s Z 12a/2 N j N 2 p (1 2 p ) n j N j 2 n j N j Forudsætning: Approksimation til normalfordeling ok da n j. 30 Interval: Nedre intervalgrænse 12 % Øvre intervalgrænse 22,38 % Punktestimat 17,19 % Fortolkning: Andelen af utilfredse kunder ligger med 95% sandsynlighed mellem 12 og 22%. Øvelser med stratifikation De første spørgsmål er relateret til fortolkning. Du skal her med dine egne ord forsøge, at forklare betydningen af specifikke stratifikationsbegreber. De efterfølgende opgaver vil være beregningsøvelser. Fortolkningsøvelser 1. Hvornår er stratifikation især en fordel i forhold til simpel tilfældig udvælgelse? 2. Hvad er ideen med stratifikation i forhold til simpel tilfældig udvælgelse? 3. Hvis en stratificeret stikprøve altid er at foretrække frem for en simpel tilfældigt udvalgt stikprøve, hvorfor anvendes stratifikation så ikke altid? 4. Hvad er betydningen af før og efterstratifikation? 5. Hvad menes med proportional stratifikation? s. 216

217 Stikprøveteori Opgave 1. I forbindelse med et forestående valg ønsker Berlingske Tidende, at estimere andelen af bornholmske vælgere der stemmer på SF. På baggrund af to stikprøver var der 30 ud af 200 mænd, der ville stemme SF. Tilsvarende var der 19 af 165 kvinder, der ønskede at stemme SF. Antag at der henholdsvis er og mænd og kvinder, der stemmer på Bornholm. På baggrund af de to stikprøver ønskes et 95 % konfidensinterval for andelen af Bornholmere, der stemmer SF. Opgave 2. I en markedsundersøgelse for Kohberg er der indsamlet information omkring, hvor mange kilo brød der årligt forbruges pr. husstand i Danmark. Resultaterne fra 983 husstande ses i nedenstående: Tabel 105: Antal husstande (n) x j s j Jylland Fyn Sjælland Bornholm Antag at det fra Danmarks statistik oplyses, at der er husstande i Jylland, på Fyn, på Sjælland og på Bornholm. Spørgsmål 1. Beregn et 95 % konfidensinterval for det gennemsnitlige årlige forbrug af boller og brød pr. husstand. Spørgsmål 2. Kan du med udgangspunkt i det indsamlede data, kommentere hvorfor det i dette tilfælde er en særlig god ide at anvende stratifikation? Opgave 3. Computerproducenten Dell har iværksat en markedsundersøgelse, som skal belyse, i hvor høj grad kunderne er tilfredse med serviceniveauet. Baseret på tre forskellige kundesegmenter har Dell adspurgt kunderne om tilfredshedsgraden med serviceniveauet på en skala fra 1-10 (hvor 10 svarer til yderst tilfreds ). Fra tidligere undersøgelser kendes standardafvigelsen på tilfredshedsgraden i de forskellige segmenter. s. 217

218 Stikprøveteori Spørgsmål 1. Hvis Dell ønsker at udtage en stikprøve på 350 kunder, hvor mange skal der så udtages i hvert stratum? Tabel 106: Kundesegment N j S j Privat ,78 Offentlig ,82 Erhverv ,29 Sum Spørgsmål 2. På baggrund af stikprøvedata som vist i nedenstående beregnes et 95 % konfidensinterval for den gennemsnitlige tilfredshed med Dells serviceniveau. Tabel 107: Kundesegment N j n j x j S j Privat ,29 2,78 Offentlig ,88 4,82 Erhverv ,21 1,29 Sum Løsninger til stratifikation Fortolkning: 1. Som udgangspunkt er det altid en fordel at anvende stratificeret stikprøveudvælgelse, da stikprøven bliver mere repræsentativ end ved simpel tilfældig udvælgelse. Dette gælder især ved små stikprøvestørrelser, og når populationens strata er mere ensartede end populationen som helhed. 2. Tanken med stratifikation er, at lade andelene for populationen afspejle sig i stikprøven. Hvis der eksempelvis er 52 % kvinder i en population, så vil en stratificeret stikprøve på 100 personer indeholde 52 kvinder (ved anvendelse af proportional stratifikation). 3. For at anvende stratifikation, skal man have adgang til data for hele populationen. Dette er ikke altid en mulighed. 4. Med førstratifikation beregnes den optimale stikprøvestørrelse i hvert stratum inden stikprøven udtages. Ved efterstratifikation udtages data simpelt tilfældigt, hvorefter det fordeles på de enkelte strata. 5. Ved anvendelse af proportional stratifikation, lader man andelene for populationens enkelte strata afspejle sig i stikprøvens sammensætning (som beskrevet i spørgsmål 2). s. 218

219 Stikprøveteori Beregninger: Opgave 1. 95% stratificeret konfidensinterval for en andel Nedre grænse: 0,096 Øvre grænse: 0,165 Opgave 2. Spørgsmål 1. 95% stratificeret konfidensinterval for et gennemsnit Nedre grænse: 20,852 Øvre grænse: 22,767 Spørgsmål 2. De forskellige strata forekommer relativt heterogene, både hvad angår gennemsnit og standardafvigelse. Ved små stikprøver der udvælges simpel tilfældigt, er der således risiko for at resultatet ikke bliver repræsentativt. Opgave 3. Spørgsmål 1. Tabel 108: Segment Proportional Optimal Privat 259, ,812 Offentlig 8,774 17,017 Erhverv 81,244 42,170 Sum Spørgsmål 2. 95% stratificeret konfidensinterval for et gennemsnit Nedre grænse: 5,722 Øvre grænse: 6,435 s. 219

220 KAPITEL 10 MULTINOMISKE HYPOTESETEST Statlearn.com

221 KAPITEL Multinomiske 10 hypotesetest I tidligere afsnit har vi set hvordan en hypotesetest kan udføres for et enkelt populationsparameter. I forlængelse heraf var vi også inde på hypotesetest af to populationsparametre, eksempelvis i forbindelse med test af forskellen på to populationsgennemsnit. I dette afsnit ser vi på multinomiske test som kendetegnes ved, at der er mere end to kategorier, der testes heraf betegnelsen multinomisk. Antag at du som produktchef for Toms Chokolade ønsker, at undersøge forbrugernes præferencer for konkurrerende chokoladebarer. For at indhente markedsinformation, har du udtaget en stikprøve blandt 100 forbrugere og adspurgt dem om deres foretrukne chokoladebar, se resultater i nedenstående: Tabel 109: Produkt Obs (o i ) Guldbar (Toms) 25 Kit-Kat 28 Yankee 20 Twix 27 Sum 100 Af stikprøven fremgår det, at variablen Produkt har fire kategorier, og at Kit-Kat umiddelbart ser ud til at være det foretrukne valg. Da stikprøver som bekendt altid rummer en vis usikkerhed, er spørgsmålet om observationernes variation er et tilstrækkeligt bevis for, at det der er forskel i forbrugernes præferencer. Rent statistisk besvares spørgsmålet ved anvendelse af en multinomisk test. Multinomiske test anvendes til at sammenligne data som er inddelt i tre eller flere kategorier. Rent konceptuelt baseres denne type test på en beregning af forskellen på det der observeres og det der forventes i hver kategori. Som udgangspunkt antager H 0 hypotesen, at der er ligelig fordeling blandt kategorierne. Oversat til eksemplet med chokoladebarer vil dette betyde af forbrugernes præferencer for de fire chokoladebarer er ens. Videolektioner > s. 221

222 Multinomiske hypotesetest Såfremt H 0 er sand, må vi forvente, at der er nogenlunde lige mange observationer i hver kategori som i nedenstående tabel: Tabel 110: Produkt Obs (o i ) Forventet (e i ) ved H 0 Guldbar (Toms) Kit-Kat Yankee Twix Sum Er det modsatte tilfældet, hvilket betyder at forbrugerne ikke har ens præferencer for de forskellige chokoladebarer, vil afvigelserne mellem de forventede og observerede værdier være langt større, som det fremgår af nedenstående tabel: Tabel 111: Produkt Obs (o i ) Forventet (e i ) ved H 0 Guldbar (Toms) Kit-Kat Yankee Twix 7 25 Sum Beregning af multinomiske test Som nævnt bygger multinomiske test på en beregning af forskellen mellem den observerede og forventede værdi for hver kategori (Guldbar, Kit-Kat osv.). Mere specifikt er denne beregning baseret på x 2 - fordelingen (udtales khi fordelingen) og beregnes som i nedenstående: x 2 obs 5 (o i 2 e i ) 2 e i (5 teststørrelse) Resultatet af beregningen for x 2 obs er en værdi der kan aflæses i x 2 -fordelingen. FIGUR 71: s. 222

223 Multinomiske hypotesetest Fremgangsmåden med at beregne en teststørrelse som omdannes til en p-værdi og efterfølgende aflæses i en fordeling, har vi tidligere været inde på i afsnittet om hypotesetest. Fremgangsmåden med at beregne en teststørrelse som omdannes til en p-værdi og Beregningen af teststørrelsen (xobs) 2 for eksemplet med chokoladebarer ses i nedenstående: efterfølgende aflæses i en fordeling har vi tidligere været inde på i afsnittet om hypotesetest. Beregningen TABEL 112: af teststørrelsen Kategoritabel for eksemplet med chokoladebarer ses i nedenstående: Produkt o i e i x 2 obs 5 (o i 2 e i ) 2 /e i Guldbar (Toms) Produkt Guldbar (Toms) Kit-Kat ,36 Kit-Kat ,36 Yankee Yankee Twix Twix ,16 0,16 Sum Sum ,52 1,52 Tabel 36: Kategoritabel Ud fra tabellen fremgår det, at teststørrelsen på 1,52 er den summerede variation mellem det Ud fra tabellen fremgår det, at teststørrelsen på 1,52 er den summerede variation mellem det forventede forventede og det observerede og det observerede antal observationer antal observationer i hver kategori. i hver kategori. Jo større Jo variation større variation, desto mere desto tyder det på, mere at forbrugernes tyder det på at præferencer forbrugernes er præferencer forskellige. er En forskellige. teststørrelse En på teststørrelse 1,52 svarer på til 1,52 en p- svarer til værdi 16 på 68 en%, p-værdi hvilket 16 betyder, på 68 %, at hvilket ligger betyder langt inde at vi i ligger det område, langt inden hvor i Hdet 0 accepteres. område hvor Dermed accepteres. er konklusionen, Dermed at H 0 er accepteres. konklusionen Det betyder at accepteres. at vi med Det 95 betyder % sandsynlighed at vi med kan 95 % konkludere, sandsynlighed at der kan er ens præferencer for de fire chokoladebarer. konkludere at der er ens præferencer for de fire chokoladebarer. FIGUR 72: p-værdi 5 68 % testniveau 5 5 % F(x 2 ) H 0 5 Ens kategoriandele H 1 5 ej H 0 16 Beregning af p-værdien ud fra teststørrelsen foregår automatisk ved anvendelse af Statlearn programmet 16 Beregning af p-værdien ud fra teststørrelsen foregår automatisk ved anvendelse af Statlearn programmet s. 223 Af Stephan Skovlund (Copyright) Side 242

224 Multinomiske hypotesetest Anvendelsesområder for multinomiske test Multinomiske test anvendes i en række sammenhænge. I det følgende er et oprids af de forskellige områder, som testen indgår i. 1. Test af kategoriandele (se foregående eksempel) 2. Test af fordelinger (følger variablen en binomial, poisson eller en normalfordeling) 3. Test af antalstabeller (test af sammenhæng/homogenitet mellem to forskellige variable) Test af kategoriandele samt test af fordelinger foregår efter samme fremgangsmåde som anvist i foregående eksempel med chokoladebarer. For at undgå gentagelse er der i nedenstående et sæt videolektioner med eksempler på test af forskellige fordelinger med Statlearn programmet. 1. Test af binomialfordelingen 2. Test af poissonfordelingen 3. Test af normalfordelingen Antalstabeller Hvad angår test af antalstabeller adskiller denne type test sig ved at være baseret på en krydstabel, som er baseres på to variable. Formålet med denne type test er, at påvise en sammenhæng eller et afhængighedsforhold mellem de givne variable. I nedenstående ses en antalstabel for køn og overvægt: TABEL 113: Eksempel på en antalstabel ja Overvægt Køn Mand Kvinde Total ja Nej Total Antalstabeller kendetegnes som nævnt ved at have to variable, derfor modificeres beregningen af teststørrelsen til følgende: x 2 obs 5 (o ij 2 e ij ) 2 e ij s. 224

225 Multinomiske hypotesetest Bemærk at fodtegn angives med både i og j. Fodtegnet i tolkes som rækkenummer og j som kolonnenummer. Med andre ord svarer o 11 til krydsfeltet mellem kolonne 1 og række 1, se grå celle i nedenstående. TABEL 114: Overvægt Køn Mand Kvinde Total ja Nej Total Den forventede værdi for række/kolonne kategorien beregnes: e i,j 5 Rækkesum i? Kolonnesum j n EKSEMPEL: e Ja,Mand 5 35? ,608 TABEL 115: De forventede værdier for alle cellerne i tabellen Køn Overvægt Mand Kvinde Total ja 15,608 19, Nej 17,392 21, Total Ud fra forskellen mellem de forventede og observerede værdier beregnes teststørrelsen: x 2 obs 5 (o ij 2 e ij ) 2 e ij TABEL 116: Teststørrelsen for alle cellerne i tabellen Køn Overvægt Mand Kvinde Sum af x 2 obs ja 2,618 2,107 4,725 Nej 2,349 1,891 4,24 Sum af x 2 obs 4,967 3,998 8,964 s. 225

226 Multinomiske hypotesetest En teststørrelse på 8,964 omregnes ved anvendelse af Statlearn programmet til en p-værdi på 0,275 %, hvilket ligger langt under testniveauet på 5 %. Hermed forkastes H 0 hypotesen som betyder, at sammenhængen mellem overvægt og køn er stærk. Beregning af p-værdien 17 ud fra teststørrelsen foregår automatisk ved anvendelse af Statlearn programmet. FIGUR 73: F(x 2 ) testniveau 5 5 % p-værdi 5 0,275 % H 0 5 Ens kategoriandele H 1 5 ej H 0 Analyse af teststørrelsen Som tidligere nævnt er teststørrelsen et udtryk for forskellen mellem de observerede og forventede værdier. Teoretisk set vil en teststørrelse på nul betyde, at der ingen forskel er på det der observeres og forventes, hvilket fører til at H 0 hypotesen accepteres (H 0 5 ingen sammenhæng). I praksis vil der altid være en vis forskel I variation mellem det observerede og forventede. Variationen afspejles af teststørrelsen. I foregående eksempel med køn og vægt er værdierne af teststørrelsen omtrent ligelig fordelt på de fire celler. En ligelig fordeling af teststørrelsen er tegn på, at de forskellige kategorier i antalstabellen hver især bidrager lige meget til variationen. TABEL 117: Eksempel på ligelig fordeling af teststørrelsen. Køn Overvægt Mand Kvinde Sum af x 2 obs ja 2,618 2,107 4,725 Nej 2,349 1,891 4,240 Sum af x 2 obs 4,967 3,998 8, Uden Statlearn programmet beregnes p-værdien ud fra et tabelopslag i en fordelingsoversigt, eventuelt Erlang S. s. 226

227 Multinomiske hypotesetest Dog vil der ofte være enkelte celler, som står for langt størstedelen af bidraget til teststørrelsen. Det betyder, at enkelte celler har et antal observationer, der afviger dramatisk fra det der forventes. Denne viden kan være yderst værdifuld, når en given sammenhæng skal forklares. Hvis data eksempelvis havde taget sig ud som i nedenstående kommenteres, at det særligt er overvægtige mænd, der bidrager til den samlede variation. TABEL 118: Overvægt Køn Mand Kvinde Sum af x 2 obs ja 4,509 2,107 4,725 Nej 2, ,240 Sum af x 2 obs 4,967 3,998 8,964 En stor del af sammenhængen mellem køn og overvægt kan således tilskrives denne ene kombination. Spørgsmålet er nu, hvorfor denne variation er opstået. Skyldes det at langt flere mænd end forventet er overvægtige eller er det modsatte tilfældet? I store studier kan denne viden bruges til at målrette fokus på de faktorer, som bidrager mest til en given sammenhæng. s. 227

228 Multinomiske hypotesetest Formler til beregning af multinomiske test TABEL 119: Multinomiske test Formel Forudsætning Test af kategoriandele H 0 : p 1 5 p 2 5 p 3 H 1 : ej H 0 x 2 5 Test af populationsintensitet H 0 : X~Ps(l) H 1 : ej H 0 Test af binomialfordeling H 0 : X~b(n,p) H 1 : ej H 0 x 2 5 Test af afhængighed (homogenitet) H 0 : Uafhængighed mellem det første og andet indelingskriterium H 1 : ej H 0 K (o i 2 e i ) 2 e i i51 K x 2 5 (o i 2 e i ) 2 e i i51 K (o i 2 e i ) 2 e i i51 K ij x 2 5 (o ij 2 e ij) 2 e ij i51 Stikprøven på n antal elementer er fordelt på en tabel med en række eller kolonne K 5 antal kategorier f i 5 frekvens for kategori nr.i e i 5 n? p i0 Stikprøverne fordelt på n antal perioder (kategorier), hvor f i tolkes som frekvensen for kategori nr. i K 5 antal kategorier f i 5 frekvens for kategori nr.i e i 5 n? p i0 k i 5 værdi for kategori i p i0 5 P(X K i X~Ps(l 0 ) n antal stikprøver som alle har stikprøvestørrelsen m. Stikprøverne er fordelt på K kategorier hvor tolkes som frekvensen for kategori nr. i K 5 antal kategorier f i 5 frekvens for kategori nr.i p i0 5 P(X K i X~b(n,p 0 ) e i 5 n? p i0 k i 5 værdi for kategori i Stikprøven på n elementer fordeles på en tabel med mindst 2 rækker og kolonner. f ij 5 frekvens for kategori nr.i s. 228

229 Multinomiske hypotesetest Eksempler på beregning af multinomiske test Eksempel 1: Test af kategoriandele, ligelig fordeling Nordea ønsker at fastlægge om andelen af kunder, der anvender Mastercard er ligeligt fordelt blandt forskellige indkomstgrupper. Kan det ud fra en stikprøve på 150 kunder påvises, at der er tale om en ligelig fordeling? Variabel: Antal kunder i forskellige indkomstgrupper der bruger Mastercard Model: χ 2 -fordelingen Hypoteser: H 0 : p 1 5 0,33 p 2 5 0,33 p 3 5 0,33 H 1 : ej H 1 Data: TABEL 120: Indkomst (i tusind) Obs.(O) Forventede andele (p) Forventede antal (np) Test-størrelse, , , , , , ,720 Sum ,240 Forudsætning: Test er acceptabel da alle forventede værdier. 3 Teststørrelse: K x 2 5 (o i 2 e i ) 2 e i i51 Konklusion: Da p-værdi 5 0,538. testniveau (0,05) accepteres Ho. På den baggrund konkluderes at andelen af dem der anvender Mastercard er lige stor på tværs af de forskellige indkomstgrupper. s. 229

230 Multinomiske hypotesetest Eksempel 2: Test af kategoriandele, specifik fordeling Som produktchef for billån i Nordea har du en forventning om, at 50 % af bilisterne fortrækker jeres produkt, 30 % foretrækker billån fra Danske Bank og de resterende 20 % er spredt ud på andre banker. Ud fra en stikprøve på 86 forbrugere ønsker du at få denne antagelse bekræftet er det muligt? Variabel: Antal billån fra forskellige banker Model: χ 2 fordelingen Hypoteser: H 0 : p 1 5 0,5 p 2 5 0,3 p 3 5 0,2 H 1 : ej H 1 Data: TABEL 121: Billån fra Obs. (O) Forventede andele (p) Forventede antal (np) Test-størrelse Nordea 37 0,5 43 0,837 Danske Bank 32 0,3 25,8 1,490 Andre banker 17 0,2 17,2 0,002 Sum ,329 Forudsætning: Test er acceptabel da alle forventede værdier. 3 Teststørrelse: K x 2 5 (o i 2 e i ) 2 e i i51 Konklusion: Da p-værdi 5 0,312. testniveau (0,05) accepteres Ho. På den baggrund konkluderes med 95 % sandsynlighed, at andelen af bilister der optager billån fra forskellige banker, er som hidtil antaget. s. 230

231 Multinomiske hypotesetest Eksempel 3: Test af binomialfordeling Som aktieanalytiker indenfor farmaceutiske virksomheder ønsker du, at vide om bivirkningerne af Novo Nordisk nye insulin følger en binomialfordeling. Novo har tilsendt data fra 50 stikprøver med hver 20 testpersoner (i alt 1000 personer). Variabel: Antal bivirkninger Model: χ 2 fordelingen Hypoteser: H 0 : X ~ b(p, n) H 1 : ej H 1 Data: (populationsandelen estimeres fra stikprøven til 0,0556) TABEL 122: Kategori Obs. Forventede sandsynligheder forudsat Ho Forventede antal forudsat Ho Test-størrelse højst % 319 0, % 375 0, % 210 3, % 74 0,206 Mindst % 23 3,111 Sum % ,18487 Forudsætning: Test er acceptabel da alle forventede værdier. 3 Teststørrelse: K x 2 5 (o i 2 e i ) 2 e i i51 Konklusion: Da p-værdi 5 0, testniveau (0,05) accepteres Ho. Hermed konkluderes med 95 % sandsynlighed, at antallet af bivirkninger følger en binomialfordeling. s. 231

232 Multinomiske hypotesetest Eksempel 4: Test af poissonfordeling En bookmaker ønsker at vide, om målscoren for FCK følger en poissonfordeling. Blandt 50 kampe var fordelingen af mål som angivet under Data i nedenstående. Variabel: Antal mål scoret af FCK Model: χ 2 fordelingen Hypoteser: H 0 : X ~ Ps(l) H 1 : ej H 1 Data: (populationsintensiteten estimeres fra stikprøven til 1,5) TABEL 123: Kategori Obs. Forventede sandsynligheder forudsat Ho Forventede antal forudsat Ho Test-størrelse højst ,223 14,727 0, ,335 22,090 0, ,251 16,567 5, ,126 8,284 0,010 Mindst 4 1 0,066 4,332 2,563 Sum ,880 Forudsætning: Test er acceptabel da alle forventede værdier. 3 Teststørrelse: K x 2 5 (o i 2 e i ) 2 e i i51 Konklusion: Da p-værdi 5 0,030924, testniveau (0,05) forkastes Ho. Hermed konkluderes med 95 % sandsynlighed, at antallet af FCK mål ikke følger en poissonfordeling. s. 232

233 Multinomiske hypotesetest Eksempel 5: Test i antalstabel I forbindelse med en undersøgelse hvor sammenhængen mellem øjenfarve og køn belyses, er der udtaget en stikprøve på 74 tilfældigt udvalgte personer. Kan man på den baggrund konkludere, at øjenfarve er kønsbestemt? Model: χ 2 fordelingen Hypoteser: H 0 : Uafhængighed mellem køn og øjenfarve H 1 : ej H 1 Data: TABEL 124: Obs. Forventet. Teststørrelse Mand Kvinde Sum Mand Kvinde Sum Mand Kvinde Sum Brune ,6 19,4 35,0 2,6 2,1 4,7 Blå ,4 21,6 39,0 2,3 1,9 4,2 Sum ,0 41,0 74,0 5,0 4,0 9,0 Forudsætning: Test er acceptabel da alle forventede værdier. 3 Teststørrelse: K x 2 5 (o ij 2 e ij ) 2 e ij i51 Konklusion: Da p-værdi 5 0,002753, testniveau (0,05) forkastes Ho. Således kan vi med 95 % sandsynlighed konkludere, at der er en sammenhæng mellem køn og øjenfarve. s. 233

234 Multinomiske hypotesetest Øvelser med multinomiske hypotesetest Opgave 1. Når paperback bøger lanceres i USA, produceres forsiden i flere forskellige farvede udgaver. Traditionen tro skulle der være forskellige præferencer for forsidens farve i forskellige geografiske områder. Da det er betydeligt dyrere at producere flere forskellige forsider i stedet for én enkelt, ønsker forlaget Mcgraw Hill, at undersøge sammenhængen mellem salg af paperbacks og forsidens farve i de forskellige stater. Ud af en stikprøve på 300 kunder i Barnes & Nobles bogkæden fordelt på tre byer blev der observeret nedenstående. TABEL 125: Rød Blå Grøn Total New York Washington Boston Total Er der grund til at fortsætte med at trykke forsiderne i forskellige farver (test om sammenhæng mellem geografi og farve)? Opgave 2. For at identificere sit kernemarked igangsatte Porsche en markedsundersøgelse blandt eksisterende kunder. I forbindelse med testen blev der først spurgt til hvilken model, der var den foretrukne blandt: A: Porsche 911 B: Porsche Boxer C: Porsche Cayenne D: Porsche Cayman Efterfølgende blev kunden bedt om at vælge de værdier der bedst beskrev bilen ud fra: TABEL 126: A: Aggression B: Køreglæde C: Prestige D: Magt Aggression Køreglæde Prestige Magt Total Cayenne Boxer Cayman Total s. 234

235 Multinomiske hypotesetest Spørgsmål 1. Kan det konkluderes, at Porschemodellerne signalerer forskellige værdier? Spørgsmål 2. Hvordan vil du beskrive betydningen af prestige blandt de kunder, der foretrækker Cayenne? Opgave 3. Som produktchef for Nestlé ønsker du at undersøge positioneringen af jeres megabrand: Kit-Kat. Blandt 100 tilfældigt udvalgt forbrugere der købte Kit-Kat og konkurrerende produkter, var resultatet som i nedenstående: TABEL 127: Produkt Twix Kit-Kat Mars Bounty Holly Total Observeret Spørgsmål 1. Kan der på baggrund af observationerne siges at være forskel i præferencerne for de forskellige produkter? Spørgsmål 2. Kan de forventede markedsandele jf. nedenstående antages at være sande? TABEL 128: Produkt Twix Kit-Kat Mars Bounty Holly Total Observeret Forventede andele 0,1 0,3 0,2 0,2 0,2 1 Opgave 4. På rigshospitalet er man i færd med et projekt, som skal sikre en bedre behandling af personer, der kommer ind med svær lungebetændelse i vinterhalvåret. Denne type patienter kræver skærpet opmærksomhed og dermed ekstra bemanding. I den forbindelse ønsker man at undersøge, om antallet af nævnte patienter følger en binomialfordeling. Spørgsmål 1. Med udgangspunkt i nedenstående data som er baseret på 38 stikprøver med 12 patienter i hver, testes på 5 % niveauet om antallet af patienter med svær lungebetændelse følger en binomialfordeling? TABEL 129: Patienter med lungebetændelse Observeret s. 235

236 Multinomiske hypotesetest Spørgsmål 2. Kan man med et testniveau på 10 % konkludere, at patienter som kommer ind med svær lungebetændelse følger en binomialfordeling med p 5 0,19 (binomial sandsynlighed 5 19 %)? Spørgsmål 3. Overlægen på rigshospitalet har de sidste tre år observeret antallet af patienter, som hver måned kommer ind med malaria. Lægen mener, at der hver måned gennemsnitligt ankommer 3 personer med malaria, men er nu kommet i tvivl Kan du ud fra nedenstående data bekræfte at gennemsnittet er 3? TABEL 130: Malaria obs Måneder Tidligere eksamensøvelser med multinomiske hypotesetest Eksamensøvelserne samt facit kan downloades fra statlearn.com under menupunktet: Ekstra øvelser. Øvelser med multinomiske hypotesetest (sideangivelse samt opgavenummer): Side 4 /2.1 Side 8 /3.1 Side 4 /2.2 Side 11 /4.1 Side 15 /1.3 Side 15 /1.3 Side 15 /1.4 Side 19/1.3 Side 19/1.3 Side 26/1.1 Side 27/4.2 s. 236

237 Multinomiske hypotesetest Løsninger til multinomiske hypotesetest Opgave 1. Hypoteser: H 0 : Uafhængighed mellem paperback forsidens farve og salget i de forskellige byer i USA H 1 : Ej H 0 Konklusion: Da p-værdi (0, ), testniveau (0,05) forkastes Ho. Forsidens farve har således betydning for salget af paperback. Opgave 2. Spørgsmål 1. Hypoteser: H 0 : Uafhængighed mellem valg af Porschemodel og de værdier som bilen repræsenterer H 1 : Ej H 0 Konklusion: Da p-værdi (0,002194), testniveau (0,05) forkastes Ho. Det kan hermed antages, at der er sammenhæng mellem valg af Porschemodel og de værdier som bilen repræsenterer. Spørgsmål 2. I følgende tabel fremgår det, at bidraget til teststørrelsen er særlige høj i cellen der repræsenterer Porsche Cayenne og prestige (celle er markeret med grå). Den høje variation skyldes, at der var 56 observationer, hvorimod der kun blev forventet 37 observationer såfremt, at der havde været uafhængighed. Der er således flere, der har tillagt prestige betydning end man havde forventet i kategorien for Porsche Cayenne. Prestige spiller således en ekstra stor rolle for ejerne af Porsche Cayenne. TABEL 131: Aggression Køreglæde Prestige Magt Total Cayenne Boxer Cayman Total s. 237

238 Multinomiske hypotesetest Forventet: TABEL 132: Aggression Køreglæde Prestige Magt Total Cayenne 28,498 30,830 37, , ,00 Boxer 42,501 45,979 55, , ,00 Cayman 72,228 78,137 93, , , ,773 83,054 99, , ,00 Total 220, , , , ,00 Bidrag til teststørrelse: TABEL 133: Aggression Køreglæde Prestige Magt Total Cayenne 1,482 3,134 9,696 0,051 14,36 Boxer 0,288 0,021 2,941 0,338 3,59 Cayman 0,315 1,510 2,057 0,009 3, ,356 0,000 3,176 0,437 3,97 Total 2,441 4,665 17,870 0,834 25,81 Opgave 3. Spørgsmål 1. Hypoteser: H 0 : Ligelig fordeling mellem præferencerne for de 4 chokoladebarer H 1 : Ej H 0 Konklusion: Da p-værdi (0, ), testniveau (0,05) forkastes Ho. Der er dermed forskel i præferencerne for de forskellige chokoladebarer. Spørgsmål 2. Hypoteser: H 0 : Fordelingen af kategorier følger de andele som angivet under Data H 1 : Ej H 0 s. 238

239 Multinomiske hypotesetest Data: TABEL 134: Twix Kit-Kat Mars Bounty Holly Obs kategori andele 0,1 0,3 0,2 0,2 0,2 Forventet antal Teststørrelse 0,40 2,13 3,20 0,45 1,25 Konklusion: Da p-værdi (0, ). testniveau (0,05) accepteres H0 og dermed antages de forventede andele at være korrekte. Opgave 4. Spørgsmål 1. Hypoteser: H 0 : X ~ b(m 5 12, q) H 1 : Ej H 0 Konklusion: Da p-værdi (0,103). testniveau (0,05) accepteres H 0 Spørgsmål 2. Hypoteser: H 0 : X ~ b(m 5 12, p 5 0,19) H 1 : Ej H 0 Konklusion: Da p-værdi (0,022), testniveau (0,1) forkastes H 0 Spørgsmål 3. Hypoteser: H 0 : X ~ Ps(l 5 3) H 1 : Ej H 0 Konklusion: Da p-værdi (0, ), testniveau (0,05) forkastes H 0 s. 239

Vis mere