Statistik noter - Efterår 2009 Keller - Statistics for management and economics Jonas Sveistrup Hansen - stud.merc.it 22. september 2009 1
Indhold 1 Begrebsliste 3 2 Forelæsning 1 - kap. 1-3 3 2.1 Kelvin vs. Celcius......................... 4 2.2 EKS: Antal SMS er........................ 4 3 Forelæsning 2 - kap. 4.1-4, 4.8 og 5 & CD Appendix C 4 3.1 EKS. Helge Sander gør det godt................. 6 4 Forelæsning 3 - kap. 6-14/9-09 7 4.1 Udvælgelsesmetoder - p. 155 Note p. 29-30........... 7 4.2 Kapitel 6.............................. 7 4.3 Typer af sandsyndligheder.................... 8 4.4 Opgave 15............................. 8 5 Forelæsning 4 - kap. 7-15/9-09 9 6 Forelæsning 5-22/9-09 10 6.1 Udvælgelse............................ 10 6.1.1 Eksempel 1........................ 10 6.1.2 Eksempel 2........................ 10 6.2 Påpeg og eksemplificer tvivlsomme forudsætninger....... 10 6.3 Øvelse............................... 11 6.4 Poisson fordelingen........................ 12 6.4.1 Forudsætninger...................... 13 6.4.2 Anvendelse........................ 13 6.4.3 Øvelse........................... 13 6.5 Hypergeometrisk fordeling.................... 14 6.5.1 Gennemsnit, varians og std. afv. for Hypergeometrisk ford............................. 14 2
1 Begrebsliste N = Population (Parametre) fx Personer, gule biler n = Stikprøve (Statistikker)(Sample) Gennemsnit = Middelværdi = Mean Max, Min Max - Min = Varationsbrede = Range Median Varians = Standardafvigelse. Varians har aldrig en negativ værdi Standardafvigelse = Standard-deviation En kovarians udtrykker graden af lineær sammenhæng mellem to kvantitative variable En korrelationskoefficient kan antage værdier mellem -1 og 1 - begge incl. Trimmet gennemsnit har man udeladt de mest ekstreme værdier 2 Forelæsning 1 - kap. 1-3 Formål: At udtale os om en værdi(parameter) i populationen udfra den tilsvarende værdi(statistik) i stikprøven Kvalitative variabler: En var., hvor vi ikke på naturlig måde kan tilknytte et tal til udfaldet Kvantitative variabler: En var., hvor vi på naturlig måde kan tilknytte et tal til udfaldet Diskret variabler: En var. der har tællige mange udfald Kontinuerer variabler: En var., der kan tale overtællige mange udfald. Typisk alle værdier i et interval (Alder, indkomst) NB! Hvis en kvalitativ og en kvantitativ skal sammenliges skal en Variansanalyse bruges 3
Tabel 1: Statistisk tabel Kvalitativ Kvantitativ Andele Gennemsnit Norminal Ordinal Interval Ratio Skelne + + + + Rækkefølge - + + + Forskel - - + + Forhold - - - + Eks. Ringkøbing eks 12-skala Sovetidspunkt Højde Sammenlign Uafhængighedstest Uafhængighedstest Regression Regression 2.1 Kelvin vs. Celcius Eks. med varmen, hvad er det dobbelte af 10 C? Det er faktisk 293 C. Brug Kelvin til at regne om, og så ses det let at det er omregningen. Kelvinskalaen er Kvantitativ Ratio da man kan tage forskellen, mens Celciusskalaen er kvantitativ Interval, da man ikke kan se regne med at 20 C er dobbelt så varmt som 10 C 2.2 EKS: Antal SMS er Hyppighed = h(x) = Absolut frekvens Frekvens = f(x) = Relativ frekvens Kumuleret hyppighed = H(x) Kumuleret frekvens = F (x) 3 Forelæsning 2 - kap. 4.1-4, 4.8 og 5 & CD Appendix C Populatation - fx Personer, Gule biler, stolesæder. (Trækker spillekort) - En konkret størelse 4
Figur 1: Antal SMS er Proces(Kaster terninger) - Ikke en konkret størelse Ud fra en population eller process, vil vi gerne finde en stikprøve (statistik) 1 Eks på kontinuerte intervalskalerede data: Reaktionstid Løbstid Vægt Eks på ikke-kontunuerte intervalskalerede data: (Her kan der tages et typetal) Antal søskende i en hustand µ = N i=1 x i N 1 Se slides fra forelæsning 5
Tabel 2: Kategorisering af skalatype i nominal, ordinal og interval: Spørgsmål (variabel) Skalatype 1. Hvad er dit husnummer Ordinal 2. Hvad er dit yndlingstal Norminal 3. Hvad er din livvidde Interval 4. Hvad synes du om rusugen Ordinal kan pege til Nominal 5. Hvad er dit telefonnummer Norminal, telefonen har bare fået en kode. 3.1 EKS. Helge Sander gør det godt Tabel 3: Helge Sander gør det godt Enig Tildeles enig Neutral TIldeles uenig Uenig Point 1 2 3 4 5 Personer 2 4 0 0 4 x = 10 =x i i=1 10 = 2 1+4 2+4 5 10 = 2+8+20 10 = 3 Nu skal variansen (s 2 ) findes. Se notesamling p. 35 s 2 = n =(x i x) 2 i=1 = n 1 n =x 2 i n x2 i=1 n 1 s 2 = (1 3)2 +(1 3) 2 +(2 3) 2 +(2 3) 2 +(2 3) 2 +(4 2) 2 +(4 2) 2 +(4 2) 2 +(4 2) 2 10 1 s 2 = 28 9 =3,11 En anden og nemmere måde at komme frem til samme varians er den anden formel. Genvejsmetoden n =x 2 i n x2 i=1 n 1 = (2 12 +4 2 2 +4 5 2 ) 10 3 2 10 1 = 118 10 9 9 =3,11 s = 3, 11 = 1, 76 Vi har nu standardafvigelsen. Vi kan ikke sige noget 6
ud fra variansen, men vi kan finde std. afv. og den kan vi sige noget ud fra. 4 Forelæsning 3 - kap. 6-14/9-09 4.1 Udvælgelsesmetoder - p. 155 Note p. 29-30 Simpel tilfældig Stratificeret Klynge Andel rygere i 9 klasse Klynge udvælgelse vil nok være den mest oplagte, men hvis der var meget stor forskel fra skole til skole, ville stratificeret nok vælges. A-indkomst i 2008 for årgang 1986 Stratificeret Strata / Segment: Studerende Arbejdende Ufaglærte Faglærte 4.2 Kapitel 6 Random Experiment (p 170) Stokastisk eksperiment som leder til et af flere mulige udfald. Stokastisk forsøg der resulterer i en af flere mulige hændelse. Sample Space - Udfaldsrummet Outcome - udfald Event hændelse 7
- Kast med en mønt - Resultat af eksamen til sommer - Kridt kast (p.171): De mulige udfald skal være gensidigt udelukkende og De mulige udfald skal være udtømmende (- de skal tilsammen udgøre hele udfaldsrummet) 4.3 Typer af sandsyndligheder - Subjektive: Change og risiko - Frekvensbestemte (Noget vi har set før) - Argumenterede - Mørkt rum - Fire sokker: 2 røde og 2 blå - Ingen forskelle Hvad er sandsynligheden for, at du stiller op med ens sokker? 1 Den første er lige gyldig. Den anden er der nu tre muligheder tilbage, 3 og det er kun én af de tre, der kan bruges. Ergo 1 3 4.4 Opgave 15 På en prøvestation for personbiler deler man bilparken op i tre kategorier, nemlig nye, ældre og gamle biler. Man regner med, at 60% af de testede biler er nye, og 10% er gamle. Erfaringen viser endvidere, at sandsynligheden for at finde en defekt på en ny bil er 0,14, på en ældre bil 0,24 og på en gammel bil 0,84. 2 2 Se slide Forelæsning uge 37-2 8
1. Beregn sandsynligheden for, at en bil, der ankommer til testning, er en ny bil uden defekter? P (A D C ) = P (A) P (D C A) = 0, 60 (1 0, 14) = 0, 516 2. Beregn sandsynligheden for at en bil, der ankommer til testning er defekt? P (D) = P (A D) + P (B D) + P (C D) = 0, 084 + 0, 072 + 0, 084 = 0, 240 3. Beregn sandsynligheden for at en defekt bil er gammel? P (C D) = P (C D) = 0,084 P (D) 0,24 = 0, 35 4. Er hændelsen, at en bil er defekt, uafhængig af bilens alder? Nej Tabel 4: En anden måde at løse opgave 15 på D D C A 84 600 B 72 300 C 84 100 240 1000 biler i alt 5 Forelæsning 4 - kap. 7-15/9-09 Tilhørende slides: Forelæsning uge 38 Se de tre eksempler i slides, hvordan der skitseres et udfaldsrum. Vær opmærksom på når variansen adderes eller substrateres, bliver summen 9
det samme. Det er to usikkerhedsværdier der adderes, ikke to stokastiske variabler. 6 Forelæsning 5-22/9-09 Litteratur: kapitel 7.5, Appendix F, note 9-10, 14, 16 6.1 Udvælgelse 6.1.1 Eksempel 1 På hvor mange måder kan 3 grupper udvælges blandt 7 grupper? 7 over 3 = 7! 3! (7 3)! = 35 6.1.2 Eksempel 2 På hvor mange måder kan man udvælge 7 kugler blandt 36 kugler? 36 over 7 = 36! 7! = 8347680 6.2 Påpeg og eksemplificer tvivlsomme forudsætninger X1: Antal fag HA-studerende Bo består til HA 1.deleksamen 2 udfald Men ikke konstant SSH, da nogle fag er lettere end andre Uafhængighed, er der heller ikke. X2: Antal seksere ud af 10 kast med en mønt ikke binomial ford. Læs teksten 10
X3: Antal af jer som består statistik Der er ikke konstant ssh. Men der er Uafhængighed. X4: Antal af jer (hvis I alle satser 40 kr.) som vinder en stor præmie i Lotto på lørdag Binomial, men husk at definer hvad er en Stor præmie før forsøget startes. X5: Antal regnvejrsdage i september måned Det skal klart defineres hvad en regnvejsdag Der er ikke konstant SSH, da vejret ikke er konstant. Det er uafhængighed, ingen hukommelse. X6: Antal af jer på 7. rækken der har et sen efternavn Definer hvad et -sen efternavn Konstant SSH Uafhængighed X7: Antal gange HA-studerende Bo møder op til statistikforelæsninger frem til jul ikke konstant SSH ikke uafhængighed 6.3 Øvelse Du får 25 spørgsmål til en teoriprøve. Du mener at kunne svare korrekt med en sandsynlighed på 90% på hvert spørgsmål. Hvad er sandsynligheden for at få 5 eller færre fejl? Definer den stokastiske variable. - Hvad er det man måler. 2 udfald: Ja Konstant SSH: ja, 90 % står i teksten. Uafh: ja, ikke nævneværdi afhængighed. 11
P (X 5 n = 25, p = 0, 10) = 0, 9666 eller P (X 20 n = 25, p = 0, 90) = 0, 9666 Du kaster 20 gange med en mønt. Hvad er sandsynligheden for at slå plat flere en 12 gange? 2 udfald: Ja Konstant SSH: ja, ingen hukommelse Uafh: ja P (X > 12 n = 20, p = 0, 5) = 1 P (x 12 n = 20, p = 0, 5) = 1 0, 8684 = 0, 1316 eller P (X 7 n = 20, p = 0, 5) Du har morgenforelæsninger fredag og med dit kendskab til dig selv vurderer du, at der hver fredag, ud af semesterets 15 fredag, er 20% risiko for, at du sover over dig. Hvad er sandsynligheden for, at du, når semesteret er omme, har været til stede i mellem halvdelen og en tredjedel af forelæsningerne. 5-7,5 forlæsninger. P (X 7) P (X 5) P (X 7 n = 15, p = 0, 80) P (X 5 n = 15, p = 0, 80) = 0, 0042 0, 0001 6.4 Poisson fordelingen Udtrykker antal hændelser der indtræffer indenfor et givet tidsrum hvor intensitet µ er konstant fra tidsrum til tidsrum og hvor intensitet i et tidsrum er uafhængighed af ikke overlappende tidsrums intensiteter P (X = x µ) = e µ µ x, for x = 0, 1, 2,... (1) x! 12
6.4.1 Forudsætninger 1. Antal hændelser inden for et tidsinterval (fx et minut) er uafhængigt af antal hændelser i andre tidsintervaller, såfremt der ikke er tale om overlappende tidsintervaller. 2. Det forventede antal hændelser inden for et tidsinterval (fx et minut) er konstant i hele forløbet (fx en time eller en dag). Processen siges at være stationær 3. Sandsynligheden for, at der indtræffer netop én hændelse inden for et meget lille tidsinterval er proportional med længden af intervallet. 4. Sandsynligheden for, at der indtræffer mere end én hændelse inden for et meget lille tidsinterval er negligerbar set i forhold til sandsynligheden for, at der indtræffer netop én hændelse. 6.4.2 Anvendelse Primært i forbindelse med køteoretiske problemer. Poisson-processen giver en udmærket beskrivelse af en række situationer, hvor ankomster eller hændelser sker tilfældigt over tid. 6.4.3 Øvelse Du får 20 minutter til at tælle gule biler på Ringgaden. Du har erfaring for, at der kommer 12 gule biler forbi i timen. Hvad er sandsynligheden for, at du højest ser en gul bil? X = Antal gule biler P (X 1 µ = 4) = 0, 0916 Du spiller 15 kampe. Du har erfaring for, at du scorer ligeså mange mål som du spiller kampe. Hvad er sandsynligheden for, at du scorer over 15 mål? X = Antal scoringer P (X > 15 µ = 15) = 1 P (X 15 µ = 15) = 1 0, 5681 = 0, 4319 Du har morgenforelæsninger fredag og med dit kendskab til dig selv ved 13
du, at du normalt hikker 5 gange i løbet af en forelæsning. Hvad er sandsynligheden for, at du, når forelæsningen er omme, ikke har hikket? X = Antal hik P (X = 0 µ = 5) = 0, 0067 6.5 Hypergeometrisk fordeling P (X = x) = P (x) = Ck xcn k N k, for x = 0, 1, 2,... (2) Cn N 6.5.1 Gennemsnit, varians og std. afv. for Hypergeometrisk ford. µ = E(X) = n k N σ 2 = V ar(x) = n k N (1 k N ) N n N 1 σ = n k N (1 k N ) N n N 1 (3) (4) (5) 14