Statistik noter - Efterår 2009 Keller - Statistics for management and economics



Relaterede dokumenter
Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Fagplan for statistik, efteråret 2015

Normalfordelingen og Stikprøvefordelinger

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kvantitative Metoder 1 - Efterår Dagens program

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kvantitative Metoder 1 - Forår 2007

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Vejledende løsninger til opgaver i kapitel 6

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen


Produkt og marked - matematiske og statistiske metoder

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Kvantitative Metoder 1 - Forår 2007

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Produkt og marked - matematiske og statistiske metoder

Nanostatistik: Opgaver

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Indblik i statistik - for samfundsvidenskab

Kvantitative Metoder 1 - Forår Dagens program

Undervisningsbeskrivelse

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Løsning til eksaminen d. 14. december 2009

Kvantitative Metoder 1 - Forår Dagens program

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

02402 Vejledende løsninger til hjemmeopgaver og øvelser i kapitel 4

Statistiske modeller

Statistik opgaver - Efterår 2009 Keller - Statistics for management and economics

Statistik og Sandsynlighedsregning 2

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Binomialfordelingen. Binomialfordelingen. Binomialfordelingen

Løsning eksamen d. 15. december 2008

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Forelæsning 1: Intro og beskrivende statistik

Løsning til eksaminen d. 29. maj 2009

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Løsninger til kapitel 5

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Modeller for ankomstprocesser

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Konfidensintervaller og Hypotesetest

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Behandling af kvantitative data

Elementær sandsynlighedsregning

Sandsynligheder. Mængder Hændelser Sandsynligheder Regler for sandsynligheder

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Opgaver i sandsynlighedsregning

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Teoretisk Statistik, 13 april, 2005

Personlig stemmeafgivning

Elementær sandsynlighedsregning

Sandsynlighedsregning

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Kvantitative metoder 2

Forelæsning 11: Kapitel 11: Regressionsanalyse

Teoretisk Statistik, 16. februar Generel teori,repetition

Transkript:

Statistik noter - Efterår 2009 Keller - Statistics for management and economics Jonas Sveistrup Hansen - stud.merc.it 22. september 2009 1

Indhold 1 Begrebsliste 3 2 Forelæsning 1 - kap. 1-3 3 2.1 Kelvin vs. Celcius......................... 4 2.2 EKS: Antal SMS er........................ 4 3 Forelæsning 2 - kap. 4.1-4, 4.8 og 5 & CD Appendix C 4 3.1 EKS. Helge Sander gør det godt................. 6 4 Forelæsning 3 - kap. 6-14/9-09 7 4.1 Udvælgelsesmetoder - p. 155 Note p. 29-30........... 7 4.2 Kapitel 6.............................. 7 4.3 Typer af sandsyndligheder.................... 8 4.4 Opgave 15............................. 8 5 Forelæsning 4 - kap. 7-15/9-09 9 6 Forelæsning 5-22/9-09 10 6.1 Udvælgelse............................ 10 6.1.1 Eksempel 1........................ 10 6.1.2 Eksempel 2........................ 10 6.2 Påpeg og eksemplificer tvivlsomme forudsætninger....... 10 6.3 Øvelse............................... 11 6.4 Poisson fordelingen........................ 12 6.4.1 Forudsætninger...................... 13 6.4.2 Anvendelse........................ 13 6.4.3 Øvelse........................... 13 6.5 Hypergeometrisk fordeling.................... 14 6.5.1 Gennemsnit, varians og std. afv. for Hypergeometrisk ford............................. 14 2

1 Begrebsliste N = Population (Parametre) fx Personer, gule biler n = Stikprøve (Statistikker)(Sample) Gennemsnit = Middelværdi = Mean Max, Min Max - Min = Varationsbrede = Range Median Varians = Standardafvigelse. Varians har aldrig en negativ værdi Standardafvigelse = Standard-deviation En kovarians udtrykker graden af lineær sammenhæng mellem to kvantitative variable En korrelationskoefficient kan antage værdier mellem -1 og 1 - begge incl. Trimmet gennemsnit har man udeladt de mest ekstreme værdier 2 Forelæsning 1 - kap. 1-3 Formål: At udtale os om en værdi(parameter) i populationen udfra den tilsvarende værdi(statistik) i stikprøven Kvalitative variabler: En var., hvor vi ikke på naturlig måde kan tilknytte et tal til udfaldet Kvantitative variabler: En var., hvor vi på naturlig måde kan tilknytte et tal til udfaldet Diskret variabler: En var. der har tællige mange udfald Kontinuerer variabler: En var., der kan tale overtællige mange udfald. Typisk alle værdier i et interval (Alder, indkomst) NB! Hvis en kvalitativ og en kvantitativ skal sammenliges skal en Variansanalyse bruges 3

Tabel 1: Statistisk tabel Kvalitativ Kvantitativ Andele Gennemsnit Norminal Ordinal Interval Ratio Skelne + + + + Rækkefølge - + + + Forskel - - + + Forhold - - - + Eks. Ringkøbing eks 12-skala Sovetidspunkt Højde Sammenlign Uafhængighedstest Uafhængighedstest Regression Regression 2.1 Kelvin vs. Celcius Eks. med varmen, hvad er det dobbelte af 10 C? Det er faktisk 293 C. Brug Kelvin til at regne om, og så ses det let at det er omregningen. Kelvinskalaen er Kvantitativ Ratio da man kan tage forskellen, mens Celciusskalaen er kvantitativ Interval, da man ikke kan se regne med at 20 C er dobbelt så varmt som 10 C 2.2 EKS: Antal SMS er Hyppighed = h(x) = Absolut frekvens Frekvens = f(x) = Relativ frekvens Kumuleret hyppighed = H(x) Kumuleret frekvens = F (x) 3 Forelæsning 2 - kap. 4.1-4, 4.8 og 5 & CD Appendix C Populatation - fx Personer, Gule biler, stolesæder. (Trækker spillekort) - En konkret størelse 4

Figur 1: Antal SMS er Proces(Kaster terninger) - Ikke en konkret størelse Ud fra en population eller process, vil vi gerne finde en stikprøve (statistik) 1 Eks på kontinuerte intervalskalerede data: Reaktionstid Løbstid Vægt Eks på ikke-kontunuerte intervalskalerede data: (Her kan der tages et typetal) Antal søskende i en hustand µ = N i=1 x i N 1 Se slides fra forelæsning 5

Tabel 2: Kategorisering af skalatype i nominal, ordinal og interval: Spørgsmål (variabel) Skalatype 1. Hvad er dit husnummer Ordinal 2. Hvad er dit yndlingstal Norminal 3. Hvad er din livvidde Interval 4. Hvad synes du om rusugen Ordinal kan pege til Nominal 5. Hvad er dit telefonnummer Norminal, telefonen har bare fået en kode. 3.1 EKS. Helge Sander gør det godt Tabel 3: Helge Sander gør det godt Enig Tildeles enig Neutral TIldeles uenig Uenig Point 1 2 3 4 5 Personer 2 4 0 0 4 x = 10 =x i i=1 10 = 2 1+4 2+4 5 10 = 2+8+20 10 = 3 Nu skal variansen (s 2 ) findes. Se notesamling p. 35 s 2 = n =(x i x) 2 i=1 = n 1 n =x 2 i n x2 i=1 n 1 s 2 = (1 3)2 +(1 3) 2 +(2 3) 2 +(2 3) 2 +(2 3) 2 +(4 2) 2 +(4 2) 2 +(4 2) 2 +(4 2) 2 10 1 s 2 = 28 9 =3,11 En anden og nemmere måde at komme frem til samme varians er den anden formel. Genvejsmetoden n =x 2 i n x2 i=1 n 1 = (2 12 +4 2 2 +4 5 2 ) 10 3 2 10 1 = 118 10 9 9 =3,11 s = 3, 11 = 1, 76 Vi har nu standardafvigelsen. Vi kan ikke sige noget 6

ud fra variansen, men vi kan finde std. afv. og den kan vi sige noget ud fra. 4 Forelæsning 3 - kap. 6-14/9-09 4.1 Udvælgelsesmetoder - p. 155 Note p. 29-30 Simpel tilfældig Stratificeret Klynge Andel rygere i 9 klasse Klynge udvælgelse vil nok være den mest oplagte, men hvis der var meget stor forskel fra skole til skole, ville stratificeret nok vælges. A-indkomst i 2008 for årgang 1986 Stratificeret Strata / Segment: Studerende Arbejdende Ufaglærte Faglærte 4.2 Kapitel 6 Random Experiment (p 170) Stokastisk eksperiment som leder til et af flere mulige udfald. Stokastisk forsøg der resulterer i en af flere mulige hændelse. Sample Space - Udfaldsrummet Outcome - udfald Event hændelse 7

- Kast med en mønt - Resultat af eksamen til sommer - Kridt kast (p.171): De mulige udfald skal være gensidigt udelukkende og De mulige udfald skal være udtømmende (- de skal tilsammen udgøre hele udfaldsrummet) 4.3 Typer af sandsyndligheder - Subjektive: Change og risiko - Frekvensbestemte (Noget vi har set før) - Argumenterede - Mørkt rum - Fire sokker: 2 røde og 2 blå - Ingen forskelle Hvad er sandsynligheden for, at du stiller op med ens sokker? 1 Den første er lige gyldig. Den anden er der nu tre muligheder tilbage, 3 og det er kun én af de tre, der kan bruges. Ergo 1 3 4.4 Opgave 15 På en prøvestation for personbiler deler man bilparken op i tre kategorier, nemlig nye, ældre og gamle biler. Man regner med, at 60% af de testede biler er nye, og 10% er gamle. Erfaringen viser endvidere, at sandsynligheden for at finde en defekt på en ny bil er 0,14, på en ældre bil 0,24 og på en gammel bil 0,84. 2 2 Se slide Forelæsning uge 37-2 8

1. Beregn sandsynligheden for, at en bil, der ankommer til testning, er en ny bil uden defekter? P (A D C ) = P (A) P (D C A) = 0, 60 (1 0, 14) = 0, 516 2. Beregn sandsynligheden for at en bil, der ankommer til testning er defekt? P (D) = P (A D) + P (B D) + P (C D) = 0, 084 + 0, 072 + 0, 084 = 0, 240 3. Beregn sandsynligheden for at en defekt bil er gammel? P (C D) = P (C D) = 0,084 P (D) 0,24 = 0, 35 4. Er hændelsen, at en bil er defekt, uafhængig af bilens alder? Nej Tabel 4: En anden måde at løse opgave 15 på D D C A 84 600 B 72 300 C 84 100 240 1000 biler i alt 5 Forelæsning 4 - kap. 7-15/9-09 Tilhørende slides: Forelæsning uge 38 Se de tre eksempler i slides, hvordan der skitseres et udfaldsrum. Vær opmærksom på når variansen adderes eller substrateres, bliver summen 9

det samme. Det er to usikkerhedsværdier der adderes, ikke to stokastiske variabler. 6 Forelæsning 5-22/9-09 Litteratur: kapitel 7.5, Appendix F, note 9-10, 14, 16 6.1 Udvælgelse 6.1.1 Eksempel 1 På hvor mange måder kan 3 grupper udvælges blandt 7 grupper? 7 over 3 = 7! 3! (7 3)! = 35 6.1.2 Eksempel 2 På hvor mange måder kan man udvælge 7 kugler blandt 36 kugler? 36 over 7 = 36! 7! = 8347680 6.2 Påpeg og eksemplificer tvivlsomme forudsætninger X1: Antal fag HA-studerende Bo består til HA 1.deleksamen 2 udfald Men ikke konstant SSH, da nogle fag er lettere end andre Uafhængighed, er der heller ikke. X2: Antal seksere ud af 10 kast med en mønt ikke binomial ford. Læs teksten 10

X3: Antal af jer som består statistik Der er ikke konstant ssh. Men der er Uafhængighed. X4: Antal af jer (hvis I alle satser 40 kr.) som vinder en stor præmie i Lotto på lørdag Binomial, men husk at definer hvad er en Stor præmie før forsøget startes. X5: Antal regnvejrsdage i september måned Det skal klart defineres hvad en regnvejsdag Der er ikke konstant SSH, da vejret ikke er konstant. Det er uafhængighed, ingen hukommelse. X6: Antal af jer på 7. rækken der har et sen efternavn Definer hvad et -sen efternavn Konstant SSH Uafhængighed X7: Antal gange HA-studerende Bo møder op til statistikforelæsninger frem til jul ikke konstant SSH ikke uafhængighed 6.3 Øvelse Du får 25 spørgsmål til en teoriprøve. Du mener at kunne svare korrekt med en sandsynlighed på 90% på hvert spørgsmål. Hvad er sandsynligheden for at få 5 eller færre fejl? Definer den stokastiske variable. - Hvad er det man måler. 2 udfald: Ja Konstant SSH: ja, 90 % står i teksten. Uafh: ja, ikke nævneværdi afhængighed. 11

P (X 5 n = 25, p = 0, 10) = 0, 9666 eller P (X 20 n = 25, p = 0, 90) = 0, 9666 Du kaster 20 gange med en mønt. Hvad er sandsynligheden for at slå plat flere en 12 gange? 2 udfald: Ja Konstant SSH: ja, ingen hukommelse Uafh: ja P (X > 12 n = 20, p = 0, 5) = 1 P (x 12 n = 20, p = 0, 5) = 1 0, 8684 = 0, 1316 eller P (X 7 n = 20, p = 0, 5) Du har morgenforelæsninger fredag og med dit kendskab til dig selv vurderer du, at der hver fredag, ud af semesterets 15 fredag, er 20% risiko for, at du sover over dig. Hvad er sandsynligheden for, at du, når semesteret er omme, har været til stede i mellem halvdelen og en tredjedel af forelæsningerne. 5-7,5 forlæsninger. P (X 7) P (X 5) P (X 7 n = 15, p = 0, 80) P (X 5 n = 15, p = 0, 80) = 0, 0042 0, 0001 6.4 Poisson fordelingen Udtrykker antal hændelser der indtræffer indenfor et givet tidsrum hvor intensitet µ er konstant fra tidsrum til tidsrum og hvor intensitet i et tidsrum er uafhængighed af ikke overlappende tidsrums intensiteter P (X = x µ) = e µ µ x, for x = 0, 1, 2,... (1) x! 12

6.4.1 Forudsætninger 1. Antal hændelser inden for et tidsinterval (fx et minut) er uafhængigt af antal hændelser i andre tidsintervaller, såfremt der ikke er tale om overlappende tidsintervaller. 2. Det forventede antal hændelser inden for et tidsinterval (fx et minut) er konstant i hele forløbet (fx en time eller en dag). Processen siges at være stationær 3. Sandsynligheden for, at der indtræffer netop én hændelse inden for et meget lille tidsinterval er proportional med længden af intervallet. 4. Sandsynligheden for, at der indtræffer mere end én hændelse inden for et meget lille tidsinterval er negligerbar set i forhold til sandsynligheden for, at der indtræffer netop én hændelse. 6.4.2 Anvendelse Primært i forbindelse med køteoretiske problemer. Poisson-processen giver en udmærket beskrivelse af en række situationer, hvor ankomster eller hændelser sker tilfældigt over tid. 6.4.3 Øvelse Du får 20 minutter til at tælle gule biler på Ringgaden. Du har erfaring for, at der kommer 12 gule biler forbi i timen. Hvad er sandsynligheden for, at du højest ser en gul bil? X = Antal gule biler P (X 1 µ = 4) = 0, 0916 Du spiller 15 kampe. Du har erfaring for, at du scorer ligeså mange mål som du spiller kampe. Hvad er sandsynligheden for, at du scorer over 15 mål? X = Antal scoringer P (X > 15 µ = 15) = 1 P (X 15 µ = 15) = 1 0, 5681 = 0, 4319 Du har morgenforelæsninger fredag og med dit kendskab til dig selv ved 13

du, at du normalt hikker 5 gange i løbet af en forelæsning. Hvad er sandsynligheden for, at du, når forelæsningen er omme, ikke har hikket? X = Antal hik P (X = 0 µ = 5) = 0, 0067 6.5 Hypergeometrisk fordeling P (X = x) = P (x) = Ck xcn k N k, for x = 0, 1, 2,... (2) Cn N 6.5.1 Gennemsnit, varians og std. afv. for Hypergeometrisk ford. µ = E(X) = n k N σ 2 = V ar(x) = n k N (1 k N ) N n N 1 σ = n k N (1 k N ) N n N 1 (3) (4) (5) 14