Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Relaterede dokumenter
Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Normalfordelingen og Stikprøvefordelinger

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Højde af kvinder 2 / 18

Produkt og marked - matematiske og statistiske metoder

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Definition. Definitioner

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Elementær sandsynlighedsregning

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Kvantitative Metoder 1 - Forår 2007

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Note om Monte Carlo metoden

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Konfidensintervaller og Hypotesetest

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

4 Oversigt over kapitel 4

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Elementær sandsynlighedsregning

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Hvorfor er det lige at vi skal lære det her?

Hvorfor er normalfordelingen så normal?

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Produkt og marked - matematiske og statistiske metoder

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Tema. Dagens tema: Indfør centrale statistiske begreber.

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Kapitel 4 Sandsynlighed og statistiske modeller

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Kvantitative Metoder 1 - Forår Dagens program

Statistiske modeller

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Kapitel 4 Sandsynlighed og statistiske modeller

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Sandsynlighedsregning

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Uge 10 Teoretisk Statistik 1. marts 2004

INSTITUT FOR MATEMATISKE FAG c

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Kvantitative Metoder 1 - Efterår Dagens program

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Kvantitative Metoder 1 - Forår Dagens program

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

Kvantitative Metoder 1 - Efterår Dagens program

Vejledende løsninger kapitel 8 opgaver

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

CIVILINGENIØREKSAMEN Side?? af?? sider. Skriftlig prøve, den: 16. december 2004 Kursus nr : (navn) (underskrift) (bord nr)

StatDataN: Middelværdi og varians

Nanostatistik: Opgaver

Kvantitative Metoder 1 - Forår 2007

Statistik II 4. Lektion. Logistisk regression

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Løsning eksamen d. 15. december 2008

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Kvantitative Metoder 1 - Forår 2007

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Dagens program. Afsnit Diskrete stokastiske variable Sandsynlighedsfunktioner Simultane fordelinger Betingede sandsynligheder

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Estimation og usikkerhed


Landmålingens fejlteori - Lektion 3. Estimation af σ Dobbeltmålinger Geometrisk nivellement Linearisering

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Sandsynlighedsregning Oversigt over begreber og fordelinger

Løsninger til kapitel 6

Transkript:

Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler: Eksperiment: Vælg en partileder / mål lysets hastighed Udfald: Lars / 299791 km/s Hændelse En hændelse er en mængde af udfald. Eksempler: Vælge en kvinde / Hastighedsmåling er ml. 299790 km/t og 299793 km/t

Sandsynlighed Sandsynlighed Sandsynligheden for en hændelse A er andelen af gange eksperimentet resulterer i hændelsen A i det lange løb. Notation P(A) betegner sandsynligheden for hændelsen A. Eksempel Eksperiment: Kast med en fair mønt P(Plat) = 0.5 I det længe løb er halvdelen af møntkastene plat.

Sandsynlighed: Egenskaber og regneregler 1) 0 P(A) 1 P(A) = 0 - hændelsen A indtræffer aldrig. P(A) = 1 - hændelsen A indtræffer hver gang. 2) P( ikke A) = 1 P(A) Hvis A ikke indtræffer, så må ikke A nødvendigvis indtræffe 3) Hvis hændelserne A og B ikke kan indtræffe samtidigt gælder: P( A eller B ) = P(A) + P(B)

Mere om sandsynlighed Betinget sandsynlighed Hvis A og B er mulige udfald, så gælder P( B givet A) = P( A og B) P( A) Hvilket kan omskrives til P(A og B) = P(A)P(B givet A) Uafhængighed To hændelser A og B er uafhængige hvis og kun hvis P ( A og B) = P( A) P( B) hvilket kan omskrives til P( B givet A ) = P(B)

Eksempeler Eksperiment: Vælg en tilfældig mand. Hændelse A : Den udvalgte er kortere end 170cm Hændelse B : Den udvalgte er længere end 180cm P( højden falder ikke i intervallet 170 til 180cm) = P(A eller B) = P(A) + P(B) Eksperiment: Vælg en voksen amerikaner Hændelse A: Personen er gift P(A) = 0.56 Hændelse B: Personen er meget glad. Sandsynligheden for at en gift person er meget glad er 0.40 P( er gift og meget glad) = P(er gift) P(meget glad givet er gift) = 0.56*0.40 = 0.22.

Eksempler Eksperiment: Vælg tilfældig studerende A: Personen GEO studerende B: Personen er en mandlig studerende P(GEO givet Mandlig) = P(GEO og Mandlig)/P(Mandlig) = Eksperiment: Kaste to terninger A: Første terning er en 6 er B: Anden terning er en 6 er P(Slå to 6 ere) =

Stokastisk variabel Stokastisk variabel Antag vi kan knytte en talværdi til hvert udfald af et eksperiment. Hvert eksperiment fører således til et tilfældigt tal. Dette tilfældige tal kaldes en stokastisk variabel. 0 1 5

Diskret stokastisk variabel (SV) En stokastisk variabel er diskret, hvis den kun kan tage adskilte værdier. Fx 0, 1, 2, 3, Lad P(k) betegne sandsynligheden for at den stokastiske variabel y tager værdien k. Dvs. P(1) = sandsynligheden for y tager værdien 1. Der gælder 0 P(y) 1 for alle y. Σ alle y P(y) = 1

Eksempel Eksperiment: Kast to terninger Lad y være antallet af 6 ere i de to kast y P(y) 0 1 2 Total

Middelværdi for diskret SV Motivation: Vi har en stikprøve: Gennemsnit Udfald 0 1 2 3 4 5 Antal 1 3 60 23 12 1 Andel 1/100 3/100 60/100 23/100 12/100 1/100 0 1+ 1 3+ 2 60 + 3 23+ 4 12 + 5 1 y = 100 1 3 60 23 12 = 0 + 1 + 2 + 3 + 4 100 100 100 100 100 I det lange løb + 5 1 100 µ = 0 P(0) + 1 P(1) + 2 P(2) + 3 P(3) + 4 P(4) + 5 P(5) = y P( y) alle y

Variansen for diskret SV For en diskret stokastisk variabel y med middelværdi µ er variansen: 2 σ = alle y ( y µ ) = (0 µ ) 2 2 P( y) P(0) + (1 µ ) 2 P(1) + + (4 µ ) 2 P(4) + (5 µ ) 2 P(5)

Kontinuert stokastisk variabel Hvis y er en kontinuert stokastisk variabel kan den tage et kontinuum af værdier (alle værdier i et interval). Vi angiver sandsynligheden for at y falder i et interval [a ; b] ved et areal under en kurve. Tæthedsfunktion f(x) 0.0 0.1 0.2 0.3 0.4 P(1 y 2) = Areal -3-2 -1 0 1 2 3

Tæthedsfunktionen (Sandsynligheds)Tæthedsfunktion f(x) 1) f ( y) 0 for alle y R 2) f ( y) dy = 1 arealet under kurven f er 1 3) P( a b y b) = f ( y) dy for a b a 0.0 0.1 0.2 0.3 0.4-3 -2-1 0 1 2 3

Normalfordelingen Normalfordelingen Klokkeformet og karakteriseret ved middelværdi µ og standardafvigelse σ. Notation: y ~ N(µ,σ 2 ) betyder at y er kontinuert stokastisk variabel, der er normalfordelt med middelværdi µ og varians σ 2. Tæthedsfunktionen for normalfordelingen er f ( y) 1 Egenskaber: exp ( y µ ) = 2 2 2 2πσ σ 2 95% Symmetrisk omkring µ f(y) > 0 for alle y. µ 1.96σ µ µ+1.96σ

Sandsynligheder i normalfordelingen Sandsynligheden for at fald indenfor z standardafvigelser fra middelværdien: z = 1 z = 2 68% 95.44% µ σ µ µ+σ µ 2σ µ µ+2σ z = 3 99,7% µ 3σ µ µ+3σ

Sandsynligheder fra Tabel I Appendix A finder vi arealet af det grønne område for forskellige værdier af z. Antag y ~ N(µ,σ 2 ) µ µ+zσ Fortolkning 1: Sandsynligheden for at y er større end µ + zσ, for forskellige værdier af z. Fortolkning 2: Sandsynligheden for at y ligger mere end z standardafvigelser over µ. Opgave: Antag y ~ N(µ,σ 2 ). Find sandsynligheden for at y er mere end 1.26 standardafvigelser over middelværdien.

Løsning Opgave: Antag y ~ N(µ,σ 2 ). Find sandsynligheden for at y er mere end 1.26 standardafvigelser over middelværdien. Svar: P(y µ + 1.26 σ) = 0.1038 Bonus-spørgsmål: P(y µ + 1.26 σ) =

Eksempel Antag højden blandt mænd er normalfordelt med middelværdi µ=175cm og standardafvigelse σ=12cm. Hvad er sandsynligheden for at en tilfældig udvalgt mand er højere end 180cm? Hvor mange standardafvigelse ligger 180cm over 175cm? z = 175 180 µ Ifølge tabellen er sandsynligheden. µ+zσ Lad de 180cm være y værdien, da er z-værdien z = y µ σ Bonus spørgsmål: Hvad er sandsynligheden for at vælge en mand, der er højere end 170cm?

Sammenligning Good vs Evil Mr Bond har scoret 550 i en test med middelværdi µ = 500 og sa σ = 100 Dr No har scoret 30 i en test med middelværdi µ = 18 og sa σ = 16. Hvem har den mest imponerede score? Løsning: Hvem ligger flest standardafvigelser over middelværdien: Mr. Bond: z y µ = = σ Dr. No y µ z = = σ

Stikprøvefordeling Ide: Bruge stikprøve-statistik til at sige noget om populationsparameter. Problem: Stikprøve-statistikken vil variere fra gang til gang vi introducerer en vis usikkerhed i vores konklusioner. Stikprøvefordelingen Stikprøvefordelingen for en statistik er den sandsynlighedsfordeling, der beskriver sandsynligheden for de mulige værdier af statistikken.

Stikprøvefordeling: Eksempel Eksempel: Valg til guvernør 56.5% af 2705 vil stemme på Schwarzenegger (kilde: CNN) De 56.5% er stikprøve-andelen. De 56.5% er et bud på andel af populationen, der vil stemme på Schwarzenegger. Spørgsmål Hvor pålidelig er denne forudsigelse (af en valgsejr)? Stikprøveandelen vil åbenlyst variere fra gang til gang (stikprøvefordelingen). Svar: Tankeeksperiment! Antag den sande andel Schwarzenegger-stemmer er 50%. Hvor (u)sandsynlig er en stikprøve-andel på 56.5% da?

Et Simuleret Svar! Forsøg Kast en fair mønt 2705 gang og noter andel af kroner. Gentag spøgen mange, mange gange Hvordan fordeler andelen sig? Hvordan placerer 56.5% sig? Vi be r SPSS om hjælp med møntkastene

Møntkast i SPSS Kør syntax-filen1000.sps for at narre SPSS til at lave 1000 rækker. SPSS: Transform Compute variable Simuler antal: RV.BINOM(antal kast, sandsynlighed for krone) Udregn andel: andel = antal / 2705

Stikprøvefordelingen af andele Resultat i SPSS Histogram of simulerede andele 56.5% Var der i virkeligheden dødt løb, så er en stikprøveandel på 56.5% meget usandsynlig. Dvs. vi kan være ret sikre på at Mr S. vinder.

Stikprøvefordeling for y Stikprøve-gennemsnittet y er en (stokastisk) variabel, da y variere (tilfældigt) fra gang til gang. Faktisk vil y varierer omkring populations-gennemsnittet µ. Antag vi har en stikprøve af størrelse n fra en population med middelværdi µ og s.a. σ. Stikprøvefordelingen for y har da middelværdi µ standardafvigelse σ σ y = n (betegnes standardfejlen)

Stemmer Lad variablen y betegne om vil stemme på Mr. S eller ej. Antag y = 1 (Stemme på Schwrarzenegger) y = 0 (Stemme på ham den anden) Antag P(1) = p (0 p 1) P(0) = 1 - p p 1-p Da gælder µ = p og σ = p( 1 p) Stemmeandelen er et gennemsnit af mange y er. 0 1 Bemærk: m er populationsandelen af stemmer på Mr. S.

Stemmer fortsat For populationen har vi altså at µ = p og σ = p( 1 p) Dvs. y har middelværdi µ og standardfejl σ y = p( 1 n p) Jf. tommelfingerregel, er vil 95% af alle stikprøveandele ligge i intervallet µ ± 2σ y Antager vi p=0.50 (dødt løb) har vi: p ± 2 p(1 p) n = 0.50 ± 2 0.5 2705 Bemærk: Intervallet bliver kortere, hvis vi øger n.

Central grænseværdisætning (CLT) Central grænseværdisætning For en tilfældig stikprøve med en tilstrækkelig stor stikprøvestørrelse n, vil stikprøvefordelingen af stikprøvegennemsnittet y være ca. normalfordelt. Eksempel: Det gennemsnitlige antal øjne i k kast med en terning. Til høje: k = 1,2,5,10 Bemærk: Allerede med k = 10 kast er gennemsnittet meget lig en normalfordeling.

Eksempel En stikprøveandel er (ca.) normalfordelt, hvis stikprøvestørrelsen er stor og populationsandelen ikke er for tæt på 0 eller 1. Stikprøve andelen er normalfordel med middelværdi p og standardafvigelse p ( 1 p) / n. Hvis der er dødt løb (p = 0.50), hvad er da sandsynligheden for at se en stikprøveandel på 0.565 eller større ved en stikprøve på 2705? z = y µ = σ 0.565 0.5 0.5(1 0.5) 2705 = 0.5 0.565