Kapitel 4 Sandsynlighed og statistiske modeller

Relaterede dokumenter
Kapitel 4 Sandsynlighed og statistiske modeller

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Kapitel 7 Forskelle mellem centraltendenser

Uge 10 Teoretisk Statistik 1. marts 2004

Sandsynlighedsregning Stokastisk variabel

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Opgaver til kapitel 3

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Produkt og marked - matematiske og statistiske metoder

Kapitel 2 Frekvensfordelinger

Kvantitative Metoder 1 - Forår 2007

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Sandsynlighedsregning

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Elementær sandsynlighedsregning

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Projekt 8.3 Hvordan undersøges om et talmateriale normalfordelt?

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Tema. Dagens tema: Indfør centrale statistiske begreber.

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Kapitel 12 Variansanalyse

Normalfordelingen og Stikprøvefordelinger

Kapitel 3 Centraltendens og spredning

Kvantitative Metoder 1 - Efterår Dagens program

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Kapitel 1 Statistiske grundbegreber

Note om Monte Carlo metoden

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Kapitel 12 Variansanalyse

Statistik og Sandsynlighedsregning 2

Elementær sandsynlighedsregning

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Kapitel 3 Centraltendens og spredning

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Produkt og marked - matematiske og statistiske metoder

Kvantitative Metoder 1 - Forår 2007

Løsning til eksaminen d. 29. maj 2009

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Temaopgave i statistik for

Maja Tarp AARHUS UNIVERSITET

Undervisningsbeskrivelse

Løsninger til kapitel 6

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Vejledende løsninger til opgaver i kapitel 6

Matematik A, vejledende opgave 2, ny ordning. Vejledende løsninger, Peter B. Delprøven uden hjælpemidler. Opgave 1. a) A= 6x 2 +12xdx = 2x 3 + 6x 2 2

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Vejledende løsninger kapitel 8 opgaver

Løsning til eksaminen d. 14. december 2009

Transkript:

Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 22 Generalisering fra stikprøve til population Idé: Opstil en model for populationen og estimér modellens parametre på baggrund af stikprøven Kontrollér at stikprøven ikke er i modstrid med modellen Eksempel: 95% konfidensinterval for middelværdien i en normalfordeling 2 / 22

Binomialfordelingen - uformelt Lyttetest: En person har i tre ud af tre sætninger korrekt hørt forskel på bas og pas - kan det være tilfældigt? Vi gentager et eksperiment tre gange, hvor der hver gang er 50% sandsynlighed for at få succes ved en tilfældighed (f. få krone) Hvad er sandsynligheden for at få krone tre gange i træk? Og hvorfor er det interessant? 3 / 22 Uformelt... fortsat Der er otte mulige udfald ved tre kast: KKK, KKP, KPK, PKK, KPP, PKP, PPK, PPP Alle otte udfald er lige sandsynlige og netop ét udfald svarer til tre gange krone Laplaces lov: Sandsynlighed er antal gunstige divideret med antal mulige Sandsynligheden for netop tre gange krone er således 1/8 = 0,125 = 12,5% 4 / 22

Uformelt... fortsat Tilbage til lyttetest: Der er altså en sandsynlighed (risiko) på 12,5% for, at personen ikke kan høre forskel på bas og pas selvom der blev svaret rigtigt i 3 ud af 3 tilfælde. Er dette acceptabelt og hvis ikke: Hvordan kan man så lave eksperimentet bedre? 5 / 22 Binomialfordelingen formelt n Bernoulli-forsøg med sandsynligheden p for sandt (og følgeligt sandsynligheden 1 p for falsk) Punktsandsynligheder er givet ved ( ) n f () = p n (1 p) n 1, = 0, 1,..., n hvor K(n,) er binomialkoefficienten ( ) n n (n 1)... (n + 1) = ( 1)... 1 = n!!(n )! 6 / 22

Binomialfordelingen formelt og grafisk X ~ Bin(3,0.5) f() = P(X=) 0.0 0.1 0.2 0.3 0.4 0 1 2 3 7 / 22 Opgave 3 8 / 22

Normalfordelingen Normalfordelingen er en kontinuert fordeling mens binomialfordelingen er en diskret fordeling Tæthedsfunktion ϕ() 0.0 0.1 0.2 0.3 0.4 3 2 1 0 1 2 3 Histogrammet for en binomialfordeling med p = 0, 5 og meget højt n ligner tæthedsfunktionen for en normalfordeling 9 / 22 Normalfordelingen som grænsefordeling for binomialfordelingen med p = 0, 5 n=5 n=10 P() 0.05 0.15 0.25 P() 0.00 0.10 0.20 0 1 2 3 4 5 0 2 4 6 8 10 n=20 n=50 P() 0.00 0.05 0.10 0.15 P() 0.00 0.04 0.08 0 5 10 15 20 0 10 20 30 40 50 10 / 22

Normalfordelingen Der findes uendeligt mange normalfordelinger, der hver især er karakteriseret ved deres middelværdi µ og deres spredning σ Middelværdi µ og spredning σ er parametre i normalfordelingen, og vi skriver N(µ, σ 2 ) Tæthedsfunktionen er en klokkeformet kurve: f (; µ, σ) = 1 ( σ 2π ep ( µ)2 2σ 2 (vi bruger heldigvis næsten altid tabeller) Kurven har toppunkt for = µ Større spredning giver fladere tæthedsfunktion ) 11 / 22 Tæthedsfunktion for 3 forskellige normalfordelinger f() 0.00 0.05 0.10 0.15 0.20 N(10, 2 2 ) N(10, 4 2 ) N(20, 2 2 ) 10 0 10 20 30 12 / 22

Fordelingsfunktion og standardnormalfordeling Ved bestemt integration af tæthedsfunktionen kommer vi frem til fordelingsfunktionen, der er en slags kummuleret frekvensfordeling Fraktiler i en normalfordeling er nyttige ifm udsagn af typen: 50% af eleverne kan forventes at score mellem 22 og 87 i den forelagte prøve 5% af eleverne forventes at score mindre end 12 Fordelingsfunktionen går gennem (µ, 0.5) Lavere spredning giver stejlere fordelingsfunktion 13 / 22 Fordelingsfunktion for 3 forskellige normalfordelinger F() 0.0 0.2 0.4 0.6 0.8 1.0 N(10, 2 2 ) N(10, 4 2 ) N(20, 2 2 ) 10 0 10 20 30 14 / 22

Standardnormalfordelingen Der findes uendeligt mange normalfordelinger, men vi kan i praksis klare os med én, nemlig standardnormalfordelingen N(0, 1) Fordelingsfunktionen Φ() fremkommer ved integration af tæthedsfunktionen ϕ() Tæthedsfunktion Fordelingsfunktion ϕ() 0.0 0.1 0.2 0.3 0.4 Φ() 0.0 0.2 0.4 0.6 0.8 1.0 3 2 1 0 1 2 3 3 2 1 0 1 2 3 15 / 22 Eksempel på brug af Φ Antag at vi har lavet en undersøgelse, hvor gennemsnittet af scorene er 17 og standardafvigelsen er 3. Vi antager desuden, at scorene følger en normalfordeling. Vi vil nu gerne kende sandsynligheden for, at en tilfældig score er mindre end 14. Vi normaliserer ved at beregne den såkaldte z-værdi: z = X s = 14 17 3 = 1 Ved opslag i Tabel A kan vi nu se at p = P( 14) = Φ( 1) = 0, 159 Sandsynligheden for at en tilfældig score er mindre en 14 er altså cirka 16% 16 / 22

Modelkontrol Vi er ofte interesserede i at se, hvor godt vores stikprøve egentlig stemmer overens med normalfordelingsantagelsen For Tabel 2.5 (vokalvarighed i ms) beregner vi det forventede antal observationer i et bestemt interval under antagelsen om normalitet og sammenligner med det observerede Vi beregner = 208, 9 og s = 9, 79 For klassen afgrænset ved (204, 5; 209, 5] beregnes to z-værdier til -0,45 og 0,06 Via Tabel A findes tilhørende sandsynligheder p som 0,326 og 0,524 Sandsynligheden for at være i intervallet er derfor 0,524-0,326 = 0,198 Da stikprøven omfatter 40 enheder forventer vi at finde 40 0, 198 = 7, 92 enheder i intervallet Der var faktisk 9... 17 / 22 Grafisk modelkontrol Vokalvarighed [ms] Antal 0 2 4 6 8 10 (184.5; 189.5] (189.5; 194.5] (194.5; 199.5] (199.5; 204.5] (204.5; 209.5] (209.5; 214.5] (214.5; 219.5] (219.5; 224.5] (224.5; 229.5] Observeret Forventet (229.5; 234.5] Vokalvarighed [ms] 18 / 22

Grafisk modelkontrol Vokalvarighed [ms] Antal 0 2 4 6 8 10 (184.5; 189.5] (189.5; 194.5] (194.5; 199.5] (199.5; 204.5] (204.5; 209.5] (209.5; 214.5] (214.5; 219.5] (219.5; 224.5] (224.5; 229.5] (229.5; 234.5] Observeret Forventet 19 / 22 Normalfordeling i Ecel Der kan beregnes værdier for både f () og F () for vilkårlige normalfordelinger med funktionen normfordeling(...), der tager fire argumenter: værdi af middelværdi µ spredning σ kumulativ: 0 betyder nej (der regnes med f ) og 1 betyder ja (der regnes med F ) Der kan findes fraktiler for vilkårlige normalfordelinger med funktionen norminv(...), der tager tre argumenter: sandsynlighed p middelværdi µ spredning σ Dette svarer til at finde p i ligningen F ( p ) = p p = F 1 (p) 20 / 22

Normalfordeling i Ecel Ønsker man at finde værdier i standardnormalfordelingen kan man benytte funtionerne standardnormfordeling(...) og standardnorminv(...), der tager ét argument hver... men det er nok lige så nemt at angive µ = 0 og σ = 1 i de generelle funktioner I praksis bruger vi stort set kun tæthedsfunktionen når vi skal tegne pæne klokkeformede kurver det er næsten altid fordelingsfunktionen, der er den interessante 21 / 22 Opsamling Normalfordelingen er en ofte benyttet model for delvist observerede populationer, idet fordelingens parametre kan estimeres fra en stikprøve Normalfordelingen har to parametre, middelværdi µ og spredning σ, og vi skriver N(µ, σ 2 ) Standardnormalfordelingen N(0, 1) kan benyttes til beregninger i andre normalfordelinger via en z-værdi z = µ σ Således beregnes sandsynligheden P(X < ), hvor X N(µ 0, σ0 2) ved ( ) µ0 p = Φ hvor Φ er fordelingsfunktionen for standardnormalfordelingen. σ 0 22 / 22