4 Oversigt over kapitel 4

Relaterede dokumenter
Forelæsning 2: Kapitel 4, Diskrete fordelinger

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

MM501 forelæsningsslides

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Definition. Definitioner

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Lidt om fordelinger, afledt af normalfordelingen

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

MM501/MM503 forelæsningsslides

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Kvantitative Metoder 1 - Forår 2007

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Elementær sandsynlighedsregning

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Elementær sandsynlighedsregning

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Bernoulli og binomial fordelingerne Kontinuerte stokastiske variable Normalfordelingen

Aarhus Universitet 5. februar Meddelelse 2

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Meddelelse 2. Forelæsningerne i uge 6 ( ) Gennemgangen af BPT fortsættes. Vi afslutter Kapitel 4 og når sikkert et godt stykke ind i Kapitel 5.

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Statistik Lektion 2. Uafhængighed Stokastiske Variable Sandsynlighedsfordeling Middelværdi og Varians for Stok. Var.

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger

INSTITUT FOR MATEMATISKE FAG c

Statistiske modeller

Kvantitative Metoder 1 - Efterår Dagens program

Normalfordelingen og Stikprøvefordelinger

Hvorfor er det lige at vi skal lære det her?

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger. Peder Bacher

Note om Monte Carlo metoden

Sandsynlighedsregning Oversigt over begreber og fordelinger

Kvantitative Metoder 1 - Forår 2007

StatDataN: Middelværdi og varians

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Undervisningsbeskrivelse

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Kvantitative Metoder 1 - Forår Dagens program

Lad os som eksempel se på samtidigt kast med en terning og en mønt:

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Kvantitative Metoder 1 - Forår Dagens program

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Nanostatistik: Stokastisk variabel

Om hypoteseprøvning (1)

Tema. Dagens tema: Indfør centrale statistiske begreber.

Statistik og Sandsynlighedsregning 2

Nanostatistik: Stokastisk variabel

Gennemsnit og normalfordeling illustreret med terningkast, simulering og SLUMP()

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Løsning til eksamen 16/

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Teoretisk Statistik, 16. februar Generel teori,repetition

Sandsynlighedsregning 3. forelæsning Bo Friis Nielsen

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Uge 10 Teoretisk Statistik 1. marts 2004

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Kvantitative Metoder 1 - Efterår Dagens program

Introduktion til sandsynlighedsregning

Nanostatistik: Opgaver

Undervisningsbeskrivelse

Produkt og marked - matematiske og statistiske metoder

Undervisningsbeskrivelse

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 2)

Kombinatorik. Eksempel 2: En mand har 7 par bukser og 10 skjorter. Skal han både vælge en skjorte og et par bukser, så har han 10. 7=70 mulige valg.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Susanne Ditlevsen Institut for Matematiske Fag susanne


Indblik i statistik - for samfundsvidenskab

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Statistik og Sandsynlighedsregning 2

{ } { } {( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )}

Transkript:

IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt at beskrive fordelingen af observationer ved en idealiseret model. I dette kapitel gives den formelle baggrund for de statistiske metoder, der behandles i de følgende kapitler. Således introduceres begrebet stokastisk variabel (random variable) og fordelingsmodel (distibution model) til modellering af en variabel og af fordelingen af observationer af den variable. Begreberne middelværdi og varians for en stokastisk variabel indføres i relation til en sådan fordelingsmodel, og der angives nogle regneregler for middelværdier og varianser ved lineære transformationer og ved kombinationer af stokastiske variable. Endelig beskrives nogle hyppigt anvendte fordelingsmodeller, binomial- og Poissonfordelingen for diskrete variable, og normalfordelingen for kontinuerte variable. I de følgende kapitler vil vi specielt interessere os for normalfordelingsmodeller (afsnit 4.5-4.7), og til slut i kurset vil vi møde binomialfordelingen igen. Fordelingsmodellerne beskriver sandsynlighedsfordelinger, og derfor indledes kapitlet med en kort introduktion til sandsynlighedsregning. I kapitlet springer forfatterne lidt frem og tilbage mellem modeller og vurdering af overensstemmelsen mellem data og model. Ved læsningen bør man gøre sig klart, hvornår teksten vedrører modeller, og hvornår den foretager et sidespring og beskriver vurdering af data i relation til en model. 1

4.1 Density Histogram Discussion questions. På dansk bruges bare betegnelsen histogram for et sådant density histogram. Dette indledende afsnit vedrører data, dvs observationer (vi tager tilløb til at formulere en model). 4.2 Sandsynlighedsbegrebet Ordliste: trial: forsøg Bernoulli trial: Bernoulli forsøg probability : sandsynlighed random : tilfældig random variable: stokastisk variabel event: hændelse outcome: udfald Den matematisk orienterede læser vil bemærke forbindelsen til mængdelæren. En hændelse er en delmængde i mængden af samtlige mulige udfald, udfaldsrummet Ω. Definitionerne side 139 er blot en repetition af regneregler fra mængdelæren. intersection: fællesmængde union: foreningsmængde disjoint : disjunkte null event : nulhændelse, den tomme hændelse 2

Bemærk at additionsreglen for sandsynligheder side 140 kun mugælder for disjunkte hændelser, og at uafhængighed mellem hændelser (side 143) er defineret ved at produktreglen gælder for de tilsvarende sandsynligheder. (Betragt fx kast med to terninger og lad den ene hændelse være, at første terning viser to øjne, og den anden hændelse, at summen af øjnene på deto terninger er syv. Er de to hændelser uafhængige? ). 4.3 Stokastiske variable og deres fordelingsmodeller Her introduceres begrebet stokastisk variabel (side 145), som er den grundlæggende byggesten for statistiske modeller. Afsnit 4.3 omhandler diskrete stokastiske variable og afsnit 4.4 omhandler kontinuerte stokastiske variable. Formålet med afsnit 4.3 er dels at introducere de begreber og resultater, der bruges i forbindelse med fordelingsmodeller, og dels at introducere til nogle grundlæggende diskrete fordelingsmodeller. I afsnit 4.4 resumeres disse begreber og resultater for kontinuerte fordelingsmodeller og normalfordelingsmodellen introduceres. Som nævnt vil vi i kursets første del fortrinsvis beskæftige os med normalfordelingsmodeller, men det er alligevel nødvendigt at læse afsnit 4.3 for at blive introduceret til begreberne. Den formelle definition af en stokastisk variabel (random variable) er anført på side 145. Den praktiske betydning er, at den stokastiske variabel angiver det, vi måler, fx. hjernevægten for et tilfældigt udtrukket pattedyr. Bemærk specielt, at en stokastisk variabel er en funktion. Funktionsværdien svarende til en aktuel observation af den stokastiske variable er det tal, som er resultatet af den aktuelle måling, eksempelvis hjernevægten af den mus, som vi fik fat i, da vi tog et tilfældigt pattedyr. Populært udtrykt kan man opfatte en stokastisk variabel som et overbegreb for det, vi måler (før vi har foretaget målingen), mens en observeret værdi er det tal, der er resultatet af målingen. Det væsentlige er, at en 3

stokastisk variabel har tilknyttet en sandsynlighedsfordeling, mens en observeret værdi bare er et tal. I bogen symboliseres stokastiske variable ved STORE BOGSTAVER, (X,Y,Z,...,S 2 ), mens observerede værdier symboliseres ved de tilsvarende små bogstaver, (x,y,z,...,s 2 ) Egenskaber ved stokastiske variable udtrykkes ved egenskaber for den sandsynlighedsfordeling, som er knyttet til den pågældende stokastiske variable, fx middelværdi (forventningsværdi), varians, standardafvigelse (spredning). En sandsynlighedsfordeling er karakteriseret ved sin tæthedsfunktion, eller ved sin fordelingsfunktion (cumulative distribution function). En tæthedsfunktion kan opfattes som beskrivelse af, hvorledes den totale sandsynlighedsmasse er fordelt på punkterne på den reelle akse. Fortsætter man i billedet med massefordeling, kan middelværdi netop fortolkes som tyngdepunkt, ogvarianssominertimoment. Definitionerne for middelværdi og varians for diskrete (side 156) og for kontinuerte (side 150) stokastiske variable adskiller sig bare ved at for diskrete variable summerer man hen over alle de mulige værdier, men for kontinuerte variable udgør de mulige værdier et kontinuum, så derfor er man nødt til at integrere. Notation Notationen kan godt være lidt forvirrende: Dels optræder symbolerne µ og σ 2 som parametre (fx i normalfordelingen), og dels optræder de som operatorer, der virker på fordelingen af en stokastisk variabel. Når de optræder som operatorer, er den stokastiske variable angivet som fodtegn. Således betyder µ Y og σ 2 Y henholdsvis middelværdien og variansen af den stokastiske variabel Y, ligesom p Y ( ) betyder tæthedsfunktionen for den stokastiske variable Y. Bogen bruger undertiden også notationen E(Y ) for at angive middelværdien, µ Y, af den stokastiske variable. Tilsvarende bruger man i den statistiske litteratur ofte notationen V (Y ) for at angive variansen, σy 2 for den stokastiske 4

variable. Regneregler for middelværdier og varianser Med denne notation kan man direkte udtrykke de vigtige regneregler (4.9) og (4.10) som og tilsvarende udtrykkes (4.12) som E(aY + b) = ae(y )+b (9) V (ay + b) = a 2 V(Y) (10) E(Y 1 + Y 2 + +Y n )=E(Y 1 )+E(Y 2 )+ +E(Y n ) (12) og regnereglerne for varianser af kombinationer af uafhængige stokatiske variable (rammen side 162) udtrykkes som og V (Y 1 ± Y 2 )=V(Y 1 )+V(Y 2 ) V (Y 1 + Y 2 + +Y n )=V(Y 1 )+V(Y 2 )+ +V(Y n ) (14) Og endelig kan resultatet i rammen side 163 udtrykkes som: Lad Y 1,Y 2,...,Y n være uafhængige stokastiske variable, der følger den samme fordeling med E(Y i ) = µ og V (Y i ) = σ 2. Da gælder for den stokastiske variabel Y n = i Y i /n, at E(Y n ) = µ (16) V (Y n ) = σ2 (17) n V (Y n ) = σ (18) n 4.6 Den centrale grænseværdisætning Denne matematiske sætning danner en formel begrundelse for den udbredte anvendelse af normalfordelingen til beskrivelse af fordelingen af data. I Lab.4.3 får vi netop set en konsekvens af sætningen. 5

Man kan også klikke ind på http://www.users.on.net/zhcchz/java/quincunx/central.html og fortsætte igennem serien af web-sider til sidste billede, ( quincunx8.html) 4.8 Transformationer af variable for at opnå en normalfordeling Vi vil senere i kurset vise tilbage til forslagene i de fire pinde på side 208. 6