Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro



Relaterede dokumenter
Note til styrkefunktionen

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Hvad skal vi lave i dag?

Statistik i basketball

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Kvantitative Metoder 1 - Forår Dagens program

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

Scorer FCK "for mange" mål i det sidste kvarter?

Forelæsning 8: Inferens for varianser (kap 9)

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Tema. Dagens tema: Indfør centrale statistiske begreber.

Løsning til eksaminen d. 29. maj 2009

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Dagens program. Praktisk information:

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Susanne Ditlevsen Institut for Matematiske Fag susanne

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Vejledende løsninger til opgaver i kapitel 6

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kvantitative Metoder 1 - Forår 2007

Teoretisk Statistik, 13 april, 2005

Konfidensinterval for µ (σ kendt)

OPLÆG TIL STUDIERETNINGSPROJEKTER I MATEMATIK-KEMI OM KVANTITATIV KEMISK ANALYSE OG STATISTISKE MODELLER

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Kvantitative Metoder 1 - Forår Dagens program

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Elementær sandsynlighedsregning

Maple 11 - Chi-i-anden test

Definition. Definitioner

Hvad skal vi lave i dag?

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Produkt og marked - matematiske og statistiske metoder

Uge 10 Teoretisk Statistik 1. marts 2004

Elementær sandsynlighedsregning

Sandsynlighedsregning Oversigt over begreber og fordelinger

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X.

Kvantitative Metoder 1 - Efterår Dagens program

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Sandsynlighedsregning Stokastisk variabel

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

02402 Løsning til testquiz02402f (Test VI)

Kapitel 4 Sandsynlighed og statistiske modeller

Kvantitative Metoder 1 - Forår 2007

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Nanostatistik: Opgavebesvarelser

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Statistik for ankomstprocesser

Løsning eksamen d. 15. december 2008

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.


Sandsynlighedsregning & Statistik

StatDataN: Test af hypotese

Teoretisk Statistik, 16. februar Generel teori,repetition

Sandsynlighedsregning 2. forelæsning Bo Friis Nielsen

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Om hypoteseprøvning (1)

Nanostatistik: Test af hypotese

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Statistik og Sandsynlighedsregning 2

Konfidensintervaller og Hypotesetest

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 28. maj 2014 Kursus nr : (navn) (underskrift) (bord nr)

Eksempler fra bogen Statistiske Grundbegreber løst ved anvendelse af Excel.

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kapitel 4 Sandsynlighed og statistiske modeller

Lær nemt! Statistik - Kompendium

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Undervisningsbeskrivelse

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

DANMARKS TEKNISKE UNIVERSITET Side 1 af 17 sider. Skriftlig prøve, den: 19. december 2012 Kursus nr : (navn) (underskrift) (bord nr)

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Kvantitative Metoder 1 - Forår 2007

To samhørende variable

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Modul 5: Test for én stikprøve

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Del I. Statistiske grundbegreber

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Transkript:

Uge 48 II Teoretisk Statistik 7. november 003 Numerisk modelkontrol af diskrete fordelinger: intro Eksempel: kvalitetskontrol Goodness-of-fit test: generel teori Endeligt udfaldsrum Udfaldsrum uden øvre begrænsning Inddeling i grupper i praksis Poissoneksempel: skadestuer (data fra opgave 16.9) Kontrol af diskrete fordelinger n uafhængige observationer 1, n fra en diskret fordeling foreligger. Givet en bestemt fordeling eller fordelingstype: kan observationerne tænkes at stamme fra denne fordeling? Modelkontrol. Muligheder: Fraktildiagrammer. Dur ikke for diskrete fordelinger... Sammenligning af pindediagrammer. Usikkert... Numeriske test; goodness-of-fit test. Udføres som Q-test i multinomialfordelingen. 1

Eksempel: Kvalitetskontrol En arbejdsproces består i at skære plader af et skrøbeligt materiale ud i 10 mindre stykker. Dette er svært: mange mindre stykker går itu! Hver dag udtages en plade, og man tæller op hvor mange af de 10 delstykker, der gik itu: X i. Udfaldsrum: {0,1,,10}. Dette har man gjort i n = 50 dage. Observationer: 1,, 50. Lad z være antal observationer med værdi. Model: X i ~ bin(n = 50, θ), hvor θ er ukendt og derfor må estimeres: 1 m 83 1 (16.7) ˆθ = z 0 = = 0.333 = = nm 10 50 3 () Eksempel: Kvalitetskontrol 0 1 3 4 5 6 7 8 9 10 z 16 8 43 59 39 7 1 0 50 P(X ) θˆ p(θ) ˆ np ˆ (θ) z ˆ -np (θ) q.017.104.99.559.787.93.980.997 1.00 1.00 1.00.017.087.195.6.8.186.057.017.003 1.00 4.5 1.75 48.75 65 57 34 14.5 4.75.75 <3 50

(3) Eksempel: Kvalitetskontrol 0 1 3 4 5 6 7-10 I alt z 16 8 43 59 39 7 16 50 P(X ˆ ) θ p(θ) ˆ np ˆ (θ) z ˆ -np (θ).017.104.99.559.787.93.980.997 1.00.017.087.195.6.8.186.057.0 1.00 4.5 1.75 48.75 65 57 34 14.5 5 50 11.75 6.5-5.75-6 - 18-7 7.75 11 0.00 q 3.49 1.8 0.68 0.55 5.68 1.44 4. 4. 71.05 f = m-r-1 = 8-1-1 = 6 q = 71.05 > χ (6) = 1.59 => H0 skal forkastes, dvs..95 binomialfordelingen kan ikke beskrive antal delstykker itu. (Lidt) forskellige situationer Udfaldsrummet for den givne fordeling har endeligt mange værdier, f. {0,1,,m}. For eksempel binomialfordelingen. Udfaldsrummet for den givne fordeling er uden øvre begrænsning, f. {0,1,,,}. For eksempel poissonfordeling Desuden (giver forskellige antal frihedsgrader i χ -testet): Kontrol af en bestemt fordeling, f. bin(10,0.5). Test af simpel hypotese. Kontrol af fordelingstype, f. bin(10,θ) hvor θ er ukendt og derfor skal estimereres først. Test af parametrisk hypotese. 3

Teoretisk Statistik 7. november 003 Numerisk modelkontrol af diskrete fordelinger: intro Eksempel: kvalitetskontrol Goodness-of-fit test: generel teori Endeligt udfaldsrum Udfaldsrum uden øvre begrænsning Inddeling i grupper i praksis Poissoneksempel: skadestuer (data fra opgave 16.9) Endeligt udfaldsrum Q-testet kan bl.a. benyttes til kontrollere om en given diskret fordeling kan beskrive et givet datamateriale omfattende n uafhængige observationer. Man er interesseret i : 1. om en bestemt fordeling, f.eks. en bin(n = 100, ½)-fordeling kan beskrive materialet,. om en bestemt fordelingstype, f.eks. en bin(n = 100, θ)- fordeling med ukendt parameter θ kan beskrive materialet. } Den ovenfor nævnte fordeling binomialfordelingen er eksempel på en fordeling, hvor den stokastiske variabel X i har endeligt udfaldsrum S = { 0,1,...,m og punktsandsynlighed f(), S. 4

For at bruge Q-testet bringer man observationerne på en form, der muliggør en sammenligning med de forventede værdier i en multinomialfordeling. Vi definerer z = antal observationer af størrelse, = 0,1,,m. Det medfører at vektoren (z 0, z 1,,z m ) kan opfattes som den observerede værdi af en multinomialfordelt stokastisk variabel (Z 0, Z 1,,Z m ) med antalsparameter n og sandsynlighedsparametre p 0,p 1,,p m, hvor (16.18) p = f(), = 0,1,,m. Under disse forudsætninger kan Q-teststørrelsen (16.5) anvendes. Den har her formen Q = m = 0 (Z nf()) nf () Under H 0 : p = f(), dvs. p er de sande sandsynlighedsparametre, vil Q approimativt være χ fordelt med (m+1) - 1= m frihedsgrader. Reglerne for brug af testet er de samme som nævnt tidligere. 5

Endeligt udfaldsrum, test for bestemt fordelingstype Hvis punktsandsynlighederne afhænger af èn ukendt parameter θ må ˆθ bestemmes og kontrollen baseres på Q-teststørrelsen (16.8). Vi finder (16.5) hvor Q = (Z np ˆ ) m = 0 npˆ ˆp = f( θˆ ), = 0,1,...,m. Q-teststørrelsen vil være approimativt χ fordelt med (m+1) = m-1 frihedsgrader. Reglerne for brug af testet er de samme som nævnt tidligere. Udfaldsrum uden øvre begrænsning Har X i punktssh. f 0 ()? (F: er X i Poisson (3)-fordelt?) Sæt * 0 = m f (m) = Σ f 0(). Teststørrelse 6

(Z nf ()) (Z nf (m)) m) m 1 * * 0 m 0 Q = + χ ( * = 0 nf 0() nf 0(m) Har X i punktssh. f(,θ) for et θ? (F: er X i poissonfordelt?) * Sæt f (m, θ ˆ) = f(, θˆ). Teststørrelse Σ = m (Z nf(, ˆθ )) (Z nf (m, θˆ )) m 1 * * m Q = + χ ( ˆ * ˆ = 0 nf (, θ) nf (m, θ) m 1) Gruppering af obs. / hvornår gælder χ -approks? Problemer hvis den forventede værdi er lille i en eller flere celler: Dividerer med noget småt χ -approksimationen gælder ikke Tommelfingerregel: Lav inddeling så den forventede værdi er mindst 3 i alle celler. Kan være nødvendigt at gruppere selv hvis udfaldsrummet er endeligt. gruppere i begge ender af udfaldsrummet. Teoretisk Statistik 7. november 003 Numerisk modelkontrol af diskrete fordelinger: intro Eksempel: kvalitetskontrol Goodness-of-fit test: generel teori 7

Endeligt udfaldsrum Udfaldsrum uden over begrænsning Inddeling i grupper i praksis Poissoneksempel: skadestuer (data fra opgave 16.9) Eksempel: skadestuer (data fra opgave 16.9) 0-3 4 5 6 7 8 9 10 11 I alt z 3 3 6 9 5 3 7 3 3 4 P(X ) λˆ.08.173.301.45.6.79.83.90 1.00.08.091.18.149.15.19.101.07.098 1.00 p() ˆ λ np ˆ ( λ ) z -np ( λˆ ) 3.44 3.8 5.38 6.6 6.3 5.4 4.4 3.0 4.1 4 -.44 -.8.6.74-1.3 -.4.76 -.0-1.1 0.00 q.06.18.9 1.0.7 1.08 1.80.00.30.89 Model: X ~ Ps(λ) med ukendt parameter λ, der må estimeres: 1 m 95 λ= ˆ = z 0 = = 7.0 7 = n 4 f = 9 1 1 = 7 q =.89 χ (7) < χ (7) = 14.07..10.95 H 0 : X ~ Ps(λ) kan altså ikke forkastes. 8

Som et supplement til Goodness-of-fit testet kan man teste H 0 : E[X] = var[x] = λ med et Q-test, der har formen 1 Q = (X X) = SAK /X. n i 1 i X = Ræsonnementet er følgende: Under antagelsen at X ~ Ps(λ) gælder ifølge sætning 7.6 at X N( λλ, ) a X for λ stor. Det medfører videre, at en normeret approimativt normalfordelt stokastisk variabel kan dannes => U i X = i λ i = 1,,n λ (X λ) U ( λ n n i i = χ i= 1 i= 1 a n 1) Indsætter vi herefter i stedet for λ estimatoren X fås 1 Q = (X X) = SAK / X n i 1 i X = X der approimativt er χ (n ) -fordelt. Undersøgelser har vist at denne approimation er god selv for små værdier af λ og n. I skadestueeksemplet fås. 60 q = SAK / = 308.98/ 7.0 = 44.01 χ (40) H 0 kan således ikke forkastes, dvs vi kan have X ~ Ps(λ). 9