Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

Relaterede dokumenter
Estimation ved momentmetoden. Estimation af middelværdiparameter

Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk!

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

29. januar Epidemiologi og biostatistik Forelæsning 2 Uge 1, torsdag 2. februar 2006 Michael Væth, Afdeling for Biostatistik.

24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik.

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

9. Binomialfordelingen

Motivation. En tegning

Løsninger til kapitel 7

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning)

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Introduktion til Statistik

Statistiske test. Efteråret 2010 Jens Friis, AAU. Hjemmeside :

Generelle lineære modeller

Maja Tarp AARHUS UNIVERSITET

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

antal gange krone sker i første n kast = n

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab

Stikprøvefordelinger og konfidensintervaller

Asymptotisk optimalitet af MLE

Uge 40 I Teoretisk Statistik, 30. september 2003

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave december 2007

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 15. februar 2006

Hovedpointer fra SaSt

Konfidens intervaller

Sammenligning af to grupper

Velkommen. Program. Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R. Praktiske ting og sager

Tests for forskel i central tendens for data på ordinal- og intervalskala. Typer af statistiske test:

Modul 14: Goodness-of-fit test og krydstabelanalyse

Program. Middelværdi af Y = t(x ) Transformationssætningen

Vejledende besvarelser til opgaver i kapitel 15

Opsamling. Lidt om det hele..!

Susanne Ditlevsen Institut for Matematiske Fag susanne

Sammensatte hypoteser i en polynomialfordeling

STATISTIKNOTER Simple normalfordelingsmodeller

Projekt 9.10 St. Petersborg paradokset

Diskrete og kontinuerte stokastiske variable

Estimation og test i normalfordelingen

Den flerdimensionale normalfordeling

Kvantitative metoder 2

Statistiske Modeller 1: Notat 1

Gamle eksamensopgaver. Diskret Matematik med Anvendelser (DM72) & Diskrete Strukturer(DM504)

DATV: Introduktion til optimering og operationsanalyse, Bin Packing Problemet

Asymptotisk estimationsteori

Projekt 9.1 Regneregler for stokastiske variable middelværdi, varians og spredning

Lys og gitterligningen

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable

Morten Frydenberg version dato:

vejer (med fortegn). Det vil vi illustrere visuelt og geometrisk for (2 2)-matricer og (3 3)-matricer i enote 6.

IMFUFA TEKST NR TEKSTER fra ROSKILDE UNIVERSITETSCENTER. Jørgen Larsen

Statistik og Sandsynlighedsregning 2

Vi ønsker også at teste hypoteser om parametrene. F.eks: Kan µ tænkes at være 0 (eller anden fast, kendt værdi)? Eksempel: dollarkurser

Uge 37 opgaver. Opgave 1. Svar : Starter med at definere sup (M) og inf (M) :

Matematik A. Højere handelseksamen. Tirsdag den 26. maj 2015 kl hhx151-mat/a

Test i polynomialfordelingen

Vejledende opgavebesvarelser

Teoretisk Statistik, 9. februar Beskrivende statistik

Sandsynlighedsteori 1.2 og 2 Uge 5.

Nogle Asymptotiske Resultater. Jens Ledet Jensen Matematisk Institut, Aarhus Universitet. 1 Indledning 1

Kapitel 10 KALIBRERING AF STRØMNINGSMODEL

x-klasserne Gammel Hellerup Gymnasium

STATISTIK x-klasserne Gammel Hellerup Gymnasium

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Hypotesetest. Hypotesetest og kritiske værdier Type 1 og Type 2 fejl Styrken af en test Sammenligning af to populationer

Undersøgelse af numeriske modeller

Oversigt. 1 Fordelingen for gennemsnittet t-fordelingen. 3 Den statistiske sprogbrug og formelle ramme

STATISTISKE GRUNDBEGREBER

Spørgsmål 1 (5 %) Bestem sandsynligheden for at batteriet kan anvendes i mere end 5 timer.

Program. Populationer og stikprøver. Praktiske oplysninger. Eksempel vaccine mod miltbrand hos får. Praktiske oplysninger

Skitse til notat om hvor de forskellige sandsynlighedsfordelinger kan tænkes at komme fra

Noter om polynomier, Kirsten Rosenkilde, Marts Polynomier

Længde [cm] Der er frit vandspejle i sandkassen. Herudover er sandkassen åben i højden cm i venstresiden og 0-20 cm i højresiden.

Sandsynlighedsregning i biologi

STATISTISKE GRUNDBEGREBER

(VIDENSKABSTEORI) STATISTIK (EKSPERIMENTELT ARBEJDE)

Statistiske principper

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Eksempel 10.1 En autoregressiv proces af orden 1 (ofte blot kaldet en AR(1)- proces) pårhar et opdateringsskema (10.1) med funktionen. for y R.

Elementær Matematik. Polynomier

TEKST NR TEKSTER fra IMFUFA

Transkript:

Praktisk ifo Liste med rettelser og meigsforstyrrede trykfejl i DS på Absalo. Statistisk aalyse af e ekelt stikprøve: kedt eller ukedt varias Sadsylighedsregig og Statistik (SaSt) Helle Sørese Projekt 2 er på gade (Absalo) u. Tre dele: Del 1: Sadsylighedsregig. Ka laves u. Del 2: Simulatio. Ka laves u. Del 3: Dataaalyse. Spørgsmål 8 10 ka laves efter madag. Reste ka laves efter tirsdag/fredag. Bemærk: Hjælp! Vik til R mm. sidst i opgave. Me prøv selv først! Ret mage me små spørgsmål i del 3. Øvelsere madag og tirsdag i æste uge delvis sat af til projektarbejde. Sørg for at få startet u! Afleveres seest 11. jauar. Spørgetime de 8. jauar 10 12. SaSt (Uge 5, fredag) E stikprøve 1 / 21 SaSt (Uge 5, fredag) E stikprøve 2 / 21 I dag I tirsdags Data: y = (y 1,...,y ) Først mere om aalyse af stikprøve med kedt varias: Repetitio fra tirsdag, icl. eksempel om læseprøver Mere om kofidesiterval, test af hypotese og deres sammehæg Derefter aalyse af stikprøve med ukedt varias: Hvad skal vi ædre år variase er ukedt i stedet for kedt? Maksimum likelihood estimatio Kofidesiterval for middelværdi Test for hypotese om middelværdi. I dag mest ituitio, bevis udskydes til på madag. Statistisk model: y = (y 1,...,y ) udfald af Y = (Y 1,...,Y ), hvor Y 1,...,Y er uafhægige Alle Y i N(,σ0 2) hvor σ 0 2 > 0 er et kedt tal mes R er ukedt. Estimatio: Estimat ˆ = ȳ. Estimator ˆ = Ȳ N(,σ 2 0 ). 95% kofidesiterval for : Ȳ ± 1.96 σ 0 Likelihood ratio test for hypotese H : = 0 : Udføres på u = ȳ 0 σ 0 /. p-værdi ε(y) = 2P(U u ) hvor U N(0,1). Afviser H hvis ε(y) 0.05, ellers ikke. SaSt (Uge 5, fredag) E stikprøve 3 / 21 SaSt (Uge 5, fredag) E stikprøve 4 / 21

Eksempel: atioal læsetest På ladspla: resultatere fra teste er N(100, 144)-fordelt. Bestemt skole: 55 elever testet, geemsitsscore på 97 poit. Påviser dette at skoles elever er dårligere ed ladsgeemsittet? Statistisk model: y 1,...,y 55 er realisatioer af Y 1,...,Y 55 Y 1,...,Y 55 uafh. og N(,σ 2 0 ) hvor R er ukedt og σ 2 0 = 144. Estimat og estimator for : ˆ = ȳ = 97, Ȳ N(,σ 2 0 /55). 95% kofidesiterval: 97 ± 1.96 12 55 = 97 ± 3.2 = (93.8,100.2) Hypotese, H : = 100. Teststørrelse og p-værdi: u = 97 100 12/ 55 = 1.85, ε(y) = 2 (1 Φ(1.85) ) = 0.06. Middelværdie ikke sigifikat forskellig fra 100, me data er dog svagt usædvalige hvis skoles elever læser lige så godt som ladsgeemsittet. Mere om kofidesitervallet Husk: At Ȳ ± 1.96 σ 0 er et 95% KI for betyder: Hvis de sade middelværdi er 0 : ( P Ȳ 1.96 σ 0 < < Ȳ + 1.96 σ ) 0 = 0.95 95% ssh. for at få data y med KI som ideholder 0 5% ssh. for at få data y med KI som ikke ideholder 0 Getagelser af dataidsamlige: 0 KI for 95% af alle mulige datasæt. Hvad sker der med kofidesitervallet hvis... atallet af observatioer vokser? σ 2 0 vokser? vi øsker e ade kofidesgrad, 1 α i stedet for 0.95? SaSt (Uge 5, fredag) E stikprøve 5 / 21 SaSt (Uge 5, fredag) E stikprøve 6 / 21 Kofidesiterval Mere om hypotesetest Data simuleret fra N(0,σ 2 0 ). Hypotese, H : = 0 for give værdi 0. 95%, =10, σ 0 2 =1 95%, =40, σ 0 2 =1 95%, =10, σ 0 2 =2 75%, =10, σ 0 2 =1 Restriktio af modelle. Uder hypotese er Y i ( 0,σ 2 0 ). Kvotietteststørrelse og p-værdi: Lad u = ȳ 0 σ 0 /. Så er Q(y) = L ( y ( 0 ) L y (ˆ) = exp 1 ) 2σ0 2 (ȳ 0 ) 2 = exp ( 12 ) u2 ε(y) = P ( Q(Y ) Q(y) ) = P(U 2 u 2 ) = 2P(U u ), U N(0,1) Bemærk: Q(y) er e aftagede fuktio af u 2. Sigifikasiveau α fastlægges på forhåd: Afviser/forkaster hypotese hvis ε(y) α, ellers ikke Bruger ofte α = 0.05 me itet religiøst i det. SaSt (Uge 5, fredag) E stikprøve 7 / 21 SaSt (Uge 5, fredag) E stikprøve 8 / 21

Fortolkig af Q og p Type I og type II fejl Kvotietteststørrelse måler hvor meget dårligere hypotese = 0 passer til data ed de opridelige model hvor tillades at variere i R. p-værdi: ssh. for hvis hypotese er sad at få data der passer midst lige så dårligt med hypotese som de data vi fik, målt vha. Q. ε(y) lille vores data (eller ogle værre) er usædvalige. Hypotese er derfor formetlig falsk. ε(y) stor vores data (eller ogle værre) er ikke usædvalige. Me det betyder ikke ødvedigvis at hypotese er sad. Vi ka påvise modstrid med hypotese, me ikke decideret eftervise at hypotese er sad. Fire scearier: H sad H falsk Afviser ikke OK type II Afviser type I OK Hvis vi bruger sigifikasiveau α = 0.05, så laver vi type I fejl med 5% sadsylighed! Vi ka ædre på sadsylighede for type I og type II fejl ved at ædre på sigifikasiveauet. Hvis vi gør sigifikasiveauet α midre: Sværere at forkaste e hypotese Færre type I fejl, me flere type II fejl. Trade-off. SaSt (Uge 5, fredag) E stikprøve 9 / 21 SaSt (Uge 5, fredag) E stikprøve 10 / 21 Sammehæg mellem kofidesiterval og test Eksempel: prothrombiideks Har til dels brugt samme sprogbrug da vi sakkede om kofidesiterval og hypotesetest. Ikke tilfældigt... Sætig 3.10: Kofidesitervallet C 1 α = ȳ ± z 1 α/2 σ 0 med kofidesgrad 1 α består af etop de værdier 0 hvor hypotese H : = 0 ikke ka afvises på sigifikasiveau α. Bevis: Atag at 0 C 1 α Hvad betyder det for u? For ε(y)? For koklusioe på testet? De ade vej. Prothrombiideks: markør for leversvigt (lave værdier leversvigt). Eksperimet: 40 patieter med leverproblemer Prothrombiideks målt for hver patiet både før og efter behadlig. y i : forskel for patiet i (efter før). Positiv værdi af y i betyder at behadlige har været gavlig. Atagelser: y = (y 1,...,y 40 ) udfald af Y = (Y 1,...,Y 40 ) Y 1,...,Y 40 uafhægige. Alle Y i N(,σ 2 ). Iteresseret i forvetet effekt af behadlige for e tilfældig patiet. Har ige aelse om hvor stor variase er! Dvs. ige aelse om σ 2! SaSt (Uge 5, fredag) E stikprøve 11 / 21 SaSt (Uge 5, fredag) E stikprøve 12 / 21

Stikprøve med ukedt middelværdi og varias Data: y = (y 1,...,y ). Keder ikke variase på observatioere. Statistisk model: y = (y 1,...,y ) udfald af Y = (Y 1,...,Y ). Y 1,...,Y er uafhægige Alle Y i N(,σ 2 ) hvor R og σ 2 begge er ukedte parametre. Vi har altså e to-dimesioal parameter og e parametermægde Θ R 2 : (,σ 2 ) Θ = R (0, ) Hvad vil vi? Fide ML estimatet for (,σ 2 ) og estimatores fordelig. Lave kofidesiterval for. Teste hypotese H : = 0 for e give værdi 0. Maksimum likelihood estimatio Likelihoodfuktio L y : R (0, ) R L y (,σ 2 1 ) = (2πσ 2 ) /2 exp ( 1 2σ 2 (y i ) 2 ) Fid værdi af (,σ 2 ) der gør L y (,σ 2 ) størst mulig, dvs. fid (ˆ, ˆσ 2 ) så L y (ˆ, ˆσ 2 ) L y (,σ 2 ), (,σ 2 ) R (0, ). Sætig 4.3: ML estimatet er etydigt bestemt og givet ved ˆ = ȳ = 1 i, ˆσ y 2 = 1 Bevis: Lidt for sjusket i otere. I stedet: Hold σ 2 fast, og maksimaliser l y (,σ 2 ). (y i ȳ) 2. Afhæger maksimumpuktet af σ 2? Hvad er koklusioe vedr. ˆ? Maksimaliser σ 2 l y (ˆ,σ 2 ). SaSt (Uge 5, fredag) E stikprøve 13 / 21 SaSt (Uge 5, fredag) E stikprøve 14 / 21 Fordelig af estimatorer Kofidesiterval for : ituitio Estimatorer: ˆ = Ȳ, ˆσ 2 = 1 (Y i Ȳ )2 = 1 SSD Det følger direkte af MS sætig 8.3.3 at Ȳ og ˆσ 2 er uafhægige, og at deres margiale fordeliger er givet ved Ȳ N(,σ 2 /), ˆ = Ȳ er e cetral estimator for. ˆσ 2 e ikke cetral estimator for σ 2. Hvorfor? ˆσ 2 = SSD σ 2 χ 2 1. Hvorda ka vi defiere e cetral estimator σ 2? Geked resultatet fra det svære spørgsmål i projekt 1... Husk kofidesitervallet for i tilfældet med kedt varias: Ȳ ± z 1 α/2 σ 0 Hvorda skal dette repareres til år variase ikke er kedt? Erstat kedt spredig σ 0 med estimeret spredig σ hvor σ 2 = 1 1 SSD Erstat N(0,1)-fraktil med et større tal skal tage højde for de ekstra usikkerhed i modelle. SaSt (Uge 5, fredag) E stikprøve 15 / 21 SaSt (Uge 5, fredag) E stikprøve 16 / 21

Kofidesiterval for : tekik Eksempel: prothrombiideks Hvorda var det vi fadt kofidesitervallet for kedt varias? Brugte at ( Ȳ ) U = = Ȳ σ 0 σ 0 / N(0,1) Reparatio: Hvad sker der hvis vi erstatter σ 0 med σ = SSD/( 1)? ( Ȳ ) ( Ȳ ) T = =? σ SSD/( 1) Sætig 4.5. 1 α kofidesiterval for : Ȳ ± t 1,1 α/2 σ Bevis: P(Ȳ t 1,1 α/2 σ < T < Ȳ + t 1,1 α/2 σ ) = 0.95. NB: t-fraktil t 1,1 α/2 er større ed N-fraktil, z 1 α/2 så ituitioe passer. For prothrombidata får vi estimatere s 2 = 1 1 ˆ = ȳ = 16.55 (y i ȳ) 2 = 15395.9 = 394.8, s = 19.87. 39 Bemærk otatioe s 2 for de observerede værdi af σ 2. Estimatorere ˆ = Ȳ og σ 2 = SSD/39 er uafhægige, Ȳ N(,σ2 /) og 39 σ 2 σ 2 χ 2 39. 95% kofidesiterval: 16.55 ± 2.023 19.87 40 = 16.55 ± 6.35 = (10.20,22.90) Nul ligger ikke i kofidesitervallet. Hvorfor er det iteressat? SaSt (Uge 5, fredag) E stikprøve 17 / 21 SaSt (Uge 5, fredag) E stikprøve 18 / 21 Test af hypotese: ituitio Eksempel: prothrombiideks Hypotese, H : = 0 for e give værdi 0 R. Med kedt varias kue kvotiettestet udføres på u = ȳ 0 σ 0 /, U = Ȳ 0 σ 0 / N(0,1) Hvis vi erstatter σ 0 med estimat s hhv. estimator σ: p-værdi: t = ȳ 0 s/, T = Ȳ 0 σ/ t 1 ε(y) = P(T 2 t 2 ) = 2P(T t ), T t 1 Vigtigt: Det er faktisk likelihood ratio testet der udføres på dee måde! Det viser vi på madag. Husk at y ere er forskelle mellem måliger før og efter e behadlig. Middelværdi ul svarer til at der ikke er oge effekt af behadlige. Iteresseret i at teste om dette er tilfældet: H : = 0. Teststørrelse og p-værdi ȳ 40 16.55 t = = = 5.27 s 19.87 ε(y) = 2P(T 5.27) < 0.0001, T t 39 Stærk evides mod hypotese som afvises. Koklusio: Det er påvist at behadlige har e effekt. Stigige i prothrombiidekset er estimeret til 16.55, med kofidesiterval (10.2, 22.90). SaSt (Uge 5, fredag) E stikprøve 19 / 21 SaSt (Uge 5, fredag) E stikprøve 20 / 21

Resume Hvad skal I kue efter i dag? Opskrive statistisk model for e ekelt stikprøve. Opskrive estimater for modelles parametre samt agive estimatorers fordelig (og estimeret fordelig). Berege kofidesiterval for middelværdie, og fortolke det. Opstille relevate hypoteser samt teste dem, icl. fortolkig. Agive koklusioer på baggrud af aalyse. Hvad magler vi? Nogle beviser ifm. likelihood ratio testet Kotrollere om modelle er rimelig R SaSt (Uge 5, fredag) E stikprøve 21 / 21