Kvantitative Metoder 1 - Forår 2007. Dagens program



Relaterede dokumenter
Kvantitative Metoder 1 - Efterår Dagens program

Dagens program. Praktisk information: Husk evalueringer af kurset

Dagens program. Praktisk information:

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Note til styrkefunktionen

Kvantitative Metoder 1 - Forår 2007

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler

Statistik i basketball

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Susanne Ditlevsen Institut for Matematiske Fag susanne

Konfidensintervaller og Hypotesetest

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Estimation og konfidensintervaller

Bayesiansk statistik. Tom Engsted. DSS Aarhus, 28 november 2017

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Kvantitative Metoder 1 - Forår Dagens program

Tema. Dagens tema: Indfør centrale statistiske begreber.

Kvantitative Metoder 1 - Forår 2007

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Normalfordelingen. Statistik og Sandsynlighedsregning 2

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

Konfidensinterval for µ (σ kendt)

Kvantitative Metoder 1 - Forår 2007

Vejledende besvarelser til opgaver i kapitel 14

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Susanne Ditlevsen Institut for Matematiske Fag susanne

! Husk at udfylde spørgeskema 3. ! Lineær sandsynlighedsmodel. ! Eksempel. ! Mere om evaluering og selvselektion

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Kvantitative Metoder 1 - Forår Dagens program

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Uge 48 II Teoretisk Statistik 27. november Numerisk modelkontrol af diskrete fordelinger: intro

02402 Løsning til testquiz02402f (Test VI)

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

Module 4: Ensidig variansanalyse

Personlig stemmeafgivning

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Kvantitative Metoder 1 - Forår Dagens program

Kapitel 7 Forskelle mellem centraltendenser

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X.

Hypotesetests, fejltyper og p-værdier

Kvantitative metoder 2

Kvantitative metoder 2

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

for matematik pä B-niveau i hf

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

9. Chi-i-anden test, case-control data, logistisk regression.

Normalfordelingen og Stikprøvefordelinger

Kvantitative metoder 2

Maple 11 - Chi-i-anden test

Kønsproportion og familiemønstre.

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Skriftlig Eksamen ST501: Science Statistik Tirsdag den 8. juni 2010 kl

Kvantitative Metoder 1 - Efterår Dagens program

Kapitel 12 Variansanalyse

Forelæsning 8: Inferens for varianser (kap 9)

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Oversigt: De næste forelæsninger

Oversigt over nyttige fordelinger

Om hypoteseprøvning (1)

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Kvantitative metoder 2

Kapitel 12 Variansanalyse

Note om Monte Carlo metoden

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

Statistik viden eller tilfældighed

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Kvantitative metoder 2

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mål for sammenhæng mellem to variable

Stastistik og Databehandling på en TI-83

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Opgaver til kapitel 3

for gymnasiet og hf 2016 Karsten Juul

Logik. Af Peter Harremoës Niels Brock

Kvantitative Metoder 1 - Forår 2007

Kapitel 8 Chi-i-anden (χ 2 ) prøven

En intro til radiologisk statistik

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Generelt er korrelationen mellem elevens samlede vurdering i forsøg 1 og forsøg 2 på 0,79.

Dagens program. Afsnit Diskrete stokastiske variable Sandsynlighedsfunktioner Simultane fordelinger Betingede sandsynligheder

Transkript:

Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Estimationsmetoder Kvantitative Metoder 1 - Forår 2007 Maximum likelihood estimation Ideen med maximum likehood estimation er, som navnet antyder, at vælge den værdi af parameteren, som maximerer likelihood funktionen. De nition: Maximum likelihood estimatet (m.l.e) af er den værdi ^; som maximerer likelihood funktionen L():Hvis der eksisterer en indre løsning, og likelihood funktionen er di erentiabel, kan maximum ndes ved L 0 (^) = 0: For en tilfældig stikprøve er det som regel lettere at arbejde med logaritmen til likelihood funktionen log L:Da logaritmen er en monoton stigende funktion, gælder der, at hvis ^ maximerer log L(); så maximerer ^ også L(): Bemærk når vi udleder m.l.e, betragtes likelihood funktionen som en funktion af stikprøven, og stikprøven beskrives som stokastiske variable. 2

Når populationsfordelingen indeholder ere end en parameter, ndes disse parametre ved simultant at nde maximum for likelihood funktionen. Hvis likelihood funktionen er di erentiabel, kan man dog nde maximum udfra de partielle a edte. En af de "pæne"egenskaber ved m.l.e er, at hvis man ønsker at nde en estimator for en funktion af parameterne, kan man blot transforme m.l.e estimatoren med samme funktion. F.eks. hvis vi ønsker at nde m.l.e for ; når vi kender m.l.e. for 2 : V. kan vi nde m.l.e som p V : Sætning: Hvis g() er en entydig funktion (bijektiv) funktion af ; og ^ er m.l.e af ;så gælder der at g(^) er m.l.e for g(): Egenskaber ved maximum likelihood estimatoren m.l.e er konsistent m.l.e er asymptotisk normalfordelt m.l.e. er en funktion af den su ciente stikprøvefunktion 3

Test (Statistisk hypoteseprøvning) Stikprøver kan også bruges til at få viden om hypoteser Eksempler på hypoteser: Når man undersøger, om en behandling virker, er man f.eks. interesseret i at vide, om den behandlede population er anderledes end den ubehandlede population (f.eks. om den lever længere). Når man laver meningsmålinger, kan man være interesseret i at vide, om det ene parti vil få halvdelen af stemmerne. For at undersøge disse påstande statistisk kan man benytte en testprocedure, hvor påstanden formuleres som en hypotese. 4

Hypoteser En påstand eller teori modsvares af en modpåstand eller modteori. Påstande og modpåstande kaldes hypoteser. Hypoteser er udsagn om populationsfordelingen. Eksempel: Sandsynligheden for at nde det rigtige kort. Eksperiment: En person skal nde et bestemt kort ud af re kort. Dette kan formuleres som en sandsynlighedsmodel med en Bernoulli fordelt variabel med sandsynlighedsparameter p. Hvis man vælger tilfældigt blandt de re kort, er der p = 0; 25 sandsynlighed for at nde det rigtige kort. En person A hævder at have specielle evner til at nde det rigtige kort blandt re kort. Person B hævder, at person A ikke har specielle evner. Disse påstande kan formuleres som hypoteser: Person A s påstand (hypotese): Sandsynligheden p > 0; 25 Person B s påstand (hypotese): Sandsynligheden p = 0; 25 5

Eksempel: Forskelle mellem drenge og pigers evner for matematik. Vi antager, at man kan måle evner ved en række test. Vi antager, at i populationen af piger er testresultatet beskrevet ved en fordeling med middelværdi 1, og for populationen af drenge er middelværdien 2. Vi har nu to påstande, som kan formuleres som hypoteser: Påstand 1: Der er ikke forskel på evnerne for matematik mellem drenge og piger: 1 = 2 Påstand 2: Der er forskel på drenge og pigers evner: 1 6= 2 Hypoteser som angiver ingen forskel kaldes normalt nulhypoteser H 0. 6

Eksempler på nulhypoteser H 0 : H 0 : p = 0; 25 H 0 : 1 = 2 Da nulhypotesen ikke altid er sand, er det nødvendigt at de nere en alternativ hypotese. Alternativ hypotesen speci cerer, hvorledes modellen for populationen er, hvis nulhypotesen ikke er sand. Som regel angiver alternativ hypotesen en fordeling for populationen eller en familie af fordelinger for populationen. Eksempel på alternativ hypotese: H A : p > 0; 25 H A : 1 6= 2 Vi ønsker nu at benytte en stikprøve til at undersøge hypotesen. At benytte en stikprøve til at opnå viden om hypotesen kaldes statistisk hypoteseprøvning 7

Testprocedure Når man undersøger en hypotese på baggrund af en stikprøve, skal man huske, at stikprøven består af stokastiske variable. Det betyder, at man med en anden stikprøve ville kunne nå til en anden konklusion vedr. hypotesen. Derfor kan man aldrig være fuldstændig sikker på konklusionen, som er baseret på en stikprøve (med mindre at stikprøven udgør hele populationen). Derfor ønsker vi en testprocedure, hvor der er gode chancer for at nå til den rigtige konklusion vedr. hypotesen. 8

Ideen bag statistiske test af nulhypoteser er at sammenligne den givne stikprøve, med hvad man ville forvente, hvis nulhypotesen var sand. Til at lave disse sammenligninger konstrueres en teststørrelse. Teststørrelsen er også en stikprøvefunktion og derfor en stokastisk variabel. Fordelingen af teststørrelsen er bestemt af populationsfordelingen (dvs. det afhænger af, om vi antager, at det er nulhypotesen eller alternativhypotesen, som er sand). Fordelingen under nulhypotesen er fordelingen af teststørrelsen, når vi antager, at det er nulhypotesen, som er sand. 9

Sandsynligheden f(y) 0,3 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10 y f(y) Eksempel Antag at vi ønsker at undersøge, om person A har specielle evner til at nde bestemte kort ved at udføre 10 forsøg. Vi ved, at antallet af succeser i dette eksperiment Y (teststørrelsen) er binomialfordelt Y ~Bin(10; p). Under nulhypotesen (dvs. under antagelse af at p = 0; 25) gælder der, at sandsynlighedsfordelingen for Y er givet ved guren 10

I et konkret forsøg på ti gange får person A seks succeser. Dette resultat er ret overraskende, hvis sandsynligheden faktisk er p = 0; 25 (som nulhypotesen angiver). For at angive hvor ekstremt det er at få det observede udfald, angives sandsynligheden for at få noget, som er mindst lige så ekstremt P (Y 6jH 0 ) = P (Y = 6jH 0 ) + P (Y = 7jH 0 ) + P (Y = 8jH 0 ) + P (Y = 9jH 0 ) + P (Y = 10jH 0 ) = 0; 019 Dette resultat siger, at der er en meget lille sandsynlighed for at få et sådan resultat, hvis p = 0; 25. Omvendt hvis p > 0; 25, vil det være mere sandsynligt at få seks successer. Denne undersøgelse giver således en indikation af, at nulhypotsen ikke er sand. 11

Sandsynligheden for at få en lige så ekstremt teststørrelse i retning af alternativ hypotesen, når nulhypotsen er sand, kaldes testsandsynligheden eller P -værdien. Jo mindre testsandsynlighed, jo længere væk ligger teststørrelsen fra det forventede, når nulhypotesen er sand, og jo sværere er det at acceptere, at forskellen bare skyldes tilfældighed i stikprøven. Derfor tages en lille testsandsynlighed som indikation af, at nulhypotesen ikke er sand. Hvor lille skal testsandsynligheden være for at kunne tage det for indikation mod nulhypotesen (tommel ngerregel). P < 0; 01: Stærk indikation mod H 0 0; 01 < P < 0; 05: indikation mod H 0 P > 0; 10 ingen eller meget svag indikation mod H 0 Ofte siger man at hvis P < 0; 05 er det statistisk signi kant. 12

Testprocedure Når man skal lave hypoteseprøvning kan følgende procedure anvendes: Trin 1: Angiv H 0 (Find den relevante nulhypotese ud fra den påstand som ønskes undersøgt i det givne eksperiment) Trin 2: Angiv H A : (Angiv den relevante alternativ hypotese) Trin 3: Konstruer teststørrelsen Y (en stikprøvefunktion som kan anvendes til at diskriminere mellem nulhypotesen og alternativ hypotesen) Trin 4: Angiv ekstreme værdier af Y (i retning af alternativ hypotesen er bedre til at forklare data) når nulhypotesen er sand. Trin 5: Med den konkrete stikprøve udregnes værdien af stikprøvefunktionen og på baggrund af denne værdi bestemmes testsandsynligheden (P -værdien). 13

Ensidet og tosidet alternativ I tilfældet hvor nulhypotesen er hypotese af formen H 0 : = 0 kan alternativ hypotesen formuleres som et ensidet eller et tosidet alternativ. Det ensidede alternativ er hypoteser af formen: eller H A : > 0 H A : < 0 Det dobbelsidet alternativ er hypoteser af formen H A : 6= 0 Hvilken type af alternativ hypotese som er den rigtige: det afhænger af problemet Teststørrelsens ekstreme værdier vil afhænge af alternativhypotesen. 14

Bemærkninger Hvis man anvender 0,05 som en grænse for hvornår noget er signi kant, skal man huske at hvis man tester mange hypoteser (og testsandsynlighederne er uafhængige) er det sandsynligt at man vil nder statistisk signi kans selvom alle nulhypoteserne er sande. Hvorfor det? Hvis konklusionen er at der ikke er statistisk signi kans, er det ikke nødvendigvis det samme som at nulhypotesen er sand. Det kan blot være at der er for stor variation eller stikprøven ikke er stor nok til at skelne forskelle som faktisk eksistere Fordi noget er statistisk signi kant er det ikke det samme som at det i praksis er signi kant. 15

Opsummering Estimationsmetoder Test Hypoteser Testprocedure 16

Næste gang Onsdag d. 2/5: Z-test kap. 10.3 T-test kap. 10.4 Ikke parameteriske test kap. 10.5 17