Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Relaterede dokumenter
Hypotesetests, fejltyper og p-værdier

Højde af kvinder 2 / 18

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Susanne Ditlevsen Institut for Matematiske Fag susanne

Produkt og marked - matematiske og statistiske metoder

Estimation og konfidensintervaller

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Hvorfor er normalfordelingen så normal?

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Tema. Dagens tema: Indfør centrale statistiske begreber.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

1 Hb SS Hb Sβ Hb SC = , (s = )

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Note om Monte Carlo metoden

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Kvantitative Metoder 1 - Efterår Dagens program

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Statistik II 4. Lektion. Logistisk regression

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Vejledende besvarelser til opgaver i kapitel 14

Kvantitative Metoder 1 - Forår Dagens program

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Konfidensintervaller og Hypotesetest

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

StatDataN: Test af hypotese

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistiske principper

Løsning eksamen d. 15. december 2008

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Nanostatistik: Test af hypotese

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Logistisk Regression - fortsat

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Statistik viden eller tilfældighed

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Vejledende løsninger kapitel 8 opgaver

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Produkt og marked - matematiske og statistiske metoder

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Statistik II 1. Lektion. Analyse af kontingenstabeller

Basal statistik. 6. februar 2007

Forelæsning 11: Kapitel 11: Regressionsanalyse

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Sandsynlighedsregning

Test nr. 6 af centrale elementer 02402

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Forelæsning 9: Inferens for andele (kapitel 10)

Løsning til eksaminen d. 29. maj 2009

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

J E T T E V E S T E R G A A R D

02402 Løsning til testquiz02402f (Test VI)

Eksamen i Statistik for biokemikere. Blok

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Om hypoteseprøvning (1)

Basal statistik. 11.september 2007

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Modul 12: Regression og korrelation

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Forsøgsplanlægning Stikprøvestørrelse

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Basal statistik. 6. februar 2007

Mikro-kursus i statistik 2. del Mikrokursus i biostatistik 1

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Transkript:

Hypotesetests, fejltyper og p-værdier og er den nu også det? Søren Højsgaard Institut for Matematiske Fag, Aalborg Universitet (updated: 2019-03-17) 1 / 40

Statistisk test Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model). Laves med det formål at forsøge at falsificere modellen. Alternativt: Man bruger data til at "bevise" at man ikke har ret. NB: I statistik hedder det ET test; ikke EN test! 2 / 40

Karl Popper (1902-1994) Passer ind Karl Poppers (1902-1994) videnskabsteori: Man kan ikke empirisk verificere videnskabelige teorier; kun falsificere dem. Videnskabelige fremskridt sker ved at "man har en teori indtil den bliver falsificeret" Se "Conjectures and Refutations" og "The Logic of Scientific Discovery" 3 / 40

Statistikkens tolkningsregel I statistikken anlægger man følgende tolkningsregel: Det usandsynlige sker ikke Altså, hvis man observerer data der, hvis modellen er rigtig, er meget usandsynlige, så forkaster man modellen. Nødvendigt med sådan en tolkningsregel, for ellers kan man aldrig ad statistisk vej erkende noget som helst! Man vil jo altid kunne hævde, at det foreliggende datasæt blot er et uheldigt udfalg, som ganske vist er usandsynligt men dog muligt. 20 20 Eksempel: At slå gange "krone" i kast med en fair mønt sker med ssh 10 6 ; dvs. ca.\ 1 ud af 1.000.000 gange. 20 gange krone er et muligt udfald, men det er ikke videre sandsynligt. Så derfor har vi mere fidus til at mønten ikke er fair -- altså at modellen er forkert. 4 / 40

Fødes der lige mange drenge og piger? Over en årrække blev disse data indsamlet (på et hospital i London) - det STORE datasæt: drenge piger total antal 6.389 6.135 12.524 andel 0,51 0,49 1,00 Vi skal senere bruge et mindre datasæt, datasæt: 10% drenge piger total antal 639 614 1.253 andel 0,51 0,49 1,00 af det store datasæt - det LILLE 5 / 40

drenge piger total antal 6.389 6.135 12.524 andel 0,51 0,49 1,00 Er der 50--50 chance for en dreng og en pige? Tydeligvis ikke -- i dette datasæt. Men hvad med populationen? 51\% er ikke langt fra 50\% og afvigelsen kunne jo skyldes en tilfældighed. Spørgsmålet er: Er afvigelsen så stor, at den ikke -- med rimelighed -- kan tilskrives en tilfældighed? 6 / 40

Model for data: For at komme videre skal vi have en model -- en mekanisme, der kunne have genereret data: Uden antagelser, ingen konklusioner. Vi antager Alle kvinder har samme sandsynlighed θ for at føde en dreng. Udkommet af alle graviditeter er uafhængige -- også forskellige graviditeter for samme kvinde og også for forskellige graviditeter for samme mand. Er disse antagelser rimelige? Tjoh -- måske -- i hvert fald: uden antagelser, ingen konklusioner. Fører til at antal drengefødsler X er binomialfordelt X bin(n, θ), N = 12524 Dvs ssh for at observere x drenge i N fødsler hvor der hver gang er ssh θ for en dreng er P r(x = x; θ) = ( )θ x (1 θ) N x N x 7 / 40

Tætheder for binomialfordelingen 8 / 40

Man kan antage at ssh er 50\% og så se på hvordan data kunne have set ud drenge piger total drenge piger total Sammenlign med de observerede data 6263 6261 12524 6252 6272 12524 6223 6301 12524 6271 6253 12524 6243 6281 12524 6298 6226 12524 6263 6261 12524 6324 6200 12524 6403 6121 12524 6215 6309 12524 drenge piger total 6389 6135 12524 NB: Der er eet simuleret datasæt, der ligeså mange eller flere drenge som vi har observeret. 9 / 40

Det LILLE datasæt drenge piger total drenge piger total Sammenlign med de observerede data 627 626 1253 625 628 1253 615 638 1253 631 622 1253 623 630 1253 639 614 1253 627 626 1253 613 640 1253 670 583 1253 600 653 1253 drenge piger total 639 614 1253 NB: Der er to simulerede datasæt, der ligeså mange eller flere drenge som vi har observeret. 10 / 40

Hypotesetest Et "fagligt" spørgsmål: Fødes der lige mange drenge og piger? Oversættes til statistisk spørgsmål: "Er (ssh for en dreng) lig med "? Plejer at formulere det som hypotese: Tester null-hypotesen:, hvor mod den Alternative hypotese:. Taler om at forkaste eller acceptere hypotesen. θ 1/2 H0 : θ = θ0 θ0 = 1/2 H A : θ θ 0 Måske burde man erstatte "acceptere" med "ikke forkaste" -- men det lader sig næppe ændre. Poppers tankegang: At forkaste hypotesen er den stærke konklusion 11 / 40

Klassisk fremgangsmåde: Lad x betegne data. Vælg en funktion, der har den egenskab, at er (numerisk) stor, hvis data ikke passer på modellen og lille ellers. Kalder t(x) Kunne f.eks. tage t(x) en teststørrelse (eng: test statistic). t(x) t(x) = x/n θ 0 = x/n 1/2 t obs = t(x) = t(6389) = Vi får den observerede teststørrelse 0.0101 Er t obs et stort eller lille tal? Svaret ligger i at spørge: Hvad er sandsynligheden for i fremtiden at se værdier af der er større end hvis? t(x) t obs θ = θ 0 12 / 40

Tankegangen er nu: Lad os nu antage, at der findes en afkrog et sted på jorden, hvor vi (af en eller anden grund) ved, at i denne afkrog er hypotesen sand, dvs.. θ = θ 0 = 1/2 I denne afkrog gentager vi studiet M gange, hvor studiet består i: N = 12524 1. venter på, at børn er født og 2. noterer os antal drenge for. x j j = 1,, M t(x j ) x j t(x j ) Beregn for hvert og tegn et histogram af 'erne. Vi behøver ikke lede efter denne afkrog på jorden; computeren er opfundet og vi kan lave studiet ved simulation (et "in silico trial"): 13 / 40

Tænk på, at vi skal tage en beslutning: Acceptere H 0 eller forkaste H 0. Laver en beslutningsregel: Forkast H 0 hvis er "stor"; mere konkret: t(x) forkast H 0 hvis t(x) c Tallet c kaldes den kritiske værdi. Indtil videre har vi ingen idé om hvordan denne kritiske værdi c vælges; kommer senere. 14 / 40

Der er to typer fejl vi kan begå: Forkaste H 0 selvom H 0 er sand; kaldes type-i fejl Acceptere H 0 selvom H 0 er falsk; kaldes type-ii fejl Man fastlægger ofte at ssh for at begå en type-i fejl skal være mindre end et lille tal ; f.eks.. α α = 0.05 P r θ0 (Forkaste H 0 ) α P r θ0 () θ = θ 0 hvor indikerer, at ssh er beregnet for. H 0 t(x) c c Hvis beslutningsreglen er "Forkast hvis så kan vi finde fra: P r θ0 (t(x) c) α t(x) c Beslutningsreglen bliver så: Forkast H 0 hvis. t(x) c Hvis siger man, at testet er signifikant på niveau α. 15 / 40

For hvert α kan finde den kritiske værdi : ## 0.1 0.05 0.01 0.001 ## 0.007346 0.008783 0.011418 0.014692 t obs Sammenholder med = 0.0101 c α 16 / 40

Vi siger at testet er signifikant på niveau ). 1% (men ikke signifikant på niveau Ofte bruger man signifikansniveauerne,, og -- men der er altså intet "guddommeligt" over disse tal; de har alene historiske grunde. 5% 0.10 0.05 0.01 0.001 17 / 40

p-værdien En lidt anden tilgang er: Beregn p-værdien (også kaldet testsandsynligheden) der er defineret som p = P r θ 0(t(X) t obs ) -- altså ssh for at observere en værdi at teststørrelsen der er større end den vi aktuelt står med. Vi får p-værdien er 0.0235 t() 18 / 40

Dermed kan man sige, at p-værdien er et mål for "graden af evidens mod en hypotese". Giver i nogle sammenhænge langt mere mening end at gøre problemet til et beslutningsproblem. 19 / 40

Fejltyper: type-1 fejl og type-2 fejl Verdens sande tilstand - og de beslutninger vi træffer. H0 hypotese accepteres H0 hypotese forkastes H0 H0 hypotese er sand hypotese er falsk type-ii fejl type-i fejl At forkaste H0 selvom H0 er sand kaldes en type-1 fejl At acceptere H0 selvom H0 er falsk kaldes en type-2 fejl 20 / 40

Som ved retssag: H 0 H 0 anklagede uskyldig anklagede skyldig H 0 uskyld accepteres H 0 uskyld forkastes "justitsmord" en "fejl" vi lever med Man lader tvivlen komme den anklagede til gode: "Man er uskyldig til noget andet er bevist". Med mindre der er stærk evidens (data) mod H 0 så accepterer man H 0. 21 / 40

Fortolkning af p-værdier Tilbage til det oprindelige spørgsmål: Er der 50-50 chance for en dreng og en pige? En p-værdi kan opfattes som et mål for evidencen MOD en hypotese: En lille p-værdi indikerer stor evidens mod hypotesen. Her er p-værdien lille så det får os til at tvivle på hypotesen. Kan vi deraf konkludere, at null-hypotesen Har vi "bevist", at. θ 1/2 H 0 : θ = θ 0 = 1/2 θ = 1/2 6389 er falsk? Nej. Hvis, så er sandsynligheden for at observere drenge i 12524 graviditeter er 0.00054 eller knapt 1 ud af 2000 gange. Det er en lille sandsynlighed, bevares, men det er afgjort muligt selv hvis hypotesen er sand. Der er dog mange studier, der peger på, at der fødes flere drenge end piger. 22 / 40

Some tider fortolkes en p--værdi fejlagtigt som noget i retningen af p--værdien er sandsynligheden for at hypotesen er sand. Dette er forkert: Sandsynligheder er noget vi knytter til fænomener, hvor der er usikkerhed om udkommet (kast med en mønt eller en terning). Der er ingen usikker om hypotesen: Hypotsen er enten sand eller falsk (vi ved bare ikke hvad den er, for vi har ingen guddommelig indsigt). 23 / 40

E ekten af stikprøvestørrelsen Det LILLE datasæt: drenge piger total antal 639 614 1.253 andel 0,51 0,49 1,00 Dvs vi har kun 10\% of data, men andelen af drenge er stadig 0.51. 24 / 40

25 / 40

Hvad kan vi så konkludere? t obs 12524 6389 er som før (på nær nogle decimaler): 0.01 men Med børn og drenge er der stærk evidens mod hypotesen θ = 1 2 : Vi får at p--værdien er 2%. 1253 639 Med børn og drenge er der meget lidt evidens mod hypotesen: Vi får at p-værdien er 0.4975 I begge tilfælde er andelen af drenge 0.51. Hvad skal vi mene om dette? 26 / 40

Vi formulerer en hypotese om "verdens sande tilstand", og dernæst "spørger vi data" om der er evidens mod denne hypotese. Hvis der ikke er evidens mod hypotesen, kan det være fordi hypotesen er sand, eller fordi der ikke er tilstrækkeligt data (information) til at komme med denne evidens (altså til at "påvise" at hypotesen er forkert) Igen: tænk på p-værdien som mål for evidens mod hypotesen p-værdien afspejler "afstand" mellem data og model (mellem ^θ = 0.51 θ0 = 0.5) p-værdien afspejler OGSÅ mængden af data. Mere poetisk: "Absence of evidence (of an effect) is NOT the same as evidence of absence (of an effect)." og 27 / 40

Test og kon densinterval -- to sider af samme sag θ = θ0 θ0 = 1/2 Vi testede ovenfor hypotesen hvor. Vi kunne teste samme hypotese for mange andre værdier af θ0. For hver værdi af θ 0 beregner vi p-værdien og plotter mod θ 0 Husk: Små p-værdier er evidens mod hyptesen. 28 / 40

p 0.01 0.05 0.10 Indlæg intervaller hvor -værdien er større end, og. Disse intervaller er præcist, og konfidensintervaller: 99% 95% 90% 99% 95% 90% konfidensinterval: [ 0.499; 0.521 ] konfidensinterval: [ 0.502; 0.519 ] konfidensinterval: [ 0.504; 0.517 ] 29 / 40

Disse intervaller er præcist, og konfidensintervaller: 99% 95% 90% 99% 95% 90% konfidensinterval: [ 0.475; 0.547 ] konfidensinterval: [ 0.483; 0.538 ] konfidensinterval: [ 0.487; 0.532 ] 30 / 40

Tekstbogsudgaven af test i binomialfordelingen Tekstbogsudgaven af test i binomialfordelingen er ofte baseret på at man - på baggrundt af CLT - laver en test-størrelse, der har en kendt fordeling: En normal-fordeling eller en χ 2 fordeling. Dette var vigtigt i "gamle dage" hvor man ikke havde computere til at gøre som ovenfor. Her een udgave af sådan et test. X bin(n, θ) Lad. E(X) = Nθ var(x) = Nθ(1 θ) sd(x) = Nθ(1 θ) Så er, og. Ydermere, X er - pga. CLT - approximativt normal (sum af N uafhængige -variable). 0/1 E(X/N) = θ var(x/n) = θ(1 θ)/n sd(x/n) = θ(1 θ)/n. Derfor er og og 31 / 40

Definer X/N E(X/N) t(x) = = var(x/n) X/N θ θ(1 θ)/n ` E(t(X)) = 0 var(t(x)) = 1 Så er og. Ydermere, så er approximativt -fordelt. t(x) t(x) N(0, 1) NB "måler", hvor mange standardafvigelser X/N er fra sin middelværdi. H0 : θ = θ0 θ0 t(x) N(0, 1) Vi vil teste hypotesen. Hvis hypotesen er sand så kan vi indsætte i udtrykket ovenfor og vil stadig have en fordeling. t(x) 0 Vi kan så vurdere om er ekstremt langt væk fra i en normalfordeling. Stort datasæt: t(x) = 2.2697, lille datasæt: t(x) = 0.7063 32 / 40

Både store og små værdier er kritiske nu. α = 5% H 0 Vi tester på niveau. Beslutningsregel: Undlad at forkaste hvis c < t(x) < c. Vi kan finde c udfra c = 1.96 2 P r θ0 ( c < t(x) < c) α Vi finder så at. Derfor forkastes hypotesen i det store datasæt og accepteres i det lille datasæt - helt som før. 33 / 40

Statistisk signi kans, praktisk signi kans, klinisk signi kans... Oprindelsen er det latinske significantia, der betyder betydning Når man finder en statistisk signifikant "effekt" så betyder det, at den effekt man ser er for stor til -- med rimelighed -- at kunne tilskrives tilfældigheder. 50.5% 49.5% Mange studier, der viser, at der fødes ca. drenge og piger. Men når man venter et barn så tænker man, at der er 50--50 chance for hvert køn. Den statistiske signifikans betyder altså ikke nødvendigvis så meget i praksis... Man finder det samme fænomen i sundhedsverdenen: En statistisk signifikant effekt kan sagtes være så svag, at den ikke er klinisk relevant for patienten. 34 / 40

Estimation (by request) 35 / 40

Estimation af θ i binomialfordelingen Det er ikke helt oplagt at bruge mindste kvadraters metode. Alternativ: Maximum Likelihood Metoden: Model: X bin(n, θ) Binomial tæthed N P r(x = x; θ) = ( )θ x (1 θ) N x x x = 6389 N = 12524 Når data er observeret med så bliver ovenstående en funktion af θ alene. Man kalder så funktionen for likelihood funktionen L(θ) = P r(x = x; θ) 36 / 40

Plot L(θ) mod forskellige værdier af θ Den værdi af θ der maximerer L kaldes maximum likelihood estimatet (MLE). Det er oftest lettere at maximere l(θ) = log L(θ) og MLE bliver ^θ = x/n MLE er på mange måder det bedst tænkelige estimat man kan opnå. 37 / 40

For det lille datasæt får vi Samme maximum, men likelihood funktionen er mindre peaked -- svarende til at der er større usikkerhed på estimatet fordi datasættet er mindre. 38 / 40

Mindste kvadrater og MLE Hvad så med regressionsmodellen og mindste kvadrater? Model: y i = β0 + β1x i + e i Samme som at sige Normalfordelingstæthed bliver y i N(β 0 + β 1 x i, σ 2 ) 1 1 f(y i ) = exp( (y i (β 0 + β 1 x i )) 2 ) σ 2π 2σ 2 Hvis y1,, y N er uafhængige så er f(y 1,, y N ) = N f(y i ) i=1 39 / 40

Bliver helt konkret 1 f(y1,, y N ) = ( σ 2π ) N exp( 1 2σ 2 N (y i (β0 + β1x i )) 2 ) i=1 Antag nu at σ er kendt. Så er likelihood funktionen L(β1, β2) exp( 1 2σ 2 N (y i (β0 + β1x i )) 2 ) i=1 Pga af minus i eksponenten så maximeres L ved at minimere N (y i (β0 + β1x i )) 2 i=1 Dvs i regressionsmodellen er mindste kvadrater og MLE det samme. 40 / 40