Hypotesetests, fejltyper og p-værdier

Relaterede dokumenter
Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Susanne Ditlevsen Institut for Matematiske Fag susanne

Estimation og konfidensintervaller

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

1 Hb SS Hb Sβ Hb SC = , (s = )

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Tema. Dagens tema: Indfør centrale statistiske begreber.

Vejledende besvarelser til opgaver i kapitel 14

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Produkt og marked - matematiske og statistiske metoder

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Note om Monte Carlo metoden

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Logistisk Regression - fortsat

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Statistik II 4. Lektion. Logistisk regression

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Statistiske principper

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Konfidensintervaller og Hypotesetest

Vejledende løsninger kapitel 8 opgaver

StatDataN: Test af hypotese

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

J E T T E V E S T E R G A A R D

Forelæsning 9: Inferens for andele (kapitel 10)

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kvantitative Metoder 1 - Efterår Dagens program

Nanostatistik: Test af hypotese

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Kvantitative Metoder 1 - Forår Dagens program

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Statistik II 1. Lektion. Analyse af kontingenstabeller

Test nr. 6 af centrale elementer 02402

Statistik viden eller tilfældighed

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Basal statistik. 6. februar 2007

Eksamen i Statistik for biokemikere. Blok

Hvorfor er normalfordelingen så normal?

Sandsynlighedsregning

Højde af kvinder 2 / 18

Løsning eksamen d. 15. december 2008

Basal statistik. 11.september 2007

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Om hypoteseprøvning (1)

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

02402 Løsning til testquiz02402f (Test VI)

Mikro-kursus i statistik 2. del Mikrokursus i biostatistik 1

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Produkt og marked - matematiske og statistiske metoder

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Forelæsning 11: Kapitel 11: Regressionsanalyse

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Note til styrkefunktionen

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Dagens program. Praktisk information:

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

En intro til radiologisk statistik. Erik Morre Pedersen

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Kapitel 12 Variansanalyse

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Basal statistik. 6. februar 2007

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Løsning til eksaminen d. 14. december 2009

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Transkript:

Hypotesetests, fejltyper og p-værdier Søren Højsgaard Institut for Matematiske Fag, Aalborg Universitet October 25, 2018 Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 1 / 34

Statistisk test Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model). Laves med det formål at forsøge at falsificere modellen. Alternativt: Man bruger data til at bevise at man ikke har ret. NB: I statistik hedder det ET test; ikke EN test! Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 2 / 34

Karl Popper (1902-1994) Passer ind Karl Poppers (1902-1994) videnskabsteori: Man kan ikke empirisk verificere videnskabelige teorier; kun falsificere dem. Videnskabelige fremskridt sker ved at man har en teori indtil den bliver falsificeret Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 3 / 34

Se Conjectures and Refutations og The Logic of Scientific Discovery Se også The Open Society and its Enemies Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 4 / 34

Statistikkens tolkningsregel I statistikken anlægger man følgende tolkningsregel: Det usandsynlige sker ikke Altså, hvis man observerer data der, hvis modellen er rigtig, er meget usandsynlige, så forkaster man modellen. Nødvendigt med sådan en tolkningsregel, for ellers kan man aldrig ad statistisk vej erkende noget som helst! Man vil jo altid kunne hævde, at det foreliggende datasæt blot er et uheldigt udfalg, som ganske vist er usandsynligt men dog muligt. Eksempel: At slå 20 gange krone i 20 kast med en fair mønt sker med ssh 10 6 ; dvs. ca. 1 ud af 100.000 gange. 20 gange krone er et muligt udfald, men det er ikke videre sandsynligt. Så derfor har vi mere fidus til at mønten ikke er fair altså at modellen er forkert. Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 5 / 34

Fødes der lige mange drenge og piger? Over en årrække blev disse data indsamlet (på et hospital i London) - det STORE datasæt: Drenge Piger Total 6389 6135 12524 0.51 0.49 1 Vi skal senere bruge et mindre datasæt, 10% af det store datasæt - det LILLE datasæt: Drenge Piger Total 639 614 1253 0.51 0.49 1 Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 6 / 34

Drenge Piger Total 6389 6135 12524 0.51 0.49 1 Er der 50 50 chance for en dreng og en pige? Tydeligvis ikke i dette datasæt. Men hvad med populationen? 51% er ikke langt fra 50% og afvigelsen kunne jo skyldes en tilfældighed. Spørgsmålet er: Er afvigelsen så stor, at den ikke med rimelighed kan tilskrives en tilfældighed? Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 7 / 34

Model for data: For at komme videre skal vi have en model en mekanisme, der kunne have genereret data: Uden antagelser, ingen konklusioner. Vi antager Alle kvinder har samme sandsynlighed θ for at føde en dreng. Udkommet af alle graviditeter er uafhængige også forskellige graviditeter for samme kvinde og også for forskellige graviditeter for samme mand. Er disse antagelser rimelige? Tjoh måske i hvert fald: uden antagelser, ingen konklusioner. Fører til at antal drengefødsler X er binomialfordelt X bin(n, θ), N = 12524 Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 8 / 34

Hypotesetest Et fagligt spørgsmål: Fødes der lige mange drenge og piger? Oversættes til statistisk spørgsmål: Er θ (ssh for en dreng) lig med 1/2? Plejer at formulere det som hypotese: Tester null-hypotesen: H 0 : θ = θ 0, hvor θ 0 = 1/2 mod den Alternative hypotese: H A : θ = θ 0. Taler om at forkaste eller acceptere hypotesen. Måske burde man erstatte acceptere med ikke forkaste men det lader sig næppe ændre. Poppers tankegang: At forkaste hypotesen er den stærke konklusion Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 9 / 34

Klassisk fremgangsmåde: Lad x betegne data. Vælg en funktion t(x), der har den egenskab, at t(x) er (numerisk) stor, hvis data ikke passer på modellen og lille ellers. Kalder t(x) en teststørrelse (en: test statistic). Kunne f.eks. tage t(x) = x/n θ 0 = x/n 1/2 Vi får den observerede teststørrelse t obs = t(x) = t(6389) = 0.0101 Er t obs et stort eller lille tal? Svaret ligger i at spørge: Hvad er sandsynligheden for i fremtiden at se værdier af t(x) der er større end t obs hvis θ = θ 0? Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 10 / 34

Tankegangen er nu: Lad os nu antage, at der findes en afkrog et sted på jorden, hvor vi (af en eller anden grund) ved, at i denne afkrog er hypotesen sand, dvs. θ = θ 0 = 1/2. I denne afkrog gentager vi studiet M gange 1) venter på, at N = 12524 børn er født og 2) noterer os antal drenge x j for j = 1,..., M. Beregn t(x j ) for hvert x j og tegn et histogram af t(x j ) erne. Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 11 / 34

Vi behøver ikke lede efter denne afkrog på jorden; computeren er opfundet og vi kan lave studiet ved simulation (et in silico trial ): Histogram of t.rep Frequency 0 1000 3000 0.000 0.005 0.010 0.015 0.020 t.rep Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 12 / 34

Tænk på, at vi skal tage en beslutning: Acceptere H 0 eller forkaste H 0. Laver en beslutningsregel: Forkast H 0 hvis t(x) er stor ; mere konkret: forkast H 0 hvis t(x) c hvor c er et tal, kaldet den kritiske værdi. Der er to typer fejl vi kan begå: Forkaste H 0 selvom H 0 er sand; kaldes type-i fejl Acceptere H 0 selvom H 0 er falsk; kaldes type-ii fejl Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 13 / 34

Man fastlægger ofte at ssh for at begå en type-i fejl skal være mindre end et tal α; f.eks. α = 0.05. Pr θ0 (Forkaste H 0 ) α hvor Pr θ0 () indikerer, at ssh er beregnet for θ = θ 0. Hvis beslutningsreglen er Forkast H 0 hvis t(x) c så kan vi finde c fra: Pr θ0 (t(x) c) α Beslutningsreglen bliver så: Forkast H 0 hvis t(x) c. Hvis t(x) c siger man, at testet er signifikant på niveau α. Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 14 / 34

For hvert α finde den kritiske værdi c α : ## 0.1 0.05 0.01 0.001 ## 0.007346 0.008783 0.011418 0.014692 Sammenholder med t obs = 0.0101 Histogram of t.rep Frequency 0 1000 3000 0.000 0.005 0.010 0.015 0.020 t.rep Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 15 / 34

Vi siger at testet er signifikant på niveau 5% (men ikke signifikant på niveau 1%). Ofte bruger man signifikansniveauerne 0.10, 0.05, 0.01 og 0.001 men der er altså intet guddommeligt over disse tal; de har alene historiske grunde. Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 16 / 34

p værdier En lidt anden tilgang er: Beregn p værdien (også kaldet testsandsynligheden) der er defineret som p = Pr θ0 (t(x) t obs ) altså ssh for at observere en værdi at teststørrelsen t() der er større end den vi aktuelt står med. Vi får p-værdien er 0.0235 Histogram of t.rep Frequency 0 1000 3000 0.000 0.005 0.010 0.015 0.020 Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 17 / 34 t.rep

På den måde kan man sige, at p værdien er et mål for graden af evidens mod en hypotese. Giver i nogle sammenhænge langt mere mening end at gøre problemet til et beslutningsproblem. Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 18 / 34

Fejltyper: type-1 fejl og type-2 fejl Verdens sande tilstand - og de beslutninger vi træffer. H 0 hypotese er sand H 0 hypotese er falsk H 0 hypotese accepteres type-ii fejl H 0 hypotese forkastes type-i fejl At forkaste H 0 selvom H 0 er sand kaldes en type-1 fejl At acceptere H 0 selvom H 0 er falsk kaldes en type-2 fejl Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 19 / 34

Som ved retssag: H 0 anklagede uskyldig H 0 anklagede skyldig H 0 uskyld accepteres en fejl vi lever med H 0 uskyld forkastes justitsmord Man lader tvivlen komme den anklagede til gode: Man er uskyldig til noget andet er bevist. Med mindre der er stærk evidens (data) mod H 0 så accepterer man H 0. Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 20 / 34

Fortolkning af p-værdier Tilbage til det oprindelige spørgsmål: Er der 50-50 chance for en dreng og en pige? En p-værdi kan opfattes som et mål for evidencen MOD en hypotese: En lille p-værdi indikerer stor evidens mod hypotesen. Her er p-værdien lille så det får os til at tvivle på hypotesen. Kan vi deraf konkludere, at null-hypotesen H 0 : θ = θ 0 = 1/2 er falsk? Har vi bevist, at θ 1/2. Nej. Hvis θ = 1/2, så er sandsynligheden for at observere 6389 drenge i 12524 graviditeter er 0.00054 eller knapt 1 ud af 2000 gange. Det er en lille sandsynlighed, bevares, men det er afgjort muligt selv hvis hypotesen er sand. Der er dog mange studier, der peger på, at der fødes flere drenge end piger. Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 21 / 34

Some tider fortolkes en p værdi fejlagtigt som noget i retningen af p værdien er sandsynligheden for at hypotesen er sand. Dette er forkert: Sandsynligheder er noget vi knytter til fænomener, hvor der er usikkerhed om udkommet (kast med en mønt eller en terning). Der er ingen usikker om hypotesen: Hypotsen er enten sand eller falsk (vi ved bare ikke hvad den er, for vi har ingen guddommelig indsigt). øren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 22 / 34

Effekten af stikprøvestørrelsen Antag at data var følgende: Drenge Piger Total 639 614 1253 0.51 0.49 1 Dvs vi har kun 10% of data, men andelen af drenge er stadig 0.51. Histogram of t.rep Frequency 0 2000 4000 6000 0.00 0.02 0.04 0.06 0.08 Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 23 / 34 t.rep

Hvad kan vi så konkludere? t obs er som før (på nær nogle decimaler): 0.01 men Med 12524 børn og 6389 drenge er der stærk evidens mod hypotesen θ = 1 2. p værdien er 2%. Med 1253 børn og 639 drenge er p-værdien er meget stor: 0.4975 så der er meget lidt evidens mod hypotesen. I begge tilfælde er andelen af drenge 0.51. Hvad skal vi mene om dette? Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 24 / 34

Vi formulerer en hypotese om verdens sande tilstand, og dernæst spørger vi data om der er evidens mod denne hypotese. Mere poetisk: Hvis der ikke er evidens mod hypotesen, kan det være fordi hypotesen er sand, eller fordi der ikke er tilstrækkeligt data (information) til at komme med denne evidens (altså til at påvise at hypotesen er forkert) Absence of evidence (of an effect) is NOT the same as evidence of absence (of an effect). Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 25 / 34

Test og konfidensinterval to sider af samme sag Vi testede ovenfor hypotesen θ = θ 0 hvor θ 0 = 1/2. Vi kunne teste samme hypotese for mange andre værdier af θ 0. For hver værdi af θ 0 beregner vi p-værdien og plotter mod θ 0 p.value 0.0 0.2 0.4 0.6 0.8 1.0 0.46 0.48 0.50 0.52 0.54 th.vec Husk: Små p-værdier er evidens mod hyptesen. Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 26 / 34

Indlæg intervaller hvor p-værdien er større end 0.01, 0.05 og 0.10. p.value 0.0 0.2 0.4 0.6 0.8 1.0 0.46 0.48 0.50 0.52 0.54 th.vec Disse intervaller er præcist 99%, 95% og 90% konfidensintervaller: 99% konfidensinterval: [ 0.499; 0.521 ] 95% konfidensinterval: [ 0.502; 0.519 ] 90% konfidensinterval: [ 0.504; 0.517 ] Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 27 / 34

p.value 0.0 0.2 0.4 0.6 0.8 1.0 0.46 0.48 0.50 0.52 0.54 th.vec Disse intervaller er præcist 99%, 95% og 90% konfidensintervaller: 99% konfidensinterval: [ 0.475; 0.547 ] 95% konfidensinterval: [ 0.483; 0.538 ] 90% konfidensinterval: [ 0.487; 0.532 ] Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 28 / 34

Statistisk signifikans, praktisk signifikans, klinisk signifikans... Oprindelsen er det latinske significantia, der betyder betydning Når man finder en statistisk signifikant effekt så betyder det, at den effekt man ser er for stor til med rimelighed at kunne tilskrives tilfældigheder. Mange studier, der viser, at der fødes ca. 50.5% drenge og 49.5% piger. Men når man venter et barn så tænker man, at der er 50 50 chance for hvert køn. Den statistiske signifikans betyder altså ikke nødvendigvis så meget i praksis... Man finder det samme fænomen i sundhedsverdenen: En statistisk signifikant effekt kan sagtes være så svag, at den ikke er klinisk relevant for patienten. Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 29 / 34

Estimation (by request) Estimation af θ i binomialfordelingen Det er ikke helt oplagt at bruge mindste kvadraters metode. Alternativ: Maximum Likelihood Metoden: Model: X bin(n, θ) Binomial tæthed Pr(X = x; θ) = ( ) N θ x (1 θ) N x x Når data er observeret x = 6389 med N = 12524 så bliver ovenstående en funktion af θ alene. Man kalder så funktionen for likelihood funktionen L(θ) = Pr(X = x; θ) Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 30 / 34

Plot L(θ) mod forskellige værdier af θ dbinom(x, N, th) 0.000 0.002 0.004 0.006 0.40 0.45 0.50 0.55 0.60 th Den værdi af θ der maximerer L kaldes maximum likelihood estimatet (MLE). Det er oftest lettere at maximere l(θ) = log L(θ) og MLE bliver ˆθ = x/n MLE er på mange måder det bedst tænkelige estimat man kan opnå. Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 31 / 34

For det lille datasæt får vi dbinom(x, N, th) 0.000 0.010 0.020 0.40 0.45 0.50 0.55 0.60 th Samme maximum, men likelihood funktionen er mindre peaked svarende til at der er større usikkerhed på estimatet fordi datasættet er mindre. Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 32 / 34

Mindste kvadrater og MLE Hvad så med regressionsmodellen og mindste kvadrater? Model: y i = β 0 + β 1 x i + e i Samme som at sige y i N(β 0 + β 1 x i, σ 2 ) Normalfordelingstæthed bliver f (y i ) = 1 σ 2π exp( 1 2σ 2 (y i (β 0 + β 1 x i )) 2 ) Hvis y 1,..., y N er uafhængige så er N f (y 1,..., y N ) = f (y i ) i=1 Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 33 / 34

Bliver helt konkret 1 f (y 1,..., y N ) = ( σ 2π )N exp( 1 2σ 2 N (y i (β 0 + β 1 x i )) 2 ) i=1 Antag nu at σ er kendt. Så er likelihood funktionen L(β 1, β 2 ) exp( 1 2σ 2 N (y i (β 0 + β 1 x i )) 2 ) i=1 Pga af minus i eksponenten så maximeres L ved at minimere N (y i (β 0 + β 1 x i )) 2 i=1 Dvs i regressionsmodellen er mindste kvadrater og MLE det samme. Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet fejltyper og p-værdier October 25, 2018 34 / 34