Test af statistiske hypoteser

Størrelse: px
Starte visningen fra side:

Download "Test af statistiske hypoteser"

Transkript

1 Kapitel 8 Test af statistiske hypoteser De inferensmæssige procedurer, vi hidtil har beskæftiget os med, har haft til formål at lokalisere den sande parameter så godt som muligt, og at beskrive hvor mange parametre man kunne forestille sig beskrev de gjorte målinger. Nogle gange er man imidlertid interesseret i et mere specifikt forsøg på afgrænsning af de mulige parametre. Situationen kan være den, at man på forhånd har udvalgt sig visse parametre, og den inferensmæssige hovedvægt kan ligge på om en eller flere af de udvalgte parametre beskriver målingerne. I så fald taler man om statistiske hypoteser, som man forholder sig til ved hjælp at statistiske test. Definition 8.1 Lad P være en statistisk model på (X, E). En statistisk hypotese er en delmængde P 0 P. Denne formelle matematiske definition rammer i et vist omfang ved siden af. Det egentlige indhold i den statistiske hypotese er den underforståede påstand: at det sande sandsynlighedsmål bag eksperimentet ligger i delmængden P 0. Det inferensmæssige problem er, hvorvidt man på baggrund af eksperimentet tror på denne påstand eller ej. Hvis man tror på den, siger man at hypotesen accepteres, hvis man ikke tror på den, siger man at hypotesen forkastes. Hvis man accepterer hypotesen, vil man typisk arbejde videre med den lille statistiske model P 0, og se bort fra at man oprindeligt havde flere sandsynlighedsmål med i modellen. 43

2 44 Kapitel 8. Test af statistiske hypoteser Hvis modellen er parametriseret (ν θ ) θ Θ, så vil hypotesen repræsenteres af en delmængde Θ 0 Θ. Vi skriver ofte H : θ Θ 0, (8.1) når vi formelt vil introducere en hypotese, og vi taler derefter om hypotesen H. Komplementærmængden Θ \ Θ 0 kaldes da alternativet (til H). Hvis hypotesen består af ét punkt, Θ 0 = {θ 0 }, taler man om en simpel hypotese - hypoteser med mere end én parameter kaldes sammensatte. I praksis er alle hypoteser, der fortjener at blive behandlet seriøst, naturligvis sammensatte. Definition 8. Et test af en hypotese H er en opdeling af repræsentationsrummet X i to dele: en acceptmængde A X af mulige udfald, der i vores opfattelse bekræfter hypotesen. Og en kritisk mængde K = X \ A af mulige udfald, der opfattes som uforenelige med hypotesen. Hvis vi observerer et punkt i A accepterer vi hypotesen, hvis vi observerer et punkt i K forkaster vi den. Et test af en simpel hypotese H : θ = θ 0, er på sin vis blot en konkordansundersøgelse af ν θ0. Men denne konkordansundersøgelse er farvet af, at vi går ud fra at mindst ét af sandsynlighedsmålene (ν θ ) θ Θ faktisk er i konkordans med data. I kapitel 1 var en sådan større model ikke inde i billedet. Eller anderledes formuleret: denne gang har vi et eksplicit alternativ. Sammenhængen med konkordansundersøgelser er mindre gennemsigtig for sammensatte hypoteser. Det er dog intuitivt klart at der er en sammenhæng, og vi vil belyse sammenhængen om et øjeblik. 8.1 Hvad er en hypotese? Den formelle definition af en hypotese indikerer at alle delmængder af Θ kan fungere som hypoteser. I særdeleshed antyder den en symmetri mellem en hypotese og dens alternativ, der skifter rolle blot ved en navneombytning. Men denne symmetri er misvisende: hypotesen og dens alternativ bliver behandlet vidt forskelligt, og der er ret snævre grænser for hvilke delmængder af Θ man vil kalde en statistisk hypotese.

3 8.1. Hvad er en hypotese? 45 I almindeligt videnskabeligt arbejde spiller begrebet arbejdshypotese en vigtig rolle. En arbejdshypotese er en påstand om verdens indretning, en påstand som giver en sammenhæng mellem ellers adskilte begreber. Sådanne hypoteser kan være ganske vidtløftige, og de vinder kun gehør hvis de er i stand til at forklare eksperimentelle kendsgerninger på en måde som ingen konkurrerende arbejdshypotese kan. Statistikerens brug af ordet hypotese går i stik modsat retning. Statistikerens hypoteser siger altid at verden er simpelt indrettet - i den forstand at den kan beskrives med få parametre. Vi vil tro på at verden er simpel, medmindre det viser sig at være i modstrid med eksperimentelle kendsgerninger. Det kaldes gerne Occams ragekniv: brug aldrig en kompliceret forklaring, hvis en simpel forklaring er tilstrækkelig. I det praktiske samarbejde mellem statistikere og andre videnskabsmænd, volder denne terminologiforskel ofte kvaler. En biolog med en forestilling om at en vis eksposition har betydning for udvikling af en bestemt kræftform, vil formulere arbejdeshypotesen: Der er en sammenhæng mellem eksposition og kræft. Han må opleve statistikeren reformulere hans hypotese til ukendelighed, for den statistiske hypotese vil lyde: Der er ingen sammenhæng mellem eksposition og kræft. Biologens hypotese gør ham klogere på verden (hvis hypotesen er sand, naturligvis), mens statistikerens hypotese hævder at verden er simpel at beskrive - i den forstand at der ikke findes en svært beskrivelig sammenhæng at bekymre sig om. Når biologen og statistikeren sammen analyserer eksperimentets data, kan de meget vel drage stik modsatte konklusioner! Lad os antage at data viser en svag stigning i kræftincidensen med stigende eksposition. Biologen vil da opfatte at data understøtter hans oprindelige arbejdshypotese. Men statistikeren hæfter sig ofte mere ved at evidensen er svag, at stigningen ikke er større end hvad der kan skyldes ren og skær tilfældighed. Og han konkluderer derfor at data er i overensstemmelse med den statistiske hypotese: han accepterer sin hypotese, som det hedder. Og i overensstemmelse med Occams ragekniv, nægter han at tage biologens arbejdshypotese for gode varer. Det er ikke helt det samme som at sige at biologens arbejdshypotese er forkert: den besked biologen får, er at hans eksperiment ikke er godt nok til at overbevise en professionel skeptiker. Hvis han virkelig tror på sin arbejdshypotese, må han designe et nyt og større og bedre eksperiment, der kan overbevise alle - selv statistikeren. Mange offentlige kontroverser om brug af statistik har denne karakter: man er uenige om hvorvidt man søger støtte til mere eller mindre vilde hypoteser, eller om man insisterer på så vidt som overhovedet muligt at bruge simple beskrivelser. Statistikere er - i modsætning til mange andre videnskabsfolk - et konservativt og kritisk folkefærd, der påtager sig en neddæmpende rolle.

4 46 Kapitel 8. Test af statistiske hypoteser Karakteristisk for arbejdshypoteser er at de ofte svæver ret frit i luften, uden at være forankrede i en model. Statistiske hypoteser er derimod per definition formulerede indenfor en model. Selve modelbygningen foregår således ofte i en mellemfase: efter at arbejdshypotesen er fremsat, men før den deraf afledte statistiske hypotese er formuleret. Faktisk er det ofte en meget vigtig motivation for valg af model, at den tillader en præcis formulering af en hypotese, relateret til den oprindelige arbejdshypotese. I parametriske sammenhænge, hvor Θ R k, er der to typer af hypoteser, der ofte forekommer. Hvis θ = (θ 1,..., θ k ) er den fulde parameter, betragter man en hypotese af formen eller H : θ 1 = = θ i, H : θ 1 = = θ i = 0, for et passende i mellem 1 og k. Mere abstrakt foretrækker man som regel at formulere sine hypoteser ved hjælp af en parameterfunktion τ : Θ R m, hvor hypotesen er af formen H : τ(θ) = ψ 0, for et passende ψ 0 R m. Hypotesens indhold er altså at den sande parameter befinder sig i originalmængden τ 1 ({ψ 0 }). Fordelen ved denne måde at specificere en delmængde af Θ på, er at man indbygger en kvantitativ måde at tale om afvigelser fra hypotesen: jo længere den sande τ-værdi ligger fra ψ 0, jo mere forkert er hypotesen. Definition 8.3 Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E), og antag at parametermængden Θ er en åben delmængde af R k. Hvis τ : R k R k m er en surjektiv, lineær afbildning, siger vi at H : τ(θ) = 0, er en lineær hypotese af dimension m, mens H : τ(θ) = ψ 0, for et vilkårligt ψ 0 R k m er en affin hypotese af dimension m.

5 8.1. Hvad er en hypotese? 47 En lineær hypotese er specielt en affin hypotese. Skulle man have behov derfor, kan en affin hypotese altid reformuleres som en affin hypotese ved en affin omparametrisering af den oprindelige model. Begge begreber er afhængige af den konkrete parametrisering. Skifter man parametrisering, vil de lineære og affine hypoteser i almindelighed høre op med at være lineære og affine: reparametriseringen vil som regel gøre hypoteserne krumme i større eller mindre grad. Definition 8.4 Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E), og antag at parametermængden Θ er en åben delmængde af R k. En glat hypotese af dimension m har formen H : τ(θ) = ψ 0, for et ψ 0 R k m, hvor τ : R k R k m er en C -afbildning, og hvor alle punkter i hypotesen er regulære for τ, altså at Dτ(θ) har rang k m hvis τ(θ) = ψ 0. Affine og lineære hypoteser er oplagt glatte. Det er sjældent at man i praksis ser på hypoteser, der ikke er affine, men klassen af glatte hypoteser har den teoretiske fordel at den ikke afhænger (særlig meget) af den konkrete parametrisering: Omparametriserer man sin model med en C -diffeomorfi, vil glatte hypoteser vedblive at være glatte. Eksempel 8.5 Hvis vi ser på afbildningen τ : R R givet ved τ(x, y) = x + y, konstaterer vi at billedmængden er [0, ). Der er to slags niveaukurver: for r > 0 er τ 1 ({r}) en cirkel med radius r - prototypen på en etdimensional delmængde af planen. Derimod er τ 1 ({0}) en etpunktsmængde, bestående af selve nulpunktet. Og ingen vil vist finde på at påstå at en etpunktsmængde i planen har dimension 1 - hvis den har en dimension, må det være 0.

6 48 Kapitel 8. Test af statistiske hypoteser Den kvalitative forskel i originalmængdernes karakter reflekteres i den første afledte af τ: Dτ(x, y) = ( x ; y ). Alle andre steder end i nulpunktet har Dτ rang 1 - men i nulpunktet har den rang 0. I ikke-parametriske sammenhænge, hvor Θ er uendeligdimensional, kan hypoteserne forekomme mere indviklede. Hvis modellen foreskriver at X 1,..., X n er uafhængige reelle variable, men potentielt med forskellige fordelinger, så kan hypotesen være at de alle har samme fordeling - uden at man specificerer hvilken fordeling der er tale om. En finere hypotese kan være at denne fælles fordeling er symmetrisk omkring medianen. Og en endnu finere hypotese kan være at den fælles fordeling er symmetrisk om 0. På trods af at disse hypotesers på overfladen kan virke mere tekniske, falder ikke-parametriske test ofte ganske naturligt ud. Og på mange måder fremtræder testteori i sin reneste og simpleste form i ikke-parametriske modeller. Vi vil diskuterer ikke-parametriske test i afsnit 8.7 og i en række opgaver. 8. Styrkefunktionen af et test Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). Hvis man har opstillet en statistisk hypotese H : θ Θ 0, der altså er en påstand om en modelforenkling i forhold til den oprindelige model, så vil man ønske at sammenholde den med data, for at se om den simplere beskrivelse dækker virkeligheden. Det foregår ved hjælp af et test. Når man tester en hypotese, kan man komme til at begå to typer fejl: man kan komme til at afvise hypotesen selv om den er sand. Det kaldes en fejl af type I, og muligheden for type I fejl betragtes i de fleste sammenhænge som et meget alvorligt problem. Vi har allerede, i forbindelse med konkordansundersøgelser, beskæftiget os en del med denne type fejl, og vi ved at man ikke kan slippe uden om problemet, kun søge at minimere det. Den anden type fejl man kan begå, er hvis man accepterer hypotesen selv om den er falsk. Dette kaldes en fejl af type II. De to typer fejl er knyttet sammen på en uheldig måde, sådan at hvis man gør meget ud af at gardere sig mod den ene type fejl, så åbner man op for mulighederne for den anden type fejl.

7 8.. Styrkefunktionen af et test 49 Når type I fejl opfattes som de værste, er det på grund af statistiske hypotesers konservative karakter: en accepteret hypotese vil lede til at man opretholder status quo, mens en forkastet hypotese ofte vil lede til at man ændrer arbejdsgang. I forbindelse med afprøvning af en ny type medicin, vil man sammenligne effekten af den nye medicin med den medicin der allerede er i brug. Hypotesen vil da være at de to typer medicin virker lige godt. Hvis denne hypotese accepteres, så vil konklusionen være business as usual : man vil fortsætte med at give det gamle medikament i alle praktiske sammenhænge. Hvis hypotesen forkastes, vil eksperimentet derimod ofte føre til en anbefaling af at man går væk fra det gamle medikament, og erstatter det af det nye. En type I fejl i dette eksempel, betyder at man anbefaler en udskiftning af medicintypen, skønt udskiftningen i virkeligheden ingen effekt har. Lægevidenskabens historie er fuld af påståelighed og kvaksalveri (det er først i moderne tid at lægerne er begyndt at kurere flere patienter end de slår ihjel), og moderne medicin er meget fokuseret på at undgå kvaksalveri - slagordet er evidensbaseret behandling, og det skal i høj grad forstås som et kampråb mod type I fejl. En type II fejl betyder at man holder fast i den gamle medicin, skønt den nye er mere effektiv. Det er selvfølgelig uheldigt, især hvis effekten er markant, men det betragtes som mindre uetisk end at ryge ud ad tangenten med en forkert behandling. Og fejlen bliver forhåbentlig opdage siden hen. Hvis en fejlagtig behandling først er indført, kan det tage århundreder at udrydde den igen. Generelt ønsker man derfor at kontrollere niveauet for type I fejl. Samtidig ønsker man naturligvis så få type II fejl som muligt, men dette ønske har lavere prioritet. Hvis vi har afgrænset en acceptmængde A X, og en dertil hørende kritisk mængde K = X \ A for hypotesen H, så vil niveauet for begge typer fejl beskrives af testets styrkefunktion γ : Θ [0, 1], givet ved γ(θ) = P θ (X K). Styrkefunktionen er altså sandsynligheden for at komme til at afvise hypotesen, betragtet som funktion af parameteren θ. Type I fejlene beskrives af γ-værdier over Θ 0 - disse sandsynligheder bør være så lave som muligt. Type II fejlene beskrives af γ-værdier over Θ \ Θ 0, disse bør være så høje som muligt. Vi definerer størrelsen af testet som sup γ K (θ). θ Θ 0

8 50 Kapitel 8. Test af statistiske hypoteser Som regel kender man ikke størrelsen præcist, men man ved måske at sup γ K (θ) α (8.) θ Θ0 for et passende α (0, 1). I så fald taler man om test på niveau α. Hvis testets faktiske størrelse er væsentligt mindre end det nominelle niveau, siges testet at være konservativt. Det ville være fint nok, hvis det ikke var fordi det øger muligheden for at begå fejl af type II. Et godt test på niveau α opfylder at γ K (θ) er stor for θ Θ \ Θ 0 - man taler da om at testet har stor styrke (under alternativet). Hvis testet er konservativt, vil det have ringe styrke, i hvert fald overfor alternativer tæt på hypotesen, se f.eks. figur 8.1. En sammenligning af to test på niveau α foregår ved at sammenligne styrkefunktionerne på Θ \ Θ 0. Desværre er det næsten altid sådan at det ene test har størst styrke i visse områder af alternativet, mens det andet test har størst styrke i andre. Der findes ikke noget enkelt test, der er bedre end alle andre. Hvilket test man vil foretrække, afhænger derfor helt af hvilke afvigelser fra hypotesen man er mest på vagt overfor. Og der er plads til megen kreativitet, når der skal konstrueres test med stor styrke overfor helt specifikke alternativer. Eksempel 8.6 Lad X 1,..., X n være uafhængige og identisk fordelte stokastiske variable med P p (X i = 1) = p, P p (X i = 0) = 1 p. Vi ønsker at teste den simple hypotese H : p = 1. på et 5% niveau. Det er naturligt at basere argumentionen på summen S n = X X n, der er binomialfordelt med længde n og successandsynlighed p. Under hypotesen er S således binomialfordelt med længde n og successandsynlighed 1/. Eftersom hypotesen er simpel, er et test ækvivalent med et konkordansområde. For den symmetriske binomialfordeling er et naturligt konkordansområde A n = {c n,..., n c n }

9 8.. Styrkefunktionen af et test 51 med tilhørende kritisk område K n = {0, 1,..., c n 1} {n c n + 1,..., n 1, n}. (8.3) Her er c n bestemt så stor som muligt, under den betingelse at P p (S n K n ) 0.05 hvis p = 1. Det foregår helt som i eksempel Man finder f.eks. at c 10 =, at c 100 = 40 og at c 1000 = 469. PSfrag replacements P(S n Kn) p Figur 8.1: Styrkefunktion for test af symmetri i den simple møntkastmodel, for n = 10 (fuldt optrukket linie), n = 100 (stiplet linie) og n = 1000 (prikket linie). Testet er baseret på det kritiske område K n fra (8.3). Den vandrette linie svarer til testets nominelle styrke på 5%. Styrkefunktionen er tegnet op i figur 8.1 for forskellige værdier af n. Vi ser at kvaliteten af testet forbedres dramatisk med stigende n. For n = 10 betyder diskretiseringsfænomener at testets faktiske størrelse er klart under de nominelle 5%. Endvidere er der en ganske betydelig risiko for type II fejl: selv hvis det sande p er så markant uden for hypotesen som p = 0., er der over 50% sandsynlighed for observere en S 10 -værdi indenfor acceptområdet, og dermed er der stor sandsynlighed for at man kommer til at acceptere hypotesen. For n = 1000 er diskretiseringsfænomenerne ikke længere synlige, så testets størrelse stemmer fint overens med de nominelle 5%. Og man skal ikke ret langt væk fra hypotesen, før der er stor sikkerhed for at den forkastes. Læseren bør i øvrigt prøve at forestille sig hvordan styrkefunktionen ser ud for

10 5 Kapitel 8. Test af statistiske hypoteser n = det var dette test vi udførte i eksempel 1.1, skønt vi ikke formulerede det på den måde, og skønt vi da ikke havde eksplicitte alternativer. I eksempel 8.6 faldt det relativt let at afgrænse et fornuftigt kritisk område. Det er fordi eksemplet er kunstigt let: parameteren er étdimensional og hypotesen er simpel. Realistiske eksempler involverer altid flerdimensionale parametre og sammensatte hypoteser. Som vi skal se, vil blot en lille modifikation af eksempel 8.6 give vanskeligheder i en helt anden klasse. Eksempel 8.7 Mange mennesker arbejder lang tid hver dag ved en computerskærm, og det er et almindeligt problem at refleksioner fra skærmen opleves som en stor gene. Moderne skærme kan i et vist omfang justeres, sådan at brugeren har mulighed for at beskytte sig selv mod refleksionerne. For at undersøge om de nye skærme vitterligt har den ønskede effekt, har man foranstaltet et eksperiment: 130 mennesker, hvoraf halvdelen arbejdede ved ældre, ikke-justerbare skærme, mens den anden halvdel arbejdede ved justerbare skærme, blev spurgt om de havde gener af skærmrefleksioner. Svarene er opsummeret i tabel 8.1. Ingen gener Gener Gammel skærm Justerbar skærm 7 38 Tabel 8.1: Data fra undersøgelse af gener fra skærmrefleksioner. En model der tillader en præcis formulering af den underliggende problemstilling er møntkastmodellen med to mønter. Lad X 1,..., X 65, Y 1,..., Y 65 være uafhængige variable, og lad P(X i = 1) = p 1, P(X i = 0) = 1 p 1, P(Y i = 1) = p, P(Y i = 0) = 1 p. (8.4) Udfaldet 1 symboliserer at forsøgspersonen oplever gener ved skærmrefleksioner, udfaldet 0 symboliserer at vedkommende ikke oplever ubehag. Vi lader endvidere X erne svare til personer med gamle skærme, mens Y erne svarer til personer med justerbare skærme. Når vi får brug for at referere til sandsynlighedsmålet bestemt ved (8.4), skriver vi P p1,p. I denne ramme kan den underliggende forestilling om at de justerbare skærme mindsker generne ved refleksion, udtrykkes i påstanden p 1 > p. Den statistiske tilgang til

11 8.. Styrkefunktionen af et test 53 at undersøge denne påstand, er at formulere hypotesen H : p 1 = p. Det er en sammensat hypotese, for vi siger ikke noget om hvad den fælles værdi af p 1 og p skal være. Der er et frit etdimensionalt spillerum inden i det oprindelige todimensionale parameterområde. Hvis hypotesen H accepteres, så fortolker vi det på den måde at forsøget ikke understøtter forestillingen om at de justerbare skærme gør en forskel. Hvis man er mere forsigtig, formulerer man det på den måde at en eventuel forskel må være lille, for vi kan ikke få øje på den. Hvis vi derimod forkaster hypotesen, siger vi at der er signifikant forskel på p 1 og p, og vi kan bekræfte forestillingen bag forsøget. Formentlig, i hvert fald, for den blotte forkastelse af H tillader jo i princippet at p 1 < p ligeså vel som at p 1 > p. Men fortolkningen af en forkastet hypotese er i regelen ret ligetil. Eksperimentet har repræsentationsrum X = {0, 1} 65 {0, 1} 65. Vi vælger at basere testet af H på størrelsen X Y = 65 i=1 X i Modellen foreskriver at både X og Y er binomialfordelte med længde 65, og potentielt med forskellige successandsynligheder. Men hvis de to successandsynligheder er ens, vil X Y formentlig være lille. Vi fortolker derfor små værdier af X Y som værende i overensstemmelse med hypotesen, mens store værdier er kritiske. Derfor konstruerer vi et acceptområde af formen hvor vi har indført betegnelserne 65 i=1 Y i. A c = {(x, y) x y c}, (8.5) x = 65 i=1 x i, y = 65 i=1 y i.

12 54 Kapitel 8. Test af statistiske hypoteser PSfrag replacements y x Figur 8.: Acceptområdet A c fra (8.5) med c = 10, tegnet op i (x, y )-planen. Acceptområdet er området mellem de to stiplede linier. De faktiske observationer fra tabel 8.1 er repræsenteret som en firkant. Hvordan skal vi vælge afgrænsningen? Det fundamentale er betingelse (8.), lad os sige med α = Den mest oplagte fremgangsmåde er simpelthen at undersøge funktionen p P p,p ( X Y c) for forskellige værdier af c, sådan som det er gjort på figur 8.3. Man finder ved denne undersøgelse at P p,p ( X Y 11) for alle p (0, 1), og at dette c er det mindste med den ønskede egenskab. Det betyder at vi vil opfatte en X Y -værdi på 1 eller derover som kritiske for hypotesen H. Bemærk det ubehagelige fænomen at sandsynligheden for at gøre en observation i acceptområdet varierer under hypotesen. Hvis det fælles p er 0.5, vil sandsynligheden for at gøre en observation i A være tæt på 95%. Men hvis det fælles p er meget lille (eller meget stort), vil den tilsvarende sandsynlighed være stort set 100%. Testet bliver konservativt, og det bliver svært at se at p 1 p, hvis begge sandsynligheder er små (eller store). Bemærk også at X Y -værdien for data i tabel 8.1 lige præcis er 1, så på baggrund af de gjorte observationer kan vi forkaste H.

13 8.. Styrkefunktionen af et test 55 PSfrag replacements P( X Y c) p PSfrag replacements P( X Y c) p Figur 8.3: Sandsynligheden for under hypotesen H at gøre en observation i acceptområdet A c som funktion af den fælles successandsynlighed p. Den vandrette streg repræsenterer en sandsynlighed på Til venstre er c = 5, til højre er c = 10. Vi ser at der er behov for et c en smule større end 10 hvis (8.) skal opfyldes. Faktisk er c = 11 stor nok. En mere overslagsagtig måde at finde det kritiske område på, baserer sig på normalfordelingsapproksimationer. Hvis den fælles sandsynlighed er p, så er X N(65 p, 65 p(1 p)) og tilsvarende for Y. Da X og Y er uafhængige, er X Y N(0, 130 p(1 p)). Denne approksimation leder til en kritisk værdi på p(1 p). Dette maksimeres for p = 1/, hvor det er Overslagsregningerne leder os derfor også til at bruge 1 som den mindste kritiske X Y -observation. Lad os undersøge styrken af testet af H, baseret på det kritiske område K 11 = {(x, y) x y > 11}. Vi interesserer os altså for styrkefunktionen γ(p 1, p ) = P p1,p ( X Y > 11). (8.6) Denne styrkefunktionen er optegnet i figur 8.4. Hvis der indgik flere subjekter i undersøgelsen, ville man naturligvis få en skarpere aftegnet dal. Bemærk hvordan dalen vider sig ud i diagonalens ender, og faktisk synker fra niveauet 0.05 til niveauet 0. Hvis p 1 p, men begge sandsynligheder er tæt på nul

14 p 56 Kapitel 8. Test af statistiske hypoteser γ PSfrag replacements p 1 Figur 8.4: Styrkefunktionen (8.6) for et test af hypotesen H ved hjælp af det kritiske område K 11. (eller en), så bliver det svært at afsløre at H er falsk. Denne effekt opstår fordi vi måler overensstemmelsen mellem observation og hypotese ved hjælp af størrelsen X Y. I praksis vil man bruge andre målestokke uden en tilsvarende defekt. 8.3 Teststørrelser I praksis vil man ofte foretage afgrænsningen mellem acceptområde og kritisk område ved hjælp af en teststørrelse q : X R hvor man er i stand til at fortolke q-værdien. Typisk forsøger man at konstruere teststørrelsen sådan at q(x) er lille, hvis x er i god overensstemmelse med hypotesen, og sådan at q(x) er stor, hvis x er i dårlig overensstemmelse med hypotesen. Men teststørrelser med andre fortolkninger forekommer også. Hvis vi har konstrueret en teststørrelse q med standardfortolkningen om at småt er godt for hypotesen, så leder det naturligt til acceptområdet A = {x X q(x) < z},

15 8.3. Teststørrelser 57 for et passende z, der er rettet ind, så testet får det ønskede niveau. Vi skal altså bestemme z så P θ (q(x) < z) 1 α for alle θ Θ 0. Bemærk at kun parametrene under hypotesen indgår, når man skal afgrænse stort fra småt. Vi har allerede set eksempler på hvordan man bruger teststørrelser. I eksempel 8.6 forekom det naturligt at erstatte sekvensen af 0 ere og 1 ere (X 1,..., X n ) af summen S = X X n, fordi afvigelser af S fra den forventede værdi n/ kunne forstås som afvigelser fra hypotesen om at successandsynligheden er 1/. Tilsvarende, i eksempel 8.7 forekom det om ikke naturligt, så dog nogenlunde meningsfuldt, at erstatte de to sekvenser (X 1,..., X n ) og (Y 1,..., Y n ) med størrelsen X Y, fordi afvigelser af denne størrelse fra nul, kunne forstås som afvigelse fra hypotesen om at de to successandsynligheder er ens. Muligheden for at fortolke den anvendte teststørrelse er essentiel. Derfor er det svært at give generelle retningslinier for hvordan man skal vælge teststørrelser - det afhænger af det konkrete problem. Vi skal i afsnit 8.5 diskutere en generel procedure til at finde teststørrelser. Men i konkrete problemer kan ad hoc teststørrelser ofte fungere bedre (dvs. at testet får større styrke mod de alternativer man er bange for) end de teststørrelser, der er udledt efter generelle principper. En virkeligt vellykket teststørrelse q er niveaukonstant. Det vil sige at fordelingen af q(x) under P θ ikke afhænger af det konkrete θ, så længe θ blot ligger i Θ 0. I så fald kommer testet ud på at foretage en konkordansundersøgelse af den gjorte q- værdi mod q(x)-fordelingen under hypotesen. Det kan munde ud i en accept/forkast konklusion, eller det kan munde ud i en p-værdi, som i afsnit 1.6. Det er på den anden side vigtigt at fordelingen af q(x) under P θ faktisk varierer med θ: Når vi ser på parametre i alternativet Θ\Θ 0 skulle vi gerne få helt andre fordelinger frem, ellers vil testet have forsvindende styrke, og kan ikke bruges til noget. Mange i praksis anvendte teststørrelser er strengt taget ikke niveaukonstante. Men de er approksimativt niveaukonstante. I et typisk tilfælde er q(x) approksimativt χ - fordelt med k frihedsgrader under P θ for alle θ Θ 0. Det betyder at fordelingerne næppe er ens, og der er sikkert ingen af dem der faktisk er χ -fordelte. Men man kan med fornuft udføre en approksimativ konkordansundersøgelse, hvis man er opmærksom på de forskelle mellem nominelle og faktiske niveauer, det introducerer.

16 58 Kapitel 8. Test af statistiske hypoteser To teststørrelser q 1, q : X R (med tilhørende fortolkninger) kaldes ækvivalente hvis de for alle niveauer α (0, 1) fører til samme acceptområde A α X. Hvis de to teststørrelser er ækvivalente, siger man nogle gange at q 1 -testet kan udføres som et q -test (og omvendt). Hvis q : X (0, ) er en teststørrelse med fortolkningen at små q-værdier er i overensstemmelse med hypotesen, mens store q-værdier ikke er det, og hvis φ : (0, ) (0, ) er en voksende, bijektiv afbildning, så er q og φ q ækvivalente teststørrelser. Hvis ψ : (0, ) (0, ) er en aftagende, bijektiv afbildning, så er q og ψ q også ækvivalente, blot man husker at ψ q har den modsatte fortolkning af q: små værdier er i dårlig overensstemmelse med hypotesen, mens store værdier er i fin overensstemmelse. Eksempel 8.8 Betragt den simple normalfordelingsmodel, hvor X 1,..., X n er uafhængige reelle stokastiske variable, der hver især er N(ξ, σ )-fordelt med ukendt middelværdi og varians. Vi ønsker at teste hypotesen H : ξ = 0. (8.7) Det tekniske udgangspunkt for vores undersøgelse er de to størrelser X = 1 n n X i og SSD = i=1 n (X i X ), i=1 som er uafhængige, henholdsvis N(ξ, σ /n)-fordelt og χ -fordelt med n 1 frihedsgrader og skalaparameter σ. Hvis hypotesen er sand, vil vi forvente at X er omtrent nul. Men hvor stor en afvigelse fra nul, der er acceptabel, afhænger jo i høj grad af hvor stor σ er. Vi kan få information om σ ud fra SSD-størrelsen, og derfor skal vi vurdere størrelsen af X i forhold til SSD. Detaljerne i sammenvejningen kan foregå på forskellige måder, og det leder frem til tre klassiske teststørrelser. Den ældste teststørrelse er T-teststørrelsen T = n X SSD/(n 1), hvor værdier langt fra nul (både positive og negative) opfattes som kritiske for hypotesen. Normeringen af T-størrelsen sikrer at hvis hypotesen er sand, så følger T en

17 8.3. Teststørrelser 59 T-fordeling med n 1 frihedsgrader, uanset hvad det sande σ er, så teststørrelsen er niveaukonstant. Student indførte i 1907 T-fordelingen, netop for at studere denne teststørrelse, og han gjorde mere: han tabellerede fordelingen. Dermed gjorde han det praktisk muligt at udføre T-testet - indtil da havde man simpelthen ganske vist brugt T-størrelsen, men man havde lukket øjnene og ladet som om den var standard normalfordelt, en handlemåde der giver problemer med for mange type I fejl i forhold til det nominelle niveau α, især hvis n er lille. Acceptområdet for testet af H, baseret på T, på niveau α er givet ved at z α < T < z α, hvor z α er 1 α -fraktilen i t-fordelingen med n 1 frihedsgrader. Dette område kommer til verden ud fra et centralt konkordansområde for t-fordelingen. Vi kan indføre den såkaldte ikke-centrale t-fordeling med k frihedsgrader og ikkecentralitetsparameter η som fordelingen af U + η V, (8.8) hvor U og V er uafhængige, reelle variable, sådan at U er N(0, 1)-fordelt, mens V er χ -fordelt med k frihedsgrader og skalaparameter 1/k. Hvis η = 0, er (8.8) den sædvanlige operative procedure til at fremstille en variabel med en klassisk t-fordeling. Man kan ikke udtrykke tætheden for ikke-centrale t-fordelinger i termer af elementære funktioner, men numerisk evaluering er mulig, og disse fordelinger er indbygget i en række computerpakker. Hvis man skriver teststørrelsen T op på formen T = (X σ ξ) + n ξ σ, SSD/σ (n 1) n ser man at T (såvel indenfor som udenfor hypotesen) følger en ikke-central t- fordeling med n 1 frihedsgrader og ikke-centralitetsparameter n η = σ ξ. Man kan derfor finde styrkefunktionen for testet baseret på T, ved at udregne U + n ξ (ξ, σ ) P z σ α < < z α V, (8.9)

18 60 Kapitel 8. Test af statistiske hypoteser hvor U og V er uafhængige, reelle variable, sådan at U er N(0, 1)-fordelt, mens V er χ -fordelt med n 1 frihedsgrader og skalaparameter 1/(n 1). Det er teknisk muligt at finde denne styrkefunktion, hvis man har adgang til fordelingsfunktionerne for de ikke-centrale t-fordelinger, se figur γ PSfrag replacements σ ξ 1 3 Figur 8.5: Styrkefunktionen (8.9) for et test af hypotesen (8.7) ved et T-test, i tilfældet med n = 10. Jo større n, jo snævrere ved dalen blive. Men den vil altid udvide sig, når man går i retning af større σ. En lidt anden måde at teste hypotesen H på, er ved at foretage sammenvejningen af X og S S D ved hjælp af F-størrelsen F = n X SSD/(n 1). Man kan observere at F = T. Fortolkningen af F-størrelsen er naturligvis at store F-værdier er kritiske for hypotesen, mens små F-værdier anses for at være i fin overensstemmelse med H. Under hypotesen følger F en F-fordeling med (1, n 1) frihedsgrader. Acceptområdet for testet af H, baseret på F, på niveau α er givet ved at F < z α, hvor z α er 1 α-fraktilen i F-fordelingen med (1, n 1) frihedsgrader.

19 8.3. Teststørrelser 61 Det kan synes som om F-størrelsen ikke bringer meget nyt i forhold til T-størrelsen, og F-testet er da også ækvivalent med T-testet. Men i mere komplicerede normalfordelingsmodeller, med flerdimensionale middelværdiparametre, kan det være svært at finde naturlige generaliseringer af T-størrelsen, hvorimod det ofte er muligt at finde generaliserede F-størrelser. Fisher indførte F-fordelingen i 190 erne, netop i forbindelse med test i normalfordelinger. Og igen var den store indsats i virkeligheden at han tabellerede fordelingerne, og dermed gjorde F-testet praktisk muligt. Det er vanskeligt i dag helt at begribe hvor stor en rolle disse tabeller har spillet tidligere. I dag tabellerer computerpakkerne på et øjeblik enhver kendt eller ukendt fordeling. Men i de tider hvor alt måtte regnes i hånden, var det et voldsomt slid at fremstille tabeller, og ikke en opgave man gerne påtog sig. Visse udviklinger i statistikkens historie forekommer underlige, set med moderne briller, men kan forstås på den måde at man gjorde store krumspring for at kunne udnytte allerede fremstillede tabeller, frem for at skulle udarbejde nye. Eftersom T-størrelsen og F-størrelsen ikke står i en bijektiv og monoton forbindelse med hinanden, kan man måske komme i tvivl om hvorvidt de to måder at lave testet på, vitterligt er ækvivalente. For at være konkrete, kan vi sige at n = 10, og at vi tester på niveau 5%. Vi finder at 97.5%-fraktilen i T-fordelingen med 9 frihedsgrader er.6. Når vi udfører testet for hypotesen (8.7) som et T-test, får vi derfor acceptområdet A T = {(x 1,..., x 10 ).6 < T(x 1,..., x 10 <.6}. Tilsvarende kan 95%-fraktilen i en F-fordeling med frihedsgrader (1, 9) slås op til at være 5.117, og dermed bliver acceptområdet, når testet udføres som et F-test, A F = {(x 1,..., x 10 ) F(x 1,..., x 10 ) < 5.117}. De to acceptområder indeholder præcis de samme x-sekvenser, fordi T = F og fordi.6 = Så om man udfører testet på den ene eller den anden måde, kan være irrelevant: man får samme svar på om hypotesen accepteres eller forkastes. Man kan endda ved tilsvarende argumenter overbevise sig om at de to måder at teste på fører til samme p-værdi. En tredie sammenvejning af X og S S D er B-størrelsen B = SSD SSD + nx.

20 6 Kapitel 8. Test af statistiske hypoteser Man skal måske stirre lidt længere på denne størrelse, før man synes den giver mening, end man skulle med de to første teststørrelser. Men det er i hvert fald klart at n 1 B = F + n 1. Så B er en aftagende funktion af F. Dermed er små B-værdier kritiske for hypotesen - og B-testet og F-testet er ækvivalente. Under hypotesen følger B-størrelsen en B- fordeling med (n 1, 1) frihedsgrader (bemærk: frihedsgrader, ikke formparametre), og acceptområdet for testet af H, baseret på B, på niveau α er derfor givet ved at z α < B, hvor z α er α-fraktilen i B-fordelingen med (n 1, 1) frihedsgrader. Også B-størrelsen (og B-fordelingen) er indført af Fisher i forbindelse med hypotesetest i større normalfordelingsmodeller. Eksempel 8.9 Betragt data fra eksempel.13, hvor en forsøgsperson har fået målt sin reaktionstid 50 gange. Vi antager at disse 50 observationer, benævnt x 1,..., x 50, er realisationer af uafhængige stokastiske variable X 1,..., X 50, der alle er N(ξ, σ )- fordelt med ukendt middelværdi ξ og varians σ. Vi vil interessere os for hypotesen H : ξ = 60 ms. I dette tilfælde er n = 50, og vi finder de summariske størrelser n x i = 13646, i=1 n x i = i=1 Heraf finder vi at x = n = 7.9, SSD = n x i n x = i=1 De naturlige estimatorer fra eksempel 4.4 er ˆξ = x = 7.9, ˆσ = S S D n 1 = Et test af hypotesen H kan foregå på baggrund af regningerne i eksempel 8.8. Formelt er den aktuelle affine hypotese ganske vist lidt forskellig fra den lineære hypotese

21 8.3. Teststørrelser 63 (8.7), men forskellen elimineres ved en datatransformation. Vi betragter observationerne Y i = X i 60, i = 1,..., n. Ifølge modellen er Y i erne uafhængige og normalfordelte med varians σ, og et test af hypotesesen H kommer nu ud på at teste om Y i ernes middelværdi er nul. Eftersom SSD-størrelsen for Y i erne og X i erne er den samme, betrager vi T-teststørrelsen T = n Y SSD/(n 1) = n (X 60) SSD/(n 1) = 3.13 hvilket er 99.85% fraktil i t-fordelingen med 49 frihedsgrader. Vi kunne nøjes med at sige at denne T-størrelse er markant større end 97.5% fraktilen i den relevante T-fordeling, og derfor må vi forkaste hypotesen: ξ er signifikant større end 60. Antal Reaktionstid (ms) Figur 8.6: Et histogram over data fra eksempel.13, sammen med den middelværdi, der postuleres i eksempel 8.9 (den fede linie), den empiriske middelværdi (den stiplede linie) og et 95% konfidensinterval (tynde linier) for middelværdien, baseret på en normalfordelingsmodel. I almindelighed vil man dog foretrække at få oplyst p-værdien, sådan som det fremgik af diskussionen i afsnit 1.6. Her er p-værdien ( ) = (husk at der er et bidrag fra den nedre hale), og den fortæller at hypotesen ikke blot er forkastet på et 5% niveau, men faktisk forkastet med et brag. Måske endda med et overraskende stort brag, når man sammenligner med figur 8.6, hvor vi har optegnet et histogram

22 64 Kapitel 8. Test af statistiske hypoteser over data, sammen med den postulerede middelværdi på 60. På tegningen har vi tilføjet et 95% konfidensinterval for ξ, regnet ud som i eksempel 7.9. Den postulerede ξ-værdi på 60 ligger ganske vist udenfor konfidensintervallet - men så langt uden for synes man måske heller ikke at den ligger. Men konklusionen er altså at hvor 60 vil være en ganske rimelig observation at gøre, så er de faktisk gjorte observationer systematisk en smule højere. Ikke alle sammen, men de fleste. Og derfor er 60 et helt urimeligt lavt bud på det sande ξ. Som en træning i at bruge de forskellige ækvivalente teststørrelser fra eksempel 8.8 udregner vi F-teststørrelsen for Y i erne til 9.83, og det er 99.7% fraktil i F-fordelingen med (1, 49) frihedsgrader. Her er det kun store værdier der er kritiske, så p-værdien er = som før. Tilsvarende udregner vi B-størrelsen for Y i erne til 0.833, der er 0.3% fraktil i B- fordelingen med (49, 1) frihedsgrader. Eftersom det er små B-værdier der er kritiske, konstaterer vi igen at testet giver en p-værdi på Testproblemet i eksempel 8.9 er usædvanligt at støde på i praksis. Normalt har man ikke på forhånd en konkret værdi, som man ønsker at sammenligne et middelværdiestimat med. Langt almindeligere er det såkaldte tostikprøve problem, hvor man har uafhængige observationer fra to grupper, og hvor spørgsmålet er om de to grupper er ens. Eksempel 8.10 Lad X 1,..., X n, Y 1,..., Y m være indbyrdes uafhængige stokastiske variable. Antag at X i N(ξ, σ ) mens Y j N(η, σ ). Den grundliggende hypotese for tostikprøve problemet kan nu formuleres som H : ξ = η. Bemærk at vi på forhånd antager at variansen i de to grupper er ens. Hvis denne antagelse er groft forkert, vil nedenstående teknik ikke føre noget godt med sig. På den anden side: hvis varianserne i de to grupper vitterligt er forskellige, så er det i sig selv en forskel på grupperne, og det giver i så fald næppe mening at interessere sig for om middelværdierne er ens. Vi indfører følgende størrelser: X = 1 n n X i, SSD X = i=1 n (X i X ), i=1

23 8.3. Teststørrelser 65 og tilsvarende Y og SSD Y. Det er klart at X N (ξ, σ n ), Y N ) (η, σ, m mens SSD X og SSD Y er χ -fordelt med skalaparameter σ og n 1 hhv. m 1 frihedsgrader. Det er endvidere klart at disse fire variable er uafhængige. Den naturlige estimator for ξ er X, og den naturlige estimator for η er Y. Derfor er det interessant at undersøge om X Y afviger mere fra nul end man vil forvente under hypotesen. Idet ( ( 1 X Y N 0, σ n + 1 )) m under hypotesen, skal vi sammenholde X Y med et estimat for σ. Og det bedste estimat vi kan finde på, den estimator der har mindst varians, opnår vi ved at poole SSD-størrelserne, det vil sige at vi baserer estimatet på SSD X + SSD Y, der er χ -fordelt med n + m frihedsgrader og skalaparameter σ. Derfor bruger vi teststørrelsen ( ) X Y T = nm n+m (SSDX + SSD Y )/(n + m ), (8.10) der under hypotesen er T-fordelt med n + m frihedsgrader. Acceptområdet for testet af H, baseret på T på niveauet α, er givet ved at z α < T < z α hvor z α er (1 α )-fraktilen i en T-fordeling med n + m frihedsgrader. I elementære fremstillinger af praktisk statistik kommer dette såkaldt uparrede T- test ofte til at fremstå som den vigtigste statistiske teknik overhovedet. Og der er en vis rimelighed i dette synspunkt, i og med at tostikprøve problemet er meget ofte forekommende - specielt i små forsøg, hvor eksperimentatoren selv kan håndtere den statistiske bearbejdning. Mere komplicerede forsøg kræver derimod en større teoretisk forståelse og mere avancerede statistiske modeller. I disse noter er vi tilbøjelige til at betragte tostikprøve problemet med normalfordelte data som et specielt eksempel på en etsidet variansanalyse, der igen er et specielt eksempel på den lineære normale model. Den lineære normale model er overskriften for en fælles matematisk behandling af en forbavsende bred klasse af modeller, og denne behandling er temaet for anden del af notesættet.

24 66 Kapitel 8. Test af statistiske hypoteser Ser man på tostikprøve problemet på denne måde, er det naturligere at skrive F- og B-teststørrelser op. Vi vil ikke skrive disse teststørrelser op her, men blot gøre opmærksom på at det er muligt at finde sådanne teststørrelser, og at de som i eksempel 8.8 er ækvivalente med T-teststørrelsen. Eksempel 8.11 Den specifikke fekunditet for en bananfluehun måles som det gennemsnitlige antal æg om dagen hun lægger i de første 14 dage af sit liv. I tabel 8. er opgjort resultatet fra et eksperiment, hvor man har registreret den specifikke fekunditet for 5 hunner fra en speciel avlsstamme, der er gjort resistent overfor DDT. Som kontrol har man også registreret den specifikke fekunditet for 5 hunner fra en standard laboratoriestamme. Spørgsmålet er om den DDT resistente stamme har en nedsat fekunditet i forhold til det normale. DDT resistent Standard Tabel 8.: Den specifikke fekunditet for 5 bananflue hunner fra en DDT resistent stamme, overfor den specifikke fekunditet for 5 hunner fra en standard laboratoriestamme. Et dotplot af data fra tabel 8. er optegnet i figur 8.7. Der er tilføjet et 95% konfidensområde for middelværdiparameteren for hver gruppe - dette konfidensområde er baseret på en normalfordelingsmodel for hver gruppe for sig, og det poolede variansestimat indgår således ikke. Vi betegner målingerne fra den DDT resistente stamme med x 1,..., x n og målingerne fra standardstammen som y 1,..., y n med n = 5. Vi ser disse målinger som realiseringer af uafhængige stokastiske variable X 1,..., X n og Y 1,..., Y n, alle normalfordelte med fælles ukendt varians σ, og med en middelværdi hørende til hver gruppe, ξ hørende til den DDT resistente stamme, og η hørende til standard stammen. Vi finder

25 8.3. Teststørrelser 67 Resistente Normale Fekunditet Figur 8.7: Et dotplot for data fra tabel 8.. De to markerede områder er 95% konfidensområder, baseret på observationer fra hver sin gruppe - der indgår ikke et poolet variansestimat, men et variansestimat for hver gruppe for sig. at Det poolede variansestimat er x = 5.3, y = 33.4, SSD x = 1450, SSD y = ˆσ = SSD x + SSD y n = 70., der - uanset om de to middelværdier er ens eller ej - stammer fra en χ -fordeling med n frihedsgrader og skalaparameter σ /(n ). Vi udregner T-teststørrelsen (8.10) for hypotesen om at de to middelværdiparametre er ens, og finder ( ) x y T = n (SSDx + SSD y )/(n ) = 3.4, der er 0.06% fraktil i T-fordelingen med 48 frihedsgrader. Hypotesen om at de to middelværdier skulle være ens bliver altså afvist med et brag - vi får en p-værdi på 1. promille. Man kan godt aflæse denne meget kraftige signifikans ud fra konfidensområderne på figur 8.7. Hvis de to middelværdier skal være ens, så ligger den fælles værdi formentlig der hvor de to konfidensområder næsten når sammen. Men hvis den fælles middelværdi faktisk befinder sig der, så har vi fået atypisk små observationer i den

26 68 Kapitel 8. Test af statistiske hypoteser ene gruppe og atypisk store observationer i den anden. Moralen er at der skal være et substantielt overlap mellem konfidensområderne på en tegning som figur 8.7, hvis man skal kunne acceptere at de to grupper er ens. En anden god morale i dette eksempel er at der ikke skal forfærdeligt mange observationer til, før man kan se forskel på to grupper. Hvis figur 8.7 var optegnet uden konfidensområder, ville det faktisk ikke være så nemt at se forskel på de to grupper med det blotte øje. Det er jo på ingen måde sådan at de to grupper ligger separeret fra hinanden. Men den typiske observation for den resistente gruppe ligger altså lidt lavere end den typiske observation for standardgruppen. Man kan godt fornemme dette forhold grafisk. Men det formelle statistiske test afslører med piber og trommer at denne forskubbelse under ingen omstændigheder kan skyldes tilfældighed. 8.4 Test og konfidensområder I diskussionen af test har vi indtil nu undladt at drage parallelerne mellem test og konfidensområder. Men de to begreber er selvfølgelig nøje forbundne. Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E), og lad τ : Θ Ψ være en parameterfunktion. At konstruere et konfidensområde for τ er stort set det samme som at lave et simultant test af alle hypoteser af formen H ψ : τ(θ) = ψ. (8.11) Antag at vi har et (1 α)-konfidensområde for τ, altså en afbildning D : X Ψ så For fast ψ Ψ sætter vi P θ (τ(θ) D(X)) 1 α for alle θ Θ. A ψ = {x X ψ D(x)}. Udsagnet om dækningsgraden for D(x) kan læses som P θ (X A ψ ) 1 α hvis τ(θ) = ψ. Så A ψ -mængden er acceptområdet for et test at hypotesen (8.11), et test på niveau α. Ved denne måde at lave test på, accepterer vi hypotesen (8.11) hvis og kun hvis ψ ligger i observerede konfidensområde.

27 8.4. Test og konfidensområder 69 Antag omvendt at vi for hvert ψ Ψ har et testområde A ψ for et test af hypotesen (8.11) på niveau α, og sæt D(x) = {ψ Ψ x A ψ } for alle x X. Udsagnet om testniveauet kan oversættes til at disse D(x)-mængder udgør et (1 α)- konfidensområde for τ. Fremgangsmåden ved denne konstruktion af et konfidensområde er at lade det observerede konfidensområde bestå af de ψ-værdier der overlever et test af hypotesen (8.11). Eksempel 8.1 Lad os vende tilbage til tostikprøveproblemet, som diskuteret i eksempel Udgangspunktet er uafhængige variable X 1,..., X n, Y 1,..., Y m, hvor vi antager at X i N(ξ, σ ), Y j N(η, σ ). Det kan være meget godt at afgøre om ξ = η. Men det er meget mere spændende at producere et 95%-konfidensområde for parameterfunktionen α = ξ η. Hvis 0 ligger inde i konfidensområdet for α, så kan vi acceptere hypotesen om at de to grupper er ens, hvis 0 ligger uden for konfidensområdet forkastes denne hypotese. Så det primitive ja/nej svar, som testbegrebet lægger op til, kan gives ud fra konfidensområdet. Men uanset hvad man konkluderer, giver konfidensområdet usammenligneligt bedre information. I tilfælde af at hypotesen bliver forkastet, får vi præcis information om hvor stor forskellen er mellem de to grupper. Og hvis hypotesen accepteres, er bredden af konfidensområdet et udtryk for hvor stor vægt vi kan tillægge testet: hvis konfidensområdet er bredt, så er det udførte forsøg principielt ude af stand til at se om grupperne skulle være forskellige - testet har for ringe styrke til at kunne afsløre en egentlig forskel. Det er ikke vanskeligt at udvide argumentationen bag det uparrede T-test, så regningerne kan bruges til at konstruere et konfidensområde for α. I første omgang reparametriserer vi måske modellen, og får antager at Dernæst indser vi at størrelsen X i N(η + α, σ ), Y j N(η, σ ). nm n+m ( X Y α ) (SSDX + SSD Y )/(n + m ),

28 70 Kapitel 8. Test af statistiske hypoteser er t-fordelt med n + m frihedsgrader uanset hvad den sande parameter er, og på baggrund af denne pivot kan vi konstruere følgende konfidensinterval for α: n + m X SSD X + SSD Y n + m SSD X + SSD Y Y q, X Y + q nm n + m nm n + m. Her er q 97.5% fraktilen for en t-fordeling med n + m frihedsgrader. Sætter vi tallene fra eksempel 8.11 ind, får vi et konfidensområde for gruppeforskellen på ( ) 1.86, Vi ser at konfidensområdet kun når halvvejs fra midtpunktet ind mod nul, og får dermed lejlighed til at rekapitulere den meget klare konklusion fra eksempel 8.11 om en signifikant gruppeforskel. Fortegnet for gruppeforskellen betyder at den DDTresistente avlsstamme har en lavere fekunditet end standardstammen. Sammenhængen mellem konfidensområder for τ og test af hypoteser af formen 8.11 er ikke kun abstrakt, men gælder på det helt konkrete plan. Konstruktion af konfidensområder forløber som regel via en afbildning Z : Ψ X R, sådan at fordelingen af kombinanten (θ, x) Z(τ(θ), x) under P θ ikke varierer langs niveaukurver for τ. Har man sådan et Z, så er x Z(ψ, x) en niveaukonstant teststørrelse for hypotesen om at τ(θ) = ψ. Og omvendt - har man en samling niveaukonstante teststørrelse for alle disse hypoteser, kan de strikkes sammen til en kombinant, der er velegnet til at fremstille konfidensområder for τ. Når vi i kapitel 7 konstruerede konfidensområder ved hjælp af kvotientteststørrelser og Waldteststørrelser, så har disse kombinanter naturligvis navne, der skal minde om deres udspring indenfor hypotesetestningen. 8.5 Kvotienttest Den generelle forståelse af sammenhængen mellem test og konfidensområder for parameterfunktioner, antyder at følgende definition kan være nyttig:

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) Statistisk hypotese Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) En statistisk hypotese er en delmængde P 0 P.. p.1/26 PSfrag replacements Statistisk

Læs mere

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).)

Statistisk hypotese. Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) Statistisk hypotese Lad P være en statistisk model på (X, E). (P er altså en familie af sandsynlighedsmål på (X, E).) En statistisk hypotese er en delmængde P 0 P.. p.1/23 Statistisk hypotese PSfrag replacements

Læs mere

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål

Statistisk model. Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål Statistisk model Definition: En statistisk model består af et repræsentationsrum (X, E) og en familie P af sandsynlighedsmål på (X, E). Modellen er parametriseret hvis der findes en parametermængde Θ og

Læs mere

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30

Områdeestimator. X x. P θ. ν θ. Θ C(x) En områdeestimator er en afbildning C : X P(Θ). . p.1/30 Områdeestimator X (Ω, F) (X, E) x 01 01 P θ ν θ θ Θ 0000 1111 000000 111111 0000 1111 0000 1111 C(x) En områdeestimator er en afbildning C : X P(Θ).. p.1/30 Konfidensområde En områdestimator C : X P(Θ)

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

Den lineære normale model

Den lineære normale model Den lineære normale model Ingredienser: V : N-dimensionalt vektorrum. X : Ω V : stokastisk variabel. L : ægte underrum af V, dimension k., : fundamentalt indre produkt på V. Vi laver en hel familie af

Læs mere

Om hypoteseprøvning (1)

Om hypoteseprøvning (1) E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat.

Estimation. Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat. Estimation Lad (ν θ ) θ Θ være en statistisk model på (X, E). En estimator af θ er en afbildning t : X Θ. En konkret værdi t(x) kaldes et estimat. En estimator er en gætteregel.. p.1/22 Estimation X acements

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Nanostatistik: Opgavebesvarelser

Nanostatistik: Opgavebesvarelser Nanostatistik: Opgavebesvarelser JLJ Nanostatistik: Opgavebesvarelser p. 1/16 Pakkemaskine En producent hævder at poserne indeholder i gennemsnit 16 ounces sukker. Data: 10 pakker sukker: 16.1, 15.8, 15.8,

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t. t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program (8.15-10): 1. repetition: fordeling af observatorer X, S 2 og t. 2. konfidens-intervaller, hypotese test, type I og type II fejl, styrke,

Læs mere

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

Trykfejlsliste - alle fejl Introduktion til matematisk statistik

Trykfejlsliste - alle fejl Introduktion til matematisk statistik 29. juni 2004 Stat 1TS / EH Trykfejlsliste - alle fejl Introduktion til matematisk statistik Denne liste indeholder alle de regulære fejl, slåfejl og stavefejl der er fundet i noterne indtil nu. 4 5 Forkert:

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05 Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Områdeestimation. Kapitel 7

Områdeestimation. Kapitel 7 Kapitel 7 Områdeestimation Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). I kapitel 4 definerede vi såkaldte punktestimatorer af parameteren θ. Disse estimatorer fungerer sådan at vi

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag susanne

Susanne Ditlevsen Institut for Matematiske Fag    susanne Statistik og Sandsynlighedsregning 1 STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 7. undervisningsuge, mandag 1 Estimation og konfidensintervaller

Læs mere

Note til styrkefunktionen

Note til styrkefunktionen Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H

Læs mere

Estimation og konfidensintervaller

Estimation og konfidensintervaller Statistik og Sandsynlighedsregning STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Estimation og konfidensintervaller Antag X Bin(n,

Læs mere

StatDataN: Test af hypotese

StatDataN: Test af hypotese StatDataN: Test af hypotese JLJ StatDataN: Test af hypotese p. 1/69 Repetition n uafhængige gentagne målinger: Fordelingsundersøgelse: Pindediagram / Histogram qq-plot Parameter: egenskab ved fordeling

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Normalfordelingens venner og bekendte Helle Sørensen Uge 9, onsdag SaSt2 (Uge 9, onsdag) Normalfordelingens venner 1 / 20 Program Resultaterne fra denne uge skal bruges

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R.

Kombinant. En kombinant er en afbildning. hvor (Y, K) er endnu et målbart rum. Typisk taler vi om reelle kombinanter, hvor Y = R. Kombinant Lad (ν θ ) θ Θ være en statistisk model på (X, E). En kombinant er en afbildning hvor (Y, K) er endnu et målbart rum. R : X Θ Y Typisk taler vi om reelle kombinanter, hvor Y = R. Som regel forsøger

Læs mere

Nanostatistik: Test af hypotese

Nanostatistik: Test af hypotese Nanostatistik: Test af hypotese JLJ Nanostatistik: Test af hypotese p. 1/50 Repetition n uafhængige gentagne målinger: Fordelingsundersøgelse: Pindediagram / Histogram qq-plot Parameter: egenskab ved fordeling

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

En martingalversion af CLT

En martingalversion af CLT Kapitel 11 En martingalversion af CLT Når man har vænnet sig til den centrale grænseværdisætning for uafhængige, identisk fordelte summander, plejer næste skridt at være at se på summer af stokastiske

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Nanostatistik: Konfidensinterval

Nanostatistik: Konfidensinterval Nanostatistik: Konfidensinterval JLJ Nanostatistik: Konfidensinterval p. 1/37 Fraktilpåmindelse u p : Φ(u p ) = p, Φ( z ) = 1 Φ( z ) t p [f] : F t[f] (t p [f]) = p, F t[f] ( t ) = 1 F t[f] ( t ) F-fordeling:

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Statistik i basketball

Statistik i basketball En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Asymptotisk testteori

Asymptotisk testteori Kapitel 8 Asymptotisk testteori Vi vil nu beskæftige os med den asymptotiske teori for estimation under pæne hypoteser og for test af disse hypoteser. Vi skal især undersøge det forhold at hvis den fulde

Læs mere

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1 Population og stikprøve 2 Stikprøvevariation

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Reeksamen 2014/2015 Mål- og integralteori

Reeksamen 2014/2015 Mål- og integralteori Reeksamen 4/5 Mål- og integralteori Københavns Universitet Institut for Matematiske Fag Formalia Eksamensopgaven består af 4 opgaver med ialt spørgsmål. Ved bedømmelsen indgår de spørgsmål med samme vægt.

Læs mere

Hypotesetests, fejltyper og p-værdier

Hypotesetests, fejltyper og p-værdier Hypotesetests, fejltyper og p-værdier Søren Højsgaard Institut for Matematiske Fag, Aalborg Universitet October 25, 2018 Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Opgaver til kapitel 3

Opgaver til kapitel 3 Opgaver til kapitel 3 3.1 En løber er interesseret i at undersøge om hendes løbeur er kalibreret korrekt. Hun udmåler derfor en strækning på præcis 1000 m og løber den 16 gange. For hver løbetur noterer

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Indledende om Signifikanstest Boldøvelser 1 Påstand: Et nyt præparat M virker mod migræne. Inden præparatet kan markedsføres, skal denne påstand

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Lidt om fordelinger, afledt af normalfordelingen

Lidt om fordelinger, afledt af normalfordelingen IMM, 2002-10-10 Poul Thyregod Lidt om fordelinger, afledt af normalfordelingen 1 Introduktion I forbindelse med inferens i normalfordelinger optræder forskellige fordelinger, der er afledt af normalfordelingen,

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model). Hypotesetests, fejltyper og p-værdier og er den nu også det? Søren Højsgaard Institut for Matematiske Fag, Aalborg Universitet (updated: 2019-03-17) 1 / 40 Statistisk test Et statistisk test er en konfrontation

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave

Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave 3. februar 2012 Stat 1TS / EH Trykfejlsliste - alle fejl Introduktion til Matematisk Statistik 2. udgave Denne liste indeholder alle de regulære fejl, slåfejl og stavefejl der er fundet i 2. udgave af

Læs mere

Preben Blæsild og Jens Ledet Jensen

Preben Blæsild og Jens Ledet Jensen χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt

Læs mere

Lineære normale modeller (4) udkast

Lineære normale modeller (4) udkast E6 efterår 1999 Notat 21 Jørgen Larsen 2. december 1999 Lineære normale modeller (4) udkast 4.5 Regressionsanalyse 4.5.1 Præsentation 1 Regressionsanalyse handler om at undersøge hvordan én målt størrelse

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Estimation. Kapitel 4

Estimation. Kapitel 4 Kapitel 4 Estimation Lad (ν θ ) θ Θ være en parametriseret statistisk model på (X, E). I dette kapitel skal vi diskutere, hvorledes man ud fra en given observation x X kan give et skøn over værdien af

Læs mere

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau... Indhold 1 Statistisk inferens: Hypotese og test 2 1.1 Nulhypotese - alternativ.................................. 2 1.2 Teststatistik........................................ 3 1.3 P-værdi..........................................

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Statistiske principper

Statistiske principper Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau ypotese test Repetition fra sidst ypoteser Test af middelværdi Test af andel Test af varians Type 1 og type fejl Signifikansniveau Konfidens intervaller Et konfidens interval er et interval, der estimerer

Læs mere