STATISTIKNOTER Simple Poissonfordelingsmodeller

Størrelse: px
Starte visningen fra side:

Download "STATISTIKNOTER Simple Poissonfordelingsmodeller"

Transkript

1 STATISTIKNOTER Simple Poissonfordelingsmodeller Jørgen Larsen IMFUFA Roskilde Universitetscenter Februar 1999

2 IMFUFA, Roskilde Universitetscenter, Postboks 0, DK-000 Roskilde. Jørgen Larsen: STATISTIKNOTER: Simple Poissonfordelingsmodeller IMFUFA tekst nr. 30c/ sider ISSN 010- Dette hæfte er en del af undervisningsmaterialet til et kursus i statistik og statistiske modeller. Undervisningsmaterialet omfatter blandt andet følgende titler: a. Simple binomialfordelingsmodeller b. Simple normalfordelingsmodeller c. Simple Poissonfordelingsmodeller d. Simple multinomialfordelingsmodeller e. Mindre matematisk-statistisk opslagsværk, indeholdende bl.a. ordforklaringer, resuméer og tabeller Om kurset og kursusmaterialet kan blandt andet siges at når det er et gennemgående tema at påpege at likelihoodmetoden kan benyttes som et overordnet princip for valg af estimatorer og teststørrelser, er det blandt andet begrundet i at likelihoodmetoden har mange egenskaber der fra et matematisk-statistisk synspunkt anses for ønskelige, at likelihoodmetoden er meget udbredt og nyder stor anerkendelse (ikke mindst i Danmark), og at det i al almindelighed er værd at gøre opmærksom på at man også inden for faget statistik har overordnede og strukturerende begreber og metoder; når kursusmaterialet er skrevet på dansk (og ikke for eksempel på scientific English ), er det for at bidrage til at vedligeholde traditionerne for hvordan og at man kan tale om slige emner på dansk, og så sandelig også fordi dansk er det sprog som forfatteren og vel også den forventede læser er bedst til; når hæfterne foruden de sædvanlige simple modeller, metoder og eksempler også indeholder eksempler der er væsentligt sværere, er det for at antyde nogle af de retninger man kan arbejde videre i, og for at der kan være lidt udfordringer til den krævende læser.

3 Indhold 1 Poissonfordelingen Udledning Definition og egenskaber Afrunding Opgaver En- og flerstikprøveproblemer i Poissonfordelingen 13.1 Enstikprøveproblemet Sammenligning af to Poissonfordelinger Et sværere eksempel Opgaver Multiplikative Poissonmodeller Lungekræft i Fredericia Modelopstilling Estimation i den multiplikative model Den multiplikative models beskrivelse af data Ens byer? En anden mulighed Sammenligning af de to fremgangsmåder Om teststørrelser Om beregninger Stikord 51 3

4

5 1 Poissonfordelingen Dette kapitel introducerer Poissonfordelingen der er opkaldt efter den franske matematiker og fysiker S.-D. Poisson ( ). Poissonfordelingsmodeller kan blandt andet komme på tale når man har at gøre med antalsobservationer der angiver hvor mange gange et bestemt fænomen optræder i et vist tidsrum og/eller et vist geografisk område eller lignende (det kunne for eksempel være trafikulykker på et år på en bestemt vejstrækning). Det gennemgående eksempel i dette kapitel kan måske i første omgang forekomme lidt kuriøst, men det er meget berømt idet det optræder i næsten alle lærebøger i statistik. 1 Eksempel 1.1 (Hestespark) For hvert af de 0 år fra 1875 til 189 har man for hvert af den prøjsiske armés 10 regimenter registreret hvor mange soldater der døde fordi de blev sparket af en hest. Det vil sige at man for hvert af de 00»regiment-år«kender antal dødsfald som følge af hestespark. Man kan give en oversigt over disse tal ved at angive i hvor mange regiment-år der var 0 dødsfald, i hvor mange der var 1 dødsfald, i hvor mange der var, osv., dvs. man klassificerer regiment-årene efter antal dødsfald. Det viste sig at det største antal dødsfald pr. regiment-år var fire. Ved klassificeringen bliver der derfor fem klasser svarende til 0, 1,, 3 og døde pr. år. Tabel 1.1 viser hvordan de faktiske tal blev. Man må formode at det i høj grad var tilfældigheder der bestemte om en given soldat blev sparket til døde af en hest eller ej. Derfor er det også i høj grad tilfældigheder der har afgjort om et givet regiment i et givet år nu fik 0 eller 1 eller osv. døde som følge af hestespark. Der kan således være fornuft i at beskæftige sig med denne modelbygningsopgave: Find et forslag til en matematisk model der kan levere sandsynligheder for at have netop y døde i et bestemt regiment, y = 0, 1,, Udledning En væsentlig del af problemløsningsprocessen består i at oversætte problemet til matematik i en passende generel formulering. Vi går frem i en række punkter der dels leder frem til en sådan passende formulering, dels leverer en løsning. 1 Eksemplet stammer fra L. von Bortkiewicz (1898): Das Gesetz der kleinen Zahlen, Leipzig: Teubner. 5

6 Poissonfordelingen Tabel 1.1 Antal dødsfald som følge af hestespark i den prøjsiske armé. antal dødsfald y antal regiment-år med y dødsfald Hestespark-eksemplet handler om at man 00 gange har foretaget sig noget bestemt, nemlig fulgt et regiment igennem et år og set hvor mange dødsfald der var som følge af hestespark.. Der er et»grundeksperiment«der består i at man i et vist tidsinterval (af længde 1 år) holder øje med hvor mange gange en bestemt type begivenhed (dødsfald ved hestespark) indtræffer. 3. Grundeksperimentet består i at der i tidsintervallet fra t 0 til t 1 registreres antal forekomster af en bestemt art begivenhed.. Vi kan dele tidsintervallet fra t 0 til t 1 op i et antal lige store delintervaller som hver især har længden t. På den måde bliver der n = n( t) = t 1 t 0 t delintervaller. (I hestesparkeksemplet kan man for eksempel dele intervallet ]t 0, t 1 ] af længde 1 år op i 35 delintervaller af længde t = 1 dag.) Antallet af begivenheder i det store interval er (selvfølgelig) lig med summen af antal begivenheder i de enkelte delintervaller. 5. Fidusen ved at dele op i delintervaller er at hvis t er tilstrækkelig lille, så er det meget usandsynligt at der indtræffer to eller flere begivenheder i samme delinterval. Sagt på en anden måde, hvis t er meget lille, så er det samlede antal begivenheder i intervallet ]t 0, t 1 ] stort set altid lig med antallet af de delintervaller hvori der forekommer mindst én begivenhed.. Vi har nu fået lavet problemet om til noget der handler om 01-variable, nemlig om I j = { 1 hvis der er mindst én begivenhed i delinterval nr. j 0 hvis der ingen begivenhed er i delinterval nr. j j = 1,,..., n. Hvis t er meget lille, så er det samlede antal Y af begivenheder i intervallet ]t 0, t 1 ] ifølge betragtningerne i punkt 5 cirka lig med I 1 + I I n.

7 1.1 Udledning 7 7. Antag at der i alle n = n( t) delintervaller er den samme sandsynlighed p = p( t) for at der sker en begivenhed. (Der bliver altså ikke i løbet af perioden indført nye sikkerhedsforanstaltninger der nedsætter chancen for at blive sparket til døde af en hest. Og antallet af soldater og af heste i regimentet er stort set konstant året igennem.) Antag også at det der sker i ét interval er stokastisk uafhængigt af det der sker i andre intervaller. (Hvis der tilfældigvis var to soldater der i begyndelsen af året blev sparket til døde af heste, så tager de øvrige soldater i regimentet ikke i den anledning ekstra forholdsregler i resten af året.) 8. Da I 1, I,..., I n således er uafhængige og identisk fordelte 01-variable, n er I j binomialfordelt med parametre n = n( t) og p = p( t), og da n totalantallet Y af begivenheder i ]t 0, t 1 ] cirka er lig med I j, er Y således cirka binomialfordelt med parametre n og p. Forbeholdet»cirka«bortfalder når t bliver tilstrækkelig lille, dvs. vi skal på et senere stadium lade t gå mod nul. 9. Den måde hvorpå n afhænger af t er simpel idet som tidligere anført n = n( t) = t 1 t 0. t Derimod mangler vi at overveje hvordan p afhænger af t. 10. Det må være rimeligt at formode at p er en forholdsvis pæn funktion af t, bl.a. med den egenskab at p( t) 0 når t 0, og at p( t) 1 når t +, så p( t) må have et udseende i retning af p t Vi vil gå ud fra at p( t) er differentiabel fra højre i t = 0, mere præcist at der eksisterer et tal λ > 0 således at p( t) lim t 0 t = λ. Der gælder altså at p( t) λ t for små værdier af t.

8 8 Poissonfordelingen 11. I punkt 8 nåede vi frem til at Y er cirka binomialfordelt, dvs. at ( ) n P(Y = y) p y (1 p) n y (1.1) y hvor» «bliver til»=«når t 0. Derfor må det næste skridt være at bestemme grænseværdien ( ) n lim p y (1 p) n y y under den grænseovergang hvor t 0 og dermed n = t 1 t 0. t I punkt 10 vedtog vi at der under denne grænseovergang skal gælde at p t = p( t) λ, og derfor vil t np = (t 1 t 0 ) p t λ (t 1 t 0 ). (1.) 1. Vi omskriver binomialsandsynligheden på følgende måde: ( ) n p y (1 p) n y y = n n 1 n y p y (1 p) y (1 p) n 1 y = 1 (1 n 1 y 1 )... (1 n } {{ } ) (a) (np)y y! } {{ } (b) (1 p) y (1 p) n. } {{ } } {{ } (c) (d) 13. Under grænseovergangen vil de forskellige faktorer opføre sig på forskellige måder: (a) 1 (1 n 1 y 1 )... (1 n } {{ } ) 1 y = 1. (b) (np)y y! y faktorer ( λ (t1 t 0 ) ) y. y! (c) (1 p) y (1 0) y = 1. (d) (1 p) n exp ( λ (t 1 t 0 ) ) hvilket indses således: i. Da funktionen x ln x er differentiabel i x = 1 med differentialkvotient 1, vil for h 0 ln(1 + h) h = ln(1 + h) ln 1 h ii. Ved at benytte dette samt formel (1.) fås 1. ln(1 p) n ln(1 p) = np p λ (t 1 t 0 ).

9 1. Definition og egenskaber 9 iii. Ved at tage exp på begge sider heraf fås at (1 p) n exp ( λ (t 1 t 0 ) ) som ønsket. Alt i alt vil binomialsandsynligheden i formel (1.1) konvergere mod ( λ (t1 t 0 ) ) y y! exp ( λ (t 1 t 0 ) ). Vi er hermed nået frem til følgende forslag til en statistisk model: Sandsynligheden for at der i et bestemt regiment er netop y dødsfald i perioden ]t 0, t 1 ] må være P(Y = y) = ( λ (t1 t 0 ) ) y y! exp ( λ (t 1 t 0 ) ), (1.3) hvor λ er en positiv konstant og y = 0, 1,, 3,.... Bemærk at de hjælpestørrelser n og t som vi indførte i punkt helt er forsvundet. I formel (1.3) optræder den ukendte parameter λ der i punkt 10 blev indført som værende cirka»sandsynligheden for en begivenhed i et meget kort tidsinterval divideret med tidsintervallets længde«. Størrelsen λ har derfor dimensionen tid 1, dvs. λ angives i f.eks. dag 1 eller år 1. Jo større λ er, jo tilbøjeligere er begivenhederne til at indtræffe; λ er en såkaldt intensitet (der i hestesparkeksemplet specielt kunne kaldes for en ulykkesintensitet eller en dødsintensitet). 1. Definition og egenskaber Man definerer Poissonfordelingen således: Definition 1.1 (Poissonfordeling) Poissonfordelingen med parameter µ 0 er den sandsynlighedsfordeling på udfaldsrummet X = {0, 1,,... } som har sandsynlighedsfunktion f (y; µ) = µy y! exp( µ). Figur 1.1 viser nogle Poissonfordelinger. Det resultat vi fandt i forrige afsnit, kan derefter udtrykkes på den måde at antallet af dødsfald i et bestemt regiment i perioden fra t 0 til t 1 er Poissonfordelt med parameter µ = λ (t 1 t 0 ) hvor λ betegner dødsintensiteten. Antagelsen i punkt 7 går ud på at begivenhederne indtræffer med samme tilbøjelighed, med samme intensitet, overalt på (den betragtede del af) tidsaksen. Der er imidlertid ikke noget i vejen for at konstruere mere indviklede modeller hvor intensiteten er tidsafhængig, dvs. λ = λ(t).

10 10 Poissonfordelingen Figur 1.1 Poissonfordelinger med middelværdier 1.33, 1.78, 3.1 og 10. Bemærkning Strengt taget bør den givne definition af Poissonfordelingen følges op af en redegørelse for at f (y; µ) faktisk er en sandsynlighedsfunktion, dvs. at der er tale om ikke-negative tal der summerer til 1. Det er klart at f -erne er ikke-negative; at de summerer til 1 følger af eksponentialfunktionens rækkeudvikling exp(x) = n=0 x n n! som ikke vil blive bevist her. En egenskab ved Poissonfordelingen er at dens middelværdi er lig dens varians: Hvis den stokastiske variabel Y er Poissonfordelt med parameter µ, så er E Y = µ Var Y = µ dvs. både middelværdien og variansen af Y er lig µ. Bevis Det vises på følgende måde der kræver lidt kendskab til uendelige rækker: Middelværdien af Y er pr. definition EY = y f (y), og der gælder: y=0 E Y = y µy y=0 y! exp( µ) = y µy y=1 y! exp( µ) ) µ = y 1 µ exp( µ) (y 1)! = µ = µ. ( y=1 ( n=0 µ n n! ) exp( µ)

11 1.3 Afrunding 11 Variansen af Y er Var(Y) = E ( (Y EY) ) = E(Y ) (EY). Vi kender EY, men E(Y ) er besværlig at regne ud; det er smart at benytte omskrivningen E(Y ) = E(Y(Y 1) + Y) = E(Y(Y 1)) + EY. Nu er E(Y(Y 1)) = = y(y 1) µy y=0 y! exp( µ) y(y 1) µy y= y! exp( µ) ) = µ ( y= = µ ( n=0 = µ, µ y så Var(Y) = E(Y(Y 1)) + EY (EY) = µ + µ µ = µ. exp( µ) (y )! ) µ n exp( µ) n! 1.3 Afrunding Her er nogle flere eksempler på situationer der kan give Poissonfordelte antal: Antal tilfælde af en bestemt (ikke-smittende) sygdom i et bestemt tidsrum. Antal ulykkestilfælde af en bestemt art i et bestemt tidsrum. Antal omdannelser af atomer i et radioaktivt stof i et bestemt tidsrum (der er forsvindende i forhold til stoffets halveringstid). Antal trykfejl i en bog. Her er»tidsaksen«simpelthen teksten forstået som en følge af tegn. Der er altså tale om en diskret tidsakse, og ræsonnementerne der førte frem til Poissonfordelingen, beror i høj grad på at tidsaksen er kontinuert. Men hvis der kun er få trykfejl i forhold til antallet af bogstaver og tegn, så kan man»næsten ikke«se at tidsaksen faktisk er diskret. Derfor finder man på alligevel at anvende Poissonfordelingen. Antal bombenedfald i London under det tyske bombardement under Anden Verdenskrig her er»tidsaksen«det (todimensionale) geografiske område London.

12 1 Poissonfordelingen 1. Opgaver Opgave 1.1 I næste kapitel vil det vise sig, at det i hestesparkeksemplet er fornuftigt at estimere λ ved ˆλ = 0.1 dødsfald pr. år. Lav et pindediagram 3 der viser hvordan Poissonfordelingen med parameter 0.1 ser ud. TIP: Når man skal udregne f (y; µ) = µy exp( µ) for en hel masse y-værdier, kan det y! være smart at gøre det rekursivt: f (0; µ) = exp( µ) f (y; µ) = µ f (y 1; µ), y = 1,, 3,... y Opgave 1. (Raunkiær-cirklinger) Inden for planteøkologi bestemmer man (i Danmark) ofte planters skudtæthed ved hjælp af en metode der kaldes Raunkiær-cirklinger. I sin simpleste form er metoden som følger (tænk på at det handler om at undersøge planter på en mark): Man anbringer et tilfældigt sted på prøvearealet en cirkel med areal a og ser efter om den planteart man undersøger, findes inden for cirklen eller ej; dette gentages n gange (idet man sørger for at de n cirkler ikke overlapper). Typisk er a = 0.1m og n = 10. Antag for eksempel at man i 10 cirklinger med en 0.1m cirkel fik netop 7 tilfælde hvor planten blev fundet inden for cirklen. Man ønsker som nævnt at bestemme skudtætheden λ (der måles i antal/m ). Man må derfor gøre en antagelse om at en bestemt slags sandsynlighedsmodel har placeret skuddene ud over marken. Den simpleste antagelse er at skuddene er placeret efter en Poisson-proces, hvilket betyder at antal skud i et delområde med areal a er Poissonfordelt med parameter λ a, og at antal skud i disjunkte delområder er stokastisk uafhængige. 1. Hvad er sandsynligheden for at man ved én cirkling oplever at der er netop k skud inde i cirklen?. Hvad er sandsynligheden for at man ved én cirkling oplever at der er mindst et skud inde i cirklen? TIP:»mindst et«er det modsatte af»ingen«. 3. Hvis man udfører n = 10 cirklinger, hvad er da sandsynligheden for at der i netop y = 7 tilfælde findes mindst et skud inde i cirklen? (Raunkiær-cirklinger genoptages i Opgave.3.) 3 Et pindediagram er sådan noget som Figur 1.1 indeholder fire eksempler på.

13 En- og flerstikprøveproblemer i Poissonfordelingen I Kapitel 1 nåede vi ved teoretiske overvejelser frem til at antallet af dødsfald pr. regiment pr. år måtte være Poissonfordelt med parameter µ = λ 1 år, men stemmer det overhovedet med virkeligheden, og hvordan estimerer man intensiteten λ? Vi skal i dette kapitel beskæftige os med estimation af parametre og test af hypoteser om parametre i Poissonfordelinger, og med spørgsmålet om kontrol af modellen..1 Enstikprøveproblemet I hestespark-eksemplet fra Kapitel 1 er situationen den at der er n = 00 uafhængige observationer y 1, y,..., y n fra Poissonfordelingen med parameter µ = λ 1 år. Det er et eksempel på et»enstikprøveproblem«fordi der er tale om et antal observationer, en stikprøve, fra en og samme fordeling. Generelt har man at gøre med uafhængige observationer y 1, y,..., y n fra en Poissonfordeling med parameter µ, svarende til at modelfunktionen er f (y 1, y,..., y n ; µ) = = n µ y j y j! exp( µ) µ y n y j! exp( nµ) hvor y er statistikerens sædvanlige korte skrivemåde for y 1 + y y n. Estimation af parameteren Poissonparameteren µ estimeres ved likelihoodmetoden. Likelihoodfunktionen svarende til observationerne y 1, y,..., y n er så at L(µ) = µ y konstant exp( nµ), ln L(µ) = konstant + y ln µ nµ. 13

14 1 En- og flerstikprøveproblemer i Poissonfordelingen Ifølge de sædvanlige principper er det bedste estimat over µ den værdi ˆµ der maksimaliserer L eller ln L. For at bestemme denne værdi løser vi ligningen d dµ ln L = 0. Man finder at d y ln L(µ) = dµ µ n som er lig 0 netop når µ er lig y = y /n. Funktionen ln L har altså stationært punkt i µ = y, og da dens anden afledede d y ln L(µ) = dµ µ altid er negativ, er y et maksimumspunkt. Dermed er vist at maksimaliseringsestimatet for µ er gennemsnittet af observationerne: 1 I taleksemplet får man ˆµ = y = 1 n n y j. 00 y j = = 1, så at ˆµ = 1/00 = 0.1 og dermed ˆλ = ˆµ 1 år = 0.1 år 1, dvs. dødsintensiteten er 0.1 dødsfald pr. år for hvert regiment. Det ses at ˆλ fremkommer som antal dødsfald divideret med antal regiment-år. Modelkontrol Når vi holder os inden for klassen af Poissonfordelingsmodeller, får vi den bedste beskrivelse af hestespark-observationerne ved at bruge intensiteten ˆλ = 0.1 dødsfald pr. år for hvert regiment. For at få et fingerpeg om hvor god denne»bedste beskrivelse«er, udregner vi nogle»forventede«antal under forudsætning af at modellen er rigtig: Ifølge modellen er sandsynligheden for at der i et bestemt regiment-år er netop y dødsfald, f (y; ˆλ) = ( ˆλ 1 år) y y! exp( ˆλ 1 år). Ud af de 00 regiment-år skulle man derfor forvente ca. 00 f (0; ˆλ) tilfælde med 0 dødsfald, ca. 00 f (1; ˆλ) tilfælde med 1 dødsfald, ca. 00 f (; ˆλ) tilfælde med dødsfald, osv. Disse forventede tal udregnes, og man får Tabel.1. Det ses at de»forventede«antal stemmer fint overens med de observerede, og det må vi tage som tegn på at Poissonmodellen ikke er helt hen i vejret. 1 Det er i udledningen forudsat at y > 0. Hvis y = 0, så er log-likelihoodfunktionen lig nµ + konstant, og den antager sit maksimum når µ = 0.

15 .1 Enstikprøveproblemet 15 Tabel.1 Hestespark-eksemplet: De observerede antal år med y dødsfald sammenlignet med de»forventede«antal år med y dødsfald beregnet ud fra Poissonmodellen. antal dødsfald y observeret antal år»forventet«antal år Dispersionstestet Undertiden vil man gerne udføre et numerisk test for rimeligheden af at antage at et sæt observationer y 1, y,..., y n er en stikprøve fra en Poissonfordeling. Vi vil omtale en nem metode hertil. Som nævnt side 10 har Poissonfordelingen den egenskab at middelværdi og varians er ens. Man kunne derfor udregne den empiriske middelværdi og den empiriske varians y = 1 n n y i s = 1 n 1 n (y i y), og så se efter om de to er nogenlunde ens. Det viser sig hensigtsmæssigt at gøre dette på den måde at man udregner størrelsen d = s y. Hvis modelantagelsen er rigtig, skal d være tæt på 1, så man vil forkaste modellen hvis enten d obs er så meget større end 1 at der kun er lille sandsynlighed (for eksempel 0.05) for at få en større værdi, eller d obs er så meget mindre end 1 at der kun er lille sandsynlighed (for eksempel 0.05) for at få en mindre værdi. Man kan bevise at når modellen er rigtig (og Poissonparameteren ikke er alt for lille), så vil d med god tilnærmelse følge en såkaldt χ / f -fordeling med f = n 1 frihedsgrader. I hestespark-eksemplet fandt vi tidligere at y = 0.1. Videre er n (y i y) = 109 (0 0.1) + 5 (1 0.1) + ( 0.1) + 3 (3 0.1) + 1 ( 0.1) = 11.58,

16 1 En- og flerstikprøveproblemer i Poissonfordelingen så s = 11.58/199 = 0.11 og dermed d obs = 0.11/0.1 = Den fundne d obs -værdi ligger meget tæt på 1, også målt i forhold til χ / f -fordelingen med 199 frihedsgrader, og det numeriske test bekræfter dermed indtrykket af at Poissonfordelingen giver en god beskrivelse af tallene.. Sammenligning af to Poissonfordelinger Vi vil diskutere spørgsmålet om sammenligning af to Poissonfordelinger ud fra følgende eksempel. Eksempel.1 (Ultralydsscanning) Det er meget udbredt at foretage ultralydsscanning af gravide kvinder. Det menes/ frygtes imidlertid at fostrene kan lide skade derved idet der måske sker kromosomforandringer. For at undersøge dette nærmere har man udført en række laboratorieforsøg med mus. Et antal drægtige mus udsættes for ultralydsbestråling i et vist stykke tid, hvorefter man undersøger leverceller fra fostrene for at se om der er dannet såkaldte mikrokærneceller. Mikrokærner i en celle opstår som følge af kromosomforandringer og/eller -ødelæggelser. I dette eksempel (der kun behandler en del af forsøgets talmateriale) optræder to grupper à tre mus: en behandlingsgruppe og en kontrolgruppe. Behandlingsgruppen har fået ultralyd, hvorefter man har ladet gå 18 timer inden musen blev dræbt og prøverne udtaget. Kontrolgruppen er behandlet på samme måde, på nær at der denne gang ikke blev tændt for ultralydapparatet. Fra hver mus udtog man otte prøver; i alt undersøgte man for hver mus ca. 000 celler og afgjorde om det var en mikrokærnecelle eller ej. Derved fremkom resultaterne i Tabel.. Spørgsmålet er om disse tal tyder på at ultralyd har en skadelig virkning. Modelopstilling For hver mus er der øjensynlig to størrelser der er uforudsigelige, nemlig antal optalte celler r og antal mikrokærneceller y. Når vi skal formulere den statistiske model, skal vi tage stilling til om både r og y eller kun den ene af dem skal opfattes som observation af en stokastisk variabel. De størrelser der opfattes som udfald af stokastiske variable, er de størrelser for hvilke den statistiske model påtager sig at beskrive hvilke andre udfald man også kunne have fået. I den foreliggende problemstilling er det der er genstand for den grundlæggende interesse formentlig chancen for at en celle omdannes til en mikrokærnecelle. I den forbindelse er det uinteressant at søge at opstille en model der kan påtage sig at beskrive variationen i antal optalte celler pr. mus. De indgående tider er de samme for alle forsøgsdyr; derfor behøver vi ikke indbygge tidsafhængigheder i modellen. Derimod skal vi søge at formulere en model der kan beskrive variationen i antallet af mikrokærneceller i en prøve af en given størrelse, udtaget fra en mus der har fået en given behandling. I modellen skal r-erne derfor indgå som givne konstanter og y-erne som udfald af stokastiske variable. L. Meillier og I. Toldbod (1985): På skærmen står et lille hjerte og banker... Ultralyd og biologiske skadevirkninger afprøvet for kromosombrud i mikrokernetesten. Biologispecialerapport, RUC.

17 . Sammenligning af to Poissonfordelinger 17 Tabel. Resultater af mikrokærnetællinger. 1. Behandlingsgruppen Mus nr. 1 3 Antal optalte celler r Antal mikrokærneceller y Kontrolgruppen Mus nr. 1 3 Antal optalte celler r Antal mikrokærneceller y 10 Da der for en enkelt mus optælles et meget stort antal celler der hver især har en meget lille chance for at være blevet omdannet til en mikrokærnecelle, kan vi antage (jf. trykfejlseksemplet side 11) at antal mikrokærneceller i en prøve med r celler er Poissonfordelt med parameter µ = λr, hvor λ er en»omdannelsesintensitet«, nemlig sandsynligheden for at en optalt celle er en mikrokærnecelle. Den systematiske forskel mellem behandlingsgrupperne skal beskrives ved hjælp af modellens parametre, så derfor skal mus med samme behandling have samme intensitet λ, hvorimod behandlingsgruppen og kontrolgruppen skal have hver sit λ. Vi indfører lidt notation for at kunne formulere modellen præcist: r i j = antal optalte celler fra mus nr. j i gruppe i, y i j = antal mikrokærneceller fra mus nr. j i gruppe i, hvor i = 1 svarer til behandlingsgruppen og i = til kontrolgruppen. Det vil sige at Tabel. skematisk ser således ud: i = 1 1 r 11 y 11 r 1 y 1 3 r 13 y 13 r 1 y 1

18 18 En- og flerstikprøveproblemer i Poissonfordelingen i = 1 r 1 y 1 r y 3 r 3 y 3 r y Modellen er da at tallene y 11, y 1, y 13, y 1, y, y 3 skal opfattes som observerede værdier af stokastisk uafhængige Poissonfordelte stokastiske variable Y 11, Y 1, Y 13, Y 1, Y, Y 3 hvor Y i j har parameter µ i j = λ i r i j. Her er λ 1 og λ ukendte parametre der beskriver den systematiske forskel mellem behandlingsgruppen og kontrolgruppen, og r i j -erne er kendte konstanter. Modelfunktionen bliver 3 (λ i r i j ) y i j exp( λ y i j! i r i j ). (.1) Det oprindelige spørgsmål om observationerne tyder på at ultralyd er skadeligt, kan nu oversættes til modellens sprog. Da den systematiske forskel mellem grupperne beskrives ved hjælp af parametrene λ 1 og λ, bliver spørgsmålet om observationerne tyder på at λ 1 og λ er signifikant forskellige; med andre ord skal vi teste den statistiske hypotese H 0 : λ 1 = λ. Estimation af parametre Maksimaliseringsestimaterne over λ 1 og λ skal bestemmes på grundlag af likelihoodfunktionen. Ud fra modelfunktionen (.1) får vi L(λ 1, λ ) = = konstant = konstant 3 (λ i r i j ) y i j exp( λ y i j! i r i j ) 3 λ y i j i exp( λ i r i j ) λ y i i exp( λ i r i ) hvor konstanten afhænger af r-erne og y-erne, men ikke af λ 1 og λ. Vi ser at likelihoodfunktionen er den samme som man ville have fået hvis man udelukkende havde set på totalantallene y 1 og y for hver mus og havde sagt at det var Y 1 og Y der var Poissonfordelte med parametre λ 1 r 1 hhv. λ r. Derfor bliver estimatet over λ i ˆλ i = y i r i, nemlig det totale antal observerede mikrokærneceller i gruppe i divideret med det totale antal optalte celler i gruppe i, hvilket også er et estimat der virker umiddelbart rimeligt.

19 . Sammenligning af to Poissonfordelinger 19 For at estimere det fælles λ under H 0 L 0 (λ) = L(λ, λ): betragtes likelihoodfunktionen som har maksimum i L 0 (λ) = konstant λ y i exp( λr i ) = konstant λ y exp( λr ) ˆλ = y r. Det er også hvad man umiddelbart skulle vente, thi når H 0 er rigtig, er der ingen forskel på de to grupper, dvs. der er i realiteten kun tale om én enkelt gruppe bestående af r celler hvoraf y er mikrokærneceller. I eksemplet bliver estimaterne ˆλ behandling = ˆλ kontrol = ˆλ fælles = = knap 3 mikrokærneceller pr celler = godt 1.5 mikrokærneceller pr celler = godt mikrokærneceller pr celler. Man kan spørge hvor stor tiltro man nu kan have til disse tal. Det er ikke i statistikerens magt at udtale noget fornuftigt om diverse eksterne fejlkilder der eventuelt måtte have været i spil (det véd eksperimentator bedre). Statistikeren kan udtale sig om dén tilfældige variation der beskrives af den statistiske model, for eksempel konkretiseret til middelfejlene på estimatorerne. Lad os derfor bestemme middelfejlen (standardafvigelsen) på ˆλ i i det foreliggende eksempel: Da ˆλ i = Y i, er den søgte størrelse Var ˆλ r i = Var i regnereglerne for varianser og kvadratrødder er ( ) Var Yi Var(Yi ) =. r i r i Var(Y i ) ri = ( Yi r i ). Ifølge Da Y i er Poissonfordelt med parameter λ i r i, er Var(Y i ) = λ i r i (se side 10), så middelfejlen på ˆλ i er Var(Yi ) λ = i. r i r i Da vi ikke kender λ i, men kun et estimat ˆλ i = y i /r i, kan vi kun udregne en talværdi for den estimerede middelfejl på λ i, og den bliver ˆλ i y = i /r i yi =. r i r i r i

20 0 En- og flerstikprøveproblemer i Poissonfordelingen Man finder de estimerede middelfejl på ˆλ behandling, ˆλ kontrol og ˆλ fælles til , og Som læseren vil have bemærket, benytter vi ved beregningen af de forskellige estimater slet ikke de individuelle værdier af r og y for de enkelte mus, vi benytter kun totalerne for hver gruppe. Er det da lige meget hvad værdierne for de enkelte mus er? Ja, det er det faktisk, sålænge der ikke er tvivl om Poissonmodellens brugbarhed. Men hvis vi er på udkig efter indicier for (eller imod) anvendeligheden af Poissonmodellen, så er det i høj grad påkrævet at kende de enkelte værdier. For den statistiske model skal jo beskrive enkeltobservationernes tilfældige variation omkring et bestemt niveau, og hvis man vil vurdere antagelsen om at den tilfældige variation kan beskrives ved netop en Poissonfordeling, så skal man se på enkeltobservationernes faktiske variation og vurdere om den ligner den fittede Poissonfordeling. Hypoteseprøvning Som nævnt skal vi teste den statistiske hypotese H 0 : λ 1 = λ. Det gøres på traditionel vis med et kvotienttest. Vi udregner kvotientteststørrelsen Q = = = = = L( ˆλ, ˆλ) L( ˆλ 1, ˆλ ) ˆλ y 1 ˆλ y exp( ˆλr 1 ˆλr ) ˆλ y 1 1 ˆλ y exp( ˆλ 1 r 1 ˆλ r ) ( ) ˆλ y1 ( ) ˆλ y exp( y1 y ) ˆλ 1 ˆλ exp( y 1 y ) ( ) ˆλr y1 ( ) 1 ˆλr y y 1 ( ŷ1 y 1 ) y1 ( ŷ y y ) y, hvor ŷ i = ˆλr i er det»forventede«antal mikrokærneceller i gruppe i, forudsat at H 0 er rigtig. Derfor er ( ln Q = y 1 ln y 1 + y ln y ). ŷ 1 ŷ Små værdier af Q, dvs. store værdier af ln Q, er signifikante, dvs. de er tegn på at hypotesen H 0 ikke er forenelig med de foreliggende data. For at vurdere om ln Q obs er signifikant stor, skal man bestemme testsandsynligheden ε = P 0 ( ln Q ln Qobs ), altså sandsynligheden under H 0 for at få et mindst lige så afvigende observationssæt som det foreliggende. Ved beregningen af ε kan man udnytte at når

21 .3 Et sværere eksempel 1 H 0 er rigtig, så er ln Q med god tilnærmelse 3 χ -fordelt med f = 1 frihedsgrader, således at ε med god tilnærmelse kan udregnes som sandsynligheden for at få en værdi større end eller lig med ln Q obs i χ -fordelingen med 1 frihedsgrad: ( ) ε = P χ 1 ln Q obs. I taleksemplet er ŷ 1 = 1.0 og ŷ = 1.0, så ( ln Q = 18 ln =.3. ) ln 1.0 I χ -fordelingen med 1 frihedsgrad er 80%-fraktilen 1. og 90%-fraktilen.71, så den fundne ln Q-værdi svarer til et ε på mellem 10% og 0%. Man vil almindeligvis sige at en sådan ε-værdi ikke er lille nok til at man vil forkaste H 0. Vi kan dermed konkludere at de foreliggende tal ikke giver statistisk belæg for at mene at ultralyd er skadeligt. (På den anden side giver de næppe heller belæg for at mene at ultralyd ikke er skadeligt.).3 Et sværere eksempel I dette afsnit gennemgås et eksempel hvor Poissonfordelingen søges anvendt; det viser sig imidlertid at den model der foreslås i første omgang, ikke passer særlig godt; derfor må man finde på en anden model. Præsentation af eksemplet Man har undersøgt hvor mange ulykkestilfælde hver enkelt arbejder på en granatfabrik i England kom ud for i løbet af en fem ugers periode. Det hele foregik under første verdenskrig, så de pågældende arbejdere var kvinder (mens mændene var soldater). Tabel.3 viser fordelingen af n = 7 kvinder efter antallet y af ulykkestilfælde i en fem ugers periode. Man søger en statistisk model der kan beskrive dette talmateriale. 5 Lad y i betegne antal ulykker som kvinde nr. i kommer ud for; y i tænkes at være en observation af en stokastisk variabel Y i, i = 1,,..., n. Vi går ud fra at de stokastiske variable Y 1, Y,..., Y n er indbyrdes uafhængige (men det er måske en lidt diskutabel antagelse). 3 χ -approksimationen kan anvendes når de forventede antal ŷ i er mindst fem. antal parametre i grundmodellen er ; antal parametre under H 0 er 1; antal frihedsgrader er derfor f = 1. 5 Eksemplet stammer fra M. Greenwood & G.U. Yule (190): An inquiry into the nature of frequency distributions representative of multiple happenings with particular reference to the occurrence of multiple attacks of disease or of repeated accidents. Journal of the Royal Statistical Society 83, Her i landet er eksemplet især kendt via sin forekomst i hvad der i mere end en menneskealder har været en toneangivende lærebog i statistik, nemlig A. Hald (198, 198): Statistiske Metoder, Akademisk Forlag.

22 En- og flerstikprøveproblemer i Poissonfordelingen Tabel.3 Fordelingen af n = 7 kvinder efter antallet y af ulykkestilfælde i en fem ugers periode. y f y = antal kvinder med y ulykker Tabel. Model 1: Observerede antal f y og forventede antal ˆf y. y f y ˆfy Vi indfører betegnelsen f y for antallet af kvinder der har været ude for netop y ulykker, dvs. i det foreliggende tilfælde er f 0 = 7, f 1 = 13 osv. Det samlede antal ulykker er da lig 0 f f + f +... = y f y = 301. y=0 Model 1 I første omgang kan man forsøge sig med en model hvor Y 1, Y,..., Y n er uafhængige og identisk Poissonfordelte med parameter µ, dvs. P(Y i = y) = µy y! exp( µ). Poissonfordelingen kommer ind i billedet ud fra en forestilling om at ulykkerne sker»helt tilfældigt«, og man kan sige at parameteren µ beskriver kvindernes»ulykkestilbøjelighed«. I denne model estimeres µ ved ˆµ = y = 301/7 = 0.5 (der sker 0.5 ulykker pr. kvinde pr. fem uger). Det forventede antal kvinder med y ulykker er ˆf y = n ˆµy exp( ˆµ); værdierne heraf vises i Tabel. og i Figur.1. Det ses at y! der ikke er nogen særlig god overensstemmelse mellem de observerede og de

23 .3 Et sværere eksempel 3 f y y Figur.1 Model 1: Observerede antal (sorte søjler) og forventede antal (hvide søjler) fra Tabel.. forventede antal. Man kan udregne variansen til s = 0.9, og det er næsten halvanden gange middelværdien, hvilket er endnu et tegn på at Poissonmodellen er dårlig. Man kan derfor give sig til at overveje en anden model. Model Man kan udvide model 1 på følgende måde: Det antages stadig at Y 1, Y,..., Y n er uafhængige og Poissonfordelte, men nu tillader vi at de har hver sin middelværdi, dvs. Y i er Poissonfordelt med parameter µ i, i = 1,,..., n. Hvis modelopstillingen gjorde holdt her, ville der være en parameter for hver person; derved kunne man få et perfekt fit (med ˆµ i = y i, i = 1,,..., n). Men der endnu et trin i modelopbygningen: Det antages endvidere at µ 1, µ,..., µ n er uafhængige observationer fra en og samme sandsynlighedsfordeling. Denne sandsynlighedsfordeling skal være en kontinuert fordeling på den positive halvakse, og det viser sig bekvemt at benytte en fordeling med en tæthedsfunktion af formen g(µ) = 1 Γ(κ)β κ µκ 1 exp( µ/β), µ > 0. (Symbolet Γ(κ) betegner den såkaldte Gammafunktion, udregnet i κ. Pr. definition er Γ(κ) = er Γ(m + 1) = m!. ) + 0 t κ 1 exp( t) dt. Hvis m er et naturligt tal, så Fordelingen med denne tæthedsfunktion g er en gammafordeling med formparameter κ > 0 og skalaparameter β > 0. Gammafunktionen kommer ind i billedet fordi tæthedsfunktionen g skal integrere til 1, og det gør den da også, hvilket ses ved at foretage substitutionen t = µ/β.

24 En- og flerstikprøveproblemer i Poissonfordelingen Sandsynligheden for at en kvinde kommer ud for y ulykker ville nu være lig med µy exp( µ), hvis vi altså kendte værdien af µ for den pågældende kvinde. Men da vi kun véd at µ følger fordelingen med tætheds- y! funktion g, bliver den faktiske sandsynlighed for y ulykker et vægtet middeltal af værdierne µy exp( µ) med g(µ) som vægte, og det betyder at sandsynligheden for at en kvinde kommer ud for y ulykker alt i alt y! bliver P(Y = y) = = = = µ y µ y exp( µ) g(µ) dµ y! 0 y! exp( µ) 1 Γ(κ)β κ µκ 1 exp( µ/β) dµ ( ) Γ(y + κ) 1 κ ( ) β y y! Γ(κ) β + 1 β + 1 Γ(y + κ) y! Γ(κ) pκ (1 p) y, ( ) y + κ 1 Γ(y + κ) hvor p = 1/(β + 1). Med betegnelsen = (som hvis y y! Γ(κ) m er et naturligt tal, blot er den sædvanlige definition af binomialkoefficient) er sandsynligheden for y ulykker P(Y = y) = ( y + κ 1 y ) p κ (1 p) y, y {0, 1,,... }. Denne fordeling af Y er den såkaldte negative binomialfordeling med formparameter κ og sandsynlighedsparameter p = 1/(β + 1). I den negative binomialfordeling er der to parametre man kan»skrue på«, og man kan håbe at det derved er muligt at få denne model til at passe bedre til observationerne end Model 1 gjorde. I den nye model er middelværdi og varians af Y givet ved og E(Y) = κ(1 p)/p = κβ Var(Y) = κ(1 p)/p = E(Y)/p = κβ(β + 1). Heraf ses blandt andet at variansen er (β + 1) gange større end middelværdien. I det foreliggende talmateriale fandt vi netop at variansen var større end middelværdien, så foreløbig kan det ikke udelukkes at den negative binomialfordelingsmodel er brugbar.

25 .3 Et sværere eksempel 5 Estimation af parametrene i Model Vi benytter som altid med likelihoodmetoden til estimation af de ukendte parametre. Likelihoodfunktionen er n ( ) yi + κ 1 L(κ, p) = p κ (1 p) y i y i ( ) yi + κ 1 = p nκ (1 p) y n 1+y +...+y n y i = konstant p nκ (1 p) y (κ + k 1) j=k f j, hvor f k stadig betegner antal observationer som har værdien k. Logaritmen til likelihoodfunktionen bliver derfor (pånær en konstant) ) ln L(κ, p) = nκ ln p + y ln(1 p) + f j ln(κ + k 1) k=1 k=1 ( j=k der i det konkrete eksempel antager det mere uskyldige udseende ln L(κ, p) = 7κ ln p ln(1 p) + 00 lnκ + 8 ln(κ + 1) + ln(κ + ) + 5 ln(κ + 3) + ln(κ + ). Denne funktion kan man let bestemme maksimum for med sædvanlige numeriske metoder til bestemmelse af ekstremumspunkter, for eksempel en generel simplexmetode. Disse numeriske metoder itererer sig frem til løsningen, og man kan finde et godt udgangspunkt for iterationen ved at løse de to ligninger teoretisk middelværdi = empirisk middelværdi der i det foreliggende tilfælde bliver Man finder (idet p = 1/(β + 1)) teoretisk varians = empirisk varians κβ = 0. κβ(β + 1) = 0.9. β = 0.88 κ = p = Disse værdier benyttes som startværdier i en iteration der leder frem til likelihoodfunktionens maksimumspunkt som er ˆβ = ˆκ = ˆp =

26 En- og flerstikprøveproblemer i Poissonfordelingen Tabel.5 Model : Observerede antal f y og forventede antal binomialfordelingsmodel. ˆf y i den negative y f y ˆf y f y y Figur. Model : Observerede antal (sorte søjler) og forventede antal (hvide søjler) fra Tabel.5. Tabel.5 og Figur. viser de tilsvarende forventede antal ( ) y + ˆκ 1 ˆf y = n ˆpˆκ (1 ˆp) y y beregnet ud fra den estimerede negative binomialfordeling. På baggrund heraf tillader vi os at konkludere at den negative binomialfordelingsmodel beskriver observationerne godt nok.. Opgaver Opgave.1 (Udsendelse af α-partikler) I et berømt eksperiment har Rutherford og Geiger 7 talt op hvor mange α-partikler der udsendes fra en bestemt portion af det radioaktive stof Polonium i et 7 E. Rutherford and H. Geiger (1910): The Probability Variations in the Distribution of α Particles. Philosophical Magazine xx, , genoptrykt med mindre rettelser i The Collected Papers of Lord Rutherford of Nelson, Vol., side 03-11, London, 193.

27 . Opgaver 7 Tabel. Opgave.1: Antal tidsintervaller f y hvor der udsendes netop y α-partikler. y f y y f y tidsinterval af længde 7.5 sekund; man har foretaget optællingen for i alt 08 sådanne tidsintervaller. Resultaterne fremgår af Tabel.. Det formodes at antal α-partikler udsendt i et tidsinterval af længde t (som er meget mindre end stoffets halveringstid) kan opfattes som en observation af en Poissonfordelt stokastisk variabel med parameter λ t, hvor λ er en slags strålingsintensitet. 1. Gør rede for rimeligheden af Poissonfordelingsantagelsen, og præcisér den statistiske model.. Estimér λ ud fra de givne observationer. 3. Hvad kan dispersionstestet fortælle om rimeligheden af den foreslåede model? Opgave. Tabel.7 indeholder 0 stikprøver y 1, y,..., y 10 fra en Poissonfordeling med µ = Udregn ˆµ for hver stikprøve. Hvordan fordeler ˆµ sig omkring µ?. Udregn dispersionsteststørrelsen d for hver stikprøve. Hvordan ligger værdierne i forhold til χ / f -fordelingen? 3. Man kan bevise at en sum af uafhængige Poissonfordelte størrelser er Poissonfordelt med en parameter der er lig summen af parametrene. Derfor kan man opfatte de 0 værdier i y -søjlen som 0 observationer fra en Poissonfordeling med parameter 10µ (= 31.). Udregn parameterestimatet og dispersionsteststørrelsen for disse 0 observationer. Opgave.3 (fortsættelse af Opgave 1.) 1. Antag at der er udført n cirklinger, og at i netop y tilfælde fandtes der et skud inde i cirklen. Hvordan skal man på denne baggrund estimere λ?

28 8 En- og flerstikprøveproblemer i Poissonfordelingen Tabel.7 0 eksempler på udfald af stokastiske variable Y 1, Y,..., Y 10 frembragt af en Poissonfordelings-tilfældighedsmekanisme med µ = 3.1. y 1 y y 3 y y 5 y y 7 y 8 y 9 y 10 y y s Hvis man skal kunne opdage sjældne plantearter med denne metode, skal man nok bruge mere end 10 cirklinger. Antag at man stadig bruger cirkler med areal a = 0.1m. Hvis en plante vokser med en tæthed på ca. en pr. 5m (dvs. λ = 0.m ), hvor mange cirklinger skal man da foretage for at være 90% sikker på at opdage planten? TIP: Opskriv først sandsynligheden for at man i n cirklinger ikke opdager planten. Opgave. (Fluor i drikkevandet) Det menes at fluor i drikkevandet kan modvirke huller i tænderne. I 190- erne foretog man en undersøgelse af børns»tandstatus«og sammenholdt den med koncentrationen af fluor-ioner i drikkevandet fra det lokale vandværk. Tabel.8 viser data fra to vandværksdistrikter i Næstved. Man har bestemt antal DMF-tænder, dvs. tænder med huller efter caries samt udtrukne og plomberede tænder, hos de 1-årige drenge i de to distrikter. (Det kan i øvrigt nævnes at F -koncentrationen ved det gamle vandværk var 1.9 ppm og ved hjælpevandværket 1. ppm.) Undersøg ved hjælp af en Poissonfordelingsmodel om der er en signifikant forskel på forekomsten af DMF-tænder i de to vandværksdistrikter.

29 . Opgaver 9 Tabel.8 Opgave.: Fordelingen af drenge fra to vandværksdistrikter efter antal DMF-tænder. y antal drenge med y DMF-tænder gamle vv. hjælpe-vv

30 30

31 3 Multiplikative Poissonmodeller I dette kapitel vil vi gennemgå et eksempel på en såkaldt multiplikativ Poissonmodel. Modellen er ganske vist en smule mere indviklet end hvad der hidtil er blevet præsenteret, men på den anden side er det en type modeller der benyttes en del. Derudover er eksemplet interessant på den måde at man tilsyneladende kan nå frem til modstridende konklusioner blot ved at ændre en smule på fremgangsmåden ved analysen af modellen. 3.1 Det gennemgående eksempel: Lungekræft i Fredericia I midten af 1970-erne var der en større debat om hvorvidt der var særlig stor risiko for at få lungekræft når man boede i byen Fredericia. Grunden til at der kunne være en større risiko, var at der i Fredericia var en betydelig mængde luftforurenende industri som tilmed lå midt inde i byen. For at kunne afgøre spørgsmålet indsamlede man data om lungekræfthyppigheden i perioden , dels i Fredericia, dels i byerne Horsens, Kolding og Vejle. De tre sidste byer skulle tjene som sammenligningsgrundlag idet det var byer af nogenlunde samme art som Fredericia, pånær den mistænkte industri. Lungekræft opstår tit som et resultat af daglige påvirkninger af skadelige stoffer gennem mange år. En eventuel større risiko i Fredericia kunne måske derfor vise sig ved at lungekræftpatienterne fra Fredericia var yngre end dem fra kontrolbyerne, og det er under alle omstændigheder tilfældet at lungekræft optræder med meget forskellig hyppighed i forskellige aldersklasser. Det er derfor ikke nok at se på totalantallene af lungekræfttilfælde, man skal se på antallene af tilfælde i forskellige aldersklasser. De foreliggende tal er vist i Tabel 3.1. Da antallene af lungekræfttilfælde i sig selv ikke siger noget sålænge man ikke kender risikogruppernes størrelse, må man også rapportere antal indbyggere i de forskellige aldersklasser og byer, se Tabel Det der nu er statistikerens opgave, er at beskrive tallene i Tabel 3.1 ved hjælp af en statistisk model hvori der indgår nogle parametre der i en passende forstand beskriver risikoen for at få lungekræft når man tilhører en bestemt aldersgruppe og bor i en bestemt by. Endvidere ville det være formålstjenligt hvis man kunne udskille nogle parametre der beskrev»byvirkninger«(dvs. forskelle mellem byer) efter at man på en eller anden måde havde taget højde for forskellene mellem aldersgrupperne. 1 Tallene i Tabel 3.1 og 3. er citeret efter E.B.Andersen (1977): Multiplicative Poisson models 31

32 3 Multiplikative Poissonmodeller Tabel 3.1 Lungekræfttilfælde i fire byer fordelt på aldersklasser. aldersklasse Fredericia Horsens Kolding Vejle i alt » i alt Tabel 3. Antal indbyggere i de forskellige aldersklasser i de fire byer. aldersklasse Fredericia Horsens Kolding Vejle i alt i alt Modelopstilling Den statistiske model skal ikke modellere variationen i antallet af indbyggere i de forskellige byer og aldersklasser, så derfor vil vi anse disse antal for givne konstanter. Det er antallene af lungekræfttilfælde der skal opfattes som observerede værdier af stokastiske variable, og det er fordelingen af disse stokastiske variabel der skal specificeres af den statistiske model. Vi indfører noget notation: y i j = antal tilfælde i aldersgruppe i i by j, r i j = antal personer i aldersgruppe i i by j, hvor i = 1,, 3,, 5, nummererer aldersgrupperne, og j = 1,, 3, nummererer byerne. Observationerne y i j opfattes som observerede værdier af stokastiske variable Y i j. Inspireret af Kapitel 1 kunne man foreslå at Y i j skulle være Poissonfordelt med en parameter µ i j der afhænger af aldersgruppe og by (modellen skal ikke indeholde observationsperiodens længde da denne er konstant lig år). Hvis vi skriver µ i j som µ i j = λ i j r i j, så kan intensiteten λ i j fortolkes som»antal lungekræfttilfælde pr. person i aldersgruppe i i by j i den betragtede fireårsperiode«, dvs. λ er den alders- og byspecifikke cancer-incidens. Endvidere vil vi with unequal cell rates. Scand. J. Statist.,

33 3. Modelopstilling 33 gå ud fra at de enkelte Y i j -er er stokastisk uafhængige. Grundmodellen bliver således De stokastiske variable Y i j er stokastisk uafhængige og Poissonfordelte således at Y i j har parameter λ i j r i j hvor λ i j -erne er ukendte positive parametre. Det er let nok at estimere parametrene i grundmodellen. Eksempelvis estimeres intensiteten λ 1 for årige i Fredericia til 11/800 = 0.01 (dvs tilfælde pr. person pr. år). Den generelle opskrift er ˆλ i j = y i j /r i j. Nu var det jo tanken at vi gerne ville kunne komme til at sammenligne byerne efter at vi havde taget højde for deres forskellige aldersfordelinger, og det kan ikke uden videre lade sig gøre i grundmodellen. Derfor vil vi undersøge om det lader sig gøre at beskrive data med en anden model hvori λ i j er spaltet op i et produkt α i β j af en aldersvirkning α i og en byvirkning β j. Hvis dette lader sig gøre, er vi heldigt stillede, for så kan vi sammenligne byerne ved at sammenligne byparametrene β j. Vi vil derfor i første omgang teste den statistiske hypotese H 0 : λ i j = α i β j hvor α 1, α, α 3, α, α 5, α, β 1, β, β 3, β er ukendte parametre. (Mere udførligt lyder hypotesen: Der findes parametre α 1, α, α 3, α, α 5, α, β 1, β, β 3, β således at der for by j og aldersgruppe i gælder at lungekræftrisikoen λ i j fås som λ i j = α i β j. Hypotesen H 0 specificerer en multiplikativ model fordi aldersparametre og byparametre indgår multiplikativt. En detalje vedrørende parametriseringen Der er det særlige ved parametriseringen af modellen under H 0 at den ikke er injektiv. At en parametrisering er injektiv betyder at forskellige parametersæt giver forskellige udgaver af modellen. De 10 parametre α 1,α,α 3,α,α 5,α, β 1, β, β 3, β indgår udelukkende i modellen via produkterne α i β j (= λ i j ). Antag nu at to parametersæt og (α 1,α,α 3,α,α 5,α, β 1, β, β 3, β ) (α 1,α,α 3,α,α 5,α, β 1, β, β 3, β ) giver anledning til de samme produkter, dvs. antag at for alle i og j. Så gælder også α i β j = α i β j (3.1) α i /α i = β j /β j (3.)

34 3 Multiplikative Poissonmodeller for alle i og j. Da højresiden af formel (3.) ikke involverer i, så kan venstresiden heller ikke afhænge af i, det vil sige der findes en konstant c således at α i /α i = c og dermed α i = α i c for alle i. Videre er β j /β j = α i /α i = c, det vil sige β j = cβ j for alle j. Parametersættet (α1,α,α 3,α,α 5,α, β 1, β, β 3, β ) må altså nødvendigvis være af formen (α 1,α,α 3,α,α 5,α, β 1, β, β 3, β ) = ( α 1 c, α c, α 3 c, α c, α 5 c, α c, cβ 1, cβ, cβ 3, cβ ) (3.3) hvor c er en positiv konstant. Omvendt gælder også at hvis det stjernede parametersæt er defineret ved formel (3.3), så vil formel (3.1) være opfyldt. Hermed har vi fået klarlagt dels at parametriseringen ikke er injektiv, dels hvilke parametersæt der giver den samme model. De 10 parametre skal pålægges ét bånd for at få en injektiv parametrisering. Et sådant bånd kan være at α 1 = 1, eller at α 1 + α α = 1, eller at α 1 α...α = 1, eller det tilsvarende for β, osv. I det aktuelle eksempel vil vi benytte betingelsen β 1 = 1, dvs. vi definerer at parameteren for Fredericia skal være lig 1. Med denne betingelse er parametriseringen injektiv, for hvis både β 1 og β 1 = cβ 1 skal være 1, så må c nødvendigvis være lig 1. Samtidig noterer vi at der er 10 1 = 9 forskellige parametre at estimere. 3.3 Estimation i den multiplikative model I den multiplikative model lader det sig ikke gøre at opskrive simple udtryk for estimaterne, man er henvist til at benytte numeriske metoder for at bestemme talværdierne i de konkrete tilfælde. En datamat med noget ordentligt statistikprogrammel vil uden videre kunne levere estimaterne, men hvis man foretrækker at gå ud fra de grundlæggende principper og foretage udregningerne med håndkraft/lommeregner, er det faktisk heller ikke særlig besværligt. Det skal vi se på de næste sider. Parametersættet (α 1,α,α 3,α,α 5,α, β 1, β, β 3, β ) (med den bibetingelse at β 1 = 1) skal ifølge de sædvanlige principper bestemmes så det maksimaliserer likelihoodfunktionen. I grundmodellen er likelihoodfunktionen L = (λ i j r i j ) y i j y i j! = konstant exp( λ i j r i j ) λ y i j i j exp( λ i j r i j ).

STATISTIKNOTER Simple binomialfordelingsmodeller

STATISTIKNOTER Simple binomialfordelingsmodeller STATISTIKNOTER Simple binomialfordelingsmodeller Jørgen Larsen IMFUFA Roskilde Universitetscenter Februar 1999 IMFUFA, Roskilde Universitetscenter, Postboks 260, DK-4000 Roskilde. Jørgen Larsen: STATISTIKNOTER:

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Lineære normale modeller (4) udkast

Lineære normale modeller (4) udkast E6 efterår 1999 Notat 21 Jørgen Larsen 2. december 1999 Lineære normale modeller (4) udkast 4.5 Regressionsanalyse 4.5.1 Præsentation 1 Regressionsanalyse handler om at undersøge hvordan én målt størrelse

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 9, 2015 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Om hypoteseprøvning (1)

Om hypoteseprøvning (1) E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable 2.1 Sandsynlighedsbegrebet............................... 1 2.1.1

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Approksimation af binomialsandsynligheder, Afsnit 4.5 Multinomial fordeling, Afsnit 4.8 Negativ binomialfordeling, Afsnit 4.4 Poisson fordeling og Poisson process, Afsnit 4.6 Kontinuerte

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 11, 2016 1/22 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Approksimation af binomialsandsynligheder, Afsnit 4.5 Poisson fordeling og Poisson process, Afsnit 4.6 Kontinuerte fordelinger, Afsnit 5.1-5.2: - Fordelingsfunktion - Tæthedsfunktion - Eksempel:

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Teoretisk Statistik, 13 april, 2005

Teoretisk Statistik, 13 april, 2005 Poissonprocessen Teoretisk Statistik, 13 april, 2005 Setup og antagelser Fordelingen af X(t) og et eksempel Ventetider i poissonprocessen Fordeling af ventetiden T 1 til første ankomst Fortolkning af λ

Læs mere

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger Uge 49 I Teoretisk Statistik, 2. december 2003 Sammenligning af poissonfordelinger o Generel teori o Sammenligning af to poissonfordelinger o Eksempel Opsummering om multinomialfordelinger Fishers eksakte

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Karakteristiske funktioner og Den Centrale Grænseværdisætning

Karakteristiske funktioner og Den Centrale Grænseværdisætning E6 efterår 1999 Notat 10 Jørgen Larsen 20. oktober 1999 Karakteristiske funktioner og Den Centrale Grænseværdisætning Karakteristiske funktioner som er nære slægtninge til Fourier-transformationen) er

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala 3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en

Læs mere

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfn@dtu.dk Dagens emner: Afsnit 4.2, 4.3 og 4.4 Poissonprocessen/eksponentialfordelingen

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 Indledning 2 Sandsynlighed i binomialfordelingen 3 Normalfordelingen 4 Modelkontrol

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro Uge 48 II Teoretisk Statistik 7. november 003 Numerisk modelkontrol af diskrete fordelinger: intro Eksempel: kvalitetskontrol Goodness-of-fit test: generel teori Endeligt udfaldsrum Udfaldsrum uden øvre

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Binomialfordelingen. X ~ bin(n,p): X = antal succeser i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes. Uge 9 Teoretisk Statistik 23. februar 24 1. Binomialfordelingen 2. Den hypergeometriske fordeling 3. Poissonfordelingen 4. Den negative binomialfordeling 5. Gammafordelingen Binomialfordelingen X ~ bin(n,p):

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Kapitel 4: Diskrete fordelinger Hypergeometrisk fordeling, Afsnit 4.3 Multinomial fordeling, Afsnit 4.8 Geometrisk fordeling og Negativ binomialfordeling (Inverse Sampling), Afsnit 4.4 Approksimation

Læs mere

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen Sandsynlighedsregning 6. forelæsning Bo Friis Nielsen Matematik og Computer Science Danmarks Tekniske Universitet 2800 Kgs. Lyngby Danmark Email: bfni@dtu.dk Dagens emner: Afsnit 4.2, 4.3 og 4.4 Poissonprocessen/eksponentialfordelingen

Læs mere

Statistik i basketball

Statistik i basketball En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Forelæsning 2: Kapitel 4, Diskrete fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Statistik viden eller tilfældighed

Statistik viden eller tilfældighed MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Noget om en symmetrisk random walks tilbagevenden til udgangspunktet

Noget om en symmetrisk random walks tilbagevenden til udgangspunktet Random Walk-kursus 2014 Jørgen Larsen 14. oktober 2014 Noget om en symmetrisk random walks tilbagevenden til udgangspunktet Dette notat giver et bevis for at en symmetrisk random walk på Z eller Z 2 og

Læs mere

Definition. Definitioner

Definition. Definitioner Definition Landmålingens fejlteori Lektion Diskrete stokastiske variable En reel funktion defineret på et udfaldsrum (med sandsynlighedsfordeling) kaldes en stokastisk variabel. - kkb@math.aau.dk http://people.math.aau.dk/

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden

Læs mere

IMFUFA TEKST NR 435 2004. TEKSTER fra ROSKILDE UNIVERSITETSCENTER BASISSTATISTIK. Jørgen Larsen 2004, 2005

IMFUFA TEKST NR 435 2004. TEKSTER fra ROSKILDE UNIVERSITETSCENTER BASISSTATISTIK. Jørgen Larsen 2004, 2005 TEKST NR 435 2004 BASISSTATISTIK Jørgen Larsen 2004, 2005 TEKSTER fra IMFUFA INSTITUT ROSKILDE UNIVERSITETSCENTER FOR STUDIET AF MATEMATIK OG FYSIK SAMT DERES FUNKTIONER I UNDERVISNING, FORSKNING OG ANVENDELSER

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Pointen med Funktioner

Pointen med Funktioner Pointen med Funktioner Frank Nasser 0. april 0 c 0080. Dette dokument må kun anvendes til undervisning i klasser som abonnerer på MatBog.dk. Se yderligere betingelser for brug her. Bemærk: Dette er en

Læs mere

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger

Lineære differentialligningers karakter og lineære 1. ordens differentialligninger enote 11 1 enote 11 Lineære differentialligningers karakter og lineære 1. ordens differentialligninger I denne note introduceres lineære differentialligninger, som er en speciel (og bekvem) form for differentialligninger.

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 22 Generalisering fra stikprøve til population Idé: Opstil en model for populationen

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable Kursus 02402 Introduktion til Statistik Forelæsning 2: Kapitel 4, Diskrete fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Nanostatistik: Opgavebesvarelser

Nanostatistik: Opgavebesvarelser Nanostatistik: Opgavebesvarelser JLJ Nanostatistik: Opgavebesvarelser p. 1/16 Pakkemaskine En producent hævder at poserne indeholder i gennemsnit 16 ounces sukker. Data: 10 pakker sukker: 16.1, 15.8, 15.8,

Læs mere

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900. 2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Preben Blæsild og Jens Ledet Jensen

Preben Blæsild og Jens Ledet Jensen χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt

Læs mere

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner

Læs mere

Nanostatistik: Opgaver

Nanostatistik: Opgaver Nanostatistik: Opgaver Jens Ledet Jensen, 19/01/05 Opgaver 1 Opgaver fra Indblik i Statistik 5 Eksamensopgaver fra tidligere år 11 i ii NANOSTATISTIK: OPGAVER Opgaver Opgave 1 God opgaveskik: Når I regner

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Noter til E6. Del 2: Statistik. Jørgen Larsen

Noter til E6. Del 2: Statistik. Jørgen Larsen Noter til E6 Del 2: Statistik Jørgen Larsen Marts 2004 Teksten er sat med skriften ved hjælp af pdfl A TEX. De fleste af tegningerne er fremstillet med METAPOST. Indhold Indledning 3 2 Den statistiske

Læs mere

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet

Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der

Læs mere

Hvad skal vi lave i dag?

Hvad skal vi lave i dag? p. 1/2 Hvad skal vi lave i dag? Eksempler på stokastiske variable. Ventetid på krone ved møntkast. Antal plat ved n kast. Antal radioaktive henfald. Ventetiden på en flyulykke. Udtrækning af tal i et interval.

Læs mere

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1 Statistik Formålet... 1 Mindsteværdi... 1 Størsteværdi... 1 Ikke grupperede observationer... 2 Median og kvartiler defineres ved ikke grupperede observationer således:... 2 Middeltal defineres ved ikke

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R Helle Sørensen Uge 6, mandag SaSt2 (Uge 6, mandag) Tætheder og kont. fordelinger 1 / 19 Program Velkommen I dag:

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable

Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable IMM, 00--6 Poul Thyregod Supplement til kapitel 4 Om sandsynlighedsmodeller for flere stokastiske variable Todimensionale stokastiske variable Lærebogens afsnit 4 introducerede sandsynlighedsmodeller formuleret

Læs mere

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale

Læs mere

c) For, er, hvorefter. Forklar.

c) For, er, hvorefter. Forklar. 1 af 13 MATEMATIK B hhx Udskriv siden FACITLISTE TIL KAPITEL 7 ØVELSER ØVELSE 1 c) ØVELSE 2 og. Forklar. c) For, er, hvorefter. Forklar. ØVELSE 3 c) ØVELSE 4 90 % konfidensinterval: 99 % konfidensinterval:

Læs mere

Lad os som eksempel se på samtidigt kast med en terning og en mønt:

Lad os som eksempel se på samtidigt kast med en terning og en mønt: SANDSYNLIGHEDSREGNING Stokastisk eksperiment Et stokastisk eksperiment er et eksperiment, hvor vi fornuftigvis ikke på forhånd kan have en formodning om resultatet af eksperimentet Til gengæld kan vi prøve

Læs mere

Estimation og konfidensintervaller

Estimation og konfidensintervaller Statistik og Sandsynlighedsregning STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Estimation og konfidensintervaller Antag X Bin(n,

Læs mere

Statistik II 1. Lektion. Analyse af kontingenstabeller

Statistik II 1. Lektion. Analyse af kontingenstabeller Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

STATISTIKNOTER. Mindre matematisk-statistisk opslagsværk, indeholdende bl.a. ordforklaringer, resuméer og tabeller. Jørgen Larsen

STATISTIKNOTER. Mindre matematisk-statistisk opslagsværk, indeholdende bl.a. ordforklaringer, resuméer og tabeller. Jørgen Larsen STATISTIKNOTER Mindre matematisk-statistisk opslagsværk, indeholdende bla ordforklaringer, resuméer og tabeller Jørgen Larsen IMFUFA Roskilde Universitetscenter Februar 1999 IMFUFA, Roskilde Universitetscenter,

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05 Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

Statistik i GeoGebra

Statistik i GeoGebra Statistik i GeoGebra Peter Harremoës 13. maj 2015 Jeg vil her beskrive hvordan man kan lave forskellige statistiske analyser ved hjælp af GeoGebra 4.2.60.0. De statistiske analyser svarer til pensum Matematik

Læs mere