IDRÆTSSTATISTIK BIND 2

Størrelse: px
Starte visningen fra side:

Download "IDRÆTSSTATISTIK BIND 2"

Transkript

1 IDRÆTSSTATISTIK BIND 2

2 ii Det Naturvidenskabelige Fakultet Aarhus Universitet Reprocenter Preben Blæsild og Jørgen Granfeldt 2001 ISBN Bd.2

3 iii Forord Denne bog er skrevet til brug i et statistikkursus for bachelorstuderende ved Center for Idræt, Aarhus Universitet. Bag bogen ligger samme holdninger både til statistisk analyse og til begynderundervisning i statistik, der primært retter sig mod brugere, som i Blæsild og Granfeldt (2000) Statistik for biologer og geologer. Et vigtigt holdepunkt i statistisk analyse er modelbegrebet. Man vælger en statistisk model, som kan belyse den faglige problemstilling. Det vil sige, at parametrene i modellen kan fortolkes i den faglige problemstilling, og at interessante faglige hypoteser svarer til restriktioner på parametrene. En faglig hypotese afprøves ved at undersøge (teste), om man kan acceptere en reduktion af modellen til en ny model, som er enklere ved at have færre parametre. Gør man sig det klart, kan man hurtigt lære at analysere temmelig komplicerede problemstillinger korrekt. Ydermere bliver analysen til at følge også for folk, som hverken er specialister på det faglige område eller er professionelle statistikere. Et tidsvarende brugerkursus i statistik må benytte EDB og en statistisk programpakke. Ved dette kursus er valgt regnearket Excel og den statistik pakke der under navnet Dataanalyse optræder som et tilføjelsesprogram til Excel, men der er ikke benyttet faciliteter, som er specielle for denne statistik pakke, og bogen kan uden vanskelighed anvendes sammen med andre statistiske programpakker. Argumentet for at benytte Excel er, at regnearket er tilgængeligt på de fleste PC-er imodsætning til mere kostbare og specialiserede statistiske programpakker såsom for eksempel SAS, Genstat og BMDP. Disse programpakker er designet specielt til brug i forbindelse med statistisk analyse og kan derfor udføre beregningerne i meget mere avancerede statistiske modeller end regnearket Excel kan. Disse noter demonsterer forhåbenligt at i forbindelse med et elementært kursus i statistik er Excel et brugbart alternativ. Når man bruger statistiske programpakker i undervisningen bliver modellerne, som beskrevet ovenfor, det faste holdepunkt når man skal orientere sig i udskrifterne. Man kan bruge en programpakke til statistisk analyse, når man har lært dels at specificere modeller i programpakken og dels at teste reduktionen fra én model til en simplere ved at hente relevante oplysninger ud fra udskrifterne fra estimationen i de to modeller.

4 iv Kun få kan lære statistik uden at få metoderne ind gennem fingrene. Vi har derfor valgt både at præsentere, hvordan de enkleste modeller kan regnes på lommeregner, og hvordan de kan regnes ved at orientere sig i udskrifter fra en programpakke. For normalfordelte data vises både for én, to og k observationsrækker, samt én regressionslinje, hvordan modellerne regnes igennem på lommegner, mens en mere kompliceret model som tosidet variansanalyse kun skal kunne klares med henvisning til programudskrifter. Et statistikkursus for studerende, der ikke har et vist kendskab til de mest basale begreber i sandsynlighedsteorien, fremstår for os som en umulighed. I Kapitel 2 introduceres og/eller repeteres disse begreber, der illustreres ved en række eksempler, som er valgt ud fra det princip, at de matematisk skulle være lette at håndtere. Kapitel 3 er at betragte som et katalog vedrørende definition af og egenskaber ved de fordelinger som anvendes i forbindelse med de statistiske modeller i de senere kapitler. Kaptitel 2 gennemgås efter diskussionen i Kapitel 1 af grafiske og numeriske metoder i forbindelse med beskrivende statistik. Herefter fortsættes med modellerne for normalfordelte data i Kapitel 4 idet de hertil relaterede fordelinger fra Kapitel 3 omtales undervejs. Efter adskillige eksempler på statistisk analyse i forbindelse med normalfordelingen i Kapitel 4 diskuteres hovedtrækkene i en analyse af en parametrisk statistisk model i generelle termer i Kapitel 5. Derefter gennemgås Kapitel 6 om multinomialfordelte data og Kapitel 7 om Poissonfordelte data. Bogen slutter med omtale af nogle simple ikke-parametriske test i Kapitel 8. Som nævnt ovenfor foretrækker vi at betragte parametriske statistiske modeller. Formålet med Kapitel 8 er at orientere læserne om at ikke alle deler denne holdning og for at give et kort indblik i de alternative metoder. Det vil være muligt at læse kapitlerne i en anden rækkefølge, men man skal være opmærksom på, at de statistiske grundbegreber som nulhypotese, test, testsandsynlighed, signifikansniveau og så videre gennemgås i forbindelse med Afsnit 4.2. Uden dataeksempler, som udspringer af en faglig problemstilling, bliver en lærebog til et brugerkursus i statistik temmelig uinteressant. En del af eksemplerne er taget fra Andersen (1998) Statistik for Idrætsstuderende med forfatterens tilladelse, hvilket vi er taknemmelige for. Vi vil også gerne takke medarbejdere og studerende ved Center for Idræt, Aarhus Universitet og ved Institut for Idræt, Københavns Universitet, som har stillet data og deres historie til rådighed for bogens eksempler og opgaver. Bogen er blevet brugt ved Idrætsstatistik i efteråret 2000 og bygger på erfaringer fra et lignede kursus i efteråret 1999 og en særlig tak går til Jakob Krabbe Pedersen og Lars Bo Kristensen for deres store indstats som instruktorer på disse to kurser og for deres påvisning af trykfejl. Bogen er skrevet LATEX, og Jacob Goldbach har skrevet de stylefiler i LATEX, som definerer

5 v udseendet af bogen, men derudover har Jacob Goldbach tålmodigt besvaret utallige spørgsmål om LATEX ligesom Frank Allan Hansen, Niels Væver Hartvig og Michael Kjærgård Sørensen velvilligt har assisteret os. I forhold til versionen af bogen fra maj 2001 er der rettet en del trykfejl og nogle få figurer er blevet tilføjet. Vi vil gerne takke Lars Madsen for meget kompetent bistand med LATEX spørgsmål i forbindelse med revisionen og Michael Kjærgård Sørensen for at have produceret de nye figurer. Århus, august 2005 Preben Blæsild og Jørgen Granfeldt

6 vi

7 vii Indhold 1 Data og beskrivende statistik Prik- og pindediagrammer Histogrammer Empiriske størrelser Grupperede data Kvalitative data Flerdimensionale data Anneks til Kapitel Opgaver til Kapitel Begreber fra sandsynlighedsteorien Sandsynlighedsrum Definition af sandsynlighedsmål Regneregler for sandsynligheder Betingede sandsynligheder og uafhængighed Stokastiske variable Diskrete stokastiske variable Kontinuerte stokastiske variable Stokastiske vektorer Diskrete stokastiske vektorer Kontinuerte stokastiske vektorer Marginale fordelinger Uafhængighed Betingede fordelinger Middelværdi og varians Opgaver til Kapitel

8 viii 3 Specielle fordelinger Normalfordelingen og relaterede fordelinger Normalfordelingen Den todimensionale normalfordeling χ 2 -fordelingen t-fordelingen F-fordelingen Diskrete fordelinger Binomialfordelingen Multinomialfordelingen Poissonfordelingen Den hypergeometriske fordeling Den negative binomialfordeling Opgaver til Kapitel Normalfordelte data Fraktilsammenligning Ugrupperede observationer Grupperede data Transformation Anneks til Afsnit Én observationsrække med kendt varians Anneks til Afsnit Hovedpunkter til Afsnit Én observationsrække med ukendt varians Anneks til Afsnit Hovedpunkter til Afsnit To observationsrækker Test for varianshomogenitet Ens varians Forskellig varians Parrede observationer Anneks til Afsnit Hovedpunkter til Afsnit k observationsrækker Test for varianshomogenitet

9 ix Test for ens middelværdier Forskelle og ligheder i behandlingen af to og k observationsrækker Notation og test i forbindelse med en følge af modeller Anneks til Afsnit Hovedpunkter til Afsnit Lineær regression Lineær regression uden gentagelser Lineær regression med gentagelser Hypoteser om regressionsparametrene Korrelation og/eller regression Anneks til Afsnit Hovedpunkter til Afsnit Tosidet variansanalyse Anneks til Afsnit Hovedpunkter til Afsnit Opgaver til Kapitel Indeks I.1 5 Statistisk analyse Data Modelopstilling Modelkontrol Statistisk inferens Likelihood inferens Begreber fra generel testteori Approksimativ likelihood teori Afsluttende bemærkninger Opgaver til Kapitel Multinomialfordelte data Eksempler Inferens i én multinomialfordeling Test af simpel hypotese Uafhængighed af inddelingskriterier Inferens i flere multinomialfordelinger

10 x Homogenitet af flere multinomialfordelinger Fishers eksakte test Test for goodness of fit Anneks til Kapitel Hovedpunkter til Kapitel Opgaver til Kapitel Poissonfordelte data Eksempler Sandsynlighedsteoretiske resultater vedrørende Poissonfordelingen Én observationsrække Inferens i flere fordelinger Poissonmodellen med proportionale parametre Den multiplikative Poissonmodel Anneks til Kapitel Hovedpunkter til Kapitel Opgaver til Kapitel Ikke-parametriske test Fortegnstestet Rangtest Wilcoxons test for én observationsrække Wilcoxons test for to observationsrækker Kruskal-Wallis test Anneks til Kapitel Hovedpunkter til Kapitel Opgaver til Kapitel A Forskellige matematiske begreber A.1 A.1 Notation fra mængdelæren A.1 A.2 Rækker A.3 A.3 Dobbeltintegraler og partiel differentiation A.4 A.3.1 Dobbeltintegraler A.5 A.3.2 Partiel differentiation A.5 B Simulerede fraktildiagrammer B.1

11 xi C Matematiske symboler C.1 D Det græske alfabet D.1 Indeks I.1

12 xii

13 5 Statistisk analyse Statistisk analyse Vi har i Kapitel 4 set adskillige eksempler på statistiske analyser og i disse eksempler er e- stimater og teststørrelser valgt ud fra heuristiske argumenter. Disse valg er dog baseret på en generel metode, der omtales i dette kapitel. Denne metode kan benyttes i andre situationer, hvor valg af estimatorer og teststørrelser ikke kan baseres på heuristiske argumenter. Kapitlet indeholder en beskrivelse af de vigtigste ingredienser i en statistisk analyse samt en præsentation af de basale matematiske og/eller filosofiske begreber, der ligger til grund for de statistiske metoder, vi betragter i disse noter. Næsten alle de statistiske metoder, der er blevet eller vil blive omtalt i noterne, kan faktisk opfattes som specialtilfælde - eller illustrationer - af den generelle metodik, som diskuteres i dette kapitel. Eneste undtagelse er metoderne i Kapitel 8. Formålet med kapitlet er at fremstille de grundliggende begreber og ideer så overskueligt som muligt, og vi har valgt at gøre dette med reference til teorien for én normalfordelt observationsrække med kendt varians i Afsnit 4.2. En nybegynder i statistisk analyse kan betragte kapitlet som udstilling af fundamentale begreber i statistisk analyse, som er blevet og også senere vil blive anvendt og illustreret igen og igen. En mere erfaren læser kan derimod betragte kapitlet som et lille opslagsværk vedrørende begreber og terminologi i statistisk analyse. Afsnit 5.1 vedrører videnskabelige eksperimenter og data. Vi har valgt at fokusere på tre hovedingredienser eller aktiviteter i en statistisk analyse i) modelopstilling ii) modelkontrol iii) statistisk inferens som omtales i Afsnit Statistik inferens baseret på begrebet likelihood diskuteres i Afsnit 5.5 og i Afsnit 5.6 omtales nogle få begreber fra den generelle testteori. Approksimative statistiske metoder omtales i Afsnit 5.7 og endelig indeholder Afsnit 5.8 nogle afsluttende bemærkninger.

14 Modelopstilling 5.1 Data Udgangspunktet for en statistisk analyse er et datasæt x, der er resultatet af et eksperiment, udført med det formål at få indblik i en speciel faglig sammenhæng. Betegnelsen eksperiment skal her forstås i en bred forstand. Data fra idræt kan for eksempel være bestemmelser af kondital, hæmatokritværdier eller andre fysiologiske målinger. Data er ofte indsamlet for at få indblik i, hvorledes træning eller konkurrence påvirker målingerne. En anden form for data er resultater fra konkurrencer, der studeres for at få indsigt i, hvordan forskellige personer eller hold klarer sig i forhold til hinanden eller for at sammenligne præstationer udført under forskellige omstændigheder. 5.2 Modelopstilling Karakteristisk for et datasæt x i et eksperiment er, at det er stokastisk; det vil sige, at hvis man gentager eksperimentet eller målingerne under lignende omstændigheder, bliver resultatet ikke nødvendigvis x. Dette er i modsætning til en deterministisk situation, hvor udfald på forhånd kan bestemmes med sikkerhed. Men selv om udfaldene af eksperimentet ikke kan angives på forhånd er der ofte en regelmæssighed på et højere niveau, som man netop kan erkende, hvis forsøget gentages mange gange. En byggesten i beskrivelsen af et eksperiment er derfor en sandsynlighedsteoretisk model. En sandsynlighedsteoretisk model består af tre komponenter: 1) udfaldsrummet, X, som er samtlige værdier (udfald), som eksperimentet kan få; 2) hændelsessystemet, A, som omfatter alle de hændelser vi vil betragte; og 3) sandsynlighedsmålet, P, som angiver sandsynligheden af alle hændelser i A. Det stokastiske element i et eksperiment beskrives af hændelsessystemet og sandsynlighedsmålet, som beskriver alle hændelser vi er interesserede i og deres sandsynligheder. Vi beskriver ofte det stokastiske ved et datasæt ved at opfatte data x som en realisation af en stokastisk vektor X. Denne stokastiske vektor kan man tænke på som identitetsafbildningen på udfaldsrummet X og dens fordeling som givet ved sandsynlighedsmålet P. Vi indskrænker os til kun betragte diskrete og kontinuerte stokastiske vektorer. Hændelsessystemet vil omfatte alle etpunktsmængder, alle intervaller og alle mængder, der kan dannes udfra dem med de sædvanlige mængdeoperationer, som foreningsmængde, fællesmængde og komplementærmængde. Sandsynlighedsmålene på disse hændelsessystemer kan repræsenteres enten ved deres fordelingsfunktionen F eller deres tæthedsfunktion f. En statistisk model er en parametriseret mængde af sandsynlighedsteoretiske modeller. Sædvanligvis er udfaldsrummene og hændelsessystemerne identiske for alle de sandsynlighedsteo-

15 5.3 retiske modeller, og i det tilfælde kan man tænke på en statistisk model som en sandsynlighedsteoretisk model, hvor sandsynlighedsmålet er blevet erstattet med en parametriseret klasse af sandsynlighedsmål, P = {P ω ω Ω}. Alternativt kan klassen af sandsynlighedsmål repræsenteres med en parametriseret klasse af fordelinger, F = {F ω ω Ω}, eller en parametriseret klasse af tætheder { f( ;ω) ω Ω}. Her er parameteren ω = (ω 1,...,ω k ), og vi antager altså, at Ω, parameterrummet (parametermængden), er en delmængde af R k. Parameteren ω bør vælges, således at den er relevant for det faglige problem, der ligger til grund for eksperimentet. Det vil sige, at parameteren skal vælges, således at udsagn vedrørende det faglige problem kan formuleres ved hjælp af ω. Med undtagelse af modellerne i Kapitel 8 er alle de statistiske modeller, der betragtes i disse noter, på formen Vores foretrukne repræsentation af sandsynlighedsmålene er via tætheder, og vi kalder funktionen (X,A ;P) = (X,A ;{P ω ω Ω}). X Ω R (x,ω) f(x;ω) (5.1) for modelfunktionen. Modelfunktionen er tætheden som funktion af både udfaldet x og parameteren ω. For at gøre de matematiske overvejelser lettere vil vi antage, at parametermængden Ω kan vælges som et område i R k ; det vil sige, at Ω er en åben 1 og sammenhængende 2 delmængde af R k. Vi har nu fået fastlagt de termer og den notation vi vil bruge i omtalen af statistiske modeller. Modelopstilling opfatter vi som den proces, hvor man identificerer komponenterne i den statistiske model: udfaldsrum, hændelsessystem og klassen af fordelinger. Det er sædvanligvis uproblematisk at bestemme sig for udfaldsrummet, og dermed er hændelsessystemet også givet. Det væsentligste arbejde er i forbindelse med identifikation af den parametriserede klasse af fordelinger, som man vil betragte. Det betyder også, at man i omtalen af modellerne ofte undlader at nævne hele triplet (X,A ;{P ω ω Ω}), men fokuserer på fordelingerne {P ω ω Ω}. Endda går man ofte så vidt, at man nøjes med at specificere parametermængden Ω, idet både udfaldsrum, hændelsessystem og fordelingsklasse er underforstået. I arbejdet med at identificere en klasse af fordelinger inddrager man almindelig og specifik viden om forsøgsomstændighederne og undertiden erfaringer fra statistiske analyser af lignende forsøg. Sædvanligvis er de indledende grafiske procedurer, der omtales i Kapitel 1, særdeles 1 Ω er åben, hvis et vilkårligt punktω Ω er centrum for en kugle, der helt er indeholdt i Ω. 2 Ω er sammenhængende, hvis to vilkårlige punkter ω og ω i Ω kan forbindes med hinanden ved hjælp af linjestykker, der alle er indeholdt i Ω.

16 Modelkontrol nyttige i forbindelse med modelopstilling. Dette trin i en statistisk analyse kræver ofte en så betydelig indsigt i den faglige sammenhæng, at et samarbejde mellem fagmanden fra idræt og statistikeren er påkrævet. 5.3 Modelkontrol Dette punkt i en statistisk analyse vedrører vurdering af rimeligheden af den opstillede statistiske model. Det undersøges, om data x strider mod en eller flere væsentlige konsekvenser af modellen. Hvis dette er tilfældet, forkastes modellen og en ny opstilles; hvis ikke, er man klar til at gå videre til næste punkt i analysen, statistisk inferens. Bemærk, at man ved den skitserede procedure på ingen måde opnår sikkerhed for, at modellener korrekt. Det er vanskeligt at give en generel beskrivelse af dette punkt i en statistisk analyse, idet metoderne dels afhænger af modellen og dels af de betragtede aspekter ved modellen. Desuden skal det understreges, at modelkontrol ikke er begrænset til de indledende faser af en statistisk undersøgelse. I mange modeller, for eksempel i regressionsmodeller, sker den væsentligste del af modelkontrollen efter, at man har estimeret i modellen. Som det fremgår af næsten alle de følgende kapitler, indgår såvel grafiske som numeriske undersøgelser i kontrollen af en model. Eksempel 4.1 (Fortsat) Ved opstillingen af en model for data x som består af de 15 målingerx 1,...,x 15 af laktat koncentrationen i den samme blodprøve med en kendt koncentration på 80 mg/l benytter vi oplysningen om, at erfaringsmæssigt kan sådanne målinger betragtes som normalfordelte med en spredning på 5mg/l. Vi opfatter derfor de 15 målinger som realisationer af uafhængige og identisk fordelte stokastiske variable X 1,...,X 15. Vi betragter altså modellen X i N(µ,σ 2 0), i = 1,...,n, hvor n = 15 og σ0 2 = 25. Parameteren µ varierer i R, og da de stokastiske variable er uafhængige er modelfunktionen f(x; µ) = n i=1 1 2πσ0 2 ( 1 = 2πσ0 2 e 1 2σ 0 2 (x i µ) 2 ) n 2 e 1 2σ 2 0 n i=1(x i µ) 2. (5.2) Modellen kontroleres ved hjælp af en fraktilsammenligning, som beskrevet i Afsnit 4.1.

17 Statistisk inferens Formålet med en statistik analyse er at opnå indsigt i den faglige problemstilling, der gav anledning til eksperimentet. Ved modelopstillingen blev parameteren ω valgt, således at den repræsenterer de aspekter ved det faglige problem, som er af speciel interesse. Statistisk inferens vedrører spørgsmålet om at formulere udsagn om parameteren ω - og dermed om det faglige problem - på baggrund af data x, udfaldet af eksperimentet. Disse udsagn har som formål at angive, i hvilken grad de forskellige parameterværdier ω, eller rettere de tilsvarende fordelingsfunktioner F ω (eller tæthedsfunktioner f( ; ω)), kan anses for at give en rimelig beskrivelse af data x. Estimationsteori og testteori anses traditionelt som de vigtigste discipliner i statistisk inferens. I estimationsteorien søges en afbildning ω ω ω : X Ω x ω ω ω(x), (5.3) der til data x tilordner en bestemt parameterværdi ω ω ω(x), se Figur 5.1. Denne værdi omtales som estimatet for (skønnet over) parameteren ω. Den tilsvarende stokastiske vektor ω ω ω(x) omtales som en estimator for ω. Vi vil ofte bruge notationen ω ω ω ω eller ω ω ω ω til at antyde, at ω ω ω er et estimat for ω. Figur 5.1 Illustration af en estimator ω ω ω.

18 Statistisk inferens Det er ofte en del af en statistisk analyse at undersøge, om en enklere statistiske model end den, der som udgangspunkt blev opstillet, giver en tilfredsstillende beskrivelse af data. Det kan netop være på den måde, man formulerer og besvarer et relevant fagligt spørgsmål. Lad Ω 0 betegne en delmængde af parameterrummet Ω. Hypotesen H 0 : ω Ω 0 (5.4) repræsenterer da en reduktion af den statistiske model. Hvis Ω 0 kun har ét element ω 0, omtales hypotesen som en simpel hypotese eller som en punkthypotese. I modsat fald betegnes hypotesen som sammensat. Testteorien angiver metoder til at vurdere, om hypotesen H 0 er rimelig eller ej på grundlag af data x. Matematisk set er et test blot en opdeling af værdimængden X i to disjunkte mængder R = {x X : H 0 forkastes på grundlag af x} A = {x X : H 0 forkastes ikke på grundlag af x}, (5.5) der betegnes som henholdsvis forkastelses- og acceptområdet for H 0. Mængden R (ikke at forveksle med de reelle tal R) omtales undertiden også som det kritiske område for H 0. Ofte fås den betragtede opdeling af værdimængden X som beskrevet på følgende måde, se også Figur 5.2: Lad T være en afbildning af X ind i de reelle tal og lad T R og T A være en opdeling af værdimængden T = T(X ) i to disjunkte mængder. Hvis R = T 1 (T R ) = {x X : T(x) T R } A = T 1 (T A ) = {x X : T(x) T A }, (5.6) omtales T som en testor af hypotesen H 0. Værdien T(x) af T svarende til data x omtales som teststørrelsen. Ud fra heuristiske argumenter er det ofte muligt at angive estimatorer og testorer i simple, konkrete situationer. Imidlertid er det naturligvis af værdi at have en general metodik, baseret på simple principper, der anviser estimatorer og testorer også i mere komplicerede situationer. Den metodik, vi skal omtale i det følgende, baserer sig på likelihood funktionen, som introduceres i det næste afsnit. De hertil hørende størrelser omtales som henholdsvis maksimum likelihood estimatoren og likelihood ratio testoren.

19 Likelihood inferens Figur 5.2 Illustration af en testor T for hypotesen H 0. Ideerne bag likelihood inferens og de første grundliggende udviklinger af dette begreb skyldes den engelske genetiker R. A. Fisher. Likelihood inferens er baseret på likelihood funktionen, som vi nu introducerer og diskuterer. Fra formuleringen af den statistiske model i Afsnit 5.2 ses det, at for fast værdi af parameteren ω er modelfunktionen f(x; ω) tæthedsfunktionen for den stokastiske vektor X. Hvis P ω betegner sandsynlighedsmålet svarende til tæthedsfunktionen f(x;ω) har vi derfor, at f(x;ω) = P ω (X = x), (5.7) hvis X er diskret. Hvis X er kontinuert er relationen mellem f(x;ω) og P ω givet ved hvor I x er en lille mængde omkring x, hvis indhold er dx. f(x;ω)dx P ω (X I x ), (5.8) For fast værdi af ω beskriver modelfunktionen altså sandsynlighederne knyttet til alle mulige realisationer af X. Data x er imidlertid en bestemt og fast realisation af X, og da vi ønsker at udtale os om forskellige værdier af ω i lys af data x, kunne vi prøve at betragte modelfunktionen som funktion af ω for fastholdt x. Vi har da stadig fortolkningen, at f(x; ω) er sandsynligheden af observationen x, hvis parameteren er ω. Det har vi direkte via (5.7), hvis X er diskret, eller

20 Likelihood inferens via fortolkningen i (5.8), hvis X er kontinuert. I den forstand er f(x;ω) et udtryk for troligheden eller rimeligheden af ω i lys af data x. R.A. Fisher valgte termen likelihood, fordi likelihood i lighed med probability i engelsk daglig tale bruges til at udtrykke grader af tiltro. Ved at vælge en anden term end probability understregede Fisher, at vi ikke har at gøre med sandsynligheder på parametrene. Termen likelihood er ikke oversat til dansk, og vi kalder f(x;ω) som funktion af ω for likelihood funktionen og betegner den L(ω) = f(x;ω) ω Ω, (5.9) idet vi underforstår afhængigheden af de observerede data. Men hvis vi ønsker at understrege, at vi betragter funktionen svarende til data x, skriver vi L(ω;x) i stedet for L(ω). Et eksempel på en likelihood funktion kan ses i Figur 5.3. Figur 5.3 Likelihood funktionen L(µ) (ganget med ) for middelværdien µ i én normalfordelt observationsrække med kendt varians (σ0 2 = 25) for data i Eksempel 4.1. Likelihood funktionen laver en ordning i parametermængden. Hvis vi et øjeblik betragter kun to parameterværdier ω 1 og ω 2, og på baggrund af data x ønsker at vælge, hvilken af de to parameterværdier, der bedst forklarer data, må det blive den, som har den største værdi af likelihood funktionen L(ω), fordi det er den som gør data mest sandsynlig. Vi siger, at værdien ω 1 er mere likely end ω 2 i lys af data x, hvis L(ω 1 ) > L(ω 2 ). På dansk vil vi undertiden bruge

21 ordet trolig i denne tekniske betydning, og altså sige, at ω 1 er mere trolig end ω 2 i lys af data x, hvis L(ω 1 ) > L(ω 2 ). Likelihood funktionens ordning af parametermængden leder umiddelbart til, at hvis vi vil angive én parameterværdi, som er i bedst overensstemmelse med data x, må det blive den værdi, som gør de observerede data mest sandsynlige, det vil sige den værdi, hvor likelihood funktionen antager sit maksimum. Vi har hermed introduceret begrebet maksimum likelihood estimation. Hvis der eksisterer en entydigt bestemt værdi ˆωˆωˆω, for hvilken likelihood funktionen L( ) antager sit maksimum, det vil sige L( ˆωˆωˆω) > L(ω) for alle ω Ω således at ω ˆωˆωˆω, kaldes denne værdi ˆωˆωˆω af parameteren for maksimum likelihood estimatet for ω. Med andre ord er maksimum likelihood estimatet ˆωˆωˆω = ( ˆωˆωˆω(x)) den mest trolige værdi af parameteren ω i lys af data x. Den tilsvarende stokastiske vektor ˆωˆωˆω(X) omtales som maksimum likelihood estimatoren. Undertiden er det lettere at maksimere log likelihood funktionen 5.9 l(ω) = lnl(ω) ω Ω, (5.10) end selve likelihood funktionen L( ). I de modeller, vi betragter, er likelihood funktionen (mindst) to gange differentiabel med kontinuerte (partielle) afledede, og det letter arbejdet med at finde den værdi, hvor likelihood funktionen antager sit maksimum. Da parametermængden er antaget at være et område, kan ˆωˆωˆω = ( ˆω 1,..., ˆω k ) findes som en løsning til ligningerne l ω j (ω) = 0, j = 1,2,...,k. (5.11) Disse ligninger, der kaldes likelihood ligningerne, kan undertiden løses eksplicit, men i nogle tilfælde må man benytte numeriske procedurer for at finde ˆωˆωˆω. Desuden må man også vurdere om en løsning til likelihood ligningerne er et punkt, hvor likelihood funktionen antager sit maksimum. Ofte består data x af n enkeltmålinger x 1,...,x n, det vil sige x = (x 1,...,x n ). Hvis vi som model kan benytte, at x 1,...,x n er udfald af uafhængige og identisk fordelte stokastiske variable X 1,...,X n, hvor tæthedsfunktionen for X i er f(x i ;ω),i = 1,...,n, vil vi omtale data som én observationsrække fra fordelingen F ω. Antagelsen om uafhængighed af de stokastiske variable medfører - som bekendt fra sandsynlighedsteorien - at tæthedsfunktionen for X er produktet af tæthedsfunktionerne for X i, i = 1,...,n. Likelihood funktionen L( ) og log likelihood funktionen l( ) bliver derfor i denne situation henholdsvis L(ω) = n i=1 f(x i ;ω) (5.12)

IDRÆTSSTATISTIK BIND 1

IDRÆTSSTATISTIK BIND 1 IDRÆTSSTATISTIK BIND 1 ii Det Naturvidenskabelige Fakultet Aarhus Universitet Reprocenter Preben Blæsild og Jørgen Granfeldt 2001 ISBN 87-87436-05-1 Bd.1 iii Forord Denne bog er skrevet til brug i et statistikkursus

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Preben Blæsild og Jens Ledet Jensen

Preben Blæsild og Jens Ledet Jensen χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt

Læs mere

Om hypoteseprøvning (1)

Om hypoteseprøvning (1) E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag susanne

Susanne Ditlevsen Institut for Matematiske Fag    susanne Statistik og Sandsynlighedsregning 1 STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 7. undervisningsuge, mandag 1 Estimation og konfidensintervaller

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Estimation og konfidensintervaller

Estimation og konfidensintervaller Statistik og Sandsynlighedsregning STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Estimation og konfidensintervaller Antag X Bin(n,

Læs mere

Statistik i basketball

Statistik i basketball En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Definition. Definitioner

Definition. Definitioner Definition Landmålingens fejlteori Lektion Diskrete stokastiske variable En reel funktion defineret på et udfaldsrum (med sandsynlighedsfordeling) kaldes en stokastisk variabel. - kkb@math.aau.dk http://people.math.aau.dk/

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Note til styrkefunktionen

Note til styrkefunktionen Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Aarhus Universitet 5. februar Meddelelse 2

Aarhus Universitet 5. februar Meddelelse 2 fdeling for Teoretisk Statistik IOSTTISTIK Institut for Matematiske Fag Preben læsild arhus Universitet 5. februar 2003 Meddelelse 2 Forelæsningerne i uge 6 (3-7.2) Ved forelæsningen den 4.2 gav Frank

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Lad os som eksempel se på samtidigt kast med en terning og en mønt:

Lad os som eksempel se på samtidigt kast med en terning og en mønt: SANDSYNLIGHEDSREGNING Stokastisk eksperiment Et stokastisk eksperiment er et eksperiment, hvor vi fornuftigvis ikke på forhånd kan have en formodning om resultatet af eksperimentet Til gengæld kan vi prøve

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Indblik i statistik - for samfundsvidenskab

Indblik i statistik - for samfundsvidenskab Indblik i statistik - for samfundsvidenskab Læs mere om nye titler fra Academica på www.academica.dk Nikolaj Malchow-Møller og Allan H. Würtz Indblik i statistik for samfundsvidenskab Academica Indblik

Læs mere

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau Hvad skal vi lave? 1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ. Teststatistik P-værdi Signifikansniveau 2 t-test for middelværdi Tosidet t-test for middelværdi Ensidet t-test for middelværdi

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900. 2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske

Læs mere

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau... Indhold 1 Statistisk inferens: Hypotese og test 2 1.1 Nulhypotese - alternativ.................................. 2 1.2 Teststatistik........................................ 3 1.3 P-værdi..........................................

Læs mere

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/41 Landmålingens fejlteori - lidt om kurset

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

statistik statistik viden fra data statistik viden fra data Jens Ledet Jensen Aarhus Universitetsforlag Aarhus Universitetsforlag

statistik statistik viden fra data statistik viden fra data Jens Ledet Jensen Aarhus Universitetsforlag Aarhus Universitetsforlag Jens Ledet Jensen på data, og statistik er derfor et nødvendigt værktøj i disse sammenhænge. Gennem konkrete datasæt og problemstillinger giver Statistik viden fra data en grundig indføring i de basale

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Hvad skal vi lave i dag?

Hvad skal vi lave i dag? p. 1/1 Hvad skal vi lave i dag? Repeterer lidt om diskrete sv. Standardfordelinger (binomial, Poisson, geometrisk) Stokastiske vektorer Diskrete stokastiske vektorer p. 2/1 Repetition Heltallige sv er

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Approksimation af binomialsandsynligheder, Afsnit 4.5 Multinomial fordeling, Afsnit 4.8 Negativ binomialfordeling, Afsnit 4.4 Poisson fordeling og Poisson process, Afsnit 4.6 Kontinuerte

Læs mere

Sandsynlighedsregning & Statistik

Sandsynlighedsregning & Statistik Sandsynlighedsregning & Statistik for matematikstuderende Jørgen Larsen 2006 Roskilde Universitet Teksten er sat med skriften Kp-Fonts ved hjælp af KOMA- Script og LATEX. Tegningerne er fremstillet med

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1 Økonometri 1 Inferens i den lineære regressionsmodel 25. september 2006 Økonometri 1: F6 1 Oversigt: De næste forelæsninger Statistisk inferens: hvorledes man med udgangspunkt i en statistisk model kan

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R Helle Sørensen Uge 6, mandag SaSt2 (Uge 6, mandag) Tætheder og kont. fordelinger 1 / 19 Program Velkommen I dag:

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 9, 2015 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro Uge 48 II Teoretisk Statistik 7. november 003 Numerisk modelkontrol af diskrete fordelinger: intro Eksempel: kvalitetskontrol Goodness-of-fit test: generel teori Endeligt udfaldsrum Udfaldsrum uden øvre

Læs mere

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007 Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave

Læs mere

Hvad skal vi lave i dag?

Hvad skal vi lave i dag? p. 1/15 Hvad skal vi lave i dag? Definition af sandsynlighedsrum. Egenskaber ved Sandsynlighedsmål. (Kap. 3). Fødselsdagsproblemet (supplerende eksempel 3.1). Betingede sandsynligheder og uafhængighed

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Nanostatistik: Opgaver

Nanostatistik: Opgaver Nanostatistik: Opgaver Jens Ledet Jensen, 19/01/05 Opgaver 1 Opgaver fra Indblik i Statistik 5 Eksamensopgaver fra tidligere år 11 i ii NANOSTATISTIK: OPGAVER Opgaver Opgave 1 God opgaveskik: Når I regner

Læs mere

Dagens program. Praktisk information:

Dagens program. Praktisk information: Dagens program Praktisk information: Husk hjemmeopgaven i statistik Hypoteseprøvning kap. 11.2,11.3 og 11.8 Eksempel på test Styrkefunktionen kap. 11.2 Stikprøvens størrelse kap. 11.3 Likelihood ratio

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

{ } { } {( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )}

{ } { } {( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )} Stokastisk eksperiment Et stokastisk eksperiment er et eksperiment, hvor vi fornuftigvis ikke på forhånd kan have en formodning om resultatet af eksperimentet. Til gengæld kan vi prøve at sige noget om,

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger

Teoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger Uge 49 I Teoretisk Statistik, 2. december 2003 Sammenligning af poissonfordelinger o Generel teori o Sammenligning af to poissonfordelinger o Eksempel Opsummering om multinomialfordelinger Fishers eksakte

Læs mere

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller

Læs mere

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1 Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006 Økonometri 1: F8 1 Dagens program Opsamling om asymptotiske egenskaber: Asymptotisk normalitet Asymptotisk efficiens Test af flere lineære

Læs mere

Sandsynlighedsregning & Statistik

Sandsynlighedsregning & Statistik Jørgen Larsen Sandsynlighedsregning & Statistik for matematikstuderende 2006 Indhold Forord 5 Del I Sandsynlighedsregning 7 Indledning 9 Endelige udfaldsrum. Grundlæggende definitioner.....................

Læs mere

Undervisningsbeskrivelse

Undervisningsbeskrivelse Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Institution Uddannelse Fag og niveau Lærer(e) Hold Termin hvori undervisningen afsluttes: Juni 2013 Roskilde

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Fagplan for statistik, efteråret 2015

Fagplan for statistik, efteråret 2015 Side 1 af 7 M Fagplan for statistik, efteråret 20 Litteratur Kenneth Hansen & Charlotte Koldsø (HK): Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave, ISBN 9788741256047 HypoStat

Læs mere

Statistik viden eller tilfældighed

Statistik viden eller tilfældighed MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Indledende om Signifikanstest Boldøvelser 1 Påstand: Et nyt præparat M virker mod migræne. Inden præparatet kan markedsføres, skal denne påstand

Læs mere

Forelæsning 9: Inferens for andele (kapitel 10)

Forelæsning 9: Inferens for andele (kapitel 10) Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Binomialfordelingen. Binomialfordelingen. Binomialfordelingen

Binomialfordelingen. Binomialfordelingen. Binomialfordelingen Statistik og Sandsynlighedsregning 1 MS kapitel 3 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Definition 3.2.1 Lad X 1, X 2,..., X n være uafhængige

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Afsnit 3.1-3.2 Middelværdi -Definition - Regneregler Betinget middelværdi Middelværdier af funktioner af stokastiske variable Loven om den itererede middelværdi Eksempler 1 Beskrivelse af

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Nanostatistik: Opgavebesvarelser

Nanostatistik: Opgavebesvarelser Nanostatistik: Opgavebesvarelser JLJ Nanostatistik: Opgavebesvarelser p. 1/16 Pakkemaskine En producent hævder at poserne indeholder i gennemsnit 16 ounces sukker. Data: 10 pakker sukker: 16.1, 15.8, 15.8,

Læs mere

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen

Statistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen Statistik Lektion etinget sandsynlighed ayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV inomialfordelingen Repetition Udfaldsrum S Hændelse S Simpel hændelse O i 1, 3 4,

Læs mere

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 Indledning 2 Sandsynlighed i binomialfordelingen 3 Normalfordelingen 4 Modelkontrol

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner

Læs mere

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 7: Eksempler 7.1 Beskrivende dataanalyse............................... 1 7.1.1 Diagrammer.................................

Læs mere

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt

Læs mere

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen

Velkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen 1 Velkommen til kurset Teoretisk Statistik Lærer: Niels-Erik Jensen Plan for i dag: 1. Eks: Er euro'en skæv? 4. Praktiske informationer 2. Eks: Regressionsmodel (kap. 1) 5. Lidt om kursets indhold 3. Hvad

Læs mere

TØ-opgaver til uge 46

TØ-opgaver til uge 46 TØ-opgaver til uge 46 Først laver vi en liste over de ligninger med mere i [ITP], der skal bruges: [1]: Ligning (2.5) på side 4. [2]: Sætning 3.1, ligning (3.3) på side 7. [3]: Sætning 3.1, ligning (3.4)

Læs mere

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t. t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program (8.15-10): 1. repetition: fordeling af observatorer X, S 2 og t. 2. konfidens-intervaller, hypotese test, type I og type II fejl, styrke,

Læs mere