IDRÆTSSTATISTIK BIND 2
|
|
- Ludvig Berg
- 8 år siden
- Visninger:
Transkript
1 IDRÆTSSTATISTIK BIND 2
2 ii Det Naturvidenskabelige Fakultet Aarhus Universitet Reprocenter Preben Blæsild og Jørgen Granfeldt 2001 ISBN Bd.2
3 iii Forord Denne bog er skrevet til brug i et statistikkursus for bachelorstuderende ved Center for Idræt, Aarhus Universitet. Bag bogen ligger samme holdninger både til statistisk analyse og til begynderundervisning i statistik, der primært retter sig mod brugere, som i Blæsild og Granfeldt (2000) Statistik for biologer og geologer. Et vigtigt holdepunkt i statistisk analyse er modelbegrebet. Man vælger en statistisk model, som kan belyse den faglige problemstilling. Det vil sige, at parametrene i modellen kan fortolkes i den faglige problemstilling, og at interessante faglige hypoteser svarer til restriktioner på parametrene. En faglig hypotese afprøves ved at undersøge (teste), om man kan acceptere en reduktion af modellen til en ny model, som er enklere ved at have færre parametre. Gør man sig det klart, kan man hurtigt lære at analysere temmelig komplicerede problemstillinger korrekt. Ydermere bliver analysen til at følge også for folk, som hverken er specialister på det faglige område eller er professionelle statistikere. Et tidsvarende brugerkursus i statistik må benytte EDB og en statistisk programpakke. Ved dette kursus er valgt regnearket Excel og den statistik pakke der under navnet Dataanalyse optræder som et tilføjelsesprogram til Excel, men der er ikke benyttet faciliteter, som er specielle for denne statistik pakke, og bogen kan uden vanskelighed anvendes sammen med andre statistiske programpakker. Argumentet for at benytte Excel er, at regnearket er tilgængeligt på de fleste PC-er imodsætning til mere kostbare og specialiserede statistiske programpakker såsom for eksempel SAS, Genstat og BMDP. Disse programpakker er designet specielt til brug i forbindelse med statistisk analyse og kan derfor udføre beregningerne i meget mere avancerede statistiske modeller end regnearket Excel kan. Disse noter demonsterer forhåbenligt at i forbindelse med et elementært kursus i statistik er Excel et brugbart alternativ. Når man bruger statistiske programpakker i undervisningen bliver modellerne, som beskrevet ovenfor, det faste holdepunkt når man skal orientere sig i udskrifterne. Man kan bruge en programpakke til statistisk analyse, når man har lært dels at specificere modeller i programpakken og dels at teste reduktionen fra én model til en simplere ved at hente relevante oplysninger ud fra udskrifterne fra estimationen i de to modeller.
4 iv Kun få kan lære statistik uden at få metoderne ind gennem fingrene. Vi har derfor valgt både at præsentere, hvordan de enkleste modeller kan regnes på lommeregner, og hvordan de kan regnes ved at orientere sig i udskrifter fra en programpakke. For normalfordelte data vises både for én, to og k observationsrækker, samt én regressionslinje, hvordan modellerne regnes igennem på lommegner, mens en mere kompliceret model som tosidet variansanalyse kun skal kunne klares med henvisning til programudskrifter. Et statistikkursus for studerende, der ikke har et vist kendskab til de mest basale begreber i sandsynlighedsteorien, fremstår for os som en umulighed. I Kapitel 2 introduceres og/eller repeteres disse begreber, der illustreres ved en række eksempler, som er valgt ud fra det princip, at de matematisk skulle være lette at håndtere. Kapitel 3 er at betragte som et katalog vedrørende definition af og egenskaber ved de fordelinger som anvendes i forbindelse med de statistiske modeller i de senere kapitler. Kaptitel 2 gennemgås efter diskussionen i Kapitel 1 af grafiske og numeriske metoder i forbindelse med beskrivende statistik. Herefter fortsættes med modellerne for normalfordelte data i Kapitel 4 idet de hertil relaterede fordelinger fra Kapitel 3 omtales undervejs. Efter adskillige eksempler på statistisk analyse i forbindelse med normalfordelingen i Kapitel 4 diskuteres hovedtrækkene i en analyse af en parametrisk statistisk model i generelle termer i Kapitel 5. Derefter gennemgås Kapitel 6 om multinomialfordelte data og Kapitel 7 om Poissonfordelte data. Bogen slutter med omtale af nogle simple ikke-parametriske test i Kapitel 8. Som nævnt ovenfor foretrækker vi at betragte parametriske statistiske modeller. Formålet med Kapitel 8 er at orientere læserne om at ikke alle deler denne holdning og for at give et kort indblik i de alternative metoder. Det vil være muligt at læse kapitlerne i en anden rækkefølge, men man skal være opmærksom på, at de statistiske grundbegreber som nulhypotese, test, testsandsynlighed, signifikansniveau og så videre gennemgås i forbindelse med Afsnit 4.2. Uden dataeksempler, som udspringer af en faglig problemstilling, bliver en lærebog til et brugerkursus i statistik temmelig uinteressant. En del af eksemplerne er taget fra Andersen (1998) Statistik for Idrætsstuderende med forfatterens tilladelse, hvilket vi er taknemmelige for. Vi vil også gerne takke medarbejdere og studerende ved Center for Idræt, Aarhus Universitet og ved Institut for Idræt, Københavns Universitet, som har stillet data og deres historie til rådighed for bogens eksempler og opgaver. Bogen er blevet brugt ved Idrætsstatistik i efteråret 2000 og bygger på erfaringer fra et lignede kursus i efteråret 1999 og en særlig tak går til Jakob Krabbe Pedersen og Lars Bo Kristensen for deres store indstats som instruktorer på disse to kurser og for deres påvisning af trykfejl. Bogen er skrevet LATEX, og Jacob Goldbach har skrevet de stylefiler i LATEX, som definerer
5 v udseendet af bogen, men derudover har Jacob Goldbach tålmodigt besvaret utallige spørgsmål om LATEX ligesom Frank Allan Hansen, Niels Væver Hartvig og Michael Kjærgård Sørensen velvilligt har assisteret os. I forhold til versionen af bogen fra maj 2001 er der rettet en del trykfejl og nogle få figurer er blevet tilføjet. Vi vil gerne takke Lars Madsen for meget kompetent bistand med LATEX spørgsmål i forbindelse med revisionen og Michael Kjærgård Sørensen for at have produceret de nye figurer. Århus, august 2005 Preben Blæsild og Jørgen Granfeldt
6 vi
7 vii Indhold 1 Data og beskrivende statistik Prik- og pindediagrammer Histogrammer Empiriske størrelser Grupperede data Kvalitative data Flerdimensionale data Anneks til Kapitel Opgaver til Kapitel Begreber fra sandsynlighedsteorien Sandsynlighedsrum Definition af sandsynlighedsmål Regneregler for sandsynligheder Betingede sandsynligheder og uafhængighed Stokastiske variable Diskrete stokastiske variable Kontinuerte stokastiske variable Stokastiske vektorer Diskrete stokastiske vektorer Kontinuerte stokastiske vektorer Marginale fordelinger Uafhængighed Betingede fordelinger Middelværdi og varians Opgaver til Kapitel
8 viii 3 Specielle fordelinger Normalfordelingen og relaterede fordelinger Normalfordelingen Den todimensionale normalfordeling χ 2 -fordelingen t-fordelingen F-fordelingen Diskrete fordelinger Binomialfordelingen Multinomialfordelingen Poissonfordelingen Den hypergeometriske fordeling Den negative binomialfordeling Opgaver til Kapitel Normalfordelte data Fraktilsammenligning Ugrupperede observationer Grupperede data Transformation Anneks til Afsnit Én observationsrække med kendt varians Anneks til Afsnit Hovedpunkter til Afsnit Én observationsrække med ukendt varians Anneks til Afsnit Hovedpunkter til Afsnit To observationsrækker Test for varianshomogenitet Ens varians Forskellig varians Parrede observationer Anneks til Afsnit Hovedpunkter til Afsnit k observationsrækker Test for varianshomogenitet
9 ix Test for ens middelværdier Forskelle og ligheder i behandlingen af to og k observationsrækker Notation og test i forbindelse med en følge af modeller Anneks til Afsnit Hovedpunkter til Afsnit Lineær regression Lineær regression uden gentagelser Lineær regression med gentagelser Hypoteser om regressionsparametrene Korrelation og/eller regression Anneks til Afsnit Hovedpunkter til Afsnit Tosidet variansanalyse Anneks til Afsnit Hovedpunkter til Afsnit Opgaver til Kapitel Indeks I.1 5 Statistisk analyse Data Modelopstilling Modelkontrol Statistisk inferens Likelihood inferens Begreber fra generel testteori Approksimativ likelihood teori Afsluttende bemærkninger Opgaver til Kapitel Multinomialfordelte data Eksempler Inferens i én multinomialfordeling Test af simpel hypotese Uafhængighed af inddelingskriterier Inferens i flere multinomialfordelinger
10 x Homogenitet af flere multinomialfordelinger Fishers eksakte test Test for goodness of fit Anneks til Kapitel Hovedpunkter til Kapitel Opgaver til Kapitel Poissonfordelte data Eksempler Sandsynlighedsteoretiske resultater vedrørende Poissonfordelingen Én observationsrække Inferens i flere fordelinger Poissonmodellen med proportionale parametre Den multiplikative Poissonmodel Anneks til Kapitel Hovedpunkter til Kapitel Opgaver til Kapitel Ikke-parametriske test Fortegnstestet Rangtest Wilcoxons test for én observationsrække Wilcoxons test for to observationsrækker Kruskal-Wallis test Anneks til Kapitel Hovedpunkter til Kapitel Opgaver til Kapitel A Forskellige matematiske begreber A.1 A.1 Notation fra mængdelæren A.1 A.2 Rækker A.3 A.3 Dobbeltintegraler og partiel differentiation A.4 A.3.1 Dobbeltintegraler A.5 A.3.2 Partiel differentiation A.5 B Simulerede fraktildiagrammer B.1
11 xi C Matematiske symboler C.1 D Det græske alfabet D.1 Indeks I.1
12 xii
13 5 Statistisk analyse Statistisk analyse Vi har i Kapitel 4 set adskillige eksempler på statistiske analyser og i disse eksempler er e- stimater og teststørrelser valgt ud fra heuristiske argumenter. Disse valg er dog baseret på en generel metode, der omtales i dette kapitel. Denne metode kan benyttes i andre situationer, hvor valg af estimatorer og teststørrelser ikke kan baseres på heuristiske argumenter. Kapitlet indeholder en beskrivelse af de vigtigste ingredienser i en statistisk analyse samt en præsentation af de basale matematiske og/eller filosofiske begreber, der ligger til grund for de statistiske metoder, vi betragter i disse noter. Næsten alle de statistiske metoder, der er blevet eller vil blive omtalt i noterne, kan faktisk opfattes som specialtilfælde - eller illustrationer - af den generelle metodik, som diskuteres i dette kapitel. Eneste undtagelse er metoderne i Kapitel 8. Formålet med kapitlet er at fremstille de grundliggende begreber og ideer så overskueligt som muligt, og vi har valgt at gøre dette med reference til teorien for én normalfordelt observationsrække med kendt varians i Afsnit 4.2. En nybegynder i statistisk analyse kan betragte kapitlet som udstilling af fundamentale begreber i statistisk analyse, som er blevet og også senere vil blive anvendt og illustreret igen og igen. En mere erfaren læser kan derimod betragte kapitlet som et lille opslagsværk vedrørende begreber og terminologi i statistisk analyse. Afsnit 5.1 vedrører videnskabelige eksperimenter og data. Vi har valgt at fokusere på tre hovedingredienser eller aktiviteter i en statistisk analyse i) modelopstilling ii) modelkontrol iii) statistisk inferens som omtales i Afsnit Statistik inferens baseret på begrebet likelihood diskuteres i Afsnit 5.5 og i Afsnit 5.6 omtales nogle få begreber fra den generelle testteori. Approksimative statistiske metoder omtales i Afsnit 5.7 og endelig indeholder Afsnit 5.8 nogle afsluttende bemærkninger.
14 Modelopstilling 5.1 Data Udgangspunktet for en statistisk analyse er et datasæt x, der er resultatet af et eksperiment, udført med det formål at få indblik i en speciel faglig sammenhæng. Betegnelsen eksperiment skal her forstås i en bred forstand. Data fra idræt kan for eksempel være bestemmelser af kondital, hæmatokritværdier eller andre fysiologiske målinger. Data er ofte indsamlet for at få indblik i, hvorledes træning eller konkurrence påvirker målingerne. En anden form for data er resultater fra konkurrencer, der studeres for at få indsigt i, hvordan forskellige personer eller hold klarer sig i forhold til hinanden eller for at sammenligne præstationer udført under forskellige omstændigheder. 5.2 Modelopstilling Karakteristisk for et datasæt x i et eksperiment er, at det er stokastisk; det vil sige, at hvis man gentager eksperimentet eller målingerne under lignende omstændigheder, bliver resultatet ikke nødvendigvis x. Dette er i modsætning til en deterministisk situation, hvor udfald på forhånd kan bestemmes med sikkerhed. Men selv om udfaldene af eksperimentet ikke kan angives på forhånd er der ofte en regelmæssighed på et højere niveau, som man netop kan erkende, hvis forsøget gentages mange gange. En byggesten i beskrivelsen af et eksperiment er derfor en sandsynlighedsteoretisk model. En sandsynlighedsteoretisk model består af tre komponenter: 1) udfaldsrummet, X, som er samtlige værdier (udfald), som eksperimentet kan få; 2) hændelsessystemet, A, som omfatter alle de hændelser vi vil betragte; og 3) sandsynlighedsmålet, P, som angiver sandsynligheden af alle hændelser i A. Det stokastiske element i et eksperiment beskrives af hændelsessystemet og sandsynlighedsmålet, som beskriver alle hændelser vi er interesserede i og deres sandsynligheder. Vi beskriver ofte det stokastiske ved et datasæt ved at opfatte data x som en realisation af en stokastisk vektor X. Denne stokastiske vektor kan man tænke på som identitetsafbildningen på udfaldsrummet X og dens fordeling som givet ved sandsynlighedsmålet P. Vi indskrænker os til kun betragte diskrete og kontinuerte stokastiske vektorer. Hændelsessystemet vil omfatte alle etpunktsmængder, alle intervaller og alle mængder, der kan dannes udfra dem med de sædvanlige mængdeoperationer, som foreningsmængde, fællesmængde og komplementærmængde. Sandsynlighedsmålene på disse hændelsessystemer kan repræsenteres enten ved deres fordelingsfunktionen F eller deres tæthedsfunktion f. En statistisk model er en parametriseret mængde af sandsynlighedsteoretiske modeller. Sædvanligvis er udfaldsrummene og hændelsessystemerne identiske for alle de sandsynlighedsteo-
15 5.3 retiske modeller, og i det tilfælde kan man tænke på en statistisk model som en sandsynlighedsteoretisk model, hvor sandsynlighedsmålet er blevet erstattet med en parametriseret klasse af sandsynlighedsmål, P = {P ω ω Ω}. Alternativt kan klassen af sandsynlighedsmål repræsenteres med en parametriseret klasse af fordelinger, F = {F ω ω Ω}, eller en parametriseret klasse af tætheder { f( ;ω) ω Ω}. Her er parameteren ω = (ω 1,...,ω k ), og vi antager altså, at Ω, parameterrummet (parametermængden), er en delmængde af R k. Parameteren ω bør vælges, således at den er relevant for det faglige problem, der ligger til grund for eksperimentet. Det vil sige, at parameteren skal vælges, således at udsagn vedrørende det faglige problem kan formuleres ved hjælp af ω. Med undtagelse af modellerne i Kapitel 8 er alle de statistiske modeller, der betragtes i disse noter, på formen Vores foretrukne repræsentation af sandsynlighedsmålene er via tætheder, og vi kalder funktionen (X,A ;P) = (X,A ;{P ω ω Ω}). X Ω R (x,ω) f(x;ω) (5.1) for modelfunktionen. Modelfunktionen er tætheden som funktion af både udfaldet x og parameteren ω. For at gøre de matematiske overvejelser lettere vil vi antage, at parametermængden Ω kan vælges som et område i R k ; det vil sige, at Ω er en åben 1 og sammenhængende 2 delmængde af R k. Vi har nu fået fastlagt de termer og den notation vi vil bruge i omtalen af statistiske modeller. Modelopstilling opfatter vi som den proces, hvor man identificerer komponenterne i den statistiske model: udfaldsrum, hændelsessystem og klassen af fordelinger. Det er sædvanligvis uproblematisk at bestemme sig for udfaldsrummet, og dermed er hændelsessystemet også givet. Det væsentligste arbejde er i forbindelse med identifikation af den parametriserede klasse af fordelinger, som man vil betragte. Det betyder også, at man i omtalen af modellerne ofte undlader at nævne hele triplet (X,A ;{P ω ω Ω}), men fokuserer på fordelingerne {P ω ω Ω}. Endda går man ofte så vidt, at man nøjes med at specificere parametermængden Ω, idet både udfaldsrum, hændelsessystem og fordelingsklasse er underforstået. I arbejdet med at identificere en klasse af fordelinger inddrager man almindelig og specifik viden om forsøgsomstændighederne og undertiden erfaringer fra statistiske analyser af lignende forsøg. Sædvanligvis er de indledende grafiske procedurer, der omtales i Kapitel 1, særdeles 1 Ω er åben, hvis et vilkårligt punktω Ω er centrum for en kugle, der helt er indeholdt i Ω. 2 Ω er sammenhængende, hvis to vilkårlige punkter ω og ω i Ω kan forbindes med hinanden ved hjælp af linjestykker, der alle er indeholdt i Ω.
16 Modelkontrol nyttige i forbindelse med modelopstilling. Dette trin i en statistisk analyse kræver ofte en så betydelig indsigt i den faglige sammenhæng, at et samarbejde mellem fagmanden fra idræt og statistikeren er påkrævet. 5.3 Modelkontrol Dette punkt i en statistisk analyse vedrører vurdering af rimeligheden af den opstillede statistiske model. Det undersøges, om data x strider mod en eller flere væsentlige konsekvenser af modellen. Hvis dette er tilfældet, forkastes modellen og en ny opstilles; hvis ikke, er man klar til at gå videre til næste punkt i analysen, statistisk inferens. Bemærk, at man ved den skitserede procedure på ingen måde opnår sikkerhed for, at modellener korrekt. Det er vanskeligt at give en generel beskrivelse af dette punkt i en statistisk analyse, idet metoderne dels afhænger af modellen og dels af de betragtede aspekter ved modellen. Desuden skal det understreges, at modelkontrol ikke er begrænset til de indledende faser af en statistisk undersøgelse. I mange modeller, for eksempel i regressionsmodeller, sker den væsentligste del af modelkontrollen efter, at man har estimeret i modellen. Som det fremgår af næsten alle de følgende kapitler, indgår såvel grafiske som numeriske undersøgelser i kontrollen af en model. Eksempel 4.1 (Fortsat) Ved opstillingen af en model for data x som består af de 15 målingerx 1,...,x 15 af laktat koncentrationen i den samme blodprøve med en kendt koncentration på 80 mg/l benytter vi oplysningen om, at erfaringsmæssigt kan sådanne målinger betragtes som normalfordelte med en spredning på 5mg/l. Vi opfatter derfor de 15 målinger som realisationer af uafhængige og identisk fordelte stokastiske variable X 1,...,X 15. Vi betragter altså modellen X i N(µ,σ 2 0), i = 1,...,n, hvor n = 15 og σ0 2 = 25. Parameteren µ varierer i R, og da de stokastiske variable er uafhængige er modelfunktionen f(x; µ) = n i=1 1 2πσ0 2 ( 1 = 2πσ0 2 e 1 2σ 0 2 (x i µ) 2 ) n 2 e 1 2σ 2 0 n i=1(x i µ) 2. (5.2) Modellen kontroleres ved hjælp af en fraktilsammenligning, som beskrevet i Afsnit 4.1.
17 Statistisk inferens Formålet med en statistik analyse er at opnå indsigt i den faglige problemstilling, der gav anledning til eksperimentet. Ved modelopstillingen blev parameteren ω valgt, således at den repræsenterer de aspekter ved det faglige problem, som er af speciel interesse. Statistisk inferens vedrører spørgsmålet om at formulere udsagn om parameteren ω - og dermed om det faglige problem - på baggrund af data x, udfaldet af eksperimentet. Disse udsagn har som formål at angive, i hvilken grad de forskellige parameterværdier ω, eller rettere de tilsvarende fordelingsfunktioner F ω (eller tæthedsfunktioner f( ; ω)), kan anses for at give en rimelig beskrivelse af data x. Estimationsteori og testteori anses traditionelt som de vigtigste discipliner i statistisk inferens. I estimationsteorien søges en afbildning ω ω ω : X Ω x ω ω ω(x), (5.3) der til data x tilordner en bestemt parameterværdi ω ω ω(x), se Figur 5.1. Denne værdi omtales som estimatet for (skønnet over) parameteren ω. Den tilsvarende stokastiske vektor ω ω ω(x) omtales som en estimator for ω. Vi vil ofte bruge notationen ω ω ω ω eller ω ω ω ω til at antyde, at ω ω ω er et estimat for ω. Figur 5.1 Illustration af en estimator ω ω ω.
18 Statistisk inferens Det er ofte en del af en statistisk analyse at undersøge, om en enklere statistiske model end den, der som udgangspunkt blev opstillet, giver en tilfredsstillende beskrivelse af data. Det kan netop være på den måde, man formulerer og besvarer et relevant fagligt spørgsmål. Lad Ω 0 betegne en delmængde af parameterrummet Ω. Hypotesen H 0 : ω Ω 0 (5.4) repræsenterer da en reduktion af den statistiske model. Hvis Ω 0 kun har ét element ω 0, omtales hypotesen som en simpel hypotese eller som en punkthypotese. I modsat fald betegnes hypotesen som sammensat. Testteorien angiver metoder til at vurdere, om hypotesen H 0 er rimelig eller ej på grundlag af data x. Matematisk set er et test blot en opdeling af værdimængden X i to disjunkte mængder R = {x X : H 0 forkastes på grundlag af x} A = {x X : H 0 forkastes ikke på grundlag af x}, (5.5) der betegnes som henholdsvis forkastelses- og acceptområdet for H 0. Mængden R (ikke at forveksle med de reelle tal R) omtales undertiden også som det kritiske område for H 0. Ofte fås den betragtede opdeling af værdimængden X som beskrevet på følgende måde, se også Figur 5.2: Lad T være en afbildning af X ind i de reelle tal og lad T R og T A være en opdeling af værdimængden T = T(X ) i to disjunkte mængder. Hvis R = T 1 (T R ) = {x X : T(x) T R } A = T 1 (T A ) = {x X : T(x) T A }, (5.6) omtales T som en testor af hypotesen H 0. Værdien T(x) af T svarende til data x omtales som teststørrelsen. Ud fra heuristiske argumenter er det ofte muligt at angive estimatorer og testorer i simple, konkrete situationer. Imidlertid er det naturligvis af værdi at have en general metodik, baseret på simple principper, der anviser estimatorer og testorer også i mere komplicerede situationer. Den metodik, vi skal omtale i det følgende, baserer sig på likelihood funktionen, som introduceres i det næste afsnit. De hertil hørende størrelser omtales som henholdsvis maksimum likelihood estimatoren og likelihood ratio testoren.
19 Likelihood inferens Figur 5.2 Illustration af en testor T for hypotesen H 0. Ideerne bag likelihood inferens og de første grundliggende udviklinger af dette begreb skyldes den engelske genetiker R. A. Fisher. Likelihood inferens er baseret på likelihood funktionen, som vi nu introducerer og diskuterer. Fra formuleringen af den statistiske model i Afsnit 5.2 ses det, at for fast værdi af parameteren ω er modelfunktionen f(x; ω) tæthedsfunktionen for den stokastiske vektor X. Hvis P ω betegner sandsynlighedsmålet svarende til tæthedsfunktionen f(x;ω) har vi derfor, at f(x;ω) = P ω (X = x), (5.7) hvis X er diskret. Hvis X er kontinuert er relationen mellem f(x;ω) og P ω givet ved hvor I x er en lille mængde omkring x, hvis indhold er dx. f(x;ω)dx P ω (X I x ), (5.8) For fast værdi af ω beskriver modelfunktionen altså sandsynlighederne knyttet til alle mulige realisationer af X. Data x er imidlertid en bestemt og fast realisation af X, og da vi ønsker at udtale os om forskellige værdier af ω i lys af data x, kunne vi prøve at betragte modelfunktionen som funktion af ω for fastholdt x. Vi har da stadig fortolkningen, at f(x; ω) er sandsynligheden af observationen x, hvis parameteren er ω. Det har vi direkte via (5.7), hvis X er diskret, eller
20 Likelihood inferens via fortolkningen i (5.8), hvis X er kontinuert. I den forstand er f(x;ω) et udtryk for troligheden eller rimeligheden af ω i lys af data x. R.A. Fisher valgte termen likelihood, fordi likelihood i lighed med probability i engelsk daglig tale bruges til at udtrykke grader af tiltro. Ved at vælge en anden term end probability understregede Fisher, at vi ikke har at gøre med sandsynligheder på parametrene. Termen likelihood er ikke oversat til dansk, og vi kalder f(x;ω) som funktion af ω for likelihood funktionen og betegner den L(ω) = f(x;ω) ω Ω, (5.9) idet vi underforstår afhængigheden af de observerede data. Men hvis vi ønsker at understrege, at vi betragter funktionen svarende til data x, skriver vi L(ω;x) i stedet for L(ω). Et eksempel på en likelihood funktion kan ses i Figur 5.3. Figur 5.3 Likelihood funktionen L(µ) (ganget med ) for middelværdien µ i én normalfordelt observationsrække med kendt varians (σ0 2 = 25) for data i Eksempel 4.1. Likelihood funktionen laver en ordning i parametermængden. Hvis vi et øjeblik betragter kun to parameterværdier ω 1 og ω 2, og på baggrund af data x ønsker at vælge, hvilken af de to parameterværdier, der bedst forklarer data, må det blive den, som har den største værdi af likelihood funktionen L(ω), fordi det er den som gør data mest sandsynlig. Vi siger, at værdien ω 1 er mere likely end ω 2 i lys af data x, hvis L(ω 1 ) > L(ω 2 ). På dansk vil vi undertiden bruge
21 ordet trolig i denne tekniske betydning, og altså sige, at ω 1 er mere trolig end ω 2 i lys af data x, hvis L(ω 1 ) > L(ω 2 ). Likelihood funktionens ordning af parametermængden leder umiddelbart til, at hvis vi vil angive én parameterværdi, som er i bedst overensstemmelse med data x, må det blive den værdi, som gør de observerede data mest sandsynlige, det vil sige den værdi, hvor likelihood funktionen antager sit maksimum. Vi har hermed introduceret begrebet maksimum likelihood estimation. Hvis der eksisterer en entydigt bestemt værdi ˆωˆωˆω, for hvilken likelihood funktionen L( ) antager sit maksimum, det vil sige L( ˆωˆωˆω) > L(ω) for alle ω Ω således at ω ˆωˆωˆω, kaldes denne værdi ˆωˆωˆω af parameteren for maksimum likelihood estimatet for ω. Med andre ord er maksimum likelihood estimatet ˆωˆωˆω = ( ˆωˆωˆω(x)) den mest trolige værdi af parameteren ω i lys af data x. Den tilsvarende stokastiske vektor ˆωˆωˆω(X) omtales som maksimum likelihood estimatoren. Undertiden er det lettere at maksimere log likelihood funktionen 5.9 l(ω) = lnl(ω) ω Ω, (5.10) end selve likelihood funktionen L( ). I de modeller, vi betragter, er likelihood funktionen (mindst) to gange differentiabel med kontinuerte (partielle) afledede, og det letter arbejdet med at finde den værdi, hvor likelihood funktionen antager sit maksimum. Da parametermængden er antaget at være et område, kan ˆωˆωˆω = ( ˆω 1,..., ˆω k ) findes som en løsning til ligningerne l ω j (ω) = 0, j = 1,2,...,k. (5.11) Disse ligninger, der kaldes likelihood ligningerne, kan undertiden løses eksplicit, men i nogle tilfælde må man benytte numeriske procedurer for at finde ˆωˆωˆω. Desuden må man også vurdere om en løsning til likelihood ligningerne er et punkt, hvor likelihood funktionen antager sit maksimum. Ofte består data x af n enkeltmålinger x 1,...,x n, det vil sige x = (x 1,...,x n ). Hvis vi som model kan benytte, at x 1,...,x n er udfald af uafhængige og identisk fordelte stokastiske variable X 1,...,X n, hvor tæthedsfunktionen for X i er f(x i ;ω),i = 1,...,n, vil vi omtale data som én observationsrække fra fordelingen F ω. Antagelsen om uafhængighed af de stokastiske variable medfører - som bekendt fra sandsynlighedsteorien - at tæthedsfunktionen for X er produktet af tæthedsfunktionerne for X i, i = 1,...,n. Likelihood funktionen L( ) og log likelihood funktionen l( ) bliver derfor i denne situation henholdsvis L(ω) = n i=1 f(x i ;ω) (5.12)
IDRÆTSSTATISTIK BIND 1
IDRÆTSSTATISTIK BIND 1 ii Det Naturvidenskabelige Fakultet Aarhus Universitet Reprocenter Preben Blæsild og Jørgen Granfeldt 2001 ISBN 87-87436-05-1 Bd.1 iii Forord Denne bog er skrevet til brug i et statistikkursus
Læs mereTema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Læs mere3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Læs merePreben Blæsild og Jens Ledet Jensen
χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt
Læs mereOm hypoteseprøvning (1)
E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;
Læs mereSusanne Ditlevsen Institut for Matematiske Fag susanne
Statistik og Sandsynlighedsregning 1 STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 7. undervisningsuge, mandag 1 Estimation og konfidensintervaller
Læs mereOverheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.
Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.
Læs mereI dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd
I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt
Læs mereTema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
Læs mere4 Oversigt over kapitel 4
IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt
Læs mereHypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0
Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt
Læs mereKursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen
Læs mereDagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22
Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som
Læs mereEstimation og konfidensintervaller
Statistik og Sandsynlighedsregning STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Estimation og konfidensintervaller Antag X Bin(n,
Læs mereStatistik i basketball
En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større
Læs mereNote om Monte Carlo metoden
Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at
Læs mereDefinition. Definitioner
Definition Landmålingens fejlteori Lektion Diskrete stokastiske variable En reel funktion defineret på et udfaldsrum (med sandsynlighedsfordeling) kaldes en stokastisk variabel. - kkb@math.aau.dk http://people.math.aau.dk/
Læs mere1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable
Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder
Læs mereNormalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Læs mereElementær sandsynlighedsregning
Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en
Læs mereElementær sandsynlighedsregning
Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder
Læs mereDagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at
Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af
Læs mereNote til styrkefunktionen
Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereKursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Læs mereDefinition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.
Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:
Læs mereLandmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable
Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:
Læs mereAgenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede
Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater
Læs mereSupplement til kapitel 7: Approksimationen til normalfordelingen, s. 136
Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man
Læs merePraktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser
Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag
Læs mereStatistiske modeller
Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder
Læs mereAarhus Universitet 5. februar Meddelelse 2
fdeling for Teoretisk Statistik IOSTTISTIK Institut for Matematiske Fag Preben læsild arhus Universitet 5. februar 2003 Meddelelse 2 Forelæsningerne i uge 6 (3-7.2) Ved forelæsningen den 4.2 gav Frank
Læs mereAnvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele
Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om
Læs mereProdukt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
Læs mereNormalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
Læs mereCenter for Statistik. Multipel regression med laggede responser som forklarende variable
Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der
Læs mereLad os som eksempel se på samtidigt kast med en terning og en mønt:
SANDSYNLIGHEDSREGNING Stokastisk eksperiment Et stokastisk eksperiment er et eksperiment, hvor vi fornuftigvis ikke på forhånd kan have en formodning om resultatet af eksperimentet Til gengæld kan vi prøve
Læs mereKonfidensintervaller og Hypotesetest
Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller
Læs mereKvantitative Metoder 1 - Efterår Dagens program
Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1
Læs mereIndblik i statistik - for samfundsvidenskab
Indblik i statistik - for samfundsvidenskab Læs mere om nye titler fra Academica på www.academica.dk Nikolaj Malchow-Møller og Allan H. Würtz Indblik i statistik for samfundsvidenskab Academica Indblik
Læs mereHvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau
Hvad skal vi lave? 1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ. Teststatistik P-værdi Signifikansniveau 2 t-test for middelværdi Tosidet t-test for middelværdi Ensidet t-test for middelværdi
Læs merePhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie
Læs mereBilledbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)
; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians
Læs mere2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.
2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske
Læs mere1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...
Indhold 1 Statistisk inferens: Hypotese og test 2 1.1 Nulhypotese - alternativ.................................. 2 1.2 Teststatistik........................................ 3 1.3 P-værdi..........................................
Læs mereLandmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable
Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/41 Landmålingens fejlteori - lidt om kurset
Læs mereStatistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen
Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager
Læs merestatistik statistik viden fra data statistik viden fra data Jens Ledet Jensen Aarhus Universitetsforlag Aarhus Universitetsforlag
Jens Ledet Jensen på data, og statistik er derfor et nødvendigt værktøj i disse sammenhænge. Gennem konkrete datasæt og problemstillinger giver Statistik viden fra data en grundig indføring i de basale
Læs merePersonlig stemmeafgivning
Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt
Læs mereVejledende besvarelse af eksamen i Statistik for biokemikere, blok
Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder
Læs mereHvad skal vi lave i dag?
p. 1/1 Hvad skal vi lave i dag? Repeterer lidt om diskrete sv. Standardfordelinger (binomial, Poisson, geometrisk) Stokastiske vektorer Diskrete stokastiske vektorer p. 2/1 Repetition Heltallige sv er
Læs mereKvantitative Metoder 1 - Efterår Dagens program
Dagens program Approksimation af binomialsandsynligheder, Afsnit 4.5 Multinomial fordeling, Afsnit 4.8 Negativ binomialfordeling, Afsnit 4.4 Poisson fordeling og Poisson process, Afsnit 4.6 Kontinuerte
Læs mereSandsynlighedsregning & Statistik
Sandsynlighedsregning & Statistik for matematikstuderende Jørgen Larsen 2006 Roskilde Universitet Teksten er sat med skriften Kp-Fonts ved hjælp af KOMA- Script og LATEX. Tegningerne er fremstillet med
Læs mereLøsning til eksaminen d. 14. december 2009
DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,
Læs mereKapitel 7 Forskelle mellem centraltendenser
Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens
Læs mereØkonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1
Økonometri 1 Inferens i den lineære regressionsmodel 25. september 2006 Økonometri 1: F6 1 Oversigt: De næste forelæsninger Statistisk inferens: hvorledes man med udgangspunkt i en statistisk model kan
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2003 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Læs mereStatistik og Sandsynlighedsregning 2
Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R Helle Sørensen Uge 6, mandag SaSt2 (Uge 6, mandag) Tætheder og kont. fordelinger 1 / 19 Program Velkommen I dag:
Læs mereKursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 9, 2015 Sandsynlighedsregning og lagerstyring Normalfordelingen
Læs mereRegneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)
Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen
Læs mereLandmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen
Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,
Læs mereUge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro
Uge 48 II Teoretisk Statistik 7. november 003 Numerisk modelkontrol af diskrete fordelinger: intro Eksempel: kvalitetskontrol Goodness-of-fit test: generel teori Endeligt udfaldsrum Udfaldsrum uden øvre
Læs mereRettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007
Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave
Læs mereHvad skal vi lave i dag?
p. 1/15 Hvad skal vi lave i dag? Definition af sandsynlighedsrum. Egenskaber ved Sandsynlighedsmål. (Kap. 3). Fødselsdagsproblemet (supplerende eksempel 3.1). Betingede sandsynligheder og uafhængighed
Læs mereVejledende besvarelser til opgaver i kapitel 14
Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden
Læs mereStikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader
Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af
Læs mereNanostatistik: Opgaver
Nanostatistik: Opgaver Jens Ledet Jensen, 19/01/05 Opgaver 1 Opgaver fra Indblik i Statistik 5 Eksamensopgaver fra tidligere år 11 i ii NANOSTATISTIK: OPGAVER Opgaver Opgave 1 God opgaveskik: Når I regner
Læs mereDagens program. Praktisk information:
Dagens program Praktisk information: Husk hjemmeopgaven i statistik Hypoteseprøvning kap. 11.2,11.3 og 11.8 Eksempel på test Styrkefunktionen kap. 11.2 Stikprøvens størrelse kap. 11.3 Likelihood ratio
Læs mereNATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.
NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2005 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive
Læs mere{ } { } {( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )}
Stokastisk eksperiment Et stokastisk eksperiment er et eksperiment, hvor vi fornuftigvis ikke på forhånd kan have en formodning om resultatet af eksperimentet. Til gengæld kan vi prøve at sige noget om,
Læs mereUge 43 I Teoretisk Statistik, 21. oktober Forudsigelser
Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier
Læs mereForelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)
Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske
Læs mereTeoretisk Statistik, 2. december 2003. Sammenligning af poissonfordelinger
Uge 49 I Teoretisk Statistik, 2. december 2003 Sammenligning af poissonfordelinger o Generel teori o Sammenligning af to poissonfordelinger o Eksempel Opsummering om multinomialfordelinger Fishers eksakte
Læs mereResumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se
Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller
Læs mereØkonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1
Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006 Økonometri 1: F8 1 Dagens program Opsamling om asymptotiske egenskaber: Asymptotisk normalitet Asymptotisk efficiens Test af flere lineære
Læs mereSandsynlighedsregning & Statistik
Jørgen Larsen Sandsynlighedsregning & Statistik for matematikstuderende 2006 Indhold Forord 5 Del I Sandsynlighedsregning 7 Indledning 9 Endelige udfaldsrum. Grundlæggende definitioner.....................
Læs mereUndervisningsbeskrivelse
Undervisningsbeskrivelse Stamoplysninger til brug ved prøver til gymnasiale uddannelser Termin Institution Uddannelse Fag og niveau Lærer(e) Hold Termin hvori undervisningen afsluttes: Juni 2013 Roskilde
Læs mereMotivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser
Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren
Læs mereFagplan for statistik, efteråret 2015
Side 1 af 7 M Fagplan for statistik, efteråret 20 Litteratur Kenneth Hansen & Charlotte Koldsø (HK): Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave, ISBN 9788741256047 HypoStat
Læs mereStatistik viden eller tilfældighed
MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår
Læs mereProgram: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.
Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)
Læs mereKvantitative Metoder 1 - Forår 2007. Dagens program
Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative
Læs mereStatistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Indledende om Signifikanstest Boldøvelser 1 Påstand: Et nyt præparat M virker mod migræne. Inden præparatet kan markedsføres, skal denne påstand
Læs mereForelæsning 9: Inferens for andele (kapitel 10)
Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Læs mereBinomialfordelingen. Binomialfordelingen. Binomialfordelingen
Statistik og Sandsynlighedsregning 1 MS kapitel 3 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Definition 3.2.1 Lad X 1, X 2,..., X n være uafhængige
Læs mereKvantitative Metoder 1 - Efterår Dagens program
Dagens program Afsnit 3.1-3.2 Middelværdi -Definition - Regneregler Betinget middelværdi Middelværdier af funktioner af stokastiske variable Loven om den itererede middelværdi Eksempler 1 Beskrivelse af
Læs mereAnalysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Læs mereNanostatistik: Opgavebesvarelser
Nanostatistik: Opgavebesvarelser JLJ Nanostatistik: Opgavebesvarelser p. 1/16 Pakkemaskine En producent hævder at poserne indeholder i gennemsnit 16 ounces sukker. Data: 10 pakker sukker: 16.1, 15.8, 15.8,
Læs mereStatistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning
Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,
Læs mereEksamen i Statistik for biokemikere. Blok
Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)
Læs mereStatistik Lektion 2. Betinget sandsynlighed Bayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV Binomialfordelingen
Statistik Lektion etinget sandsynlighed ayes regel Diskrete stokastiske variable Middelværdi og varians for diskret SV inomialfordelingen Repetition Udfaldsrum S Hændelse S Simpel hændelse O i 1, 3 4,
Læs mereKapitel 4 Sandsynlighed og statistiske modeller
Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 Indledning 2 Sandsynlighed i binomialfordelingen 3 Normalfordelingen 4 Modelkontrol
Læs mereStatistik II 4. Lektion. Logistisk regression
Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:
Læs mereOpgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved
Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,
Læs mereProgram. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål
Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner
Læs mereModul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik
Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 7: Eksempler 7.1 Beskrivende dataanalyse............................... 1 7.1.1 Diagrammer.................................
Læs mereTeoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.
Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt
Læs mereVelkommen til kurset. Teoretisk Statistik. Lærer: Niels-Erik Jensen
1 Velkommen til kurset Teoretisk Statistik Lærer: Niels-Erik Jensen Plan for i dag: 1. Eks: Er euro'en skæv? 4. Praktiske informationer 2. Eks: Regressionsmodel (kap. 1) 5. Lidt om kursets indhold 3. Hvad
Læs mereTØ-opgaver til uge 46
TØ-opgaver til uge 46 Først laver vi en liste over de ligninger med mere i [ITP], der skal bruges: [1]: Ligning (2.5) på side 4. [2]: Sætning 3.1, ligning (3.3) på side 7. [3]: Sætning 3.1, ligning (3.4)
Læs meret-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.
t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program (8.15-10): 1. repetition: fordeling af observatorer X, S 2 og t. 2. konfidens-intervaller, hypotese test, type I og type II fejl, styrke,
Læs mere