Basal statistik. 11.september Sandsynligheder Fordelinger og modeller Statistisk analyse Type 1 og 2 fejl, styrke

Størrelse: px
Starte visningen fra side:

Download "Basal statistik. 11.september Sandsynligheder Fordelinger og modeller Statistisk analyse Type 1 og 2 fejl, styrke"

Transkript

1 Basal statistik 11.september 2007 Statistisk inferens Sandsynligheder Fordelinger og modeller Statistisk analyse Type 1 og 2 fejl, styrke Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet L.T.Skovgaard@biostat.ku.dk

2 Inferens, september Sandsynlighed: Talværdi, der udtrykker usikkerhed omkring et udfald/hændelse p 1 2 : stor usikkerhed, møntkast p 0 eller 1: lille usikkerhed sandsynlighed for at vinde i lotto / overleve næste dag Frekvensfortolkning: Den enkelte hændelse har kun 2 muligheder - enten indtræffer den eller også gør den ikke. Hvis der er (mange) gentagelser, kan man studere frekvensen (hyppigheden) af hændelsen, og grænseværdien for denne kaldes sandsynligheden. Inferens, september Det simpleste eksempel: Møntkast Store Tals Lov prop.of.heads tosses Når vi udfører eksperimentet mange gange, vil frekvensen stabilisere sig omkring sandsynligheden for plat/krone Inferens, september Hvordan bestemmer/definerer vi sandsynligheder? Logik En terning har 6 sider, som ender opad med lige stor sandsynlighed, nemlig 1 6 sandsynlighed= gunstige/ mulige Erfaring Hvis vinden kommer fra øst om sommeren, bliver det med stor sandsynlighed (sædvanligvis) varmt frekvensfortolkningen Subjektivt Fornemmelser, hensigter, vurderinger

3 Inferens, september Frekvensfortolkningen: Dette matematiske begreb involverer uafhængige og identiske gentagelser af samme eksperiment. Hvad betyder det? Hvis de virkelig var identiske, ville de vel give det samme? De skal være identiske mht. de betingelser, som vi ved (eller mener at vide) har indflydelse på resultatet Vi har ingen mulighed for at skelne mellem dem, de er ombyttelige (interchangeable) Inferens, september Eksempel: Børnefødsler To mulige udfald: Bliver det en dreng eller en pige? Hvad er gentagelserne her? Søskende... Ofte, betyder identiske gentagelser i praksis situationer, der ser ens ud Her: fødsler blandt andre kvinder Det antages, at alle kvinder har den samme sandsynlighed p for at få en dreng (resp. pige), eller vi kan i hvert fald ikke på forhånd sige, hvem der skulle have større eller mindre sandsynlighed... Inferens, september Hvad er sandsynligheden for at have fødselsdag juleaften? Hvad er sandsynligheden for at to tilfældigt valgte individer har fødselsdag samme dag? Hvad er sandsynligheden for at to personer på dette kursus har fødselsdag på samme dag?

4 Inferens, september Sandsynlighed for sammenfald af fødselsdage: 2 personer: personer: : N personer: (365 N+1) 365 Inferens, september Sandsynligheder opfører sig som frekvenser: Farveblindhed? nej ja Total Piger Drenge Total Relativ frekvens af farveblindhed: r(b) = = Betinget frekvens af farveblindhed, givet at man er dreng: r(b A) = r(a B)/r(A) = / = = 0.04 Er farveblindhed uafhængigt af køn? Er r(b A) r(b)? Inferens, september De vigtigste regneregler for sandsynligheder: sandsynligheder ligger mellem 0 og 1 og summerer til 1 Fællesmængde A B (både A og B) P(A B) =?? Hvis A og B er uafhængige: P(A B) = P(A) P(B) Betinget sandsynlighed (ssh. for B forudsat A): P(B A) = hvis A og B er uafhængige: P(A B) P(A) P(B A) = P(B)

5 Inferens, september Eksempler 1. I en kasse ligger kugler nummereret 1-9, en af hver. Hvis man trækker en kugle tilfældigt, hvad er så sandsynligheden for, at den har et nummer større end 5? 2. Forestil dig, at du har kastet en mønt 20 gange og har fået 19 kroner og en plat. Hvad er sandsynligheden for at få krone i næste kast? 3. Hvad er sandsynligheden for, at det næste barn født på Rigshospitalet er en dreng? Inferens, september Eksempler, fortsat 4. Hvad er sandsynligheden for, at du får en overordnet stilling inden for de næste 10 år? 5. Et par blå og et par sorte sokker ligger enkeltvis sammenrodet i en skuffe. Hvis du tilfældigt tager to sokker op, hvad er så sandsynligheden for, at de har samme farve? Inferens, september Eksempel på diskret fordeling: Binomialfordelingen N uafhængige 0/1-forsøg (Bernoulliforsøg) U i, alle med P(U i = 1) = p (f.eks. p = 0.51 for drengefødsel) X = U U N = U i, antal succes er (=antal 1-taller) Fordeling af X kaldes Binomialfordelingen og skrives X Bin(N, p) Punktsandsynlighederne kan beregnes ved kombinatorik, P(X = ) = ( ) N p (1 p) N Binomialkoefficienten ( N ) angiver antallet af måder hvorpå man kan vælge ud af N ( N ) = N!!(N )!

6 Inferens, september Eksempel: 3-barns familier 3 Bernoullivariable for hver mor, U m1, U m2, U m3 : 1, hvis fødsel i for mor m resulterer i en dreng U mi = 0, hvis det bliver en pige Sandsynlighed for drengefødsel: p X m = U m1 + U m2 + U m3, antal drenge for den i te mor Hvilke kombinationsmuligheder er der? Inferens, september X m antal drenge antal piger sandsynlighed (1 p) p (1 p) p 2 (1 p) p dbinom(, 50, 0.2) dbinom(, 50, 0.5) dbinom(, 50, 0.8) dbinom(, 20, 0.2) dbinom(, 20, 0.5) dbinom(, 20, 0.8) dbinom(, 4, 0.2) dbinom(, 4, 0.5) dbinom(, 4, 0.8) Inferens, september

7 Inferens, september Fordelinger for kvantitative (kontinuerte) variable. Hvad betyder sandsynligheder i forbindelse med f.eks. systolisk blodtryk? Her har hver enkelt værdi (f.eks ) sandsynlighed 0 for at indtræffe (fordi der i princippet er uendelig mange mulige udfald). I stedet for punktsandsynligheder taler vi så om sandynlighedstætheder Inferens, september Sandynlighedstæthed (eller bare tæthed) Sandsynligheden for et interval = arealet under kurven Hvis tætheden er stor, ligger observationerne tæt i dette område Inferens, september Tæthed for (standard) normalfordeling dnorm() f() = 1 2π e middelværdi 0, varians

8 Inferens, september Hvorfor benyttes normalfordelingen så ofte? Det er ofte en rimelig approksimation Evt. efter transformation med logaritme, kvadratrod, invers,... Central grænseværdisætning: Summen af et stort antal variable kommer efterhånden til at ligne en normalfordeling (sum af normalfordelinger er igen en normalfordeling). Rimelig let at arbejde med. Standard programmel er udviklet for normalfordelingen. Inferens, september Inferens, september Central grænseværdisætning. Histogram of igm Histogram of boot.igm.snit4 Histogram of boot.igm.snit16 Frequency Frequency Frequency igm boot.igm.snit4 boot.igm.snit16 Histogram of boot.igm.snit16 Histogram of boot.igm.snit64 Histogram of boot.igm.snit298 Frequency Frequency Frequency boot.igm.snit16 boot.igm.snit64 boot.igm.snit298

9 Inferens, september Central grænseværdisætning: Jo flere observationer, der indgår i gennemsnittet des mere normalfordelt ser det ud des mindre spredning har fordelingen Standard error (of the mean), SEM siger noget om usikkerheden på gennemsnittet SEM = SD n Inferens, september χ 2 -fordelingen Familie af fordelinger, afhængig af frihedsgrader (her: 1, 2, 3, 4). noget med sum af kvadrerede normalfordelinger dchisq(, 1) Inferens, september t-fordelingen (Student fordelingen) afhængig af frihedsgrader (her: 5, 10, 100). Mange frihedsgrader: Fordelingen ligner normalfordeling Få frihedsgrader: Tungere haler. dt(, 100)

10 Inferens, september Statistisk model: Specifikation af fordelingsklasse: Familie af fordelinger/tætheder, specificeret ved parametre, f.eks. middelværdi og spredning i normalfordeling. mulige effekter/sammenhænge (stigning i blodtryk pr. år) En sandsynlighedsmodel kan bruges til at simulere (generere fiktive data). Inferens, september Statistisk analyse er det omvendte: Hvis vi allerede har data, hvad kan vi så sige om den sandsynlighedsmekanisme (f.eks. de ukendte parametre), der har frembragt dem? Inferens, september Statistisk analyse Modelkontrol: Er forudsætningerne opfyldt? Estimation: Hvilke parameterværdier passer bedst med observationerne? Og hvor sikkert er de bestemt? Modelreduktion (Hypotesetest): Er simplere beskrivelser tilladelige?

11 Inferens, september Normalfordelingsmodel for en gruppe X 1,...,X n uafhængige N(µ, σ 2 ) Parametre: middelværdi µ spredning (SD) σ Density Inferens, september Normalfordelingsmodel for to grupper X 11,...,X 1n1 N(µ 1, σ 2 ) X 21,...,X 2n2 N(µ 2, σ 2 ) Parametre: middelværdier µ 1, µ 2 spredninger (SD) σ 1, σ 2 eller fælles σ Density Af interesse: µ 1 µ Inferens, september Lineær regressionsmodel Y i N(α + β i, σ 2 ) Parametre: for linien α, β spredning (SD) σ omkring linien y

12 Inferens, september Binomial model Y Bin(N, p) Parametre: p probability Inferens, september Estimation: Hvilke modelparametre passer med data? Principper: Maimum likelihood Likelihood: Tæthedens værdi for det observerede, opfattet som funktion af de ukendte parametre Mindste kvadraters metode Normalfordeling: Parametre µ og σ estimeres ved henholdsvis og s. Binomialfordeling: p estimeres som y/n (antal succes er divideret med totalantal) Inferens, september Observeret størrelse Data relativ frekvens empirisk fordeling estimat (skøn) gennemsnit Teoretisk størrelse Population sandsynlighed teoretisk fordeling parameter middelværdi Estimater skal angives med tilhørende usikkerheder! gerne i form af et konfidensinterval

13 Inferens, september Usikkerhed på gennemsnit For uafhængige variable gælder: V ( ) = V ( 1 ) + V ( 2 ) Hvis i erne er uafhængige med samme middelværdi og varians σ 2, er V ( i ) = V ( i ) = nσ 2 V ( ) = σ 2 /n Standard error of the mean SD bruges til beskrivelser SEM bruges til sammenligninger SEM = SD( ) = SD() n Inferens, september Konfidensinterval= sikkerhedsinterval: Interval, der fanger den ukendte parameter med 95% sandsynlighed. Hvor kan vi tro på at faktisk middelværdi µ ligger? For hvilke µ 0 forkastes hypotesen µ = µ 0? (Approksimativt) 95% konfidensinterval for middelværdi ± 2 SEM Eksakt for normalfordelingen. Inferens, september Eksempel: Se-albumin (fra sidste gang) Her havde vi 87 observationer: 1,, 87 med = g/l, SD() = 5.84 g/l SEM() = SD()/ 87 = g/l 95% konfidensinterval for middel Se-albumin: ± = (33.21, 35.71) g/l Det betyder, at man kan acceptere hypoteser om middelværdien på mellem og Omvendt kan man næsten udelukke at middelværdien er over eller under

14 Inferens, september Test: Passer en model bedre til data end en anden? Kunne en eller flere parametre i en model være en kendt værdi (ofte 0)? Modelreduktion: Model (nul)hypotese (H 0 ). (kan den forenklede model tænkes at være den rigtige?) Teststørrelse: En størrelse, der måler diskrepans mellem observation og hypotese. Eksempelvis: Faldet i likelihood, når vi går fra model til hypotese Undersøg om teststørrelsen er mere ekstrem end hvad der kan forventes ved tilfældighedernes spil. Inferens, september Eksempel: Se-albumin igen Vi vil teste om middelværdien kan være 37 g/l Det er oplagt at vurdere, om X er tæt på 37, altså om X 37 er tæt på 0, målt i forhold til dens usikkerhed. Under H 0 gælder: X N(37, σ 2 /n) X 37 N(0, 1) σ2 /n Vi kender ikke σ, men vi har et estimat: s=sd()=5.84 g/l Men denne upræcished betyder, at fordelingen får tungere haler: T = X µ s2 /n = X µ t(n 1) SEM Inferens, september Her finder vi teststørrelsen: t = = 4.06 Passer værdien godt med en t-fordeling med 85 frihedsgrader? Nej, den ligger for langt ude i halen af fordelingen! P-værdien kan udregnes til P =

15 Inferens, september P-værdi: Sandsynlighed for dette eller værre under nulhypotesen Værre betyder noget, der passer endnu dårligere med nulhypotesen. dnorm() Hvis der er en lille sandsynlighed for noget, der er værre end det vi har, så må det være ret slemt. Inferens, september Hvis P-værdien er under 0.05, siger man at testet er signifikant på 5% niveau. Man forkaster hypotesen. Signifikansniveauet α vælges sædvanligvis til 5% (α = 0.05), men der er tale om et arbitrært valg. Man bør derfor angive selve P-værdien, og allervigtigst: Angiv estimat med konfidensinterval! Her blev det udregnet til (33.21, 35.71), så vi kunne med det samme have set, at 37 ikke var en rimelig værdi for middelværdien Inferens, september Signifikansniveauet α angiver den risiko, man er villig til at løbe, for at forkaste en sand hypotese, også kaldet fejl af type I. accepter H 0 sand 1-α α H 0 falsk β 1-β fejl af type II Vi vil gerne have, at α er lille. forkast fejl af type I

16 Inferens, september β kaldes styrken. Den angiver sandsynligheden for at forkaste en falsk hypotese, dvs. typisk at finde en forskel. accepter H 0 sand 1-α α H 0 falsk β 1-β fejl af type II forkast fejl af type I Vi vil gerne have, at styrken er stor, altså at β (risikoen for type 2 fejl) er lille, men hvad betyder det, at H 0 er falsk? Hvor falsk er den? Inferens, september Styrken er en funktion af den sande forskel: Hvis forskellen er, hvad er så sandsynligheden for at opdage det på et 5% niveau?? 10, 16, 25 in each group power size of difference Styrken udregnes før undersøgelsen påbegyndes, for at dimensionere denne Når observationerne er samlet ind, præsenteres i stedet konfidensintervaller Inferens, september Et eksempel i detaljer: Binomialfordelingen Påstand: Præparatet M virker mod migræne. Inden præparatet markedsføres, skal denne påstand prøves om muligt verificeres eller afkræftes. Logisk set er der 3 muligheder: 1. Præparatet M har en positiv effekt folk foretrækker M for T=traditionel/placebo 2. Præparatet har en negativ effekt folk foretrækker T for M 3. Præparatet M har ingen (eller kun meget ringe) virkning folk er ligeglade med hvad de får

17 Inferens, september Undersøgelsen: Randomiseret, dobbeltblind cross-over trial, hvor 8 patienter får M resp. T i 2 adskilte perioder Hvorfor randomiseret? Hvis alle patienter fik præparaterne i samme rækkefølge, f.eks. T efterfulgt af M, kunne man forveksle evt. forskelle med f.eks. årstidsvariation, spontan bedring mv. Hvorfor blindet? Fordi patientens egen forventning har en indvirkning på udfaldet (placeboeffekt) og fordi lægens viden eller forventning kan smitte til patienten. Inferens, september Hvilken størrelse skal observeres? X: Antal (af de 8), der foretrækker M for T Undersøgelsens (hypotetiske) udfald: n = 8, = 7 Ukendt parameter: p = sandsynligheden for at en tilfældigt udvalgt patient foretrækker M for T. Vores bedste gæt på p (estimatet) er nu (naturligvis) andelen af patienter, der foretrækker M, altså ˆp = n = 7 8 Inferens, september Umiddelbart ser det jo ud til, at M har en positiv effekt! Hvorfor?? Fordi, hvis det ikke virkede (p = 1 2 ), ville vi næppe finde så mange, der foretrak M for T. Men: Det er jo små tal, så kunne det ikke blot være sket ved en tilfældighed?

18 Inferens, september Vi opstiller (nul)hypotesen: H 0 : p = 1 2 (M virker ikke) mod alternativet: H A : p > 1 2 (M virker positivt) Hvis vi kan afkræfte hypotesen H 0, har vi sandsynliggjort, at medicinen har en effekt. Fremgangsmåde: Vi forestiller os, at H 0 er sand og ser om det fører til noget, der ligner en modstrid (dvs. noget som er meget/ekstremt usandsynligt). Inferens, september Hvis H 0 er sand, hvilke X er vil vi da forvente at observere? Formentlig nogle omkring 4 (= 8 2 ). Fordelingen af X under H 0 : X Bin(n = 8, p = 0.5) dbinom(, 8, 0.5) Har vi observeret noget ekstremt? P(X 7 H 0 ) = Inferens, september Hvis H 0 er sand, har vi observeret noget langt ude i halen, som man kun tilfældigvis vil observere i 3.5% af tilfældene. Dette tyder på,at H 0 ikke er sand (og at H A altså er mere rimelig). Vi kalder P(X 7 H 0 ) for halesandsynligheden eller P-værdien, og skriver P=0.035 eller P=3.5%. Når denne er tilstrækkelig lille, forkaster vi H 0. Men hvad betyder tilstrækkelig lille?? P<5%? P<1%? Man vælger et signifikansniveau, betegnet α, og forkaster så H 0, når P< α.

19 Inferens, september Ensidigt vs. tosidigt test I det foregående har vi lavet et ensidigt test, idet H A : p >0.5 Det anses ikke for god tone! Der skal være gode argumenter for at udføre en ensidigt test! Man skal kunne garantere, at den modsatrettede effekt ikke kan forekomme. Hvis alternativet i stedet var H A :p 0.5, ville observationerne =0 og =1 være ligeså ekstreme, så P-værdien ville blive fordoblet til 7% og dermed lede til en accept af hypotesen. Inferens, september Summa summarum: Bin(n=8,p=0.5) passer ikke helt godt med vores observation, =7. Hvilken binomialfordeling passer bedst? Maimum likelihood estimat: Den værdi af parameteren p, der gør pinden P(X=7) størst mulig. Her bliver det: ˆp = 7 8 = Konfidensinterval/sikkerhedsinterval: Hvilke andre p-parametre passer også nogenlunde godt? Det gør de værdier, der ikke ville blive forkastet ved test. Inferens, september Konfidensinterval for parameteren p Vi finder her (ved at slå op i Geigy s tabeller) et 95% (tosidigt) konfidensinterval til (0.474,0.997). mere om det under kategoriske data Hvis signifikansniveauet er α, bliver konfidensgraden 1-α. Meget ofte er signifikansniveauet 5% og konfidensgraden dermed 95%. men det er der ikke noget helligt i!!

20 Inferens, september Hvis undersøgelsen havde inkluderet 100 personer (n=100), så skulle vi arbejde i fordelingen Bin(100, 0.5), som har udseendet: dbinom(, 100, 0.5) Det ville være yderst besværligt, og i stedet bruger man en normalfordelingsapproksimation Bin(n, p) N(np, np(1 p)) Inferens, september Vi skal se på hypotesen H 0 : p = p 0 = 1 2 ved at betragte størrelsen u = X np 0 N(0, 1) np0 (1 p 0 ) Hvis vi observerer = 65 præferencer for M, får vi u = = 3 eller med den såkaldte kontinuitetskorrektion: u = = 2.9 Inferens, september Ved opslag i en normalfordelingstabel giver u = 2.9 en P-værdi på %. 65 preferencer er således ekstremt meget under hypotesen H 0 : p = p 0 = 1 2, som derfor må forkastes.

21 Inferens, september For de lidt nørdede er der et nemt alternativ til tabelopslag, nemlig Programmet R, der er freeware, lige til at downloade. Se f.eks. > u<-2.5+(0:5)/10 > cbind(u,2*(1-pnorm(u))) u [1,] [2,] [3,] [4,] [5,] [6,]

Basal statistik. 6. februar 2007

Basal statistik. 6. februar 2007 Basal statistik 6. februar 2007 Statistisk inferens Sandsynligheder Fordelinger Modeller Statistisk analyse Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns

Læs mere

Basal statistik. 11.september 2007

Basal statistik. 11.september 2007 Basal statistik 11.september 2007 Statistisk inferens Sandsynligheder Fordelinger og modeller Statistisk analyse Type 1 og 2 fejl, styrke Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab,

Læs mere

Basal statistik. 6. februar 2007

Basal statistik. 6. februar 2007 Basal statistik 6. februar 2007 Statistisk inferens Sandsynligheder Fordelinger Modeller Statistisk analyse Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Indledende om Signifikanstest Boldøvelser Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Indledende om Signifikanstest Boldøvelser 1 Påstand: Et nyt præparat M virker mod migræne. Inden præparatet kan markedsføres, skal denne påstand

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller

Læs mere

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau Hvad skal vi lave? 1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ. Teststatistik P-værdi Signifikansniveau 2 t-test for middelværdi Tosidet t-test for middelværdi Ensidet t-test for middelværdi

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau... Indhold 1 Statistisk inferens: Hypotese og test 2 1.1 Nulhypotese - alternativ.................................. 2 1.2 Teststatistik........................................ 3 1.3 P-værdi..........................................

Læs mere

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 22 Generalisering fra stikprøve til population Idé: Opstil en model for populationen

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t. t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program (8.15-10): 1. repetition: fordeling af observatorer X, S 2 og t. 2. konfidens-intervaller, hypotese test, type I og type II fejl, styrke,

Læs mere

Estimation og konfidensintervaller

Estimation og konfidensintervaller Statistik og Sandsynlighedsregning STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Estimation og konfidensintervaller Antag X Bin(n,

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Hypotesetests, fejltyper og p-værdier

Hypotesetests, fejltyper og p-værdier Hypotesetests, fejltyper og p-værdier Søren Højsgaard Institut for Matematiske Fag, Aalborg Universitet October 25, 2018 Søren Højsgaard Institut for Matematiske Fag, Aalborg Hypotesetests, Universitet

Læs mere

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model).

Et statistisk test er en konfrontation af virkelighenden (data) med en teori (model). Hypotesetests, fejltyper og p-værdier og er den nu også det? Søren Højsgaard Institut for Matematiske Fag, Aalborg Universitet (updated: 2019-03-17) 1 / 40 Statistisk test Et statistisk test er en konfrontation

Læs mere

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 4 Sandsynlighed og statistiske modeller Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 Indledning 2 Sandsynlighed i binomialfordelingen 3 Normalfordelingen 4 Modelkontrol

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag susanne

Susanne Ditlevsen Institut for Matematiske Fag    susanne Statistik og Sandsynlighedsregning 1 STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 7. undervisningsuge, mandag 1 Estimation og konfidensintervaller

Læs mere

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm Kon densintervaller og vurdering af estimaters usikkerhed Claus Thorn Ekstrøm KU Biostatistik ekstrom@sund.ku.dk Marts 18, 2019 Slides @ biostatistics.dk/talks/ 1 Population og stikprøve 2 Stikprøvevariation

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Vejledende besvarelser til opgaver i kapitel 14

Vejledende besvarelser til opgaver i kapitel 14 Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden

Læs mere

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1) Kursus 02402: Besvarelser til øvelsesopgaver i uge 9 Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1) Som model benyttes en binomialfordeling, som beskriver antallet, X, blandt

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

StatDataN: Test af hypotese

StatDataN: Test af hypotese StatDataN: Test af hypotese JLJ StatDataN: Test af hypotese p. 1/69 Repetition n uafhængige gentagne målinger: Fordelingsundersøgelse: Pindediagram / Histogram qq-plot Parameter: egenskab ved fordeling

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Forsøgsplanlægning Stikprøvestørrelse

Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 6. november 2007 Forsøgsplanlægning Stikprøvestørrelse 1 41 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Binomialfordelingen. X ~ bin(n,p): X = antal succeser i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes. Uge 9 Teoretisk Statistik 23. februar 24 1. Binomialfordelingen 2. Den hypergeometriske fordeling 3. Poissonfordelingen 4. Den negative binomialfordeling 5. Gammafordelingen Binomialfordelingen X ~ bin(n,p):

Læs mere

Nanostatistik: Test af hypotese

Nanostatistik: Test af hypotese Nanostatistik: Test af hypotese JLJ Nanostatistik: Test af hypotese p. 1/50 Repetition n uafhængige gentagne målinger: Fordelingsundersøgelse: Pindediagram / Histogram qq-plot Parameter: egenskab ved fordeling

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

Sandsynlighedsregning

Sandsynlighedsregning Mogens Bladt www2.imm.dtu.dk/courses/02405 21. September, 2007 Lidt om binomialkoefficienter n størrelsen af en mængde/population. Vi ønsker at udtage en sub population af størrelse r. To sub populationer

Læs mere

Nanostatistik: Opgavebesvarelser

Nanostatistik: Opgavebesvarelser Nanostatistik: Opgavebesvarelser JLJ Nanostatistik: Opgavebesvarelser p. 1/16 Pakkemaskine En producent hævder at poserne indeholder i gennemsnit 16 ounces sukker. Data: 10 pakker sukker: 16.1, 15.8, 15.8,

Læs mere

Forelæsning 9: Inferens for andele (kapitel 10)

Forelæsning 9: Inferens for andele (kapitel 10) Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Anvendt Statistik Lektion 2 Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger Sandsynlighed: Opvarmning Udfald Resultatet af et eksperiment kaldes et udfald. Eksempler:

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller Statistik II 1. Lektion Sandsynlighedsregning Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Estimation Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev herefter

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff

Oversigt. Kursus Introduktion til Statistik. Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 4. november 2008 Forsøgsplanlægning Stikprøvestørrelse 1 46 Planlægning af et studie Videnskabelig hypotese Endpoints Instrumentelle/eksponerings variable Variationskilder

Læs mere

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Statistisk Model Indhold Binomialfordeling Sandsynlighedsfunktion Middelværdi og spredning 1 Aalen: Innføring i statistik med medisinske eksempler

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Note til styrkefunktionen

Note til styrkefunktionen Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H

Læs mere

Preben Blæsild og Jens Ledet Jensen

Preben Blæsild og Jens Ledet Jensen χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1

Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1 Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min Epidemiologi og biostatistik Uge, torsdag 3. februar 005 Morten Frydenberg, Afdeling for Biostatistik. og hoste estimation sikkerhedsintervaller antagelr Normalfordelingen Prædiktion Statistisk test (ud

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05 Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Kursus 242 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik Bygning 35/324 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail:

Læs mere

Uge 10 Teoretisk Statistik 1. marts 2004

Uge 10 Teoretisk Statistik 1. marts 2004 1 Uge 10 Teoretisk Statistik 1. marts 004 1. u-fordelingen. Normalfordelingen 3. Middelværdi og varians 4. Mere normalfordelingsteori 5. Grafisk kontrol af normalfordelingsantagelse 6. Eksempler 7. Oversigt

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136

Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136 Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Personlig stemmeafgivning

Personlig stemmeafgivning Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher

Kursus 02323: Introducerende Statistik. Forelæsning 12: Forsøgsplanlægning. Peder Bacher Kursus 02323: Introducerende Statistik Forelæsning 12: Forsøgsplanlægning Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala 3 5% 5% 5% 0 3 4 5 6 7 8 9 0 Statistik for biologer 005-6, modul 5: Normalfordelingen opstår når mange forskellige faktorer uafhængigt af hinanden bidrager med additiv variation til. F.eks. Højde af rekrutter

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Statistik viden eller tilfældighed

Statistik viden eller tilfældighed MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed... Indhold 1 Sandsynlighed 1 1.1 Sandsynlighedsbegrebet................................. 1 1.2 Definitioner........................................ 2 1.3 Diskret fordeling.....................................

Læs mere

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Kursus 02402 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger

Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger Introduktion til Statistik Forelæsning 2: og diskrete fordelinger Oversigt 1 2 3 Fordelingsfunktion 4 Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800

Læs mere

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable

Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 2: Sandsynlighedsmodeller og diskrete stokastiske variable 2.1 Sandsynlighedsbegrebet............................... 1 2.1.1

Læs mere

Kapitel 7 Forskelle mellem centraltendenser

Kapitel 7 Forskelle mellem centraltendenser Kapitel 7 Forskelle mellem centraltendenser Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 29 Indledning 1. z-test for ukorrelerede data 2. t-test for ukorrelerede data med ens

Læs mere

Statistiske principper

Statistiske principper Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis

Læs mere

Forsøgsplanlægning Stikprøvestørrelse

Forsøgsplanlægning Stikprøvestørrelse Basal statistik Esben Budtz-Jørgensen 8. november 2011 Videnskabelig hypotese Planlægning af et studie Endpoints Forsøgsplanlægning Stikprøvestørrelse 1 51 Instrumentelle/eksponerings variable Variationskilder

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning

Læs mere

Normalfordelingen og Stikprøvefordelinger

Normalfordelingen og Stikprøvefordelinger Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens Oversigt Oversigt over emner 1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens 2 Konfidensinterval Konfidensinterval for andel Konfidensinterval - normalfordelt stikprøve

Læs mere