STATISTIKNOTER. Mindre matematisk-statistisk opslagsværk, indeholdende bl.a. ordforklaringer, resuméer og tabeller. Jørgen Larsen

Størrelse: px
Starte visningen fra side:

Download "STATISTIKNOTER. Mindre matematisk-statistisk opslagsværk, indeholdende bl.a. ordforklaringer, resuméer og tabeller. Jørgen Larsen"

Transkript

1 STATISTIKNOTER Mindre matematisk-statistisk opslagsværk, indeholdende bla ordforklaringer, resuméer og tabeller Jørgen Larsen IMFUFA Roskilde Universitetscenter Februar 1999

2 IMFUFA, Roskilde Universitetscenter, Postboks 260, DK-4000 Roskilde Jørgen Larsen: STATISTIKNOTER: Mindre matematisk-statistisk opslagsværk, indeholdende bla ordforklaringer, resuméer og tabeller IMFUFA tekst nr 304e/ sider ISSN Dette hæfte er en del af undervisningsmaterialet til et kursus i statistik og statistiske modeller Undervisningsmaterialet omfatter blandt andet følgende titler: a Simple binomialfordelingsmodeller b Simple normalfordelingsmodeller c Simple Poissonfordelingsmodeller d Simple multinomialfordelingsmodeller e Mindre matematisk-statistisk opslagsværk, indeholdende bla ordforklaringer, resuméer og tabeller Om kurset og kursusmaterialet kan blandt andet siges at når det er et gennemgående tema at påpege at likelihoodmetoden kan benyttes som et overordnet princip for valg af estimatorer og teststørrelser, er det blandt andet begrundet i at likelihoodmetoden har mange egenskaber der fra et matematisk-statistisk synspunkt anses for ønskelige, at likelihoodmetoden er meget udbredt og nyder stor anerkendelse (ikke mindst i Danmark), og at det i al almindelighed er værd at gøre opmærksom på at man også inden for faget statistik har overordnede og strukturerende begreber og metoder; når kursusmaterialet er skrevet på dansk (og ikke for eksempel på scientific English ), er det for at bidrage til at vedligeholde traditionerne for hvordan og at man kan tale om slige emner på dansk, og så sandelig også fordi dansk er det sprog som forfatteren og vel også den forventede læser er bedst til; når hæfterne foruden de sædvanlige simple modeller, metoder og eksempler også indeholder eksempler der er væsentligt sværere, er det for at antyde nogle af de retninger man kan arbejde videre i, og for at der kan være lidt udfordringer til den krævende læser

3 Indhold 1 Symboler og notation 5 11 Nogle vigtige symboler 5 12 Hatte, streger, punkter mm 6 13 Græske/romerske bogstaver 7 14 Store/små bogstaver 7 15 Bogstaver med en speciel betydning 8 2 Ordforklaringer og definitioner 11 3 Resuméer Den simple binomialfordelingsmodel Sammenligning af binomialfordelinger Betingelser for en Poissonmodel Sammenligning af Poissonfordelinger Sammenligning af multinomialfordelinger Uafhængighedstest i en r s-tabel Enstikprøveproblemet i normalfordelingen Tostikprøveproblemet i normalfordelingen, uparrede observationer Tostikprøveproblemet i normalfordelingen, parrede observationer Ensidet variansanalyse Bartletts test for varianshomogenitet Simpel lineær regressionsanalyse Test for linearitet i den lineære regressionsmodel Nogle begreber og principper for statistisk inferens 39 4 Tabeller Fordelingsfunktionen for den normerede normalfordeling Fraktiler i den normerede normalfordeling Fraktiler i χ 2 -fordelingen Fraktiler i F-fordelingen Fraktiler i t-fordelingen Fraktiler i χ 2 / f -fordelingen 51 5 Stikord 53 3

4 4

5 1 Symboler og notation I statistik og sandsynlighedsregning har man, som i alle andre matematikbaserede fag, visse hævdvundne traditioner for valg af symboler og notation 11 Nogle vigtige symboler E( ) : middelværdien af N : de naturlige tal ({1, 2, 3, }) N (µ,σ 2 ) : normalfordelingen med middelværdi µ og varians σ 2 P( ) : sandsynligheden for R : de reelle tal Z : de hele tal Var( ) : variansen af ( ) n : binomialkoefficient (sd) k (summationstegn): Hvis z 1, z 2,, z n er nogle tal, så er n z i = z 1 + z z n og mere generelt b z i i=a = z a + z a z b I disse udtryk er i en såkaldt summationsvariabel der benyttes til at indicere de forskellige led (z-erne) I eksemplerne har vi kaldt summationsvariablen i, men den kunne lige så godt hedde k eller p eller hvad man nu har lyst til 5

6 6 Symboler og notation Hvis man har med en dobbelt-indiceret størrelse at gøre, så kan man summere over enten det ene eller det andet eller begge indices: r s z i j = z i1 + z i2 + + z }{{ is } j=1 s led r z i j = z 1 j + z 2 j + + z r j }{{} r led s z i j = z 11 + z z }{{ rs } j=1 rs led (produkttegn): Hvis z 1, z 2,, z n er nogle tal, så er n z i = z 1 z 2 z n og mere generelt b z i i=a = z a z a+1 z b I øvrigt svarer konventionerne for produkttegn nøje til dem for summationstegn 12 Hatte, streger, punkter mm 121 Hatte Et parameternavn med en hat over er en betegnelse for et estimat over den pågældende parameter, for eksempel er ˆθ en betegnelse for et estimat over θ (For at øge forvirringen kan det også være betegnelse for en estimator over parameteren) Hvis man estimerer parameteren under forskellige hypoteser, kan man give de nye estimater nogle flere hatte for at kunne skelne dem fra hinanden, feks ˆθ Hatten bruges næsten altid til at betegne maksimaliseringsestimatet Hvis man benytter alternative estimationsmetoder, kan man betegne estimaterne med feks en tilde ( θ) Hatten kan desuden placeres over et observationsnavn for at betegne den fittede værdi, feks ŷ i 122 Streger Et variabelsymbol med en streg over er en betegnelse for gennemsnittet af nogle værdier af den pågældende variabel For eksempel kan man betegne gennemsnittet af y 1, y 2,, y n med ȳ

7 13 Græske/romerske bogstaver 7 Hvis man har en dobbelt-indiceret størrelse, feks y i j hvor i = 1, 2,, k og j = 1, 2,, n i, så betegner ȳ i gennemsnittet over j af y-erne: 123 Punkter ȳ i = 1 n i n i y i j j=1 Hvis man har med med en indiceret størrelse at gøre, feks y i hvor i = 1, 2,, n, så betegner størrelsen hvor der står et punkt på indexets plads, summen af de oprindelige størrelser: y = n y i Hvis man har med en dobbelt-indiceret størrelse at gøre, så kan man summere over enten det ene eller det andet eller begge indices, og i alle tilfælde kan man markere det med et punkt på det pågældende index s plads Eksempel: Hvis man har størrelserne y i j, hvor i = 1, 2,, r og j = 1, 2,, s, så er y i = y j = y = s y i j j=1 r y i j r s y i j j=1 13 Græske/romerske bogstaver Parametre i statistiske modeller navngives ofte med græske bogstaver så som µ, σ 2, λ, θ (men der er dog undtagelser, for eksempel betegnes sandsynlighedsparameteren i binomialfordelingen ofte p) Konstanter og observationer navngives altid med romerske bogstaver 14 Store/små bogstaver I en del sammenhænge betegner man stokastiske variable med store bogstaver (feks Y 1, Y 2,, Y n ) og de observerede værdier af dem med de tilsvarende små bogstaver (feks y 1, y 2,, y n ) Denne regel har dog mange undtagelser, for eksempel en lang række etablerede standardnavne for stikprøvefunktioner og teststørrelser (så som t, F, s 2, SS, Q, 2 ln Q) der betegnes på samme måde hvad enten de opfattes som stokastiske variable eller som observerede værdier (Undertiden kan man give den observerede værdi fodtegnet»obs«for at kunne skelne (eksempel: t obs ))

8 8 Symboler og notation 15 Bogstaver med en speciel betydning 151 Græske bogstaver α (alfa): 1 Anvendes undertiden i en linies ligning som betegnelse for skæringen med y-aksen (Eksempel: y = α + βx) 2 Når man taler om fraktiler, bruges α undertiden som betegnelse for et typisk tal mellem 0 og 1 β (beta): Betegner ofte en regressionskoefficient Γ (stort gamma): Gamma-funktionen δ (delta): Betegner ofte en parameter som angiver en differens (stort delta): Benyttes ofte som»præfiks«til en størrelse for at angive en lille tilvækst af den pågældende størrelse, for eksempel t ε (epsilon): Betegner undertiden testsandsynligheden θ (theta): Betegner ofte en generisk parameter λ (lambda): Betegner ofte en intensitet µ (my): Betegner ofte en middelværdiparameter π (pi): Forholdet mellem en cirkels omkreds og dens diameter ρ (ro): Betegner ofte en korrelationskoefficient σ (sigma): Betegner ofte standardafvigelsen i en fordeling σ 2 : Betegner ofte variansen i en fordeling ϕ (phi): Tæthedsfunktionen for N (0, 1)-fordelingen Φ (stort phi): Fordelingsfunktionen for N (0, 1)-fordelingen χ 2 (khi i anden): Benyttes i forbindelser som χ 2 -fordeling χ 2 f : Betegner ofte en stokastisk variabel som er χ2 -fordelt med f frihedsgrader 152 Romerske bogstaver E : Symbol der står for»middelværdien af«f : 1 Betegner antal frihedsgrader 2 Navnet på den typiske modelfunktion

9 15 Bogstaver med en speciel betydning 9 F : F-teststørrelse F f1, f 2 : Betegner ofte en stokastisk variabel som er F-fordelt med frihedsgrader f 1 og f 2 H : En hypotese L : Likelihoodfunktionen N : De naturlige tal p : 1 Et tal mellem 0 og 1 2 Ofte sandsynlighedsparameteren i binomialfordelingen P : Symbol der står for»sandsynligheden for«q : Kvotientteststørrelse R : De reelle tal s 2 : Variansskøn (som i normalfordelingsmodeller) SS : Sum af kvadratiske afvigelser (engelsk: Sum of Squared deviations) SP : Sum af produkter af afvigelser (engelsk: Sum of Products of deviations) t : t-teststørrelse t f : Betegner ofte en stokastisk variabel som er t-fordelt med f frihedsgrader X, Y, Z, :»typiske«navne på stokastiske variable X : Betegner ofte et udfaldsrum (udfaldene betegnes så x) x : I regressionssammenhænge det typiske navn på en forklarende variabel (baggrundsvariabel) y : Det typiske navn på en observation

10 10

11 2 Ordforklaringer og definitioner Nedenfor er en alfabetisk ordnet liste med definitioner og forklaringer på en del centrale statistiske begreber antalsvariabel: En variabel der angiver antal, og som derfor kun antager hele ikke-negative værdier baggrundsvariabel (også kaldet forklarende variabel eller x-variabel) er i regressionssammenhænge en variabel der inddrages i modellen med håbet/formodningen om at man derved kan få»forklaret«noget af variationen i den variabel der skal modelleres Bartletts test for varianshomogenitet er et test for om et antal forskellige normalfordelte observationssæt kan antages at have samme varians, se Resumé 311 binomialfordeling: Binomialfordelingen med antalsparameter n og sandsynlighedsparameter ( ) p er den sandsynlighedsfordeling der har punktsandsynligheder p y (1 p) n y, y {0, 1, 2,, n} n y Middelværdien i fordelingen er np, og variansen er np(1 p) binomialformlen er formlen (a + b) n = 0, 1, 2, og for vilkårlige a og b n k=0 ( ) n a k b n k der gælder for n = k binomialkoefficient: Tallet ( n k ) = n! kaldes en binomialkoefficient og er k! (n k)! lig antallet af måder hvorpå man kan udvælge k forskellige elementer fra en mængde med n elementer central estimator (engelsk: unbiased estimator): En estimator ˆθ over parameteren θ er central hvis middelværdien af ˆθ er lig θ determinationskoefficienten (eller kvadratet på den multiple korrelationskoefficient) R 2 er en størrelse som kan udregnes i forbindelse med lineær regressionsanalyse, og som er kvadratet på korrelationskoefficienten mellem de observerede og de fittede værdier (eller den del af den samlede variation omkring totalgennemsnittet der beskrives af regres- 11

12 12 Ordforklaringer og definitioner sionsmodellen), R 2 = ( n n (y i ȳ)(ŷ i ȳ) (y i ȳ) 2 n ) 2 (ŷ i ȳ) 2 = n n (ŷ i ȳ) 2 (y i ȳ) 2 R 2 kan kun benyttes når der er et konstantled med i regressionen Determinationskoefficienten er i almindelighed et dårligt mål for hvor godt modellen passer diskret stokastisk variabel: En stokastisk variabel X er diskret hvis der findes en endelig eller tællelig mængde X = {x 1, x 2, x 3, } R med den egenskab at P(X X ) = 1 Fordelingsfunktionen for X er stykkevis konstant og har spring af størrelsen P(X = x i ) i punktet x i dispersionstest: Et test for om en stikprøve y 1, y 2,, y n kan antages at stamme fra en Poissonfordeling Teststørrelsen er d = s 2 /ȳ der skal være cirka 1 hvis modellen er rigtig; d er asymptotisk χ 2 / f -fordelt med f = n 1 frihedsgrader eksakt test: En testmetode hvor testsandsynligheden udregnes eksakt (i modsætning til testmetoder hvor bestemmelsen af testsandsynligheden baseres på approksimationer så som 2 ln Q s asymptotiske χ 2 -fordelthed) Eksakte tests foretages ofte i en betinget model hvor der betinges med de stikprøvefunktioner der er sufficiente under den testede hypotese Fishers eksakte test for uafhængighed i en 2 2-tabel (eller til sammenligning af to binomialfordelinger) er et sådant betinget test hvor der betinges med række- og søjlesummerne ensidet variansanalyse (engelsk: one-way analysis of variance): En metode til sammenligning af middelværdierne i forskellige normalfordelte stikprøver, se Resumé 310 estimat: et estimat over en bestemt ukendt parameter er den talværdi man på baggrund af et givet sæt observationer udregner som skøn over den pågældende parameter estimator: en estimator for en bestemt ukendt parameter er en funktion der til hvert muligt sæt observationer knytter det tilsvarende estimat over parameteren F-fordeling: F-fordelingen med frihedsgrader f 1 og f 2 er den kontinuerte sandsynlighedsfordeling på den positive halvakse som har tæthedsfunktion x Γ( f 1+ f 2 2 ) Γ( f 1 2 )Γ( f 2 2 ) f f 12 f 22 1 f2 x f ( f 2 + f 1 x) f 1 + f 2 2, x > 0

13 13 I normalfordelingsmodeller optræder F-fordelingen som fordelingen af forholdet mellem to uafhængige variansskøn (feks s 2 1 /s2 0 ); F- fordelingens to frihedsgradstal er da antallene af frihedsgrader for henholdsvis tælleren og nævneren fakultetsfunktionen er defineret ved { 1 hvis x = 0 n! = n (n 1)! hvis x = 1, 2, 3, dvs n! = n (Se også Gammafunktionen) fittede værdier: Hvis man har en statistisk model for et antal observationer y 1, y 2,, y n, så kan man ud fra disse observationer estimere de indgående parametre; derefter kan man udregne de fittede værdier ŷ 1, ŷ 2,, ŷ n, dvs de y-værdier man skulle forvente hvis de sande parameterværdier var lig med de estimerede fordelingsfunktion (eller kumuleret fordelingsfunktion) for en sandsynlighedsfordeling: En funktion F således at F(x) er sandsynligheden for at få værdier som er mindre end eller lig x forklarende variabel: se baggrundsvariabel forventet værdi er det samme som middelværdi fraktil (engelsk: quantile): En fraktil i en sandsynlighedsfordeling er et tal x med den egenskab at der er en vis foreskreven sandsynlighed for at få værdier x Eksempelvis er 90%-fraktilen et tal x således at der er sandsynlighed 90% for at få værdier x Mere generelt er en α-fraktil i en fordeling med fordelingsfunktion F en løsning x α, så godt den nu findes, til ligningen F(x) = α Hvis F er kontinuert og strengt voksende, så er der en entydig løsning x α = F 1 (α); generelt gælder at en α-fraktil er et tal x α med den egenskab at F(x α ) α og F(x α ε) α for alle ε > 0 fraktildiagram: en særlig slags tegning der i visse tilfælde kan benyttes for at kontrollere om et sæt observationer y 1, y 2,, y n stammer fra en bestemt type fordeling, for eksempel en normalfordeling eller en eksponentialfordeling Lad y (1), y (2),, y (n) være de ordnede observationer Antag at y-erne stammer fra en fordeling med fordelingsfunktion af formen F(y) = F 0 ( y µ σ ) hvor F 0 er en kendt funktion ( Fraktildiagrammet ) er da et diagram indeholdende punkterne y (i), F0 1 ( i 05 n ), i = 1, 2,, n Hvis modelantagelsen er rigtig, skal disse punkter ligge omkring den rette linie som går gennem punktet (µ, 0) og som har hældning 1/σ frihedsgrader (engelsk: degrees of freedom): En del sandsynlighedsfordelinger har som attribut et»frihedsgradsantal«der bestemmer deres nærmere udseende; det gælder blandt andet χ 2 -fordelingen og t-fordelingen,

14 14 Ordforklaringer og definitioner samt F-fordelingen der har hele to frihedsgradsantal Derudover optræder»frihedsgrader«som en attribut for visse stikprøvefunktioner, som for eksempel variansskøn og teststørrelser (strengt taget er det stikprøvefunktionernes fordelinger der har disse attributter) En forholdsvis generel tommelfingerregel for bestemmelse af antallet af frihedsgrader er antal frit varierende størrelser før minus antal frit varierende størrelser efter Eksempler: I normalfordelingsmodeller har variansskønnet et antal frihedsgrader som er antal observationer minus antal estimerede frie parametre Den asymptotiske χ 2 -fordeling af 2 ln Q har et antal frihedsgrader som er antal frie parametre i grundmodellen minus antal frie parametre i den testede model Gammafordeling: Gammafordelingen med formparameter λ > 0 og skalaparameter β > 0 er den kontinuerte sandsynlighedsfordeling på den positive halvakse som har tæthedsfunktion x 1 Γ(λ)β λ xλ 1 exp( x/β), x > 0 Middelværdien i gammafordelingen er λβ og variansen er λβ 2 χ 2 -fordelingen med f frihedsgrader er det samme som gammafordelingen med formparameter f /2 og skalaparameter 2 Gammafunktionen er defineret ved Γ(x) = + 0 t x 1 exp( t) dt, x R \ {0, 1, 2, 3, } Gammafunktionen har den egenskab at Γ(x + 1) = x Γ(x) for alle x Hvis n er et naturligt tal, så er Γ(n + 1) = n! Der gælder at Γ( 1 / 2 ) = π gennemsnit (engelsk: mean): Gennemsnittet (eller mere præcist det aritmetiske gennemsnit) af tallene y 1, y 2,, y n er tallet ȳ = (y 1 + y y n )/n Det vægtede gennemsnit af tallene y 1, y 2,, y n med vægtene w 1, w 2,, w n er tallet w 1 y 1 + w 2 y w n y n w 1 + w w n Det geometriske gennemsnit af tallene y 1, y 2,, y n er tallet n y1 y 2 y n histogram: Et histogram er en art empirisk tæthedsfunktion Et histogram tegnes på den måde at man inddeler observationsaksen i et antal delintervaller, og for hvert af disse intervaller tegnes et rektangel med intervallet som nederste side og med et areal som er lig med den relative hyppighed af observationer i det pågældende interval

15 15 hypotese: En statistisk hypotese er et udsagn om at de ukendte parametre i den statistiske model opfylder visse betingelser (feks at nogle af dem er ens, eller lig 0, etc) hyppighed (engelsk: frequency): Hyppigheden (eller mere præcist den absolutte hyppighed) af en hændelse A er det antal gange A indtræffer når man udfører et bestemt tilfældighedseksperiment et fastsat antal gange Den relative hyppighedz af A er den absolutte hyppighed divideret med antallet af gange tilfældighedseksperimentet er udført indikatorvariabel: En indikatorvariabel for en hændelse A er en stokastisk variabel der antager værdien 1 når A indtræffer og 0 ellers Indikatorvariable kaldes også 01-variable kontingenstabel: Antag at nogle individer klassificeres efter to kriterier hvoraf det første har r og det andet s niveauer På den måde placeres hvert individ i én af de rs forskellige klasser Den tabel med r rækker og s søjler som indeholder antallene af individer i hver af de rs klasser, er en tosidet kontingenstabel kontinuert stokastisk variabel: En stokastisk variabel X er kontinuert hvis den har en tæthedsfunktion, dvs en ikke-negativ funktion f med den egenskab at for vilkårlige reelle tal a b er P(a < X b) = b a f (x) dx Hvis x er et lille positivt tal, så er f (x) x P(x < X x + x) Fordelingsfunktionen for en kontinuert stokastisk variabel er kontinuert i alle punkter, og hvis x er et kontinuitetspunkt for f, så er F differentiabel i x med F (x) = f (x) = lim P( X x < h) h h 0 1 korrelationskoefficient: Korrelationskoefficienten mellem to stokastiske variable X og Y er tallet ρ = Cov(X, Y) VarX VarY Der gælder at 1 ρ 1 Den empiriske korrelationskoefficient mellem talsættene x 1, x 2,, x n og y 1, y 2,, y n er tallet r = n n n (x i x) 2 (x i x)(y i ȳ) (y i ȳ) 2 Der gælder at 1 r 1

16 16 Ordforklaringer og definitioner kovariansen mellem to stokastiske variable X 1 og X 2 er tallet Cov(X 1, X 2 ) = E(X 1 E X 1 )(X 2 E X 2 ) kvotientteststørrelse: Kvotientteststørrelsen Q for en bestemt hypotese er kvotienten mellem den maksimale likelihoodfunktion under hypotesen og den maksimale likelihoodfunktion under den aktuelle grundmodel likelihoodfunktion: Likelihoodfunktionen svarende til et bestemt sæt observationer fås ved at man i modelfunktionen indsætter dette sæt observationer og betragter udtrykket som en funktion af de ukendte parametre Eksempel: Hvis modelfunktionen er f (y; θ), så er likelihoodfunktionen hørende til y obs funktionen L(θ) = f (y obs ;θ) likelihoodmetoden: se side 39 logistisk transformation: Funktionen logit(p) = ln p kaldes den logisti- 1 p ske transformation eller blot»logit«funktionen afbilder intervallet ]0, 1[ bijektivt på den reelle akse, og den omvendte funktion er p = exp(z)/(1 + exp(z)) maksimaliseringsestimat: Den værdi der maksimaliserer likelihoodfunktionen (eller log-likelihoodfunktionen) median: det samme som 50%-fraktilen, dvs halvdelen af sandsynlighedsmassen ligger til venstre for medianen og halvdelen til højre for middelfejl (engelsk: standard error): Middelfejlen på en estimator er det samme som estimatorens standardafvigelse, sd middelværdi (engelsk: expected value) af en stokastisk variabel X er tallet EX defineret ved henholdsvis EX = x x p(x) eller EX = + x f (x) dx, alt efter som X er diskret (med sandsynlighedsfunktion p) eller kontinuert (med tæthedsfunktion f ) Middelværdien af X kaldes også den forventede værdi af X Hvis g er en funktion defineret på værdimængden for X, så kan middelværdien af den stokastiske variabel g(x) fås som henholdsvis E g(x) = x g(x) p(x) eller E g(x) = + g(x) f (x) dx, Regneregler for middelværdier:

17 17 1 Hvis X 0, så er E X 0 2 E a = a 3 E(X 1 + X 2 ) = E X 1 + E X 2 4 E(aX) = a E X 5 Hvis X 1 og X 2 er stokastisk uafhængige, så er E(X 1 X 2 ) = E X 1 E X 2 Her betegner a en konstant og X, X 1 og X 2 stokastiske variable modelfunktion: Modelfunktionen er sandsynlighedsfunktionen opfattet som en funktion af såvel observationer som parametre Modelfunktionen angiver sandsynligheden for at få et bestemt udfald når de ukendte parametre har en bestemt værdi multinomialfordeling: Multinomialfordelingen (med r klasser) med antalsparameter n og sandsynlighedsparametre p 1, p 2,, p r (hvor p 1 + p p r = 1) er den r-dimensionale sandsynlighedsfordeling som har sandsynlighedsfunktion f (y 1, y 2,, y r ; p 1, p 2,, p r ) = n! y 1! y 2! y r! py 1 1 py 2 2 py r r når y 1, y 2,, y r er ikke-negative heltal der summerer til n (Multinomialfordelingen med r = 2 er det samme som binomialfordelingen) negativ binomialfordeling: Den negative binomialfordeling med formparameter κ > 0 og sandsynlighedsparameter p ]0, 1[ er den sandsynlighedsfordeling på {0, 1, 2, } som har sandsynlighedsfunktion ( ) y + κ 1 f (y;κ, p) = p κ (1 p) y, y {0, 1, 2, } y Middelværdien i fordelingen er κ(1 p)/p, og variansen er κ(1 p)/p 2 normalfordeling: Normalfordelingen med parametre µ og σ 2, kort N (µ,σ 2 ), er den sandsynlighedsfordeling på den reelle talakse R som har tæthedsfunktionen f (x; µ,σ 2 ) = 1 2πσ 2 exp ( 1 2 (x µ) 2 Her kan parameteren µ være et vilkårligt reelt tal og parameteren σ 2 et vilkårligt positivt tal Middelværdien i N (µ,σ 2 )-fordelingen er µ, og variansen er σ 2 ordnede observationer (engelsk: order statistics): Hvis y 1, y 2,, y n er et sæt observationer, så er y (1), y (2),, y (n) en traditionel standardbetegnelse for de tilsvarende ordnede observationer, dvs y-erne ordnet i rækkefølge sådan at y (1) = det mindste af y-erne, y (2) = det næstmindste af y-erne, osv σ 2 )

18 18 Ordforklaringer og definitioner outlier: en observation der ligger usædvanlig langt fra det store flertal af tilsvarende observationer Pascals trekant: en rekursiv algoritme til udregning af binomialkoefficienter: ( ) ( ) ( ) n n 1 n 1 = + k k k 1 Poissonfordeling: Poissonfordelingen med parameter µ 0 er den sandsynlighedsfordeling på {0, 1, 2, } som har sandsynlighedsfunktion f (y; µ) = µy y! exp( µ), y {0, 1, 2, } Middelværdien i fordelingen er µ, og variansen er også µ probit ( probability unit ): Hvis man lægger 5 til α-fraktilen i N (0, 1)-fordelingen, får man probit(α), dvs probit(α) = Φ 1 (α) + 5, hvor Φ er den kumulerede fordelingsfunktion for N (0, 1)-fordelingen R 2 : se determinationskoefficient regressionsanalyse: En generel betegnelse for en lang række analysemetoder der går ud på at beskrive (middelværdien af) y 1, y 2,, y n ved hjælp af en eller flere forklarende variable regressionskoefficient: I den simple lineære regressionsmodel EY i = α + βx i kaldes parameteren β for regressionskoefficienten residual: Residualerne er forskellene y i ŷ i mellem de observerede og de fittede værdier sample: et engelsk ord der kan oversættes til stikprøve (eller hvis det er et udsagnsord til at indsamle en stikprøve) sandsynlighedspapir (normalfordelingspapir): En særlig type papir med fortrykte skalaer der letter tegningen af fraktildiagrammer for normalfordelte observationer Sandsynlighedspapirets ordinatakse har to skalaer, dels en probit-skala, dels den tilsvarende sandsynlighedsskala scatterplot: en diagram hvor man i al enkelhed indtegner punkter (x i, y i ) signifikans: Udtrykket benyttes i forbindelse med test af en statistisk hypotese Man siger at der er signifikans på niveau α hvis testsandsynligheden er udregnet til α (og man forkaster hypotesen) Hvis man har den strategi at forkaste hypotesen hver gang testsandsynligheden er mindre end α, så siger man at man benytter et signifikansniveau på α, og man kan fortolke α som sandsynligheden for at forkaste hypotesen selv om den er rigtig Man benytter ofte α = 5%

19 19 simpel hypotese: en hypotese der ikke indeholder nogen ukendte parametre (det modsatte er en sammensat hypotese) standardafvigelse (engelsk: standard deviation) er kvadratroden af variansen (sd) statistisk hypotese: se hypotese statistisk model: se side 39 stikprøve (engelsk: sample): At et sæt observationer y 1, y 2,, y n er en stikprøve fra en bestemt fordeling, betyder at y-erne er observationer af uafhængige identisk fordelte stokastiske variable Y 1, Y 2,, Y n som følger den pågældende fordeling stikprøvefunktion (engelsk: statistic): en funktion af observationerne stokastisk variabel (engelsk: random variable): et symbol der repræsenterer det tilfældige udfald af et bestemt tilfældighedseksperiment, eller sagt på en anden måde: en værdi valgt tilfældigt fra en bestemt sandsynlighedsfordeling Det er ofte underforstået at stokastiske variable antager værdier på den reelle talakse R eller en delmængde heraf Stokastiske variable betegnes ofte med symboler som X, Y, Z, osv Der findes også en stringent matematisk definition af»stokastisk variabel«t-fordeling: t-fordelingen med f frihedsgrader er den kontinuerte sandsynlighedsfordeling på den reelle akse som har tæthedsfunktion x Γ( f +1 2 ) π f Γ( f 2 ) ) f +1 (1 + x2 2, x R f test: Et statistisk test er en metode hvormed man sammenholder et foreliggende sæt observationer og en påstået statistisk hypotese/model for disse observationer Ofte består testet i at man udregner en velvalgt teststørrelse (en funktion af observationerne) og sammenligner den observerede værdi af teststørrelsen med en vis referencefordeling Hvis værdien af teststørrelsen ligger meget ekstremt i forhold til sin referencefordeling, så forkaster man hypotesen Testsandsynligheden er sandsynligheden (udregnet efter referencefordelingen) for at få noget der er mere ekstremt end den observerede værdi af teststørrelsen; man forkaster hypotesen hvis testsandsynligheden er lille (feks mindre end 5%) Se også side 39 testsandsynlighed: se test

20 20 Ordforklaringer og definitioner teststørrelse (engelsk: test statistic): se test tæthedsfunktion: se kontinuert stokastisk variabel uafhængighed: Stokastiske variable X 1, X 2,, X n er uafhængige (eller mere præcist stokastisk uafhængige) hvis det er sådan at kendskab til udfaldene af nogle af de variable ikke påvirker de sandsynlighedsudsagn man kan fremsætte om de øvrige variable; en mere formel definition er at der skal gælde at P(X 1 A 1 og X 2 A 2 og og X n A n ) = P(X 1 A 1 ) P(X 2 A 2 ) P(X n A n ) for alle valg af hændelser A 1, A 2,, A n variansen på en stokastisk variabel X er tallet VarX = E ( (X EX) 2) Regneregler for varianser: 1 Var X 0 2 Var a = 0 3 Var(aX) = a 2 Var X 4 Var(a + X) = Var X 5 Var X = E X 2 (E X) 2 6 Var X = E X(X 1) (E X)(E X 1) 7 Var(X 1 + X 2 ) = Var X 1 + Var X Cov(X 1, X 2 ) 8 Hvis X 1 og X 2 er stokastisk uafhængige, så er Var(X 1 + X 2 ) = Var X 1 + Var X 2 Her betegner a en konstant og X, X 1 og X 2 stokastiske variable χ 2 -fordeling: χ 2 -fordelingen med f frihedsgrader ( f > 0) er den kontinuerte fordeling på den positive halvakse som har tæthedsfunktion x 1 Γ( f 2 ) 2 f 2 x f 2 1 exp( x/2), x > 0 χ 2 -fordelingen er en gammafordeling med formparameter f /2 og skalaparameter 2 Mange teststørrelser har den egenskab at deres fordeling (når den testede hypotese er rigtig) kan approksimeres med en χ 2 -fordeling med et vist antal frihedsgrader Frihedsgradsantallet er forskellen mellem det faktiske antal parametre i grundmodellen og det faktiske antal parametre under hypotesen

21 21 χ 2 / f -fordeling: χ 2 / f -fordelingen med f frihedsgrader ( f > 0) er den kontinuerte fordeling på den positive halvakse som har tæthedsfunktion x 1 Γ( f 2 ) ( 2 f ) f 2 x f 2 1 exp( x/ 2 f ), x > 0 χ 2 / f -fordelingen er en gammafordeling med formparameter f /2 og skalaparameter 2/ f Hvis X er χ 2 -fordelt med f frihedsgrader, så følger X/ f en χ 2 / f -fordeling med f frihedsgrader

22 22

23 3 Resuméer 31 Den simple binomialfordelingsmodel Situation: n individer er klassificeret efter om de gav udfaldet 1 eller 0: udfald obs antal 1 y 0 n y i alt n Model: y er en observation fra en binomialfordeling med parametre n og p, hvoraf p er ukendt Estimation: p estimeres ved ˆp = y/n Middelværdien af estimatoren ˆp er p Standardafvigelsen på ˆp estimeres til ˆp(1 ˆp)/n Hypotese: Man ønsker at teste den simple statistiske hypotese H 0 : p = p 0 hvor p 0 er et på forhånd givet tal Teststørrelse: Under H 0 er situationen udfald obs antal»forventet«antal 1 y ŷ = np 0 0 n y n ŷ = n(1 p 0 ) i alt n n ( Kvotientteststørrelsen er 2 ln Q = 2 y ln y ŷ ) n y + (n y) ln n ŷ Testsandsynlighed: Testsandsynligheden ε bestemmes således: 1 Hvis begge de»forventede«antal er mindst 5, kan ε med god tilnærmelse findes som sandsynligheden for at få en værdi større end 2 ln Q obs i χ 2 -fordelingen med 1 frihedsgrad: ( ) ε = P χ ln Q obs 2 I modsat fald må man udregne den eksakte testsandsynlighed ε = y : 2 ln Q(y) 2 ln Q obs ( ) n p y y 0 (1 p 0) n y 23

24 24 Resuméer Konklusion: Hvis ε er meget lille, så er der en signifikant afvigelse mellem det observerede og det som H 0 foreskriver: man må da forkaste H 0 Hvis ε ikke er meget lille, er H 0 forenelig med det observerede: man kan ikke forkaste H 0 32 Sammenligning af binomialfordelinger Situation: n j individer fra gruppe j er klassificeret efter om de gav udfaldet 1 eller 0, j = 1, 2,, s: gruppe nr udfald 1 2 s sum 1 y 1 y 2 y s y 0 n 1 y 1 n 2 y 2 n s y s n y i alt n 1 n 2 n s n Model: y 1, y 2,, y s er uafhængige observationer fra binomialfordelinger således at y j stammer fra en binomialfordeling med parametre n j og p j De ukendte parametre er p 1, p 2,, p s Estimation: p j estimeres ved ˆp j = y j /n j, j = 1, 2,, s Hypotese: Man ønsker at teste den statistiske hypotese H 0 : p 1 = p 2 = = p s (= p) om at der ikke er forskel på de s grupper Teststørrelse: Under H 0 er den»forventede«situation gruppe nr udfald 1 2 s sum 1 ŷ 1 ŷ 2 ŷ s y 0 n 1 ŷ 1 n 2 ŷ 2 n s ŷ s n y i alt n 1 n 2 n s n hvor ŷ j = n j ˆp og ˆp = y /n Kvotientteststørrelsen er Testsandsynlighed: 2 ln Q = 2 ( s y j ln y j + (n ŷ j y j ) ln n ) j y j j=1 j n j ŷ j 1 Hvis alle de 2s»forventede«antal ŷ j og n j ŷ j er mindst 5, kan testsandsynligheden ε med god tilnærmelse findes som sandsynligheden for at få en værdi større end 2 ln Q obs i χ 2 -fordelingen med s 1 frihedsgrader: ( ) ε = P χ 2 s 1 2 ln Q obs

25 33 Betingelser for en Poissonmodel 25 2 I modsat fald må man prøve at slå nogle smågrupper sammen, således at 1 bliver opfyldt Eller hvis s = 2 kan man benytte det eksakte test Det eksakte test når s = 2: Udregn størrelsen g(z) = ( n 1 z )( n 2 y z) for z = 0, 1, 2,, y, og udregn summen S = g(0) + g(1) + + g(y ) (der i øvrigt er lig ( n 1+n 2 )) Testsandsynligheden er da y ε = 1 S g(z) z : g(z) g(y 1 ) Konklusion: Hvis ε er meget lille, så er der en signifikant afvigelse mellem det observerede og det som H 0 foreskriver, og man vil da forkaste H 0 I modsat fald er H 0 forenelig med det observerede, og man kan ikke forkaste H 0 33 Betingelser for en Poissonmodel 1 Det der observeres, er antallet af en bestemt slags begivenheder i et bestemt tidsinterval 2 Der indtræffer aldrig to (eller flere) begivenheder samtidigt 3 Begivenhederne indtræffer uafhængigt af hinanden således at forstå at det der indtræffer i for eksempel tidsintervallet ]a, b], er stokastisk uafhængigt af hvad der sker uden for dette interval 4 Sandsynligheden for at der indtræffer en begivenhed i et tidsinterval ]t, t + t] af længde t, afhænger ikke af hvor på tidsaksen intervallet er beliggende, dvs den afhænger ikke af t (sålænge vi befinder os inden for det overordnede tidsinterval der i det hele taget er tale om) 5 Hvis p( t) betegner sandsynligheden for at der indtræffer mindst en begivenhed i et tidsinterval af længde t, så vil p( t) lim t 0 t = λ, hvor λ er en positiv konstant kaldet intensiteten Under disse omstændigheder vil antallet af begivenheder i tidsintervallet ]a, b] være Poissonfordelt med parameter µ = λ (b a) 34 Sammenligning af Poissonfordelinger Situation: Man har optalt antal begivenheder af en bestemt slags i k forskellige grupper I gruppe i er y i = observeret antal begivenheder t i = observations-»perioden«r i = størrelsen af»risikogruppen«

26 26 Resuméer Model: Observationerne y 1, y 2,, y k er observerede værdier af uafhængige Poissonfordelte stokastiske variable Y 1, Y 2,, Y k således at Y i har parameter λ i r i t i hvor λ i er en ukendt parameter der beskriver intensiteten af begivenhederne pr tid og pr individ for gruppe i Estimation: Parameteren λ i estimeres ved antal begivenheder divideret med den samlede»gennemlevede«tid i gruppe i: ˆλ i = y i r i t i Hypotese: Man ønsker at teste hypotesen H 0 : λ 1 = λ 2 = = λ k om at intensiteterne er ens i de k grupper / k Teststørrelse: Den eventuelle fælles værdi af λ estimeres ved ˆλ = y r l t l, og det»forventede«antal begivenheder i gruppe i under H 0 er ŷ i = ˆλ r i t i = r it i k l=1 r l t l y Kvotientteststørrelsen er 2 ln Q = 2 k y i ln y i ŷ i Testsandsynlighed: Hvis alle de»forventede«antal ŷ i er mindst fem, kan testsandsynligheden ε med god tilnærmelse bestemmes som sandsynligheden for at få en større værdi end 2 ln Q obs i χ 2 -fordelingen med f = k 1 frihedsgrader: ( ) ε = P χ 2 k 1 2 ln Q obs l=1 Konklusion: Hvis ε er meget lille, så er der en signifikant afvigelse mellem det observerede og det som modellen foreskriver, og man vil da forkaste H 0 I modsat fald er H 0 forenelig med det observerede, og man kan da ikke forkaste H 0 35 Sammenligning af multinomialfordelinger Situation: n j individer fra gruppe j er klassificeret i r klasser: gruppe nr sum A 1 y 11 y 12 y 1s y 1 A 2 y 21 y 22 y 2s y 2 klasse A i y i1 y i2 y is y i A r y r1 y r2 y rs y r i alt n 1 n 2 n s n

27 35 Sammenligning af multinomialfordelinger 27 Model: De enkelte søjler af y-er er uafhængige observationer fra multinomialfordelinger således at multinomialfordelingen hørende til søjle nr j har antalsparameter n j og sandsynlighedsparametre p 1 j, p 2 j,, p r j Her er p i j -erne ukendte parametre med p 1 j + p 2 j + + p r j = 1 for alle j Estimation: p i j estimeres ved den observerede relative hyppighed af A i i gruppe j, dvs ˆp i j = y i j n j Hypotese: Man ønsker at teste hypotesen p 11 p 21 p r1 p 12 p 22 p r2 p 1s p 2s H 0 : = = = om at der ikke er forskel på søjlerne Teststørrelse: Under H 0 er den»forventede«situation hvor ŷ i j = y i n j /n Kvotientteststørrelsen er Testsandsynlighed: p rs gruppe nr sum A 1 ŷ 11 ŷ 12 ŷ 1s y 1 A 2 ŷ 21 ŷ 22 ŷ 2s y 2 klasse A i ŷ i1 ŷ i2 ŷ is y i A r ŷ r1 ŷ r2 ŷ rs y r i alt n 1 n 2 n s n 2 ln Q = 2 s j=1 r y i j ln y i j ŷ i j 1 Hvis alle de rs»forventede«antal er mindst fem, kan testsandsynligheden ε med god tilnærmelse findes som sandsynligheden for at få en større værdi end 2 ln Q obs i χ 2 -fordelingen med (r 1)(s 1) frihedsgrader: ( ) ε = P χ 2 (r 1)(s 1) 2 ln Q obs 2 I modsat fald må man prøve at slå nogle smågrupper sammen eller at slå nogle klasser sammen ellgn for at opnå at 1 bliver opfyldt Konklusion: Hvis ε er meget lille, så er der en signifikant afvigelse mellem det observerede og det som H 0 foreskriver, og man vil da forkaste H 0 I modsat fald er H 0 forenelig med det observerede, og man kan ikke forkaste H 0

28 28 Resuméer 36 Uafhængighedstest i en r s-tabel Situation: n individer er klassificeret efter to kriterier: hvor kriterium 2 klasse B 1 B 2 B s sum A 1 y 11 y 12 y 1s y 1 kriterium 1 A 2 y 21 y 22 y 2s y 2 A r y r1 y r2 y rs y r sum y 1 y 2 y s n y i j = antal individer i klassen A i B j (= A i B j ) Model: De rs værdier y i j udgør tilsammen en observation fra en multinomialfordeling med rs klasser, med antalsparameter n og med sandsynlighedsparametre p i j, i = 1, 2,, r, j = 1, 2,, s Sandsynlighedsparametrene p i j er ukendte parametre der summerer til 1: p 11 + p p rs = 1 Estimation: p i j estimeres ved den observerede relative hyppighed af A i B j, dvs ˆp i j = y i j n Hypotese: Man ønsker at teste uafhængighedshypotesen (hypotesen om forsvindende vekselvirkning) H 0 : p i j = α i β j for alle i og j, hvor de ukendte parametre (α 1,α 2,,α r ) og (β 1, β 2,, β s ) er ikkenegative talsæt der hver især summerer til 1 Teststørrelse: Under H 0 er den»forventede«situation hvor ŷ i j = y i y j/y kriterium 2 klasse B 1 B 2 B s sum A 1 ŷ 11 ŷ 12 ŷ 1s y 1 kriterium 1 A 2 ŷ 21 ŷ 22 ŷ 2s y 2 A r ŷ r1 ŷ r2 ŷ rs y r sum y 1 y 2 y s n Kvotientteststørrelsen er 2 ln Q = 2 s j=1 r y i j ln y i j ŷ i j

29 37 Enstikprøveproblemet i normalfordelingen 29 Testsandsynlighed: 1 Hvis alle de rs»forventede«antal er mindst fem, kan testsandsynligheden ε med god tilnærmelse findes som sandsynligheden for at få en større værdi end 2 ln Q obs i χ 2 -fordelingen med (r 1)(s 1) frihedsgrader: ( ) ε = P χ 2 (r 1)(s 1) 2 ln Q obs 2 I modsat fald må man prøve at slå nogle rækker eller søjler sammen for at opnå at 1 bliver opfyldt Konklusion: Hvis ε er meget lille, så er der en signifikant afvigelse mellem det observerede og det som H 0 foreskriver, og man vil da forkaste H 0 I modsat fald er H 0 forenelig med det observerede, og man kan ikke forkaste H 0 37 Enstikprøveproblemet i normalfordelingen Situation: Der foreligger observationer y 1, y 2,, y n på en kontinuert måleskala Model: Det antages at y 1, y 2,, y n er uafhængige observationer fra normalfordelingen N (µ,σ 2 ) hvor µ og σ 2 er ukendte parametre Estimation: Middelværdiparameteren µ estimeres ved gennemsnittet ȳ = (y 1 + y y n )/n Variansparameteren σ 2 estimeres ved summen af de kvadratiske afvigelser divideret med antallet af frihedsgrader, dvs ved s 2 = 1 n 1 n j=1 (y j ȳ) 2 med f = n 1 frihedsgrader Modelkontrol: Man kan tegne et histogram (samt den fittede normalfordelingstæthed) og/eller et fraktildiagram (samt den rette linie svarende til den fittede normalfordeling) Hypotese: Man ønsker at teste den simple statistiske hypotese H 0 : µ = µ 0 hvor µ 0 er et på forhånd givet tal Teststørrelse: Kvotienttestet kan omformes til t-testet som er baseret på t-teststørrelsen t = ȳ µ 0 s 2 /n

30 30 Resuméer Testsandsynlighed: Testsandsynligheden er sandsynligheden for at få en større t -værdi i t-fordelingen med f = n 1 frihedsgrader, altså ( ) ( ) ε = P t f > t obs = 2 P t f > t obs Denne sandsynlighed bestemmes let ved brug af tabeller over fraktiler i t-fordelingen 38 Tostikprøveproblemet i normalfordelingen, uparrede observationer Situation: Der foreligger nogle observationer y som er målt på en kontinuert måleskala, og som er inddelt i to grupper: gruppe observationer 1 y 11 y 12 y 1 j y 1n1 2 y 21 y 22 y 2 j y 2n2 Her betegner y i j observation nr j i gruppe nr i, i = 1, 2 Grupperne har henholdsvis n 1 og n 2 observationer Model: Det antages at y i j -erne er observerede værdier af uafhængige stokastiske variable Y i j som er normalfordelte med samme varians σ 2 og med middelværdier henholdsvis µ 1 og µ 2, kort Y 1 j N (µ 1,σ 2 ) Y 2 j N (µ 2,σ 2 ) Her beskriver de to middelværdiparametre µ 1 og µ 2 den systematiske variation, dvs de to gruppers niveauer, medens variansparameteren σ 2 (samt normalfordelingen) beskriver den tilfældige variation Estimation: Middelværdiparametrene µ 1 og µ 2 estimeres ved de tilsvarende gruppegennemsnit ȳ 1 og ȳ 2 Variansparameteren σ 2 estimeres ved s 2 0 = 1 n 1 + n 2 2 ( n1 (y 1 j ȳ 1 ) 2 + j=1 med n 2 = n 1 + n 2 2 frihedsgrader n 2 j=1 (y 2 j ȳ 2 ) 2 ) Modelkontrol: Hvis der er tilstrækkeligt mange observationer i grupperne kan man for hver gruppe tegne et histogram (samt den fittede normalfordelingstæthed) og/eller et fraktildiagram (samt den rette linie svarende til den fittede normalfordeling) Antagelsen om varianshomogenitet kan eventuelt testes med Bartletts test for varianshomogenitet (tilfældet k = 2),

31 39 Tostikprøveproblemet i normalfordelingen, parrede observationer 31 Hypotese: Man ønsker at teste den statistiske hypotese H 0 : µ 1 = µ 2 om at de to grupper har samme middelværdiparameter Teststørrelse: Som teststørrelse benyttes t = s 2 0 ȳ 1 ȳ 2 ( ) 1n1 + 1 n2 Store værdier af t er signifikante Testsandsynlighed: Testsandsynligheden ε bestemmes som sandsynligheden for at få en værdi uden for intervallet med endepunkter t obs og t obs i t-fordelingen med n 2 frihedsgrader, ε = 2 P ( t n 2 > t obs ) Konklusion: Hvis ε er meget lille, så er der en signifikant forskel mellem de to grupper, dvs hypotesen forkastes Hvis ε ikke er meget lille, kan man ikke på det foreliggende grundlag forkaste hypotesen 39 Tostikprøveproblemet i normalfordelingen, parrede observationer Situation: Der foreligger r par af uafhængige observationer y som er målt på en kontinuert måleskala Parrene er inddelt i to grupper: gruppe nr 1 2 par nr 1 y 11 y 12 par nr 2 y 21 y 22 par nr i y i1 y i2 par nr r y r1 y r2 Model: Det antages at y i j -erne er observerede værdier af stokastiske variable Y i j med den egenskab at differenserne D i = Y i2 Y i1 er uafhængige identisk normalfordelte: hvor δ og σ 2 er ukendte parametre Y i2 Y i1 N (δ,σ 2 ),

32 32 Resuméer Estimation: Kald differensen mellem elementerne i par nr i for d i, altså d i = y i2 y i1 Parameteren δ estimeres ved gennemsnittet af differenserne eller differensen af gennemsnittet: ˆδ = ȳ 2 ȳ 1 = d Variansparameteren σ 2 estimeres ved s 2 = r 1 ( r 1 di d ) 2 med r 1 frihedsgrader Modelkontrol: For at checke om differenserne er normalfordelte kan man (hvis r er tilstrækkeligt stor) over differenserne d 1, d 2,, d r tegne et histogram (samt den fittede normalfordelingstæthed) og/eller et fraktildiagram (samt den rette linie svarende til den fittede normalfordeling) Hypotese: Man ønsker at teste den simple statistiske hypotese H 0 : δ = 0 om at der ikke er nogen signifikant forskel mellem de to elementer i et par Teststørrelse: Som teststørrelse benyttes t = d s 2 /r Store værdier af t er signifikante Testsandsynlighed: Testsandsynligheden ε bestemmes som sandsynligheden for at få en værdi uden for intervallet med endepunkter t obs og t obs i t-fordelingen med r 1 frihedsgrader, ε = 2 P ( t r 1 > t obs ) Konklusion: Hvis ε er meget lille, så er der en signifikant forskel mellem de to grupper, dvs hypotesen forkastes Hvis ε ikke er meget lille, kan man ikke på det foreliggende grundlag forkaste hypotesen

33 310 Ensidet variansanalyse Ensidet variansanalyse Situation: Der foreligger nogle observationer y som er målt på en kontinuert måleskala, og som er inddelt i k grupper således at der er n i observationer i gruppe nr i, i = 1, 2,, k Observation nr j fra gruppe nr i betegnes y i j Skematisk ser det således ud: gruppe observationer 1 y 11 y 12 y 1 j y 1n1 2 y 21 y 22 y 2 j y 2n2 i y i1 y i2 y i j y ini k y k1 y k2 y k j y knk Model: Det antages at y i j -erne er observerede værdier af uafhængige stokastiske variable Y i j således at Y i j er normalfordelt med middelværdi µ i og varians σ 2, kort Y i j N (µ i,σ 2 ), hvor µ 1, µ 2,, µ k og σ 2 er ukendte parametre Herved beskriver middelværdiparametrene µ 1, µ 2,, µ k den systematiske variation, nemlig de enkelte gruppers niveauer, medens variansparameteren σ 2 (samt normalfordelingen) beskriver den tilfældige variation inden for grupperne; den tilfældige variation antages at være den samme i alle grupper estimeres ved gruppe- Estimation: Middelværdiparametrene µ 1, µ 2,, µ k gennemsnittene: ˆµ i = 1 n i n i y i j j=1 = ȳ i Variansparameteren σ 2 estimeres ved residualkvadratsummen divideret med dens frihedsgradsantal, nemlig s 2 0 = 1 n k k n j=1 (y i j ȳ i ) 2 hvor f = n k er antallet af frihedsgrader (n = n 1 + n n k ) Modelkontrol: Hvis der er tilstrækkeligt mange observationer i grupperne, kan man for hver gruppe tegne et histogram (samt den fittede normalfordelingstæthed) og/eller et fraktildiagram (samt den rette linie svarende til den fittede normalfordeling) Antagelsen om varianshomogenitet kan eventuelt testes med Bartletts test for varianshomogenitet

34 34 Resuméer Hypotese: Man ønsker at teste hypotesen om homogenitet mellem grupper, dvs den statistiske hypotese H 0 : µ 1 = µ 2 = = µ k om at der ikke er nogen signifikant forskel mellem grupperne Teststørrelse: Udregn størrelsen s 2 1 = k 1 k 1 n i (ȳ i ȳ) 2 der beskriver variationen mellem grupper og har k 1 frihedsgrader Som teststørrelse benyttes F-teststørrelsen F = s2 1 s 2, 0 dvs forholdet mellem variationen mellem grupper og variationen inden for grupper Store F-værdier er signifikante Testsandsynlighed: Testsandsynligheden er sandsynligheden for at få en større F-værdi i F-fordelingen med frihedsgradsantal k 1 og n k, altså ε = P ( F k 1, n k > F obs ), der let bestemmes ved brug af tabeller over fraktiler i F-fordelingen 311 Bartletts test for varianshomogenitet Situation: Der foreligger k grupper af normalfordelte observationer således at observationer i samme gruppe stammer fra samme normalfordeling I hver gruppe er udregnet et variansestimat; estimatet fra gruppe i betegnes s 2 i og har f i frihedsgrader Hypotese: Man ønsker at teste den statistiske hypotese om at de k grupper har samme varians Estimation: Hvis hypotesen er rigtig, så skal den fælles varians estimeres som et vægtet gennemsnit af de enkelte gruppers varianser, nemlig ved s 2 0 = k 1 f f i si 2 der har f = f 1 + f f k frihedsgrader Teststørrelse: Som teststørrelse benyttes B = er signifikante k f i ln s2 i s 2 Store værdier af B 0 Testsandsynlighed: Når f 1, f 2,, f k alle er mindst 5, så er B med god tilnærmelse χ 2 -fordelt med k 1 frihedsgrader hvis hypotesen er rigtig, og testsandsynligheden kan da findes som ( ) ε = P χ 2 k 1 B obs

35 312 Simpel lineær regressionsanalyse 35 Specialtilfældet k = 2: Når der kun er to variansestimater s 2 1 og s2 2 sammenlignes, kan det ske ved at man udregner kvotienten der skal R = max(s2 1, s2 2 ) min(s 2 1, s2 2 ) R -værdier langt fra 1 er signifikante, og man plejer at bestemme testsandsynligheden som ( ) ( ) ε = P F f1, f 2 R obs + P F f2, f 1 R obs 312 Simpel lineær regressionsanalyse Situation: Der foreligger n sammenhørende par (x i, y i ) af en observation y og en baggrundsvariabel x; skematisk ser det sådan ud: baggrundsvariabel observation x 1 y 1 x 2 y 2 x n Model: Det antages at x i -erne er givne konstanter og at y i -erne er observerede værdier af uafhængige stokastiske variable Y i således at Y i er normalfordelt med middelværdi α + βx i og varians σ 2, kort y n Y i N (α + βx i,σ 2 ), hvor α, β og σ 2 er ukendte parametre Herved beskriver parametrene α og β den systematiske variation, nemlig y-s lineære afhængighed af x, og variansparameteren σ 2 (samt normalfordelingen) beskriver den tilfældige variation omkring regressionslinien; den tilfældige variation antages at være den samme for alle x Estimation: Udregn hjælpestørrelserne x = 1 n ȳ = 1 n SP xy = SS x = SS y = n n n n n x i, y i, (x i x)(y i ȳ), (x i x) 2, (y i ȳ) 2

36 36 Resuméer Så estimeres α og β ved ˆβ = SP xy SS x, ˆα = ȳ ˆβ x Variansparameteren σ 2 estimeres ved s 2 02 = = 1 n 2 1 n 2 n ( ( yi ( ˆα + ˆβx i ) ) 2 SS y SP2 xy SS x ) der har n 2 frihedsgrader Modelkontrol: Man kan lave en tegning hvor man i et koordinatsystem afsætter sammenhørende værdier af x og y og desuden indtegner den estimerede regressionslinie Punkterne skal da fordele sig nogenlunde tilfældigt omkring linien Hvis der til hver x-værdi er flere y-observationer, kan man foretage et numerisk test for antagelsen om linearitet, se Resumé 313 Hypoteser: 1 Hypotesen H 3 : β = 0 om at y ikke afhænger signifikant af x, testes med t-teststørrelsen t = ˆβ s 2 02 /SS x Store værdier af t er signifikante 2 Hypotesen H 4 : α = 0 om at regressionslinien går gennem (0, 0), testes med t-teststørrelsen t = s 2 02 Store værdier at t er signifikante ˆα ( ) 1n + SS x2 x I begge tilfælde bestemmes testsandsynligheden ε som sandsynligheden for at få en værdi uden for intervallet med endepunkter t obs og t obs i t-fordelingen med n 2 frihedsgrader, ε = 2 P ( t n 2 > t obs ) Hvis ε er meget lille, så er konklusionen at den pågældende parameter er signifikant forskellig fra 0, dvs hypotesen forkastes Hvis ε ikke er meget lille, kan man ikke på det foreliggende grundlag forkaste den pågældende hypotese

37 313 Test for linearitet i den lineære regressionsmodel Test for linearitet i den lineære regressionsmodel Dette resumé skal læses i sammenhæng med Resumé 312 og handler om det tilfælde hvor der er flere y-værdier til hvert x Situation: Til hver af k forskellige værdier af baggrundsvariablen x foreligger et antal observationer y som det fremgår af nedenstående skema: baggrundsvariabel x 1 x 2 x 3 x k observationer y 11 y 12 y 1n1 y 21 y 22 y 2n2 y 31 y 32 y 3n3 y k1 y k2 y knk Det totale antal y-observationer er n = n 1 + n n k Model: Det antages at x 1, x 2,, x k er k forskellige givne konstanter, og at y i j -erne er observerede værdier af uafhængige stokastiske variable Y i j således at Y i j er normalfordelt med middelværdi α + βx i og varians σ 2, kort Y i j N (α + βx i,σ 2 ), hvor α, β og σ 2 er ukendte parametre Herved beskriver parametrene α og β den systematiske variation, nemlig y-s lineære afhængighed af x, og variansparameteren σ 2 (samt normalfordelingen) beskriver den tilfældige variation omkring regressionslinien; den tilfældige variation antages at være den samme for alle x Estimation: Udregn hjælpestørrelserne x = 1 n k n i x i, ȳ i = 1 n i n i y i j, j=1 ȳ = 1 n SP xy = SS x = SS y = k n i y i j, j=1 k n i (x i x)(ȳ i ȳ), k n i (x i x) 2, k n i j=1 (y i j ȳ) 2

Sandsynlighedsregning Oversigt over begreber og fordelinger

Sandsynlighedsregning Oversigt over begreber og fordelinger Tue Tjur Marts 2007 Sandsynlighedsregning Oversigt over begreber og fordelinger Stat. MØK 2. år Kapitel : Sandsynlighedsfordelinger og stokastiske variable En sandsynlighedsfunktion på en mængde E (udfaldsrummet)

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Et sandsynlighedsmål er en

Læs mere

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning Elementær sandsynlighedsregning Sandsynlighedsbegrebet Et udfaldsrum S er mængden af alle de mulige udfald af et eksperiment. En hændelse A er en delmængde af udfaldsrummet S. Den hændelse, der ikke indeholder

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Lidt om fordelinger, afledt af normalfordelingen

Lidt om fordelinger, afledt af normalfordelingen IMM, 2002-10-10 Poul Thyregod Lidt om fordelinger, afledt af normalfordelingen 1 Introduktion I forbindelse med inferens i normalfordelinger optræder forskellige fordelinger, der er afledt af normalfordelingen,

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. Teoretisk Statistik, 9 marts 2005 Empiriske analoger (Kap. 3.7) Normalfordelingen (Kap. 3.12) Opsamling på Kap. 3 nb. Det forventes ikke, at alt materialet dækkes d. 9. marts. 1 Empiriske analoger Betragt

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Motivation Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser Rasmus Waagepetersen October 26, 2018 Eksempel: En landmåler får til opgave at måle længden λ fra A til B. Entreprenøren

Læs mere

Uge 10 Teoretisk Statistik 1. marts 2004

Uge 10 Teoretisk Statistik 1. marts 2004 1 Uge 10 Teoretisk Statistik 1. marts 004 1. u-fordelingen. Normalfordelingen 3. Middelværdi og varians 4. Mere normalfordelingsteori 5. Grafisk kontrol af normalfordelingsantagelse 6. Eksempler 7. Oversigt

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Om hypoteseprøvning (1)

Om hypoteseprøvning (1) E6 efterår 1999 Notat 16 Jørgen Larsen 11. november 1999 Om hypoteseprøvning 1) Det grundlæggende problem kan generelt formuleres sådan: Man har en statistisk model parametriseret med en parameter θ Ω;

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Lineære normale modeller (4) udkast

Lineære normale modeller (4) udkast E6 efterår 1999 Notat 21 Jørgen Larsen 2. december 1999 Lineære normale modeller (4) udkast 4.5 Regressionsanalyse 4.5.1 Præsentation 1 Regressionsanalyse handler om at undersøge hvordan én målt størrelse

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable

Lineære normale modeller (1) udkast. 1 Flerdimensionale stokastiske variable E6 efterår 999 Notat 8 Jørgen Larsen 22. november 999 Lineære normale modeller ) udkast Ved hjælp af lineær algebra kan man formulere og analysere de såkaldte lineære normale modeller meget overskueligt

Læs mere

STATISTIKNOTER Simple binomialfordelingsmodeller

STATISTIKNOTER Simple binomialfordelingsmodeller STATISTIKNOTER Simple binomialfordelingsmodeller Jørgen Larsen IMFUFA Roskilde Universitetscenter Februar 1999 IMFUFA, Roskilde Universitetscenter, Postboks 260, DK-4000 Roskilde. Jørgen Larsen: STATISTIKNOTER:

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår 2007 Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte

Læs mere

MM501 forelæsningsslides

MM501 forelæsningsslides MM501 forelæsningsslides uge 40, 2010 Produceret af Hans J. Munkholm bearbejdet af JC 1 Separabel 1. ordens differentialligning En generel 1. ordens differentialligning har formen s.445-8 dx Eksempler

Læs mere

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Binomialfordelingen. X ~ bin(n,p): X = antal succeser i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes. Uge 9 Teoretisk Statistik 23. februar 24 1. Binomialfordelingen 2. Den hypergeometriske fordeling 3. Poissonfordelingen 4. Den negative binomialfordeling 5. Gammafordelingen Binomialfordelingen X ~ bin(n,p):

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager

Læs mere

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset 02402 Vejledende løsninger til Splus-opgaverne fra hele kurset Vejledende løsning SPL3.3.1 Der er tale om en binomialfordeling med n =10ogp=0.6, og den angivne sandsynlighed er P (X =4) som i bogen også

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Statistik og Sandsynlighedsregning 2

Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Normalfordelingens venner og bekendte Helle Sørensen Uge 9, onsdag SaSt2 (Uge 9, onsdag) Normalfordelingens venner 1 / 20 Program Resultaterne fra denne uge skal bruges

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet Kursusholder

Læs mere

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 33B, Rum 9 Danmarks Tekniske Universitet 28 Lyngby Danmark e-mail: pbac@dtu.dk Efterår

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser Uge 36 Velkommen tilbage Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl. -2 i Kirkesalen, Studiestræde 38 Øvelser Hold -4 og 6: mandag og onsdag kl. 8-; start 3. september Hold 5: tirsdag

Læs mere

4 Oversigt over kapitel 4

4 Oversigt over kapitel 4 IMM, 2002-09-14 Poul Thyregod 4 Oversigt over kapitel 4 Introduktion Hidtil har vi beskæftiget os med data. Når data repræsenterer gentagne observationer (i bred forstand) af et fænomen, kan det være bekvemt

Læs mere

Note om Monte Carlo metoden

Note om Monte Carlo metoden Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at

Læs mere

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro

Uge 48 II Teoretisk Statistik 27. november 2003. Numerisk modelkontrol af diskrete fordelinger: intro Uge 48 II Teoretisk Statistik 7. november 003 Numerisk modelkontrol af diskrete fordelinger: intro Eksempel: kvalitetskontrol Goodness-of-fit test: generel teori Endeligt udfaldsrum Udfaldsrum uden øvre

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Estimation og konfidensintervaller

Estimation og konfidensintervaller Statistik og Sandsynlighedsregning STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne Estimation og konfidensintervaller Antag X Bin(n,

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail: pbac@dtu.dk

Læs mere

Kvantitative Metoder 1 - Forår Dagens program

Kvantitative Metoder 1 - Forår Dagens program Dagens program Afsnit 6.1 Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler Lineære transformationer

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet 1/41 Landmålingens fejlteori - lidt om kurset

Læs mere

Statistiske modeller

Statistiske modeller Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Approksimation af binomialsandsynligheder, Afsnit 4.5 Multinomial fordeling, Afsnit 4.8 Negativ binomialfordeling, Afsnit 4.4 Poisson fordeling og Poisson process, Afsnit 4.6 Kontinuerte

Læs mere

Susanne Ditlevsen Institut for Matematiske Fag susanne

Susanne Ditlevsen Institut for Matematiske Fag    susanne Statistik og Sandsynlighedsregning 1 STAT kapitel 4.4 Susanne Ditlevsen Institut for Matematiske Fag Email: susanne@math.ku.dk http://math.ku.dk/ susanne 7. undervisningsuge, mandag 1 Estimation og konfidensintervaller

Læs mere

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k Dagens program: Likelihoodfunktion, begreber : Mandag den 4. februar Den generelle lineære model score-funktion: første afledede af log-likelihood har middelværdien nul observeret information: anden afledede

Læs mere

MM501/MM503 forelæsningsslides

MM501/MM503 forelæsningsslides MM501/MM503 forelæsningsslides uge 50, 2009 Produceret af Hans J. Munkholm 1 Separabel 1. ordens differentialligning En generel 1. ordens differentialligning har formen dx Eksempler = et udtryk, der indeholder

Læs mere

Nanostatistik: Konfidensinterval

Nanostatistik: Konfidensinterval Nanostatistik: Konfidensinterval JLJ Nanostatistik: Konfidensinterval p. 1/37 Fraktilpåmindelse u p : Φ(u p ) = p, Φ( z ) = 1 Φ( z ) t p [f] : F t[f] (t p [f]) = p, F t[f] ( t ) = 1 F t[f] ( t ) F-fordeling:

Læs mere

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 13: Summary Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål

Program. Statistik og Sandsynlighedsregning 2 Middelværdi og varians. Eksempler fra sidst. Sandsynlighedstæthed og sandsynlighedsmål Program Statistik og Sandsynlighedsregning 2 Middelværdi og varians Helle Sørensen Uge 6, onsdag I formiddag: Tætheder og fordelingsfunktioner kort resume fra i mandags og et par eksempler mere om sammenhængen

Læs mere

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006 Et eksempel på en todimensional normalfordeling Anders Milhøj September 006 I dette notat gennemgås et eksempel, der illustrerer den todimensionale normalfordelings egenskaber. Notatet lægger sig op af

Læs mere

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3 Landmålingens fejlteori Repetition - Kontinuerte stokastiske variable Lektion 4 - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf10 Institut for Matematiske Fag Aalborg Universitet 29. april

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

Preben Blæsild og Jens Ledet Jensen

Preben Blæsild og Jens Ledet Jensen χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt

Læs mere

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

Definition. Definitioner

Definition. Definitioner Definition Landmålingens fejlteori Lektion Diskrete stokastiske variable En reel funktion defineret på et udfaldsrum (med sandsynlighedsfordeling) kaldes en stokastisk variabel. - kkb@math.aau.dk http://people.math.aau.dk/

Læs mere

hvor a og b er konstanter. Ved middelværdidannelse fås videre

hvor a og b er konstanter. Ved middelværdidannelse fås videre Uge 3 Teoretisk Statistik. marts 004. Korrelation og uafhængighed, repetition. Eksempel fra sidste gang (uge ) 3. Middelværdivektor, kovarians- og korrelationsmatrix 4. Summer af stokastiske variable 5.Den

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Afsnit 6.1. Ligefordelinger, fra sidst Den standardiserede normalfordeling Normalfordelingen Beskrivelse af normalfordelinger: - Tæthed og fordelingsfunktion - Middelværdi, varians og fraktiler

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Statistiske principper

Statistiske principper Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1) ; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med Repetition: Varians af linear kombination Landmålingens fejlteori Lektion 5 Fejlforplantning - rw@math.aau.dk Antag X 1, X,..., X n er uafhængige stokastiske variable, og Y er en linearkombination af X

Læs mere

Nanostatistik: Opgavebesvarelser

Nanostatistik: Opgavebesvarelser Nanostatistik: Opgavebesvarelser JLJ Nanostatistik: Opgavebesvarelser p. 1/16 Pakkemaskine En producent hævder at poserne indeholder i gennemsnit 16 ounces sukker. Data: 10 pakker sukker: 16.1, 15.8, 15.8,

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere