Preben Blæsild og Jens Ledet Jensen
|
|
|
- Philippa Lauritsen
- 10 år siden
- Visninger:
Transkript
1 χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010
2 Program Forelæsning Statlab: I arbejder, vi cirkler rundt Frokost Øvelser: I fremlægger jeres resultater
3 Program for forelæsning Challenger katastrofen Model / Teststørrelse / p-værdi χ 2 -test 2 modeller, 2 hypoteser teststørrelse, frihedsgrader hvorfor χ 2 -fordeling χ 2 -test generelt Brug af excel Andre test - Andre modeller
4 Challenger Challenger katastrofen 28/ Aftenen før opsendelse: ingeniører forsøgte at advare mod problemer med O-ringe ved lave temperaturer Temperatur: 31 F ( 1 C)
5 Challenger Data (Rogers Commission report 1986) Missed opportunity: så kun på flyvninger med fejl
6 Challenger Model Hver opsendelse kan enten resultere i fejl i O-ringe eller resultere i ingen fejl i O-ringe Sandsynligheden for fejl er p(t ) T er temperaturen Data: 24 sammenhørende værdier af temperatur og indikator for fejl Fejl i 7 og ingen fejl i 17
7 Challenger Hypotese Ingen afhængighed af temperatur: p(t ) = konstant Under hypotesen: de 7 flyvninger med fejl vælges tilfældigt blandt de 24 flyvninger Eksempel på alternativ: log ( p(t ) 1 p(t )) = α βt P(Data) = c(α, β) exp{24α β 24 i=1 T ix i } x i er 1 ved fejl og 0 ved ingen fejl Teststørrelse: 24 i=1 T ix i = i:x i =1 T i observeret værdi = 446
8 Challenger Simulere p-værdi Trække 7 tilfældigt blandt de 24 og beregne sum af de 7 tilhørende temperaturer. Gentage 1 million gange. Density Histogram of sim Data: sim Konklusion: hvis der ingen sammenhæng er mellem temperatur og fejlsandsynlighed, vil sandsynligheden for at få en sum af temperaturer fra 7 flyvninger med fejl, der er mindre end eller lig med 446 være cirka 0.32% Da denne er lille tror vi ikke på hypotesen om ingen sammenhæng
9 Challenger p-værdi p-værdien: forestiller os at vi laver uafhængige gentagelser af eksperimentet i situationen hvor hypotesen er sand Beregner hvor ofte vi får udfald der er mere ekstreme end det faktisk observerede p-værdi = hyppighed af mere ekstreme udfald Mere ekstrem: defineres ud fra valg af teststørrelse
10 Challenger p-værdi p-værdien < 0.05: det observerede er meget usædvanligt under hypotesen: data strider mod hypotesen og vi tror ikke på hypotesen p-værdien > 0.05: det observerede er normalt under hypotesen: data strider ikke mod hypotesen, der er ikke grund til at forkaste hypotesen p-værdien er IKKE sandsynligheden for at hypotesen er sand
11 Challenger Tre vigtige punkter Model: bestemt af den sandsynlighedsmekanisme der frembringer data Teststørrelse: vælges klogt af statistiker p-værdi: beregnes (eller simuleres) under hypotesen
12 Challenger En test af jer Er det godt at få en stor p-værdi? JA NEJ
13 To dataeksempler Teststørrelse χ 2 approksimationen Dataeksempel I Ved 715 indlæggelser af spædbørn har man registreret om moderen har givet lav eller høj omsorg og om barnet har overlevet død lever lav høj Spørgsmål: er overlevelse uafhængig af graden af omsorg? Hvad synes I?
14 To dataeksempler Teststørrelse χ 2 approksimationen Generel model I n individer vælges tilfældigt fra population: individer er uafhængige For hvert individ undersøges to egenskaber der er r muligheder for den ene egenskab der er s muligheder for den anden egenskab r s tabel: x ij er antallet af individer der falder i celle (i, j) d.v.s. har værdien i for den første egenskab og værdien j for den anden egenskab x 11 x 1s x x r1 x rs x r x 1 x s n
15 To dataeksempler Teststørrelse χ 2 approksimationen General model I Sandsynlighed for at falde i række i og søjle j, d.v.s. celle (i, j) er p ij grundmodel: p ij er vilkårlige: p ij > 0, r s i=1 j=1 p ij = 1 Hypotese om uafhængighed: p ij = ρ i σ j ρ i = sandsynlighed for at falde i række i σ j = sandsynlighed for at falde i søjle j Sandsynlighed for at falde i søjle j givet at individ falder i række i er σ j, d.v.s. uafhængig af i
16 To dataeksempler Teststørrelse χ 2 approksimationen Dataeksempel II Blandt 1176 Thulearbejdere, der deltog i oprydning efter nedstyrtning af B52 bombefly fik 40 kræft indenfor en bestemt tidsperiode Blandt 3025 Thulearbejdere, der var rejst hjem før nedstyrtningen, fik 100 kræft i en tilsvarende tidsperiode kræft ikke kræft total under B før B Spørgsmål: er der samme kræfthyppighed i de to grupper af Thulearbejdere
17 To dataeksempler Teststørrelse χ 2 approksimationen Generel model II Vi har r populationer Fra den i te population vælges n i individer tilfældigt For hvert individ undersøges en egenskab der er s muligheder for denne egenskab r s-table: x ij er antallet af individer fra population i der falder i kasse j x 11 x 1s n x r1 x rs n r x 1 x s n
18 To dataeksempler Teststørrelse χ 2 approksimationen General model II Sandsynlighed for at individ fra population i falder i kasse j er p ij grundmodel: p ij er vilkårlige: p ij > 0, for hvert i: s j=1 p ij = 1 Hypotese om homogenitet: p ij = π j π j = fælles sandsynlighed for at falde i kasse j
19 To dataeksempler Teststørrelse χ 2 approksimationen Teststørrelse Klassiske (Karl Pearson, 1900): X 2 = celler (observerede forventede) 2 forventede skalerede kvadrerede afstande Statistiker i dag: 2 ln(q)= 2 celler obs ln( ) obs forv Generelt princip: Q = max hypotese P(data) max grundmodel P(data) Generelt resultat: under hypotesen: 2 ln(q) χ 2 (f ), X 2 χ 2 (f ) f = antal (frie) parametre i grundmodel antal (frie) parametre under hypotesen
20 To dataeksempler Teststørrelse χ 2 approksimationen Frie parametre Resultat: Med følgende setup: model: n individer fordeles på k kasser sandsynligheden for at falde i kasse j er p j sandsynlighederne kan være vilkårlige: p j > 0, k j=1 p j = 1 er antallet af frie parametre k 1 Bevis: p k = 1 p 1 p k 1 (p 1,..., p k 1 ) kan variere i et åbent område: p j > 0, k 1 j=1 p j < 1
21 To dataeksempler Teststørrelse χ 2 approksimationen Frihedsgrader Model I: test for uafhængighed grundmodel: ingen bånd på p ij : r s 1 frie parametre hypotesen: p ij = ρ i σ j : (r 1) + (s 1) frie parametre f = [r s 1] [(r 1) + (s 1)] = (r 1)(s 1) Model II: test for homogenitet grundmodel: for alle i = 1,..., r er s j=1 p ij = 1: r (s 1) frie parametre hypotesen: p ij = π j : s 1 frie parametre f = [r (s 1)] [s 1] = (r 1)(s 1)
22 To dataeksempler Teststørrelse χ 2 approksimationen Forventede antal Forventede = samlede antal skøn over sandsynlighed for at falde i kasse under hypotesen Model I: test for uafhængighed forventede ij = n ˆρ i ˆσ j = n x i x j n n Model II: test for homogenitet forventede ij = n i ˆπ j = n i x j n = x i x j n = x i x j n Forventede = rækkesum søjlesum / samlede antal
23 To dataeksempler Teststørrelse χ 2 approksimationen Cochrans regel Når vi finder p-værdien fra en χ 2 -fordeling er dette en approksimation Må bruges når: alle forventede er 1 højst 20% af de forventede er mindre end 5 Hvis dette ikke er opfyldt, så: eventuelt simulere eventuelt bruge Fishers eksakte test
24 To dataeksempler Teststørrelse χ 2 approksimationen Beregning af p-værdi Da store værdier af X 2 -teststørrelsen er kritiske og er testsandsynligheden X 2 χ 2 (f ), p-værdi = P(χ 2 (f ) X 2 ), som kan beregnes ved hjælp af Excel funktionen CHIFORDELING, idet P(χ 2 (f ) X 2 ) = CHIFORDELING(X 2 ; f ). Tilsvarende bemærkninger gælder for 2 ln(q)-teststørrelsen.
25 To dataeksempler Teststørrelse χ 2 approksimationen Illustration af approksimation: 2 ln(q) Ser på 2 2 tabel: x 11 x 12 n 1 x 21 x 22 n 1 Hypotese: p 11 = p 21 = p, p 12 = p 22 = 1 p P(χ 2 (1) 3.84) = 0.05 Finde P(teststørrelse 3.84) Regel: n 1 p 5, n 1 (1 p) 5, n 1 (1 p) 5, n 2 (1 p) 5
26 To dataeksempler Teststørrelse χ 2 approksimationen Illustration af approksimation: 2 ln(q) n1=25; n2=25; p=0.4 pberegn=0 # sandsynlighed for værdi >= 3.84 for (x1 in 0:n1){ for (x2 in 0:n2){ phat=(x1+x2)/(n1+n2) X2=(x1-n1*phat)^2/(n1*phat)+(n1-x1-n1*(1-phat))^2/(n1*(1-ph (x2-n2*phat)^2/(n2*phat)+(n2-x2-n2*(1-phat))^2/(n2*(1-ph if (X2>=3.84){ pberegn=pberegn+dbinom(x1,n1,p)*dbinom(x2,n2,p)} }} pberegn
27 To dataeksempler Teststørrelse χ 2 approksimationen Illustration af approksimation: 2 ln(q) n1=25, n2=25 n1=50, n2=25 P( 2lnQ>=3.84) P( 2lnQ>=3.84) faelles p faelles p n1=50, n2=50 n1=100, n2=100 P( 2lnQ>=3.84) P( 2lnQ>=3.84) faelles p faelles p
28 To dataeksempler Teststørrelse χ 2 approksimationen Illustration af approksimation: X 2 n1=25, n2=25 n1=50, n2=25 P(X2>=3.84) P(X2>=3.84) faelles p faelles p n1=50, n2=50 n1=100, n2=100 P(X2>=3.84) P(X2>=3.84) faelles p faelles p
29 To dataeksempler Teststørrelse χ 2 approksimationen Hvorfor χ 2 approksimationen Definition på en χ 2 (f )-fordeling: lad U 1,..., U f være uafhængige N(0, 1)-fordelte V = U U2 f siges at følge en χ 2 (f )-fordeling P(χ 2 (1) > 3.84) = 0.05, P(χ 2 (2) > 5.99) = 0.05 Karl Pearson 1900: obs i forv i lineær transformation: ukorrelerede og varians = 1 kvadrere og summere: X 2
30 To dataeksempler Teststørrelse χ 2 approksimationen To dataeksempler Spædbørnsdødelighed: observerede antal død lever lav høj X 2 = 5.24, P(χ 2 (1) 5.24) = forventede antal død lever lav høj Thulearbejdere: observerede antal kræft ikke kræft total under B før B X 2 = 0.023, P(χ 2 (1) 0.023) = 0.88 forventede antal kræft ikke kræft
31 To dataeksempler Teststørrelse χ 2 approksimationen Pause Preben tager over
32 χ 2 -test: generelt χ 2 -test: generelt Tælledata: k kasser x j = antal der falder i kasse j n = x x k, samlede antal Grundmodel: sandsynlighed p j for at falde i kasse j er vilkårlig 0 < p j < 1, p p k = 1 Hypotese: p j = π j (θ) θ: parameter, π j ( ) kendt funktion ˆθ: find θ der maksimerer k j=1 π j(θ) x j
33 χ 2 -test: generelt χ 2 -test: generelt Forventede under hypotesen: Teststørrelse: e j = n π j (ˆθ) 2 ln(q) = 2 k j=1 x j ln ( x j e j ) eller X 2 = k (x j e j ) 2 j=1 e j Approksimative p-værdi: sandsynlighed for at få en værdi teststørrelse i en χ 2 (f )-fordeling f = (k 1) (dimension af θ) p-værdi = P(χ 2 (f ) 2 ln(q)) eller P(χ 2 (f ) X 2 )
34 χ 2 -test: generelt χ 2 -test: k = 2 Tælledata: k = 2 kasser (her kaldet + og ) antal der falder i kasse + er lig med x antal der falder i kasse er lig med n x + ialt x n x n Grundmodel p = sandsynlighed for at falde i kasse + 1 p = sandsynlighed for at falde i kasse 0 < p < 1 Hypotese: p = p 0 hvor p 0 er vilkårlig men kendt frihedsgrader f = k 1 0 = = 1
35 χ 2 -test: generelt χ 2 -test: k = 2, X 2 -teststørrelsen X 2 -teststørrelsen beregnes ud fra: observerede antal + ialt x n x n forventede antal + ialt np 0 n(1 p 0 ) n X 2 = (x np 0) 2 + ((n x) n(1 p 0)) 2 np 0 n(1 p 0 ) = (x np 0) 2 ( ) n p 0 1 p 0 = (x np 0) 2 np 0 (1 p 0 ) = ( (x np 0 ) np0 (1 p 0 ) ) 2
36 χ 2 -test: generelt χ 2 -test: k = 2, X 2 -teststørrelsens fordeling Hvorfor χ 2 (1): X i = 1 hvis individ i falder i kasse +, 0 ellers sandsynlighed for at falde i kasse + er p 0 n i=1 X i np 0 np0 (1 p 0 ) N(0, 1) Centrale grænseværdisætning: sum af mange små uafhængige led har en fordeling der ligner normalfordelingen Da X = n i=1 X i er X np 0 np0 (1 p 0 ) N(0, 1) X 2 = ( (X np 0 ) np0 (1 p 0 )) 2 χ 2 (1)
37 χ 2 -test: generelt χ 2 -test: k = 2, eksempel Partiet Æ fik ved sidste valg 25 % af stemmerne. I en opinionsundersøgelse, hvori 1200 deltager, tilkendegiver 335, at de vil stemme på Æ. Har tilslutningen til partiet ændret sig? Teste hypotesen p = 0.25 Æ andet ialt observeret forventet Da de forventede antal er > 5, beregnes og p-værdien X 2 = ( ) = 5.44 p-værdi = P(χ 2 (1) 5.44) = , så tilslutningen har ændret sig. Da 335/1200 = 27.9%, er Æ gået frem.
38 χ 2 -test: generelt χ 2 -test: k = 3, eksempel 100 personer bliver spurgt om, hvilket af to vaskepulvere A og B de foretrækker. Resultatet blev: A (x 1 ) B (x 2 ) ved ikke (x 3 ) ialt Spørgsmålet om, at vaskepulverne er lige populære, kan afgøres ved at teste hypotesen (p 1, p 2, p 3 ) = (θ, θ, 1 2θ), hvor parameteren θ ligger i intervallet ]0, 0.5[. Starter med at finde ˆθ, der maksimerer funktionen L(θ) = θ x 1 θ x 2 (1 2θ) x 3 eller, ækvivalent hermed, funktionen l(θ) = ln(l(θ)) = (x 1 + x 2 ) ln(θ) + x 3 ln(1 2θ).
39 χ 2 -test: generelt χ 2 -test: k = 3, eksempel (fortsat) Maksimum for l(θ) antages i ˆθ = x 1 + x 2. 2n De forventede antal bliver derfor så (e 1, e 2, e 3 ) = n(ˆθ, ˆθ, 1 2ˆθ) = ( x 1 + x 2 2 A B ved ikke ialt observeret forventet , x 1 + x 2, x 3 ), 2 De forventede antal >5 så X 2 -testet kan benyttes. f = 3 1 1, så X 2 = 2.90 og p-værdi = P(χ 2 (1) 2.90) = Vi kan derfor ikke afvise, at de to vaskepulvere er lige populære.
40 χ 2 -test: generelt Goodness of fit test Måling: styrken af jordens magnetfelt (målt i lava) vi måler en kontinuert variabel (ingen kasser vi falder i) Spørgsmål: er X = ln(styrken) normalfordelt? d.v.s.: P(a < X < b) = b 1 a exp{ 1 (x µ) 2} dx 2πσ 2 2σ målinger fra forskellige geologiske perioder x 1, x 2,..., x n, n = 2163
41 χ 2 -test: generelt Kontinuerte data tælledata Inddeler aksen med ln(magnetstyrker): (, z 1 ], (z 1, z 2 ],..., (z k 1, z k ], (z k, ) Ser blot på hvilket interval ( kasse ) x i falder i: a j = antal blandt x 1,..., x n der falder i kasse j
42 χ 2 -test: generelt Data styrke antal < >
43 χ 2 -test: generelt Histogram taethed ln(styrke)
44 χ 2 -test: generelt Fraktilsamenligning Fraktilsammenligning N(0,1) fraktiler ln(styrke)
45 χ 2 -test: generelt Model Model M 0 : p j sandsynlighed for at falde i kasse j er vilkårlig p j > 0, j p j = 1 (siger ikke noget om fordeling af X ) Model M 1 : p j (µ, σ 2 ) = z j z j 1 1 2πσ 2 exp{ 1 2σ 2 (x µ) 2} dx (X er normalfordelt) Forventede under M 1 : e j = n p j (ˆµ, ˆσ 2 )
46 χ 2 -test: generelt Forventede styrke antal forventede (obs-forv) 2 /forv < > Test for goodness of fit: X 2 = 92.3 p-værdi: 1 P(χ 2 (14 1 2) 92.3) = (Cochrans regel!)
47 χ 2 -test: generelt χ 2 -test: Excel
48 Fordeling af variansestimat t-fordelingen t-test F -fordelingen F -test Andre anvendelser af chi2-fordelingen modeller for normalfordelte data fordeling af variansestimat t-test F -test generelle modeller fordeling af 2ln(Q)-teststørrelsen
49 Fordeling af variansestimat t-fordelingen t-test F -fordelingen F -test Fordeling af variansestimat i normalfordeling Lad x 1,..., x n være realisationer af uafhængige identisk N(µ, σ 2 )-fordelte stokastiske variable X 1,..., X n. Som skøn over middelværdien µ benyttes den empiriske middelværdi, gennemsnittet, x = 1 n n i=1 x i N(µ, σ2 n ) og som skøn over variansen σ 2 den empiriske varians, dvs. s 2 = 1 n (x i x ) 2 σ 2 χ 2 (n 1)/(n 1), n 1 så i=1 n 1 σ 2 s2 = n (x i x ) 2 χ 2 (n 1). i=1 De tilsvarende stokastiske variable X og s 2 (X) er uafhængige.
50 Fordeling af variansestimat t-fordelingen t-test F -fordelingen F -test t-fordelingen Hvis U og Z er to uafhængige stokastiske variable således at U N(0, 1) og Z χ 2 (f )/f, er størrelsen t = U Z t-fordelt med f frihedsgrader og vi skriver t t(f ). Symbolsk kan definitionen af t-fordelingen gengives som t(f ) = N(0, 1) χ 2 (f )/f, hvis vi husker på at nævner og tæller symboliserer uafhængige stokastiske variable. Fordelingen kaldes undertiden Student fordelingen eller Student s t-fordeling.
51 Fordeling af variansestimat t-fordelingen t-test F -fordelingen F -test t-test Lad x 1,..., x n være realisationer af uafhængige identisk N(µ, σ 2 )-fordelte stokastiske variable X 1,..., X n. Hypotese µ = µ 0, hvor µ 0 er kendt. Hvis σ 2 er ukendt benyttes t-teststørrelsen t(x) = t(x 1,..., x n ) = x µ 0 s 2 /n og p-værdien bliver hvor t t(n 1). p-værdi = 2P(t t(x) ),
52 Fordeling af variansestimat t-fordelingen t-test F -fordelingen F -test F -fordelingen Lad Z 1 og Z 2 være to uafhængige stokastiske variable så Z i χ 2 (f i )/f i, i = 1, 2. Da er den stokastiske variabel F = Z 1 Z 2 F -fordelt med (f 1, f 2 ) frihedsgrader, eller med f 1 frihedsgrader i tælleren og f 2 frihedgrader i nævneren. Symbolsk er definitionen F (f 1, f 2 ) = χ2 (f 1 )/f 1 χ 2 (f 2 )/f 2, hvor tæller og nævner symboliserer uafhængige stokastiske variable.
53 Fordeling af variansestimat t-fordelingen t-test F -fordelingen F -test F -test Antag, at man i en model har to uafhængige variansskøn og s 2 1 σ 2 χ 2 (f 1 )/(f 1 ), s 2 2 σ 2 χ 2 (f 2 )/(f 2 ) Rimeligheden af modellen kan da ofte vurderes ved hjælp af F = s2 1 s2 2 F (f 1, f 2 ). Beregning af testsandsynligheden p afhænger af modellen.
54 Referenser χ 2 -test t-test Blæsild,P. og Kristensen,L.B.(2006):JOKER statistik. Hæfte 10 i serien Matematiske emner, Matematiklærerforeningen. Christensen,E.S.: At træffe sine valg i en usikker verden - eller den statistiske modellerings rolle. Aalborg Universitet. Poulsen,J.R Poulsen, Vestergaard,H. og Lundbye-Christensen,S.: Hvad er meningen? Aalborg Universitet. Blæsild,P. og Kristensen,L.B.(2007):Statistik i løb. Hæfte 11 i serien Matematiske emner, Matematiklærerforeningen.
55 Referenser (fortsat) Begynderlærebog i statistik Jensen,J.L.(2010):Et Nanokursus i Statistik. Institut for Matematiske Fag, Aarhus Universitet. Gratis programpakke R (kan findes på nettet ved at lave Google-søgningen R. og gå ind under The R Project for Statistical Computing )
Tema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Produkt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.
Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - [email protected] http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:
Konfidensintervaller og Hypotesetest
Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller
Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede
Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede fordelinger (kap. 4) Middelværdi og varians (kap. 3-4) Fordelingsresultater
3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18
Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)
Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable
Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - [email protected] http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:
Statistiske modeller
Statistiske modeller Statistisk model Datamatrice Variabelmatrice Hændelse Sandsynligheder Data Statistiske modeller indeholder: Variable Hændelser defineret ved mulige variabel værdier Sandsynligheder
Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)
Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen
Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen
Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - [email protected] Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,
Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 136
Supplement til kapitel 7: Approksimationen til normalfordelingen, s. 36 Det er besværligt at regne med binomialfordelingen, og man vælger derfor ofte at bruge en approksimation med normalfordeling. Man
2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.
2 -fordeling og 2 -test Generelt om 2 -fordelingen 2 -fordelingen er en kontinuert fordeling, modsat binomialfordelingen som er en diskret fordeling. Fordelingen er særdeles kompleks at beskrive med matematiske
Normalfordelingen. Statistik og Sandsynlighedsregning 2
Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige
Personlig stemmeafgivning
Ib Michelsen X 2 -test 1 Personlig stemmeafgivning Efter valget i 2005 1 har man udspurgt en mindre del af de deltagende, om de har stemt personligt. Man har svar fra 1131 mænd (hvoraf 54 % har stemt personligt
Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22
Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som
Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/
Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial
Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)
Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske
En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger
Institut for Økonomi Aarhus Universitet Statistik 1, Forår 2001 Allan Würtz 4. April, 2001 En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger Uniform fordeling Benyttes som model for situationer,
Forelæsning 3: Kapitel 5: Kontinuerte fordelinger
Kursus 02402 Introduktion til Statistik Forelæsning 3: Kapitel 5: Kontinuerte fordelinger Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan
Matematik A. Studentereksamen. Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet
Matematik A Studentereksamen Forberedelsesmateriale til de digitale eksamensopgaver med adgang til internettet stx11-matn/a-080501 Tirsdag den 8. maj 01 Forberedelsesmateriale til stx A Net MATEMATIK Der
Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau
Hvad skal vi lave? 1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ. Teststatistik P-værdi Signifikansniveau 2 t-test for middelværdi Tosidet t-test for middelværdi Ensidet t-test for middelværdi
Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se
Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller
Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0
Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt
Uge 10 Teoretisk Statistik 1. marts 2004
1 Uge 10 Teoretisk Statistik 1. marts 004 1. u-fordelingen. Normalfordelingen 3. Middelværdi og varians 4. Mere normalfordelingsteori 5. Grafisk kontrol af normalfordelingsantagelse 6. Eksempler 7. Oversigt
1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen
Statistik II 4. Lektion. Logistisk regression
Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:
Løsning til eksaminen d. 14. december 2009
DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet
Forelæsning 9: Inferens for andele (kapitel 10)
Kursus 02402 Introduktion til Statistik Forelæsning 9: Inferens for andele (kapitel 10) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at
Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af
Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge
Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange
Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Løsning til eksaminen d. 29. maj 2009
DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som
MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,
Kvantitative Metoder 1 - Forår 2007
Dagens program Kapitel 8.7, 8.8 og 8.10 Momenter af gennemsnit og andele kap. 8.7 Eksempel med simulationer Den centrale grænseværdisætning (Central Limit Theorem) kap. 8.8 Simulationer Normalfordelte
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie
Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05
Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ
Normalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader
Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af
En Introduktion til SAS. Kapitel 5.
En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel
Note om Monte Carlo metoden
Note om Monte Carlo metoden Kasper K. Berthelsen Version 1.2 25. marts 2014 1 Introduktion Betegnelsen Monte Carlo dækker over en lang række metoder. Fælles for disse metoder er, at de anvendes til at
Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse
Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ
1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable
Landmålingens fejlteori - lidt om kurset Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - [email protected] Institut for Matematiske Fag Aalborg Universitet Kursusholder
1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...
Indhold 1 Statistisk inferens: Hypotese og test 2 1.1 Nulhypotese - alternativ.................................. 2 1.2 Teststatistik........................................ 3 1.3 P-værdi..........................................
Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data
Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: [email protected] Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration
Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.
Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder
Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6
Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået
Løsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Normalfordelingen. Statistik og Sandsynlighedsregning 2
Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på
Oversigt. Introduktion til Statistik. Forelæsning 2: Stokastisk variabel og diskrete fordelinger
Introduktion til Statistik Forelæsning 2: og diskrete fordelinger Oversigt 1 2 3 Fordelingsfunktion 4 Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 017 Danmarks Tekniske Universitet 2800
Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.
Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Uafhængighedstestet Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev
Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable
Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable - [email protected] Institut for Matematiske Fag Aalborg Universitet 1/41 Landmålingens fejlteori - lidt om kurset
Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål
Program Statistik og Sandsynlighedsregning Sandsynlighedstætheder og kontinuerte fordelinger på R Varians og middelværdi Normalfordelingen Susanne Ditlevsen Uge 48, tirsdag Tætheder og fordelingsfunktioner
Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse
Afsnit 8.3 - E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse Først skal normalfordelingen lige defineres i Maple, så vi kan benytte den i vores udregninger. Dette gøres
Produkt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 11, 2016 1/22 Kursusindhold: Sandsynlighedsregning og lagerstyring
Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]
Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af
Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese
Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet
Vejledende besvarelser til opgaver i kapitel 14
Vejledende besvarelser til opgaver i kapitel 14 Opgave 1 a) Det første trin i opstillingen af en hypotesetest er at formulere to hypoteser, hvoraf den ene støtter den teori vi vil teste, mens den anden
Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)
; C ED 6 > Billedbehandling og mønstergenkendelse Lidt elementær statistik (version 1) Klaus Hansen 24 september 2003 1 Elementære empiriske mål Hvis vi har observationer kan vi udregne gennemsnit og varians
Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden
Kapitel 4 Sandsynlighed og statistiske modeller
Kapitel 4 Sandsynlighed og statistiske modeller Peter Tibert Stoltze [email protected] Elementær statistik F2011 1 Indledning 2 Sandsynlighed i binomialfordelingen 3 Normalfordelingen 4 Modelkontrol
