Normalfordelingen. Statistik og Sandsynlighedsregning 2

Størrelse: px
Starte visningen fra side:

Download "Normalfordelingen. Statistik og Sandsynlighedsregning 2"

Transkript

1 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på målinger. Fordelingens sandsynlighedsteoretiske egenskaber giver et solidt matematisk grundlag at bygge på. Overheads til forelæsninger, onsdag 7. uge Normalfordelingen er symmetrisk, har et maximum og er fuldstændigt beskrevet ved to parametre, nemlig midddelværdien og variansen (eller standardafvigelsen). 2 Hvis X er normalfordelt med middelværdi µ og varians σ 2 har X tæthed { } ϕ(x) = exp (x µ)2 2πσ 2 2σ 2 Vi skriver X N(µ, σ 2 ) Vi antager fremover at vi har observationer af x = (x,..., x n ) X = (X,..., X n ) hvor X i, i =,..., n er normalfordelte med samme varians σ 2, men muligvis med forskellig middelværdi µ i. T-test benyttes når man vil teste hypoteser om middelværdien af normalfordelte variable. Vi ser på 3 forskellige slags t-test: One-sample t-test benyttes når man vil teste om uafhængige, identisk fordelte normale variable kommer fra en fordeling med en kendt middelværdi. Uparret t-test benyttes når man vil sammenligne middelværdierne i to grupper af uafhængige, identisk fordelte normale variable. Det antages at der er samme varians i de to grupper, og man ønsker at teste om middelværdierne er ens. Parret t-test benyttes når man vil teste om differencen mellem sammenhørende par af observationer af normalfordelte variable med samme varians kommer fra en normalfordeling med kendt middelværdi. 3 4

2 One-sample t-test Statistisk model: hvor N (µ,σ2 ) har tæthed Hypotese: ϕ (µ,σ 2 )(x) = (R n, (N (µ,σ2 )) (µ,σ2 ) R ]0, [) ( 2πσ 2 ) n exp { H : µ = µ 0 2σ 2 } (x s µ) 2 s= Estimatorer under den fulde model: og ˆµ = n ˆσ 2 = n dog benyttes s 2 = x s = x s= (x s x) 2 s= n (x s x) 2 ˆµ N(µ, σ2 n ) ; SSD = nˆσ2 = (n )s 2 σ 2 χ 2 n ; ˆµ s 2 s= 5 6 Kvotientteststørrelsen for test af µ = µ 0 er Estimatorer under hypotesen: µ = µ 0 σ 2 = (x s µ 0 ) 2 n s= og n σ 2 σ 2 χ 2 n ( ˆσ 2 Q(x) = σ 2 ) n 2 og testsandsynligheden er givet ved ( ɛ(x) = 2P T n x µ ) 0 s/ n hvor T n er T fordelt med n frihedsgrader. Bemærk: Vi beregner gennemsnittet, trækker den formodede middelværdi fra og dividerer med et estimat af standardafvigelsen. Vi har altså en teststørrelse, der under hypotesen har middelværdi 0 og varians. 7 8

3 Bemærk også at under hypotesen er X N(µ 0, σ2 n ), dvs at n( X µ0 ) N(0, σ 2 ). Desuden er (n )s 2 σ 2 χ 2 n og X s 2. Definitionen af en t-fordeling med f frihedsgrader er netop T = hvor U N(0, ) og Z χ 2 f og U Z. U Z/f Vi kan altså direkte se at vores teststørrelse n( x µ0 ) n( x µ0 )/σ T = = s ((n )s2 /σ 2 )/(n ) er t-fordelt med n frihedsgrader. VIGTIGT: Testsandsynligheden (p-værdien) angiver sandsynligheden for at man under et lignende eksperiment observerer den samme eller en større afstand mellem gennemsnittet og den formodede middelværdi som den man har observeret i det konkrete eksperiment. Hvis denne sandsynlighed er stor kan vi godt tro på at den observerede forskel blot skyldes tilfældig variation. Hvis sandsynligheden er lille vil vi være tilbøjelige til ikke at tro på at det udelukkende skyldes tilfældigheder, men snarere at data ikke stammer fra en fordeling med den formodede middelværdi. Hvis testsandsynligheden er mindre end 0.05 siger vi at middelværdien er signifikant forskellig fra µ 0 på 5% niveau. 9 0 Eksempel I de første 2 dage i marts var dagens maksimumstemperatur observeret til 8, 8, 7, 6, 7, 9,, 9,, 8, og C. Middelværdien af marts måneds maximumstemperatur plejer at ligge på 7 C. Vi vil gerne teste om de observerede temperaturer kommer fra en fordeling med middelværdi 7. Vi antager at data er normalfordelt. Vores teststørrelse bliver n( x µ0 ) T = s 2( ) =.8007 = For at finde testsandsynligheden skal teststørrelsen vurderes i en t-fordeling med frihedsgrader. Vi kan slå op, f.eks i R, at Fortolkning? P (T ) = Hvis maksimumstemperaturen i marts måned 2008 er normalfordelt med middelværdi 7 C, da vil en tilfældig stikprøve bestående af 2 observationer med 0.474% sandsynlighed have et gennemsnit på C eller over eller på C eller under. Da denne sandsynlighed er lille afviser vi at tro på at marts måned i 2008 kommer fra en fordeling med middelværdi 7 C, men snarere fra en fordeling med en højere middelværdi. Vi estimerer middelværdien til C. 2

4 I R kunne vi beregne det således: Normal Q Q Plot Først indlæser vi værdierne i en datavektor > temp <- c(8,8,7,6,7,9,,9,,8,,) Derefter ser vi om normalfordelingsantagelsen er rimelig, for eksempel ved et QQ-plot > qqnorm(temp) Plottet ses på næste slide. Der er ikke mange punkter, og de er afrundede til hele tal. Det er derfor svært at afgøre udelukkende fra dette data om normalfordelingsantagelsen holder. Vi vil dog acceptere den, da punkterne trods alt ligger på en nogenlunde ret linie. Sample Quantiles Theoretical Quantiles 3 4 Vi skal bruge antallet af observationer, og definerer derfor > n <- length(temp) Vi kan nu beregne vores teststørrelse > Tstatistic <- sqrt(n)*(abs(mean(temp)-7))/sd(temp) Bemærk at vi har taget den absolutte værdi af forskellen mellem gennemsnittet og den formodede middelværdi. Vi får > Tstatistic [] Vi kan nu beregne vores testsandsynlighed > 2*(-pt(Tstatistic, df=n-)) [] Det havde selvfølgelig været nemmere at bruge den prædefinerede funktion t.test, hvor vi blot skal angive datavektoren og værdien af hypotesen µ 0 = 7: > t.test(temp, mu=7) One Sample t-test data: temp t = , df =, p-value = alternative hypothesis: true mean is not equal to 7 95 percent confidence interval: sample estimates: mean of x

5 Outputtet skal læses som følger: One Sample t-test Først angives hvilken test der er blevet foretaget. R kan altså selv finde ud af om det er one-sample eller two-sample udfra formatet i argumenterne til funktionskaldet. t = , df =, p-value = Her angives det vi er interesseret i, nemlig teststørrelsen t, antal frihedsgrader (df = n-) og testsandsynligheden (p-value). Bemærk at p-værdien er mindre end 0.05, og vi vil derfor afvise vores hypotese på 5% niveau. Vi ved også at et 95% konfidensinterval ikke vil indeholde værdien 7. data: temp alternative hypothesis: true mean is not equal to 7 Her fortælles hvilke data der er blevet analyseret. Det kan være nyttigt hvis man f.eks har gemt testet som et objekt man senere skal se på, og derfor måske ikke kan huske hvordan funktionskaldet så ud. Her angives hvilken værdi vi har testet middelværdien imod percent confidence interval: Vi får også et 95% konfidensinterval for den sande middelværdi. Intervallet angiver mængden af mulige middelværdier som gennemsnittet af data ikke er signifikant forskelligt fra. Bemærk at vores hypotese µ 0 = 7 IKKE er indeholdt i konfidensintervallet. Derfor ved vi også at p-værdien er mindre end sample estimates: mean of x Til sidst får vi angivet gennemsnittet af data. Bemærk at man kunne have fået den samme information (og mere til) ved at lave en lineær regression på et konstant led: > summary(lm((temp - 7) ~ )) Call: lm(formula = (temp - 7) ~ ) Residuals: Min Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) ** --- Signif. codes: 0 *** 0.00 ** 0.0 * Residual standard error:.80 on degrees of freedom 9 20

6 Outputtet skal læses som følger: Call: lm(formula = (temp - 7) ~ ) Først angives funktionskaldet, og dermed hvilken analyse der er blevet foretaget. Formlen siger at temp søges forklaret ved et konstant led, angivet ved. Bemærk at vi har trukket den formodede middelværdi på 7 C fra, således at testet for om det konstante led er 0 giver mening. Residuals: Min Q Median 3Q Max Her gives information til at vurdere fordelingen af residualerne, nemlig minimum, 25%, 50% (medianen), 75% kvartilen og maximum. Hvis normalfordelingsantagelsen skal være rimelig, bør maximum og minimum være nogenlunde lige store i absolut værdi, det samme gælder for 25% og 75% kvartilerne. Gennemsnittet er defineret til at være 0, og medianen skal helst være tæt på 0. Residualerne er her differencen mellem de faktiske målte temperaturer og deres gennemsnit, der jo er estimatet af det konstante led. Residualinformationen gives ikke ved t.test, så her får vi ekstra information Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) ** Her får vi først estimatet på det konstante led (interceptet), nemlig Da vi jo har trukket 7 C fra alle målinger, kan vi se at det netop svarer til gennemsnittet fra før på C. Dernæst anives et estimat af standardfejlen på middelværdiestimatet. Standardfejlen er ˆσ/ n, dvs ˆσ = = Dernæst angives t-teststørrelsen og p-værdien, der ses at være de samme som ved t.test. Information om standardfejlen gives ikke ved t.test, så her får vi også ekstra information. Den kan dog beregnes udfra t-teststørrelsen og gennemsnittet hvis man kender stikprøvestørrelsen. Signif. codes: 0 *** 0.00 ** 0.0 * Her angives symboler til hurtigt at identificere signifikansniveauet for den beregnede p-værdi. *** betyder at p-værdien er mindre end 0.00, ** betyder at p-værdien er mellem 0.00 og 0.0, osv med de øvrige symboler. De to stjerner efter forrige linie angiver altså at vi kan afvise hypotesen på % niveau (og derfor selvfølgelig også på 5% niveau), men ikke på 0.% niveau

7 Residual standard error:.80 on degrees of freedom Til sidst angives et estimat for σ og antallet af frihedsgrader. Dette er også en ekstra information vi ikke får i t.test, men som ovenfor nævnt kan den let beregnes. Vi kan se fra antallet af frihedsgrader at antallet af observationer er 2. Bemærk at det er s, der angives, dvs s = (X i n X) 2 i= Bemærk at vi også med lm kan få konfidensintervallet for middelværdien som ved t.test: > confint(lm( temp ~ )) 2.5 % 97.5 % (Intercept) Her har vi ikke trukket 7 C fra for at få samme konfidensinterval som ved t.test Er det rimeligt at antage at forudsætningerne for analysen i dette tilfælde er opfyldt? Normalfordelingsantagelsen? Uafhængighed? Konstant middelværdi? Uparret t-test: Sammenligning af middelværdi i to normalfordelinger Observation fra x = (x rs ) r=,2,s=,...nr X = (X rs ) r=,2,s=,...nr uafhængige normalfordelte variable X rs N(µ r, σ 2 ) med µ r R og σ > 0. Sæt n = n + n 2. X har tæthed ϕ µ,µ 2,σ 2(x) = ( 2πσ 2 ) n exp { 2σ 2 } 2 n r (x rs µ r ) 2 r= s= 27 28

8 Estimatorer og teststørrelse Statistisk model og hypotese Statistisk model (R n, (N (µ,µ 2,σ 2 )) (µ,µ 2,σ 2 ) R 2 ]0, [) hvor N (µ,µ 2,σ 2 ) har tæthed ϕ µ,µ 2,σ 2(x) Hypotese: H : µ = µ 2 = µ MLE under M : ˆµ r = x r ˆσ 2 = n Dog benyttes : s 2 = n 2 MLE under H : µ = x σ 2 = n Dog benyttes : s 2 = n 2 n r (x rs x r ) 2 r= s= 2 n r (x rs x r ) 2 r= s= 2 n r (x rs x) 2 r= s= 2 n r (x rs x) 2 r= s= Testsandsynlighed og fordeling af estimatorer Fordeling af MLE under M: Fordeling af MLE under H: ˆµ ˆµ 2 ˆσ 2 ˆµ r N(µ r, n r σ 2 ) nˆσ 2 σ 2 χ 2 n 2 µ ˆσ 2 µ N(µ, n σ2 ) n σ 2 σ 2 χ 2 n Kvotientteststørrelse Testsandsynlighed ( ˆσ 2 Q(x) = σ 2 ) n 2 ɛ(x) = 2P T n 2 x x 2 s n + n 2 hvor s 2 = 2 nr n 2 r= s= (x rs x r ) 2, og T n 2 er T fordelt med n 2 frihedsgrader. Bemærk: Vi beregner differencen på de to gennemsnit, trækker den formodede middelværdi fra (=0) og dividerer med et estimat af standardafvigelsen på differencen. Vi har altså en teststørrelse, der under hypotesen har middelværdi 0 og varians. Også her kan vi direkte se fordelingen af vores teststørrelse udfra fordelingerne af de enkelte elementer og definitionen af en t-fordeling., 3 32

9 Eksempel Glukosekoncentrationen i blodet under faste er blevet målt hos en gruppe på 4 normalvægtige personer og en gruppe på 2 overvægtige personer. Vi ønsker at teste om middelværdien af glukosekoncentrationen afhænger af om BMI er over eller under 25 kg/m 2. Vi antager at data er uafhængige og normalfordelte med samme varians. Data ligger i en dataframe: > data glu BMI [...] Først ønsker vi at få et overblik over data ved et scatterplot: > plot(data) Læg mærke til at data ligger i et samlet datasæt med oplysninger om to variable, nemlig glukose og BMI. De to grupper er altså defineret ved den anden variabel (BMI), og ikke ved to enkeltstående vektorer. Dette er den bedste måde at organisere data på hvis mere komplicerede analyser skal foretages Dernæst vil vi teste normalfordelingsantagelsen i de to grupper. BMI glu > attach(data) > par(mfrow=c(2,2)) > qqnorm(glu[bmi == ]) > qqnorm(glu[bmi == 0]) > hist(glu[bmi == ]) > hist(glu[bmi == 0]) > par(mfrow=c(,)) > detach(data) Hverken QQ-plots eller histogrammer får os til at tvivle på normalfordelingsantagelsen. Der er dog få punkter at bedømme ud fra

10 Normal Q Q Plot Normal Q Q Plot Dernæst vil vi lave et test for at se om vi kan antage at variansen i de to grupper er ens: Sample Quantiles Sample Quantiles > var.test(glu ~ BMI, data = data) F test to compare two variances Frequency Theoretical Quantiles Histogram of glu[bmi == ] glu[bmi == ] Frequency Theoretical Quantiles Histogram of glu[bmi == 0] glu[bmi == 0] data: glu by BMI F = , num df = 3, denom df =, p-value = alternative hypothesis: true ratio of variances is not equal to 95 percent confidence interval: sample estimates: ratio of variances Læg mærke til funktionskaldet: > var.test(glu ~ BMI, data = data) outputtet skal læses som følger Vi ønsker at teste om variansen i to grupper kan antages at være ens. Det er variansen af glukoseobservationerne, og grupperne er defineret ved deres værdi af variablen BMI. Vi kan derfor skrive glu BMI der læses som glukose ved BMI. Denne skrivemåde er mere optimal når man ønsker at lave mere komplicerede analyser. Ideen er at tænke i modeller af hele datasæt i stedet for enkeltstående vektorer. Dette kan kun lade sig gøre hvis data er organiseret i et samlet datasæt. F test to compare two variances data: glu by BMI Burde være selvforklarende

11 F = , num df = 3, denom df =, p-value = Her angives først F-teststørrelsen, nemlig ratioen mellem de estimerede varianser i de to grupper. Dernæst angives frihedsgraderne: der er 3 frihedsgrader i tælleren, dvs variansestimatet baserer sig på 4 observationer og er χ 2 3 fordelt, da vi jo ikke kender middelværdien. Tilsvarende for nævneren, hvor der er frihedsgrader, dvs 2 observationer. Til sidst angives p-værdien, der er sandsynligheden for at observere en F-teststørrelse som den angivne, eller noget der er længere væk fra, vurderet i en F-fordeling med (3,) frihedsgrader. Da denne sandsynlighed er stor tror vi på at varianserne kan være ens i de to grupper. Med andre ord: hvis varianserne er ens, er der 54% sandsynlighed for at varianserne i to stikprøver af størrelse 2 og 4 vil være mindst så forskellige som det observerede. alternative hypothesis: true ratio of variances is not equal to 95 percent confidence interval: sample estimates: ratio of variances Vi får oplyst hvad hypotesen er (at ratioen er lig ), og der angives et 95% konfidensinterval for den sande ratio mellem varianserne. Det ses at intervallet indeholder, som vi vidste det ville da p-værdien jo var større en Til slut angives estimatet for ratioen, som jo netop er F-teststørrelsen Vi er nu klar til at lave vores t-test, da antagelserne er blevet efterprøvet. > t.test(glu ~ BMI, data = data, var.equal = TRUE) Two Sample t-test data: glu by BMI t = -3.68, df = 24, p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean in group 0 mean in group Outputtet skal læses som ved et one-sample t-test. Bemærk at R ved selve funktionskaldet ved at det er et two-sample t-test, der ønskes. Da p-værdien er mindre end 0.05 vil vi afvise hypotesen om ens middelværdi i de to grupper. Vores slutmodel bliver derfor en model hvor fasteglukosekoncentrationen er normalfordelt med varians dvs s 2 = ( x x 2 ) ( 2 ) T 2 n + n 2 > ( )^2/((-3.68)^2*(/4 + /2) [] og middelværdier angivet til sidst i outputtet: mean in group 0 mean in group

12 Bemærk at vi også her kunne have lavet analysen ved > summary(lm(glu ~ BMI, data = data)) Vi skriver at vores slutmodel er X N(4.92,.35) Y N(6.58,.35) hvor X er fasteglukosen hos en person med BMI 25 og Y er fasteglukosen hos en person med BMI > 25. Call: lm(formula = glu ~ BMI, data = data) Residuals: Min Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-4 *** BMI ** Signif. codes: 0 *** 0.00 ** 0.0 * Residual standard error:.64 on 24 degrees of freedom Multiple R-Squared: ,Adjusted R-squared: F-statistic: 3.09 on and 24 DF, p-value: Outputtet skal læses som før. Interceptet angiver estimatet for middelglukosen i gruppen hvor BMI-variablen = 0, dvs for personer med BMI 25. BMI estimatet angiver hvor meget middelværdien ændrer sig hvis BMI > 25, dvs at estimatet for middelværdien vil være summen af de to estimater: = 6.575, der netop er middelværdien angivet i t.test. Bemærk at p-værdien udfor BMI er den samme som i t-testet. Vi får også angivet et estimat for σ, nemlig =.64. Parret t-test Dette test benyttes hvis man har sammenhørende par af observationer, for eksempel før og efter et indgreb på samme subjekt, og man ønsker at teste om indgrebet ændrer middelværdien. I praksis udføres testet ved at lave et one-sample t-test på differencerne. Eksempel Data: Eksperimentel enhed måling måling

13 Vi vil teste om der er forskel på middelværdierne mellem første og anden måling. Dette kan i R gøres på to måder: > t.test(x,x2,paired=true) I stedet for at give de to vektorer og angive at data er parret kan differencerne analyseres: > t.test(x-x2,var.equal=true) Paired t-test One Sample t-test data: x and x2 t = , df = 7, p-value = alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: sample estimates: mean of the differences data: x - x2 t = , df = 7, p-value = alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: sample estimates: mean of x Outputtet skal læses som før. Det ses at konklusionerne er nøjagtig de samme da det er samme analyse, der er foretaget. Statistik og Sandsynlighedsregning 2 Estimatet for differencen er med 95% konfidensinterval ( ). Da intervallet ikke indeholder 0 kan vi ikke acceptere hypotesen om samme middelværdi i de to målinger. Dette stemmer overens med p-værdien på , der angiver sandsynligheden for at observere en forskel i gennemsnit af differencerne i en stikprøve på 8 par på 0.34 eller større, givet at middelværdien af differencen er 0. Da denne sandsynlighed er lille afviser vi hypotesen om ens middelværdier. Repetition og eksamen Lineær regression Overheads til forelæsninger, onsdag 7. uge 5 52

14 Lineær regression Observationssæt Lineær regression t x t x t n x n Realisationer af stokastiske variable X r, r =,..., n X r erne er indbyrdes uafhængige. X r N(ν + βt r, σ 2 ) X r N(ν + βt r, σ 2 ) Ny parametrisering EX r = α + β(t r t) for r =,..., n Regressionslinien bliver y(t) = α + β(t t) og liniens skæring med y aksen bliver α β t Statistisk model Linearitetsmodel M l : EX r = α + β(t r t), (α, β) R 2, Parameterområde under modellen Θ 0 = R 2 ]0, [ x er observation fra den statistiske model hvor N α,β,σ 2 har tæthed ϕ α,β,σ 2(x) = (R n, (N α,β,σ 2) (α,β,σ 2 ) R 2 ]0, [) ( 2πσ 2 ) n exp { 2σ 2 } (x r α β(t r t)) 2 r= MLE for (α, β, σ 2 ) er entydigt givet ved Dog benyttes s 2 l = ˆα = x ˆβ = n r= (x r x)(t r t) SSD t ˆσ l 2 = (x r x n r t)) 2 r= n 2 (x r x ˆβ(t r t)) 2 r= 55 56

15 Estimatet for regressionslinien y(t) bliver ŷ(t) = x + ˆβ(t t). ˆα, ˆβ og ˆσ 2 l (eller s 2 l ) er uafhængige og ˆα N(α, n σ2 ) ˆβ N(β, SSD l = (n 2)s 2 l = nˆσ 2 l σ 2 χ 2 n 2 σ 2 SSD t ) Den stokastiske variabel har fordeling Y (t) = X + ˆβ(t r t) Y (t) N(α + β(t t), σ 2 ( n + (t t) 2 SSD t ) Variansen på den estimerede regressionslinie vokser med afstanden til t, således at regressionslinien er bedst bestemt nær t. I praktiske anvendelser indsættes ( x, ˆβ, s 2 l ) i stedet for parameterværdierne, når man skal angive estimatorernes og den estimerede regressionslinies fordelinger Test for β under linearitetsmodellen Hypotese: H β : EX r = α + β 0 (t r t), r =,..., n, α R Parameterområde under hypotesen: Θ β = R ]0, [ Statistisk model hvor N α,σ 2 har tæthed ϕ α,σ 2(x) = (R n, (N α,σ 2) (α,σ 2 ) R ]0, [) ( 2πσ 2 ) n exp { 2σ 2 } (x r α β 0 (t r t)) 2 r= MLE under H β ˆα = x ˆσ 2 β = n Dog benyttes s 2 β = ˆα og ˆσ β 2 er uafhængige ˆα N(α, n σ2 ) (x r x β 0 (t r t)) 2 r= n (x r x β 0 (t r t)) 2 r= SSD β = (n )s 2 β = nˆσ2 β σ2 χ 2 n ( SSDt Testsandsynlighed: ɛ β (x) = 2P T β ˆβ ) β 0 hvor T β = SSDt( ˆβ(X) β 0) s l (X) er T fordelt med n 2 frihedsgrader. s l 59 60

16 Eksempel på eksamen Fedtsyreprocenten er den fundamentale kvalitetsegenskab ved sæbe. Den bestemmes sædvanligvis ved langsomme kemiske laboratoriemålinger. Til lettelse af produktionskontrollen i sæbefabrikker har man foreslået at bestemme fedtsyreprocenten ved at måle sæbens elektriske ledningsevne. Ledningsevnen er let at måle, og målingerne kan udføres på produktionsstedet. I nedenstående tabel findes en række uafhængige bestemmelser af ledningsevnen målt i milli-siemens (ms) for en bestemt sæbetype og forskellige fedtsyreprocenter. Fedtsyre- Ledningsevne procent i ms Tabel : Sammenhæng mellem ledningsevne og fedtsyreprocent i sæbe I R-udskriften nedenfor er data analyseret ved hjælp af en lineær regressionsmodel. Opstil den statistiske model. Redegør for forudsætningerne for analysen, og diskuter om disse kan antages at være opfyldte i det foreliggende tilfælde. 2. Angiv estimater for parametrene under regressionsmodellen og disses fordeling. 3. Er data forenelige med en hypotese om at ledningsevnen ikke afhænger af fedtsyreprocenten? 4. Er data forenelige med en hypotese om at regressionslinien har en hældning på 0.6? Ved besvarelsen kan nedenstående uddrag af et R-udskrift og et QQ-plot af de standardiserede residualer anvendes. Data antages at ligge i datasættet ledning med de to variable fedtpct og ledning. Udskrift : Call: lm(formula = ledning ~ I(fedtpct - mean(fedtpct)), data = ledning) Residuals: Min Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) e-6 I(fedtpct - mean(fedtpct)) e Residual standard error: on 4 degrees of freedom 63 64

17 Sample Quantiles Normal Q Q Plot Theoretical Quantiles Besvarelse. Opstil den statistiske model. Data består af 6 observationer af ledningsevnen, hvor fedtsyreprocenten også er angivet. Vi angiver den rte måling af ledningsevnen som x r med tilhørende fedtsyreprocent t r. Det antages at ledningsevnen X r er normalfordelt med middelværdi α + β(t r t), hvor t er gennemsnittet af de angivne fedtsyreprocenter, og varians σ 2. Den statistiske model bliver således (R 6, (N α,β,σ 2) (α,β,σ 2 ) R 2 ]0, [) hvor N α,β,σ 2 har tæthed { } ϕ α,β,σ 2(x) = ( exp 6 2πσ 2 ) 6 2σ 2 (x r α β(t r t)) 2 r= Redegør for forudsætningerne for analysen, og diskuter om disse kan antages at være opfyldte i det foreliggende tilfælde. Det antages at data er uafhængige. Det angives at det er uafhængige bestemmelser, så denne antagelse vil vi godtage. Derudover antages data at være normalfordelt med den givne middelværdi. Dette kan efterprøves ved at se på fordelingen af residualerne. Fra udskriftet kan vi bruge informationen om residualerne. Her bør henholdsvis min og max og. og 3. kvartil være nogenlunde lige store i absolut værdi. Det lader til at være fint opfyldt. Derudover bør medianen være tæt på 0, der er gennemsnittet af residualerne. Dette lader også til at være opfyldt, og vi godtager således normalfordelingsantagelsen. QQ-plottet af de standardiserede residualer indikerer også fin overensstemmelse med normalfordelingsantagelsen, da punkterne ligger tæt på en ret linie. 2. Angiv estimater for parametrene under regressionsmodellen og disses fordeling. Bemærk først at regressionen er foretaget på de centrerede værdier af fedtprocenten, dvs gennemsnittet af t r er fratrukket alle fedtprocentangivelser inden analysen. Vi skal angive estimater for de 3 parametre α, β og σ og deres fordelinger. Vi har ˆα = x r og ˆα N(α, σ2 n n ) r= n r= ˆβ = (x r x)(t r t) σ n r= (t og ˆβ N(β, 2 r t) 2 n r= (t r t) ) 2 s 2 = n 2 (x r x ˆβ(t r t)) 2 og (n 2)s 2 σ 2 χ 2 n 2 r= hvor s 2 er estimatet for σ 2. Vi benytter estimaterne for α, β og σ når fordelingerne skal vurderes

18 I udskriftet under Coefficients er α betegnet som interceptet og estimeret til Dette estimat er gennemsnittet af ledningsevnemålingerne. Standardfejlen for estimatet er angivet til Denne kunne også findes i sidste linie hvor s er angivet til Antallet af målinger er n = 6. Bemærk at s/ n = 0.485/ 6 = Vi får således følgende bud på fordelingen af ˆα: ˆα N(.58938, ) I udskriftet under Coefficients findes estimatet for β under I(fedtpct - mean(fedtpct)) og er estimeret til med en standard fejl på I udskriftets sidste linie er s angivet til Vi kan således se at SSD t = n r= (t r t) 2 = / = Vi har følgende bud på fordelingen af ˆβ: ˆβ N( , ) Er data forenelige med en hypotese om at ledningsevnen ikke afhænger af fedtsyreprocenten? I udskriftets sidste linie angives et estimat for σ til s = og frihedsgraderne er n = 2 = 4. Vi har følgende bud på fordelingen af s 2 : s χ 2 4 = χ Vi skal teste hypotesen H : β = 0 Dette kan gøres med t-teststørrelsen SSDt T = ˆβ = = s der under hypotesen er T-fordelt med n 2 = 4 frihedsgrader. Den er allerede regnet ud i udskriftet og kan findes på linien for β. Testsandsynligheden er opgivet til at være.63e-06. Der er altså en meget lille sandsynlighed for at observere en værdi for ˆβ på eller længere væk fra 0 i en stikprøve af denne størrelse, hvis den sande værdi af β er 0. Vi afviser således hypotesen om at ledningsevnen ikke afhænger af fedtsyreprocenten. 7 72

19 4. Er data forenelige med en hypotese om at regressionslinien har en hældning på 0.6? Vi skal teste hypotesen H : β = 0.6 Dette kan gøres med t-teststørrelsen SSDt T = ˆβ = =.883 s der under hypotesen er T-fordelt med n 2 = 4 frihedsgrader. Testsandsynligheden er givet ved 2P (T.883) og kan slås op i R med ordren > 2*(-pt( , df=4)) [] Da testsandsynligheden er større end 0.05 kan vi acceptere hypotesen om en hældning på 0.6 på 5% niveau. Hvis man ikke har mulighed for at slå testsandsynligheden op i R kan en tilnærmelse findes i MS s Her angives at P (T ) = 0.025, dvs at P ( T ) = Da 2.45 >.883 kan vi konkludere at vi accepterer hypotesen på 5% niveau. En endnu grovere tilnærmelse kan findes udfra betragtningen: P ( T n.96) > P ( Y.96) = 0.05 for alle n =, 2,..., hvor Y er standard normalfordelt. Konklusion: Data er forenelige med en hypotese om at regressionslinien har en hældning på

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1 (a) Denne opgave bygger på resultaterne fra 2 forsøg med epo-behandling af for tidligt fødte børn, idet gruppe 1 og 3 stammer fra første forsøg, mens gruppe 2 og 4 stammer fra det andet. Det må antages,

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Klasseøvelser dag 2 Opgave 1

Klasseøvelser dag 2 Opgave 1 Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) I dag Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt) Helle Sørensen Repetition vha eksempel om dagligvarepriser Analyse med R: ttest

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: ekstrom@life.ku.dk Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Appendiks Økonometrisk teori... II

Appendiks Økonometrisk teori... II Appendiks Økonometrisk teori... II De klassiske SLR-antagelser... II Hypotesetest... VII Regressioner... VIII Inflation:... VIII Test for SLR antagelser... IX Reset-test... IX Plots... X Breusch-Pagan

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 22 sider. Skriftlig prøve: 13. december 2010 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 15. december 2008 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Reeksamen i Statistik for biokemikere. Blok 3 2007.

Reeksamen i Statistik for biokemikere. Blok 3 2007. Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 17 sider. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Preben Blæsild og Jens Ledet Jensen

Preben Blæsild og Jens Ledet Jensen χ 2 Test Preben Blæsild og Jens Ledet Jensen Institut for Matematisk Fag Aarhus Universitet Egå Gymnasium, December 2010 Program 8.15-10.00 Forelæsning 10.15-12.00 Statlab: I arbejder, vi cirkler rundt

Læs mere

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 14. december 2013 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)

Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares) Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Oversigt Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) Klaus

Læs mere

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik Bygning 305/324 Danmarks Tekniske Universitet

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6 Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren

Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren Faculty of Life Sciences Program Sammenligning af grupper Ensidet ANOVA Claus Ekstrøm E-mail: ekstrom@life.ku.dk Sammenligning af to grupper: tre eksempler Sammenligning af mere end to grupper: ensidet

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

1 Regressionsproblemet 2

1 Regressionsproblemet 2 Indhold 1 Regressionsproblemet 2 2 Simpel lineær regression 3 2.1 Mindste kvadraters tilpasning.............................. 3 2.2 Prædiktion og residualer................................. 5 2.3 Estimation

Læs mere

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0. Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol

Økonometri: Lektion 5. Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol Økonometri: Lektion 5 Multipel Lineær Regression: Interaktion, log-transformerede data, kategoriske forklarende variable, modelkontrol 1 / 35 Veksekvirkning: Motivation Vi har set på modeller som Price

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse

Afsnit E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse Afsnit 8.3 - E1 Konfidensinterval for middelværdi i normalfordeling med kendt standardafvigelse Først skal normalfordelingen lige defineres i Maple, så vi kan benytte den i vores udregninger. Dette gøres

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af

Læs mere

Produkt og marked - matematiske og statistiske metoder

Produkt og marked - matematiske og statistiske metoder Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring

Læs mere

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen Landmålingens fejlteori Lektion Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ - rw@math.aau.dk Institut for Matematiske Fag Aalborg Universitet En stokastisk variabel er en variabel,

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1TS Teoretisk statistik Den skriftlige prøve Sommer 2002 3 timer - alle hjælpemidler tilladt Det er tilladt at skrive

Læs mere

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ.

Overheads til forelæsninger, mandag 5. uge På E har vi en mængde af mulige sandsynlighedsfordelinger for X, (P θ ) θ Θ. Statistiske modeller (Definitioner) Statistik og Sandsynlighedsregning 2 IH kapitel 0 og En observation er en vektor af tal x (x,..., x n ) E, der repræsenterer udfaldet af et (eller flere) eksperimenter.

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 26. maj 2011 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm. Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

da er X 1 + X 2 N(µ 1 + µ 2,σ1 2 + σ2) Hvis X 1,...,X n er uafhængige og X r N(µ,σ 2 ), da er X = 1 n (X 1 +... + X n ) N(µ, σ2

da er X 1 + X 2 N(µ 1 + µ 2,σ1 2 + σ2) Hvis X 1,...,X n er uafhængige og X r N(µ,σ 2 ), da er X = 1 n (X 1 +... + X n ) N(µ, σ2 Statistik og Sandsynlighedsregning IH kapitel Overheads til forelæsninger, onsdag 5. uge Resultater om normalfordeling X N(µ,σ ). N har tæthed ϕ µ,σ (x) = exp (x µ) πσ σ EX = µ, Var(X) = σ X µ N(0,) σ

Læs mere

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

To-sidet varians analyse

To-sidet varians analyse To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Stastistik og Databehandling på en TI-83

Stastistik og Databehandling på en TI-83 Stastistik og Databehandling på en TI-83 Af Jonas L. Jensen (jonas@imf.au.dk). 1 Fordelingsfunktioner Husk på, at en fordelingsfunktion for en stokastisk variabel X er funktionen F X (t) = P (X t) og at

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 21 sider. Skriftlig prøve: 27. maj 2010 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - kkb@math.aau.dk http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet 1/31 Repetition:

Læs mere

Perspektiver i Matematik-Økonomi: Linær regression

Perspektiver i Matematik-Økonomi: Linær regression Perspektiver i Matematik-Økonomi: Linær regression Jens Ledet Jensen H2.21, email: jlj@imf.au.dk Perspektiver i Matematik-Økonomi: Linær regression p. 1/34 Program for i dag 1. Indledning: sammenhæng mellem

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 15. december 2012 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/ Program: 1. Repetition af vigtige sandsynlighedsfordelinger: binomial, (Poisson,) normal (og χ 2 ). 2. Populationer og stikprøver 3. Opsummering af data vha. deskriptive størrelser og grafer. 1/29 Binomial

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET. Eksamen i Statistik 1 Tag-hjem prøve 1. juli 2010 24 timer Alle hjælpemidler er tilladt. Det er tilladt at skrive med blyant og benytte viskelæder,

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220

Læs mere

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform

Læs mere

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher

Kursus 02323: Introducerende Statistik. Forelæsning 8: Simpel lineær regression. Peder Bacher Kursus 02323: Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 30. maj 2006 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (navn) (underskrift)

Læs mere

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen

Læs mere

Kursus 02402/02323 Introducerende Statistik

Kursus 02402/02323 Introducerende Statistik Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder

Læs mere

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm.

Schweynoch, 2003. Se eventuelt http://www.mathematik.uni-kassel.de/~fathom/projekt.htm. Projekt 8.5 Hypotesetest med anvendelse af t-test (Dette materiale har været anvendt som forberedelsesmateriale til den skriftlige prøve 01 for netforsøget) Indhold Indledning... 1 χ -test... Numeriske

Læs mere

Forelæsning 11: Envejs variansanalyse, ANOVA

Forelæsning 11: Envejs variansanalyse, ANOVA Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere