02402 Vejledende løsninger til Splus-opgaverne fra hele kurset

Relaterede dokumenter
Opgave 11.4 side 316 (7ed: 11.4, side 352 og 6ed: 11.2, side 345)

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Besvarelser til øvelsesopgaver i uge 6

Eksamen i Statistik for biokemikere. Blok

Løsning eksamen d. 15. december 2008

Løsning til eksaminen d. 14. december 2009

(studienummer) (underskrift) (bord nr)

Løsning til eksamen d.27 Maj 2010

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Opgaver til kapitel 3

Side 1 af 17 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 25. maj 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Løsning til eksaminen d. 29. maj 2009

(studienummer) (underskrift) (bord nr)

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Danmarks Tekniske Universitet Side?? af 20 sider

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

Elementær sandsynlighedsregning

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

1 Hb SS Hb Sβ Hb SC = , (s = )

Elementær sandsynlighedsregning

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Opgave I II III IV V VI Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Danmarks Tekniske Universitet Side 1 af 19 sider

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

2 X 2 = Antal mygstik på enpersoniløbetaf1minut

Uge 10 Teoretisk Statistik 1. marts 2004

Kapitel 12 Variansanalyse

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Forelæsning 11: Kapitel 11: Regressionsanalyse

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Kapitel 12 Variansanalyse

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Note om Monte Carlo metoden

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

(studienummer) (underskrift) (bord nr)

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Opgave I.1 I.2 II.1 II.2 III.1 III.2 IV.1 V.1 VI.1 VI.2 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Forsøgsplanlægning Stikprøvestørrelse

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

(studienummer) (underskrift) (bord nr)

Nanostatistik: Opgavebesvarelser

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Sandsynlighedsregning

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Vejledende løsninger kapitel 8 opgaver

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Module 4: Ensidig variansanalyse

Produkt og marked - matematiske og statistiske metoder

2 X 2 = gennemsnitligt indhold af aktivt stof i én tablet fra et glas med 200 tabletter

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

DANMARKS TEKNISKE UNIVERSITET Side 1 af 16 sider. Skriftlig prøve, den: 27. maj 2019 Kursus nr : (navn) (underskrift) (bord nr)

Kvantitative Metoder 1 - Forår Dagens program

(studienummer) (underskrift) (bord nr)

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Konfidensintervaller og Hypotesetest

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Tema. Dagens tema: Indfør centrale statistiske begreber.

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Oversigt. Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff. Envejs variansanalyse - eksempel

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Opgavens formålet er at undersøge variationen mellem to laboratoriers bestemmelse af po 2 i blod.

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Statistik og Sandsynlighedsregning 2

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Den endelige besvarelse af opgaverne gøres ved at udfylde nedenstående skema. Aflever KUN skemaet!

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Institut for Matematiske Fag Sandsynlighedsregning og Statistik 2. R opgaver

Forsøgsplanlægning Stikprøvestørrelse

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Forelæsning 10: Statistik ved hjælp af simulering

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Kvantitative Metoder 1 - Forår Dagens program

Opgave I.1 II.1 II.2 II.3 III.1 IV.1 IV.2 IV.3 V.1 VI.1 Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar

Multipel Lineær Regression

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Transkript:

02402 Vejledende løsninger til Splus-opgaverne fra hele kurset Vejledende løsning SPL3.3.1 Der er tale om en binomialfordeling med n =10ogp=0.6, og den angivne sandsynlighed er P (X =4) som i bogen også kaldes b(4; 10, 0.6). Vejledende løsning SPL3.3.2 De to sandsynligheder, der er oplyst er følgende: P (X 4) = 0.1662386 P (X 5) = 0.3668967 Man får således de ønskede sandsynligheder som: P (X 5) = 0.3668967 P (X <5) = P (X 4) = 0.1662386 P (X >4) = 1 P (X 4) = 1 0.1662386 = 0.8337614 P (X =5)=P(X 5) P (X 4) = 0.3668967 0.1662386 = 0.2006581 Vejledende løsning SPL3.3.3 Der er tale om en poissonfordeling med λ = 3, og den angivne sandsynlighed er Vejledende løsning SPL3.3.4 P (X =4)= 34 e 3. 4! De to sandsynligheder, der er oplyst er følgende: P (X 4) = 0.8152632 P (X 5) = 0.916082 Man får således de ønskede sandsynligheder som: P (X 5) = 0.916082 P (X <5) = P (X 4) = 0.8152632 P (X >4) = 1 P (X 4) = 1 0.8152632 = 0.1847368 P (X =5)=P(X 5) P (X 4) = 0.916082 0.8152632 = 0.1008188 1

Vejledende løsning SPL4.3.1 Der er tale om følgende tre normalfordelinger: N(0, 1 2 ),N(1, 1 2 ),N(1, 2 2 ) og sandsynligheden er i hvert tilfælde P (X 2) En skitse af de tre fordelinger ses herunder: dnorm(x1) 3 2 1 0 1 2 3 x1 dnorm(x2, 1, 1) 2 1 0 1 2 3 4 x2 dnorm(x3, 1, 2) 0.00 0.05 0.10 0.15 0.20 4 2 0 2 4 6 x3 Vejledende løsning SPL4.3.2 Løsningen bliver 2, idet qnorm som fraktil-funktionen jo er defineret som den inverse fordelingsfunktion pnorm. Vejledende løsning SPL4.3.3 Der er igen tale om følgende tre normalfordelinger: X 1 N(0, 1 2 ),X 2 N(1, 1 2 ),X 3 N(1, 2 2 ) og der er tale om 97.5% fraktilen i hvert tilfælde: P (X 1 1.959964) = 0.975 Skitser ses herunder: P (X 2 2.959964) = 0.975 P (X 3 4.919928) = 0.975 dnorm(x1) 3 2 1 0 1 2 3 x1 dnorm(x2, 1, 1) 2 1 0 1 2 3 4 x2 dnorm(x3, 1, 2) 0.00 0.05 0.10 0.15 0.20 4 2 0 2 4 6 x3 2

Vejledende løsning SPL5.3.1 Formlen for sandsynligheden er P (X 0.4) = 0.4 0 1 dx hvor X altså er uniform fordelt på intervallet [0, 1], cf. side 165. Vejledende løsning SPL5.3.2 Formlen for det første af to resultater er tæthedsfunktionen for eksponentialfordelingen med β =2: f(2) = 1 2 exp( 2/2) Det andet resultat er fordelingsfunktionen for samme fordeling i punktet 2: P (X 2) = 2 0 1 exp( x/2)dx =1 exp( 1) 2 Vejledende løsning SPL5.3.3 (Opdateret 28/2 2006) Formlen for resultatet er 50%-fraktilen for standard log-normalfordelingen: P (Z 1) = 0.5 =P(log(Z) log(1)) = P (log(z) 0) hvor log(z)altså er standard normalfordelt, og dermed er Z altså log-normalfordelt med α =0ogβ=1. Vejledende løsning SPL6.3.1 Begge kommandoer angiver en 97.5% fraktil for en t-fordeling. I første tilfælde med 17 frihedsgrader: P (t 2.109816) = 0.975 I andet tilfælde med 1000 frihedsgrader: P (t 1.962339) = 0.975 hvilket således i praksis svarer til standard normalfordelingen. Vejledende løsning SPL6.3.2 Kommandoen angiver sandsynligheden, der er givet ved følgende: P (t 2.75) hvor t altså er t-fordelt med 17 frihedsgrader. 3

Vejledende løsning SPL7.3.1 H 0 : µ =20 H 1 : µ 20 Signifikansniveau α = 1% n=10 Idet t = x 20, og man kan aflæse t-størrelsen samt gennemsnittet, fås Standard SE x error for gennemsnittet som: 16.4 20 SE x = 3.1125 =1.1566 Den maximale fejl med 99% konfidens kan udledes af det angivne konfidensinterval: 20.15884 16.4 =3.75884, idetetsådant er gennemsnittet plus/minus den maximale fejl. Man kunne også kombinere den beregnede standard error med den kritiske t-størrelse og få: Vejledende løsning SPL7.3.2 1.1566 3.249836 = 3.75884 H 0 : µ 1 = µ 2 H 1 : µ 1 <µ 2 Signifikansniveau α = 5% n 1 =n 2 =10 Idet t = x1 x2, og man kan aflæse t-størrelsen samt gennemsnittene, fås SE x1 x 2 standard error for forskellen som: 16.4 20.1 SE x1 x 2 = =2.080. 1.779 Man skal bruge qt(0.95,18) for at finde den kritiske værdi. Vejledende løsning SPL7.3.3 H 0 : µ D =0 H 1 : µ D <0 Signifikansniveau α = 5% n 1 =n 2 =10 Idet t = x1 x2, og man kan aflæse t-størrelsen samt forskellen på gennemsnittene, fås standard error for forskellen som: SE x1 x 2 SE x1 x 2 = 3.7 1.779 =2.080. Man skal bruge qt(0.95,9) for at finde den kritiske værdi. 4

SPL 10.3.1 Modellen er givet ved: Y i = α + βx i + ε i hvor Y i er eksamenskarakter og x i årskarakter for skole i. Det antages at ε i er uafhængige og normalfordelt med (samme) varians σ 2. Linien estimeres ved at estimere hhv. α og β: (se side 22 i Splus-noten) a =2.4952, b =0.7194 Idet P-værdierne ud for disse to estimater er (særdeles) små, så er begge estimater klart signifikant forskellig fra 0! Man kan aflæse standard error (stikprøve-spredningen) for hældningskoefficienten b til at være 0.0222. Et 95% konfidensinterval kan således opnås ved: 0.7194 ± 1.96 0.0222 idet med 1553 frihedsgrader er t-fraktilen i praksis det samme som z-fraktilen (boksen nederst side 346 anvendes). Intervallet bliver altså: [0.676, 0.763] Idet R 2 =0.4025 OG idet b er positiv, bliver korrelationskoefficienten mellem årskarakterer og eksamenskarakterer r = 0.4025 = 0.634 Man kan IKKE aflæse den øvre kvartil for eksamens-karaktererne, men kun øvre kvartil for residualerne: 0.2811. SPL 11.3.1 I den første analyse, hvor kommunerne indgår, kan man aflæse, at der indgår i alt 270 kommuner i undersøgelsen (og iøvrigt i alt 1555 skoler). I denne analyse testes hypotesen: H 0 : µ 1 = µ 2 = =µ 270 hvor µ i er niveauet for den i te kommune. P-værdien for denne hypotese aflæses til at være 0.05406. Man kan således IKKE påvise at der er forskel på kommunerne (idet P-værdien er større end det sædvanlige niveau på 5%). Variationen (fra skole til skole) inden for kommuner estimeres til 0.3412, eller ækvivalent: skole-spredningen inden for kommuner er 0.3412 = 0.584. I den anden analyse, hvor amter indgår, kan man aflæse, at der indgår i alt 16 amter i undersøgelsen (og som før i alt 1555 skoler). I denne analyse testes hypotesen: H 0 : µ 1 = µ 2 = =µ 16 hvor µ i er niveauet for det i te amt. P-værdien for denne hypotese aflæses til at være 0.000038. Man kansåledes klartpåvise at der ERforskelpå amtererne (idet P-værdien er mindre end det sædvanlige niveau på 5%). Variationen (fra skole til skole) inden for amter estimeres til 0.3435, eller ækvivalent: skole-spredningen inden for amter er 0.3435 = 0.586. 5

SPL 12.3.1 Modellen kan skrives som (side 418): Y ij = µ + α i + β j + ε ij hvor α i angiver effekten af den i te tråd og β j effekten af det j te instrument. Derer5slagstråde og 4 slags instrumenter. Der testes følgende to hypoteser: og H 0 : α 1 = α 2 = =α 5 H 0 : β 1 = β 2 = β 3 = β 4 P-værdien for den første hypotese om ingen forskel på trådene aflæses i tabellen i udskriften til at være 0.0018781 og man kan således påvise en signifkant forskel påtrådene. P-værdien for den anden hypotese om ingen forskel på instrumenterne aflæses i tabellen i udskriften til at være 0.9835259 og man kan således IKKE påvise forskel på instrumenterne. Standardafvigelsen for disse målinger bliver således estimeret til: 2.10958 = 1.45 (Med ordene ser bort fra menes altså, at man piller disse systematiske forskelle ud af data og derefter beregner en spredning på det der er tilbage. Rent sprogligt kunne man også læse disse ord som, at man i selve modellen ser bort fra disse effekter, og således simpelt hen beregner en spredning baseret på SS Total, MEN det er altså IKKE det der menes her... ) Alternativt, kan man slå data fra instrumenterne sammen, altså undlade at inddrage mulige instrumentforskelle i modellen, og således betragte situationen som en ensidig variansanalyse i stedet. Man får så et estimat for standardafvigelsen som: 25.315 + 0.330 12 + 3 =1.31 6