Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Relaterede dokumenter
Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

k normalfordelte observationsrækker (ensidet variansanalyse)

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Reeksamen i Statistik for biokemikere. Blok

Besvarelse af vitcap -opgaven

Eksamen i Statistik for biokemikere. Blok

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for biokemikere. Blok

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Besvarelse af juul2 -opgaven

Skriftlig eksamen Science statistik- ST501

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Lineær regression i SAS. Lineær regression i SAS p.1/20

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

Regressionsanalyse i SAS

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Eksamen i Statistik for biokemikere. Blok

Besvarelse af opgave om Vital Capacity

Elementær sandsynlighedsregning

Afdeling for Anvendt Matematik og Statistik Januar Regressionsanalyse i SAS 2. Regressionsanalyse med GLM Sammenligning af regressionslinier

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for Biokemikere, Blok januar 2009

Tema. Dagens tema: Indfør centrale statistiske begreber.

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Basal statistik. 21. oktober 2008

Løsning eksamen d. 15. december 2008

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Statistik og Sandsynlighedsregning 2

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Elementær sandsynlighedsregning

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Vejledende besvarelse af hjemmeopgave, efterår 2017

En Introduktion til SAS. Kapitel 5.

Løsning til eksaminen d. 29. maj 2009

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Besvarelse af opgave om Vital Capacity

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering

Forelæsning 11: Kapitel 11: Regressionsanalyse

Produkt og marked - matematiske og statistiske metoder

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Mat2SS Vejledende besvarelse uge 11

Vejledende besvarelse af hjemmeopgave

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Normalfordelingen og Stikprøvefordelinger

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Landmålingens fejlteori - Repetition - Fordeling af slutfejl - Lektion 8

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Vejledende besvarelse af hjemmeopgave, efterår 2018

Multipel Lineær Regression

Kvantitative Metoder 1 - Forår Dagens program

Statistiske Modeller 1: Kontingenstabeller i SAS

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Modul 6: Regression og kalibrering

hvor a og b er konstanter. Ved middelværdidannelse fås videre

INSTITUT FOR MATEMATISKE FAG c

NATURVIDENSKABELIG KANDIDATEKSAMEN VED KØBENHAVNS UNIVERSITET.

Simpel Lineær Regression

Statistiske modeller

Betingede sandsynligheder Aase D. Madsen

(studienummer) (underskrift) (bord nr)

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

En Introduktion til SAS. Kapitel 6.

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Løsning til eksaminen d. 14. december 2009

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Restsaltmængdernes afhængighed af trafikken,

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Normalfordelingen. Statistik og Sandsynlighedsregning 2

MM501 forelæsningsslides

Opgavebesvarelse, brain weight

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Basal statistik. 30. oktober 2007

Basal statistik. 30. oktober Den generelle lineære model

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Transkript:

Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen tydeligt fremgår hvordan man kommer frem til de forskellige resultater. Held og lykke! Opgave 1 Lad X være en diskret stokastisk variabel med sandsynlighedsfunktion p X givet ved { 1 hvis x { 1, 0, 1} p X (x) = 3 0 ellers. (1) Vis, at EX = 0 og Var X = 2. 3 Lad Y være en stokastisk variabel der er uafhængig af X og har samme fordeling som X. Dermed har Y altså sandsynlighedsfunktion p Y givet ved { 1 hvis y { 1, 0, 1} p Y (y) = 3 0 ellers. (2) Beregn Cov(X, Y + X) og Var(X Y ). (3) Vis, at E( X 1 ) = 1 og beregn E( X 1 Y 1 ). (4) Beregn P(X 0) og P(X Y = 0). Opgavesættet fortsættes

Matematisk Modellering 1 Side 2 Opgave 2 Lad (X, Y ) være en to-dimensional absolut kontinuert stokastisk vektor der har tæthedsfunktion f X,Y givet ved f X,Y (x, y) = { 4x 4 hvis 0 < x < 1 og 0 < y < 1 x 0 ellers. (1) Vis, at tæthedsfunktionerne f X og f Y for X og Y er { 4x 3 hvis 0 < x < 1 f X (x) = 0 ellers og f Y (y) = 4 5 y 5 hvis y > 1 4 hvis 0 < y 1 5 0 hvis y 0. (2) Vis, at EX = 4 5 og VarX = 2 75. Beregn også E(X 1 ). Det oplyses at EY = 2 og VarY = 2. Dette ønskes ikke vist. 3 9 (3) Vis, at E(XY ) = 1. Beregn desuden Cov(X, Y ) samt Var(X + Y ). 2 (4) Lad U = X 2 Y 2. Vis, at fordelingsfunktionen F U for U er givet ved 0 hvis u 0 F U (u) = u hvis u ]0, 1[ 1 hvis u 1. Gør desuden rede for at U er absolut kontinuert og angiv tætheden for U. Opgavesættet fortsættes

Matematisk Modellering 1 Side 3 Opgave 3 I denne opgave skal vi studere studere lungekapaciteten, tlc, hos personer der skal have foretaget en hjerte-lunge transplantation. I alt har man målt lungekapacitet hos 32 personer, hvor halvdelen er mænd og halvdelen er kvinder. Man har desuden målt højden af hver person. Lad i = 0, 1 indicere de to køn således at i = 0 svarer til kvinder, og j = 1,..., 16 indicere de 16 personer inden for hvert køn. Lad T ij angive lungekapaciteten tlc hos den jte person i den ite gruppe, og lad h ij betegne denne persons højde, målt i centimeter. Vi vil i det følgende arbejde under modellen M: T ij N(α i + β i h ij, σi 2 ), i = 0, 1, j = 1,..., 16 Denne model siger altså, at vi for hvert køn har en lineær regression af tlc på højden. Spørgsmålene i denne opgave kan besvares ved hjælp af SAS udskrifterne side 4-7 og tabellen side 8. Datasættet lunge har 32 observationer og 3 variable. Variablen tlc angiver lungekapaciteten; variablen sex angiver kønnet, hvor 0 svarer til kvinder; variablen hoejde angiver personens højde målt i centimeter. (1) Vis ved et test, at det kan antages, at de to varianser er ens. (2) Vis ved et test, at det kan antages, at de to regressionslinjer har samme hældning. (3) Vis ved et test, at det kan antages, at de to regressionslinjer er sammenfaldende. (4) Estimer middelværdien af lungekapaciteten, tlc, for en person der er 160 centimeter høj, og beregn et 95%-konfidensinterval for denne middelværdi.

Matematisk Modellering 1 Side 4 Nedenstående udskrift viser indholdet af datasættet lunge. Obs sex hoejde tlc 1 0 149 3.40 2 0 138 3.41 3 1 148 3.80 4 0 156 3.90 5 0 152 4.00 6 0 157 4.10 7 0 165 4.46 8 1 152 4.55 9 0 177 4.83 10 0 158 5.10 11 0 166 5.44 12 0 165 5.50 13 0 160 5.73 14 1 178 5.77 15 0 169 5.80 16 1 173 6.00 17 0 172 6.30 18 0 163 6.55 19 0 164 6.60 20 1 189 6.62 21 1 182 6.89 22 1 184 6.90 23 1 174 7.00 24 1 177 7.20 25 1 183 7.30 26 1 175 7.65 27 1 173 7.80 28 1 173 7.90 29 0 162 8.05 30 1 180 8.10 31 1 173 8.70 32 1 171 9.45

Matematisk Modellering 1 Side 5 Modellen M gennemregnes med programstumpen title1 Modellen M ; proc glm data=lunge; model tlc=hoejde; by sex; run; title1; Nedenfor ses en lille del af output: Modellen M ------------------------------- sex=0 (kvinder) -------------------------------- Number of observations 16 Modellen M ------------------------------- sex=0 (kvinder) -------------------------------- Dependent Variable: tlc Sum of Source DF Squares Mean Square F Value Pr > F Model 1 8.28012991 8.28012991 6.78 0.0208 Error 14 17.10191384 1.22156527 Corrected Total 15 25.38204375 Modellen M --------------------------------- sex=1 (mænd) --------------------------------- Number of observations 16 Modellen M --------------------------------- sex=1 (mænd) --------------------------------- Dependent Variable: tlc Sum of Source DF Squares Mean Square F Value Pr > F Model 1 9.22670789 9.22670789 5.93 0.0289 Error 14 21.79163586 1.55654542 Corrected Total 15 31.01834375

Matematisk Modellering 1 Side 6 Programstumpen proc glm data=lunge; class sex; model tlc=sex hoejde sex*hoejde/ss1; run; giver anledning til følgende output. Class Level Information Class Levels Values sex 2 0 1 Dependent Variable: tlc Number of observations 32 Sum of Source DF Squares Mean Square F Value Pr > F Model 3 42.81845030 14.27281677 10.28 <.0001 Error 28 38.89354970 1.38905535 Corrected Total 31 81.71200000 R-Square Coeff Var Root MSE tlc Mean 0.524017 19.36069 1.178582 6.087500 Source DF Type I SS Mean Square F Value Pr > F sex 1 25.31161250 25.31161250 18.22 0.0002 hoejde 1 17.48233164 17.48233164 12.59 0.0014 hoejde*sex 1 0.02450616 0.02450616 0.02 0.8953

Matematisk Modellering 1 Side 7 Programstumpen proc glm data=lunge; class sex; model tlc=hoejde sex/ss1 solution; run; giver anledning til nedenstående output. Class Level Information Class Levels Values sex 2 0 1 Dependent Variable: tlc Number of observations 32 Sum of Source DF Squares Mean Square F Value Pr > F Model 2 42.79394414 21.39697207 15.94 <.0001 Error 29 38.91805586 1.34200193 Corrected Total 31 81.71200000 R-Square Coeff Var Root MSE tlc Mean 0.523717 19.02995 1.158448 6.087500 Source DF Type I SS Mean Square F Value Pr > F hoejde 1 39.54870859 39.54870859 29.47 <.0001 sex 1 3.24523555 3.24523555 2.42 0.1308 Standard Parameter Estimate Error t Value Pr > t Intercept -6.263569903 B 3.67983781-1.70 0.0994 hoejde 0.076067188 0.02107532 3.61 0.0011 sex 0-0.770859760 B 0.49571132-1.56 0.1308 sex 1 0.000000000 B... NOTE: The X X matrix has been found to be singular, and a generalized inverse was used to solve the normal equations. Terms whose estimates are followed by the letter B are not uniquely estimable.

Matematisk Modellering 1 Side 8 Standardberegninger baseret på alle 32 personer resulterer i nedenstående tabel. T h n 32 S 194.8 5358 USS 1267.557 901556 SP 33035.2 SSD 81.712 4425.875 SP D 418.375 Bemærk at ovenstående tabel f.eks. kan benyttes til at gennemregne en lineær regression af tlc (T) på højden (h). I Table 3.7 side 125 i Statistics with applications in Biology and Geology (BG) finder man en skabelon til gennemregning af en lineær regression af en variabel x på en variabel t. Læg derfor mærke til at T svarer til x mens h svarer til t. Opgavesættet fortsættes

Matematisk Modellering 1 Side 9 Opgave 4 I denne opgave betragter vi først 30 observationer, der er inddelt i tre grupper med 10 observationer i hver gruppe. Det oplyses, at observationerne er fremkommet ved at simulere uafhængige stokastiske variable der er normalfordelt med samme middelværdi og varians inden for hver gruppe. Vi betragter derfor modellen M: x ij N(µ i, σ 2 i ), i = 1,...,3, j = 1,...,10, hvor x ij angiver den jte observation i den ite gruppe. Data findes i datasættet opg4, der er gengivet på næste side. Standardberegninger for de tre grupper ses i tabellen nedenfor. Macro "BARTLETT" Data set: OPG4 Response variable: X Group variable: I Calculations in k samples: Sample Sample i ni Si USSi Si2/ni SSDi fi Variance Mean 1 10 0.649 10.0268 0.0421 9.9847 9 1.10942 0.0649 2 10 2.659 18.2932 0.7072 17.5861 9 1.95401 0.2659 3 10 2.753 7.1563 0.7580 6.3984 9 0.71093 0.2753 ------------------------------------------------------------==================== 30 6.061 35.4764 1.5072 33.9692 27 1.25812 (1) Vis ved et test, at det kan antages, at de tre varianser er ens. (2) Vis ved et test, at det kan antages, at de tre middelværdier er ens. (3) Det oplyses nu, at data blev simuleret med en fælles varians på σ 2 = 1. Undersøg på den baggrund om det kan antages, at den fælles middelværdi er 0. Når man simulerer, er man interesseret i at simulere så mange stokastiske variable, at gennemsnittet er tæt på middelværdien med stor sandsynlighed. Lad os give et eksempel. Antag at X 1,...,X n er uafhængige stokastiske variable med X i N(0, 1) for i = 1,..., n. Lad X. = 1 n n i=1 X i betegne gennemsnittet. (4) Angiv fordelingen af X.. Bestem desuden det mindste n for hvilket der gælder at sandsynligheden P( X. < 1 ) er mindst 95%. 4

Matematisk Modellering 1 Side 10 Nedenstående udskrift viser indholdet af datasættet opg4. Obs i x 1 1-0.74016 2 1-1.44698 3 1 0.55295 4 1 0.21072 5 1 0.66747 6 1-0.84313 7 1-0.30982 8 1-0.31125 9 1 2.32055 10 1 0.54854 11 2-1.98412 12 2 0.70913 13 2-1.90473 14 2-0.16415 15 2 0.53846 16 2 0.90601 17 2 0.65040 18 2 1.97197 19 2-0.23638 20 2 2.17263 21 3-0.96178 22 3 0.87351 23 3-0.01833 24 3 0.76745 25 3-0.84587 26 3 1.93728 27 3 0.49640 28 3 0.19137 29 3-0.04143 30 3 0.35450