En Introduktion til SAS. Kapitel 6.
|
|
|
- Bodil Dalgaard
- 9 år siden
- Visninger:
Transkript
1 En Introduktion til SAS. Kapitel 6. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts udgave
2 Kapitel 6 Regressionsanalyse i SAS 6.1 Indledning Dette kapitel viser, hvorledes regressionsanalyse kan udføres ved hjælp af SAS. Det gennemgås, hvorledes programmer skal skrives og udskrifterne fortolkes. Desuden jævnføres de i udskrifterne beregnede størrelser med de fra noterne kendte. Det antages, at betingelserne for at udføre regressionsanalyse er opfyldte, altså at observationerne er normalfordelte med samme varians. Det antages, at data foreligger som et SAS-datasæt. 6.2 Lineær regressionsanalyse. Kapitel 6 knytter sig til IH kapitel 12 om lineær regressionsanalyse. I afsnit 6.2 gennemgås test for hypotesen β = 0 under forudsætning af lineær afhængighed mellem baggrundsvariabel og målingsvariabel. I afsnit 6.3 vises, hvorledes man kan bruge disse resultater, når man skal teste den generelle hypotese β = β 0. Endelig gennemgås test for hypotesen ν = ν 0 under forudsætning af lineær afhængighed mellem baggrundsvariabel og målingsvariabel i afsnit 6.4. Vi antager, at data foreligger som et SAS-datasæt test.data med to variable. Den ene, X, angiver for hver observation det målingsresultat, der ønskes analyseret. Den anden er en numerisk variabel T, en baggrundsvariabel, og det forventes, at der er en lineær sammenhæng mellem middelværdien af X og T's værdi.
3 66 Regressionsanalyse i SAS Data X og T er SAS-variable i SAS-datasæt med n observationer. X T numerisk variabel numerisk variabel Statistisk Model. Vi antager, at X 1, X 2,..., X n er uafhængige, normalfordelte stokastiske variable med samme ukendte varians σ 2, og at EX r = ν + βt r, hvis T r = t r. Middelværdien af X er således en lineær funktion af T. Hypotesen er, at T ingen indydelse har, altså at EX r = ν eller β = 0. SAS. I SAS udføres regressionsanalysen på følgende måde. PROGRAM: PROC REG DATA=test.data; MODEL X=T/R CLM; PLOT STUDENT.*(P. T); RUN; QUIT; Her angiver PROC REG, at vi har normalfordelte observationer med samme varians, og at vi skal betragte en lineær hypotese i middelværdien. Programlinien MODEL X=T/R CLM; angiver, at middelværdien af observationerne er en lineær funktion af T. R efter / giver udskrift af forudsagte og observerede værdier af responsvariablen X, residualer, residualernes standardafvigelse, de standardiserede residualer (student), et meget simpelt residualplot samt Cook's afstandsmål. CLM tilføjer nedre og øvre 95%-kondensgrænse for den estimerede regressionslinie til datasættet. Programlinien PLOT STUDENT.*(P. T);
4 6.2 Lineær regressionsanalyse. 67 tegner et plot for de standardiserede residualer mod henholdsvis de forudsagte værdier af responsvariablen og mod værdierne af baggrundsvariablen T (udskrift ikke vist). Notation og Beregningsstørrelser Betydningen af beregnings- og teststørrelser i SASudskriften gennemgås i det følgende. Samtidig jævnføres med forelæsningsnoterne. Vi har x = 1 nr=1 x n r t = 1 nr=1 t n r n r=1 ˆβ = (xr x)(tr t) n = r=1 (tr t) 2 n r=1 (xr x)(tr t) SSD t. I SASudskriften bruges notationen: DF SS MS frihedsgrader kvadratafvigelsessum (= Sum of Squares) normeret kvadratafvigelsessum =variansestimat (= Mean Square) For frihedsgraderne i regressionsanalysen i SAS har vi Total(DF)=n-1 Error(DF)=n-2 Model(DF)=1 og vi har Total(DF) = Error(DF) + Model(DF) For kvadratsummerne i regressionsanalysen i SAS har vi Total(SS)= n r=1 (x r x) 2 Error(SS)= n r=1 (x r x ˆβ(t r t)) 2 = SSD l Model(SS)= ˆβ 2 n r=1 (t r t) 2 = ˆβ 2 SSD t. Ved at sætte β = 0 i IH lemma B2(b) har vi, at n n (x r x) 2 = (x r x ˆβ(t r t)) 2 + ˆβ 2 SSD t. r=1 r=1
5 68 Regressionsanalyse i SAS For SSstørrelserne gælder derfor Total(SS) = Error(SS) + Model(SS). For variansestimaterne og teststørrelsen i SAS har vi Error(MS) =Error(SS)/ Error(DF)=s 2 l Model(MS) = Model(SS)/ Model(DF)=Model(SS)= ˆβ 2 SSD t F-value = Model(MS)/ERROR(MS)= ˆβ 2 SSD t s 2 l = F-teststørrelse for hypotesen β = 0 PR>F = testsandsynlighed for hypotesen β = 0 Variansanalyseskemaer Man opsummerer ofte resultaterne af en regressionsanalyse i et Variansanalyseskema for lineær regressionsanalyse Variation SSD f s 2 Omkring linien nr=1 (x r x ˆβ(t r t)) 2 n-2 s 2 l Hældnings afvigelse fra 0 ˆβ2 SSD t 1 Omkring linie med hældning 0 nr=1 (x r x) 2 n-1 s 2 β Med betegnelserne fra SAS-udskriften bliver det tilsvarende skema Variansanalyseskema for lineær regressionsanalyse Variation SSD f s 2 Omkring linien Error(SS) Error(DF) Error(MS) Hældnings afvigelse fra 0 Model(SS) Model(DF) Model(MS) Total Total(SS) Total(DF) Parameterestimater, T-teststørrelser og testsandsynligheder fås fra de sidste linier i udskriften. (Se 'Udskriftskommentar til lineær regressionsanalyse' sidst i afsnittet.) SSD t kan fås fra udtrykket SSD t = Model(SS)/ ˆβ 2.
6 6.2 Lineær regressionsanalyse. 69 Eksempel på regressionsanalyse i SAS. I det følgende gennemregnes IH eksempel Her betragter vi de to variable energi og aar i datasættet energi, der oprettes i datatrinnet i Program 6.1. Vi ønsker at undersøge, om energiomsætningen, energi, afhænger af tiden aar. Udgangspunktet er en antagelse om, at der er en lineær sammenhæng mellem de to variable, og vi ønsker at teste, om linien har hældningen 0. Analysen er en lineær regressionsanalyse, så vi kan bruge et proceduretrin som angivet i program 6.1. PROGRAM 6.1 DATA energi; INPUT aar energi; CARDS; ; PROC REG; MODEL energi=aar/r CLM; PLOT STUDENT.*(P. aar); RUN; QUIT; Dette giver følgende udskrift, hvor alle størrelser mærket med (n*) er forklaret i udskriftskommentaren. Udskrift 6.1 The REG Procedure Model: MODEL1 Dependent Variable: energi Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model (1*)1 (4*) (7*) (9*)1.32 (10*) Error (2*)8 (5*) (8*) Corrected Total (3*)9 (6*)
7 70 Regressionsanalyse i SAS Root MSE (11*) R-Square (14*) Dependent Mean (12*) Adj R-Sq Coeff Var (13*) Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 (15*) (17*) (19*)-0.52 (21*) aar 1 (16*) (18*) (20*) 1.15 (22*) Output Statistics (23*) (24*) (25*) (26*) (27*) (28*) (29*) (30*) Dep Var Predicted Std Error Std Error Student Obs energi Value Mean Predict 95% CL Mean Residual Residual Residual Output Statistics (31*) (32*) Cook's Obs D 1 ** *** * *** *** * Sum of Residuals 0 Sum of Squared Residuals Predicted Residual SS (PRESS)
8 6.2 Lineær regressionsanalyse. 71 Nedenfor ndes en udskriftskommentar, der angiver, hvad størrelser mærket med (n) i udskriften betyder. Udskriftskommentar til lineær regressionsanalyse (1*) Model(DF) = 1 (2*) Error(DF) = n-2 (3*) Total(DF) = n-1 (4*) Model(SS) = ˆβ 2 SSD t (5*) Error(SS) = n r=1 (x r x ˆβ(t r t)) 2 (6*) Total(SS) = n r=1 (x r x) 2 (7*) Model(MS)= Model(SS)/ Model(DF) (8*) Error(MS)=s 2 l (9*) Model(MS)/ERROR(MS)= Model(MS)/s 2 l (10*) Testsandsynlighed for hypotesen β = 0. (11*) Standardafvigelse = s l (12*) x (13*) Variationskoecient = 100s l / x (14*) R 2 = Model(SS)/Total(SS) (15*) (16*) x ˆβ t ˆβ (17*) s l 1 n + t 2 (18*) s 01 SSDt (19*) T ν = SSD t x ˆβ t s l 1 n + t 2 SSD t. Teststørrelse for hypotesen ν = 0. ˆβ (20*) T β = SSDt s 01. Teststørrelse for hypotesen β = 0. (21*) Testsandsynlighed for hypotesen ν = 0. (22*) Testsandsynlighed for hypotesen β = 0. (23*) Observationsnumre (24*) Værdi af responsvariabel, X r (her energi). (25*) Forudsagt (prædikteret) værdi y(t r ) = x + ˆβ(t r t). (26*) Estimat for spredning på forudsagt værdi s 1 l + (t t) 2 n SSD t. (27*) Nedre og øvre 95%-kondensgrænse for den estimerede regressionslinie. (28*) Residual e r = x r x ˆβ(t r t).
9 72 Regressionsanalyse i SAS (29*) Estimeret spredning på residual s l 1 1 (tr t) 2 n e (30*) Standardiserede residualer r s l 1 1 n (tr t) 2 SSD t (31*) Residualplot. (32*) Mål for indydelse af enkelt observationer. SSD t. 6.3 Test for β = β 0 under linearitetshypotesen Ønsker man at teste hypotesen β = β 0, hvor β 0 IR er et kendt tal, kan dette gøres ved at tilføje en TEST-ordre i SAS-programmet. Følgende program viser hvorledes man tester β = 1 i eksemplet fra program 6.1. PROGRAM 6.2: PROC REG; MODEL energi=aar; TEST aar=1/print; RUN; Foruden udskriften fra første del af Program 6.1 får man også udskrift 6.2. Her giver F-value og Pr > F henholdsvis F-teststørrelse og testsandsynlighed for test af β = 1. UDSKRIFT 6.2: The REG Procedure Model: MODEL1 Test 1 details L Ginv(X'X) L' Lb-c Inv(L Ginv(X'X) L') Inv()(Lb-c) Test 1 Results for Dependent Variable energi Mean Source DF Square F Value Pr > F Numerator <.0001 Denominator
10 6.4 Test for ν = ν 0 under linearitetshypotesen Test for ν = ν 0 under linearitetshypotesen Ønsker man at teste hypotesen ν = ν 0, hvor ν 0 IR er et kendt tal, kan dette gøres ved at tilføje en TEST-ordre i SAS-programmet. Følgende program viser hvorledes man tester ν = 0 i eksemplet fra program 6.1. PROGRAM 6.3: PROC REG; MODEL energi=aar; TEST INTERCEPT=0/PRINT; RUN; Hvis hypotesen ν = 0 godkendes kan man få parameterestimater fra programmet PROGRAM 6.4: der giver udskriften PROC REG; MODEL energi=aar/noint; RUN; UDSKRIFT 6.4: The REG Procedure Model: MODEL1 Dependent Variable: energi NOTE: No intercept in model. R-Square is redefined. Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model <.0001 Error Uncorrected Total Root MSE R-Square Dependent Mean Adj R-Sq Coeff Var Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t aar <.0001
En Introduktion til SAS. Kapitel 5.
En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel
Reeksamen i Statistik for Biokemikere 6. april 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på
Normalfordelingen. Statistik og Sandsynlighedsregning 2
Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på
Lineær regression i SAS. Lineær regression i SAS p.1/20
Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression
Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S
Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Regressionsanalyse i SAS
Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse
Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer
Program Simpel og multipel lineær regression Helle Sørensen E-mail: [email protected] Simpel LR: repetition, konfidensintervaller, test, prædiktionsintervaller, mm. Multipel LR: estimation, valg af model,
Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1
Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen
Modul 5: Test for én stikprøve
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 5: Test for én stikprøve 5.1 Test for middelværdi................................. 1 5.1.1 t-fordelingen.................................
Besvarelse af juul2 -opgaven
Besvarelse af juul2 -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Lav regressionsanalyser for hvert køn af igf1 vs. alder for præpubertale (Tanner stadium
Modul 11: Simpel lineær regression
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................
Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model
Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ
Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
Besvarelse af vitcap -opgaven
Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.
Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie
Program Ensidet variansanalyse Sammenligning af grupper Helle Sørensen E-mail: [email protected] I dag: Sammenligning af middelværdier Sammenligning af spredninger Parvise sammenligninger To eksempler:
Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??
Dagens Temaer k normalfordelte obs. rækker i proc glm. Test for lineær regression Test for lineær regression - via proc glm p. 1/?? Proc glm Vi indlæser data i datasættet stress, der har to variable: areal,
Eksamen i Statistik for Biokemikere, Blok januar 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for Biokemikere, Blok 2 2008 09 19. januar 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet
Eksamen i Statistik for biokemikere. Blok
Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2007. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 8 sider.
Ensidet variansanalyse
Ensidet variansanalyse Sammenligning af grupper Helle Sørensen E-mail: [email protected] StatBK (Uge 47, mandag) Ensidet ANOVA 1 / 18 Program I dag: Sammenligning af middelværdier Sammenligning af spredninger
To samhørende variable
To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen
Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6
Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået
Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test
Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x k uafhængige variable
Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau
ypotese test Repetition fra sidst ypoteser Test af middelværdi Test af andel Test af varians Type 1 og type fejl Signifikansniveau Konfidens intervaller Et konfidens interval er et interval, der estimerer
Module 12: Mere om variansanalyse
Mathematical Statistics ST06: Linear Models Bent Jørgensen og Pia Larsen Module 2: Mere om variansanalyse 2. Parreded observationer................................ 2.2 Faktor med 2 niveauer (0- variabel)........................
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Kapitel 3 Centraltendens og spredning
Kapitel 3 Centraltendens og spredning Peter Tibert Stoltze [email protected] Elementær statistik F2011 1 Indledning 2 Centraltendens 3 Spredning 4 Praktisk beregning 5 Fraktiler 6 Opsamling 1 Indledning
1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.
Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller
Konfidensinterval for µ (σ kendt)
Program 1. Repetition: konfidens-intervaller. 2. Hypotese test 3. Type I og type II fejl, p-værdi 4. En og to-sidede tests 5. Test for middelværdi (kendt varians) 6. Test for middelværdi (ukendt varians)
Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013
Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.
Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.
Program 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test. 1/19 Konfidensinterval for µ (σ kendt) Estimat ˆµ = X bedste bud
Forelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge
Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange
Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og
Model M 0 : X hi N(α h + β h t hi,σ 2 h ), h = 1,...,m, i = 1,...,n h. m separate regressionslinjer. Behandles som i afsnit 3.3. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister)
Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge
Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2
Økonometri 1. Inferens i den lineære regressionsmodel 25. september 2006. Oversigt: De næste forelæsninger
Oversigt: De næste forelæsninger Økonometri Inferens i den lineære regressionsmodel 5. september 006 Statistisk inferens: hvorledes man med udgangspunkt i en statistisk model kan drage konklusioner på
Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration
Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: [email protected] Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion
Løsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]
Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination
Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j
Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!
Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22
Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som
Module 2: Beskrivende Statistik
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen og Hans Chr. Petersen Module 2: Beskrivende Statistik 2.1 Histogrammer og søjlediagrammer......................... 1 2.2 Sammenfatning
Reeksamen i Statistik for biokemikere. Blok 3 2007.
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet
Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable
Faculty of Health Sciences Logistisk regression: Interaktion Kvantitative responsvariable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet [email protected]
Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model
Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H
Skriftlig eksamen Science statistik- ST501
SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.
Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6
Kursus 02402 Introduktion til Statistik Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup). 7.4-7.6 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220
Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik
Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 7: Eksempler 7.1 Beskrivende dataanalyse............................... 1 7.1.1 Diagrammer.................................
Kapitel 11 Lineær regression
Kapitel 11 Lineær regression Peter Tibert Stoltze [email protected] Elementær statistik F2011 1 / 1 Indledning Vi modellerer en afhængig variabel (responset) på baggrund af en uafhængig variabel (stimulus),
Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved
Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,
Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks
Normalfordelingen. Statistik og Sandsynlighedsregning 2
Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige
Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner
Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner I modsætning til envejs-anova kan flervejs-anova udføres selv om der er kun én
Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at
Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af
Modul 6: Regression og kalibrering
Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................
Multipel Lineær Regression
Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer
Eksamen i Statistik for biokemikere. Blok
Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)
Økonometri 1. Interne evalueringer af forelæsninger. Kvalitative variabler. Dagens program. Dummyvariabler 21. oktober 2004
Dagens program Økonometri 1 Dummyvariabler 21. oktober 2004 Emnet for denne forelæsning er kvalitative egenskaber i den multiple regressionsmodel (Wooldridge kap. 7.1-7.6) Kvalitative variabler generelt
men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Statistik og Sandsynlighedsregning 2
Statistik og Sandsynlighedsregning 2 Den flerdimensionale normalfordeling, fordeling af ( X,SSD) Helle Sørensen Uge 9, mandag SaSt2 (Uge 9, mandag) Flerdim. N, ford. af ( X,SSD) 1 / 16 Program Resultaterne
Tema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Generelle lineære modeller
Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie
Forelæsning 11: Envejs variansanalyse, ANOVA
Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark
Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning Introduktion Kasper K. Berthelsen, Inst f. Matematiske Fag Omfang: 8 Kursusgang I fremtiden
Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Privatansatte mænd bliver desuden noget hurtigere chef end kvinderne og forholdsvis flere ender i en chefstilling.
Sammenligning af privatansatte kvinder og mænds løn Privatansatte kvindelige djøfere i stillinger uden ledelsesansvar har en løn der udgør ca. 96 procent af den løn deres mandlige kolleger får. I sammenligningen
Statistik Lektion 17 Multipel Lineær Regression
Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x
Eksamen Bacheloruddannelsen i Medicin med industriel specialisering
Eksamen 2016 Titel på kursus: Uddannelse: Semester: Forsøgsdesign og metoder Bacheloruddannelsen i Medicin med industriel specialisering 6. semester Eksamensdato: 17-02-2015 Tid: kl. 09.00-11.00 Bedømmelsesform
Anvendt Statistik Lektion 7. Simpel Lineær Regression
Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot
Forslag til ændret estimering af nøgletal for gødningsomkostningerne til Produktionsgrenstatistikken Andersen, Johnny Michael
university of copenhagen University of Copenhagen Forslag til ændret estimering af nøgletal for gødningsomkostningerne til Produktionsgrenstatistikken Andersen, Johnny Michael Publication date: 2012 Document
Introduktion til SAS. Faculty of Health Sciences
Faculty of Health Sciences Introduktion til SAS Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet [email protected] Eksempel: Blodtryk og fedme OBESE: vægt/idealvægt,
Trivsel og fravær i folkeskolen
Trivsel og fravær i folkeskolen Sammenfatning De årlige trivselsmålinger i folkeskolen måler elevernes trivsel på fire forskellige områder: faglig trivsel, social trivsel, støtte og inspiration og ro og
Besvarelse af opgave om Vital Capacity
Besvarelse af opgave om Vital Capacity hentet fra P. Armitage & G. Berry: Statistical methods in medical research. 2nd ed. Blackwell, 1987. Spørgsmål 1: Indlæs data og konstruer en faktor (klassevariabel)
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Oversigt. 1 Motiverende eksempel: Højde-vægt. 2 Lineær regressionsmodel. 3 Mindste kvadraters metode (least squares)
Kursus 02402/02323 Introducerende Statistik Forelæsning 8: Simpel lineær regression Oversigt Motiverende eksempel: Højde-vægt 2 Lineær regressionsmodel 3 Mindste kvadraters metode (least squares) Klaus
