Modul 11: Simpel lineær regression

Save this PDF as:
 WORD  PNG  TXT  JPG

Størrelse: px
Starte visningen fra side:

Download "Modul 11: Simpel lineær regression"

Transkript

1 Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser Oversigt Eksempel 17.1 fra Zar Regression med gentagelser Oversigt Eksempel 17.8 fra Zar Regression uden gentagelser Bemærk: i modulerne om regression og korrelation vil vi kalde signifikansiveauet for δ. f.eks. δ = 5% Oversigt Variable: X (uafhængig variabel) og Y (responsvariabel) X kontrolleret: betyder at værdien af X kan varieres frit i eksperimentet, f.eks. X = koncentration, strømstyrke, vægt, længde, tidsinterval etc. Der er tale om en årsagssammenhæng: når X øges vil Y have en tendens til at gå op eller at gå ned. Der ønskes en prediktion af Y ud fra X (her giver det ikke mening at prediktere X ud fra Y ). X ikke kontrolleret: betyder at X og Y begge er stokastiske X og Y er på lige fod. Der er ikke nogen klar årsagssammenhæng. Vælg Y som den variabel der ønskes predikteret ud fra X. Analysen er dog den samme uanset om X er kontrolleret eller ej.

2 11.1 Regression uden gentagelser 2 Model: Y i = α + βx i + ǫ i Y i : Den i-te værdi af den afhængige (respons) variabel. X i : Den i-te værdi af den uafhængige, forklarende variabel. α: Konstantled. Repræsenterer E(Y ) ved X = 0. β: Hældning. Repræsenterer ændringen i E(Y ) ved en forøgelse af X med 1 enhed. ǫ i : Den i-te statistisk fejl (residual). i: Observationsnummer; i = 1,2,...,n. Stikprøveregressionslinie (fittet linie): Ŷ = a + bx, hvor a angiver skæringen med Y -aksen, og b angiver hældningen på linien. Evalueres den fittede linie for hver observation fås de fittede værdier: Ŷ i = a + bx i Lad x i = X i X og y i = Y i Ȳ, så er estimaterne for β og α henholdsvis: b = n x iy i n x2 i og a = Ȳ b X den fittede linie går igennem punktet ( X, Ȳ ), hvilket let ses: Modelforudsætninger: a + b X = = Ȳ Ȳ b X + b X 1. ǫ i N(0,σ 2 ), hvor σ 2 kaldes residualvariansen. 2. ǫ i -erne er uafhængige stokastiske variable. 3. Lineær sammenhæng mellem Y og X. De statistiske fejl estimeres ved residualerne ˆǫ i = e i = Y i Ŷi, altså de lodrette afvigelser mellem de observerede og de fittede værdier. Mindste kvadraters princip: a og b er valgt så de minimerer kvadratsummen af residualerne: n n ( ) 2 e 2 i = Y i Ŷi = n (Y i a bx i ) 2

3 11.1 Regression uden gentagelser 3 Modelkontrol: Check normalitet f.eks. ved at indtegne de standardiserede residualer i et normalfordelingsplot. Man kan også bruge et histogram. Check for varianshomogenitet ved at plotte residualerne e i, mod X i eller mod Ŷ i Residualerne skal ligge som en sky omkring den vandrette linie gennem 0 (summen af residualerne er altid 0). Manglende linearitet viser sig i residualplottene i form af en u-fomet eller omvendt u-formet sammenhæng. Vær også på vagt over for outliers (ekstremer i Y -retningen) eller indflydelsesrige observationer (ekstremer i X-retningen), som nogen gange kan ændre analysens konklusioner drastisk. Checkes ved at udregne Cook s D i, som bør være mindre end 1. ANOVA-tabel: Source SS DF M S F p Regression SSR 1 MSR = SSR MSR 1 MSE Error SSE n 2 MSE = SSE n 2 Total SST n 1 s 2 Y X = MSE er estimatet for residualvariansen σ2. Residualer og kvadratsummer: For residualerne gælder der ) ) Y i (Y Ȳ = i Ŷi + (Ŷi Ȳ Tilsvarende gælder der hvor SST = SSE + SSR SST = SSE = SSR = n ( Yi Ȳ ) 2 n ( ) 2 Y i Ŷi n ) 2 (Ŷi Ȳ Denne opsplitning af kvadratsummen følger (matematisk set) fordi a og b er fundet ved mindste kvadraters princip. Vurdering af modellen:

4 11.1 Regression uden gentagelser 4 I. Determinationskoefficienten, r 2 r 2 udtrykker hvor stor en del af variationen i Y, der kan forklares af den uafhængige variabel, X. r 2 = 1 SSE SST = (udtrykkes ofte i %). Bemærk også r 2 altså en voksende funktion af F. II. Test af de enkelte parametre Nulhypotese H 0 : α 0 og β 0 er konstanter. Alternativ hypotese H A : SST SSE SST = SSR SST, 0 r2 1 = 1 SSE SST SSE = 1 SSE + SSR 1 = 1 = 1 SSE SSE + SSR SSE n 2 F Om: α β a) α = α 0 β = β 0 b) α α 0 β β 0 c) α α 0 β β 0 Om: α β a) α α 0 β β 0 b) α < α 0 β < β 0 c) α > α 0 β > β 0 Advarsel: Det giver kun mening at teste hypoteser om α hvis 0 ligger inden for eller nær range for X. Teststørrelser: T = a α0 s a T = b β0 s b

5 11.1 Regression uden gentagelser 5 Begge T er t-fordelt med n 2 frihedsgrader. Beslutningsregel: Forkast H 0, hvis p-værdi < signifikansniveauet δ. Konfidensinterval for β på niveau δ er givet ved hvor b ± t δ(2),n 2 s b s b = s Y X n x2 i Konfidensinterval for α på niveau δ er givet ved a ± t δ(2),n 2 s a hvor s a = s Y X 1 n + X2 n x2 i Anvendelse af modellen til prediktion: Lad X være en given værdi af den uafhængige variabel. X bør vælges inden for range for X, dvs. man skal være varsom med extrapolationer. I. Punktestimat Ŷ = a + bx estimerer værdien af E(Y ) = α + βx. Kaldes prediktionen af den nye værdi Y svarende til X. II. Prediktionsinterval hvor Ŷ ± t δ(2),n 2 (sŷ ) 1 ( ) sŷ 1 = s (1 Y X + 1n ( ) ) X X 2 + n x2 i Bruges til at forudse hvor den nye observation Y vil ligge. III. Konfidensinterval for α + βx: Ŷ ± t δ(2),n 2 sŷ hvor ( ( ) 2 ) sŷ = s 1 X X Y X n + n x2 i Bruges til at indkredse den teoretiske værdi af regressionslinien bedste muligt.

6 11.1 Regression uden gentagelser Eksempel 17.1 fra Zar Data og analysemetode: Data er vingelængde for 13 spurve i forskellig alder (Zar, eks. 17.1, p. 326): Alder (dage) Vingelængde (cm) X Y Vingelængden antages at afhænge positivt af alderen. Et plot af de to variable viser en tendens til lineær sammenhæng. Vi vil derfor lave en simpel lineær regressionsanalyse. Model: Y i = α + βx i + ǫ i Y : Den afhængige variabel, vingelængde. X: Den uafhængige, forklarende variabel, alder. Hvis vi har mulighed for frit at vælge spurve af en hvilken som helst alder kan vi tale om at X er kontrolleret. Hvis der er tale om en tilfældig stikprøve af en given population af spurve med forskellige aldre er X ikke kontrolleret. Om det ene eller det andet er tilfældet ændrer dog ikke på analysen. α: Angiver den forventede værdi af Y, når alderen er 0. Da 0 ligger uden for range for X, er α ikke interessant i sig selv. β: Repræsenterer ændringen i den forventede vingelængde ved en forøgelse af X på 1 dag. Vi forventer, at β > 0. ǫ i : Residual. i: Observationsnummer, i = 1,2,...,13. Stikprøveregressionslinie: Regressionsanalyse giver flg. estimerede linie (se SASkørsel): Ŷ = X Dvs. hver gang alderen øges med 1 dag, øges den forventede vingelængde med 0.27 cm. b er således positiv som forventet. Modelforudsætninger:

7 11.1 Regression uden gentagelser 7 1. ǫ i N(0,σ 2 ) 2. ǫ i -erne er uafhængige stokastiske variable. 3. Linearitet Disse forudsætninger undersøges senere. Vurdering af modellen: I. Determinationskoefficienten, r 2 r 2 = SSR SST = dvs. 97% af variationen i Y, vingelængden, kan forklares af alderen. Dette giver mening i vokseperioden, men gælder givetvis ikke for voksne fugle, hvor slutvingelængden kan tænkes at afhænge af forskellige genetiske og miljømæssige faktorer. II. Test af de enkelte parametre Nulhypotese H 0 : β 0 Alternativ hypotese H A : β > 0 Teststørrelse: T = b s b = T t-fordelt med n 2 = 11 frihedsgrader. p-værdi = (p-værdien i SAS er for et tosidet test, men det er irrelevant her med så lille en værdi). p-værdien er således mindre end ethvert rimeligt valg af signifikansniveuet δ. Vi må derfor afvise H 0, dvs. der er en positiv, signifikant sammenhæng, hvilket svarer til vores forventning. Modelkontrol: 1. Check normalitet ved at indtegne de standardiserede, estimerede residualer i et histogram. Histogrammet skal være klokkeformet, symmetrisk omkring 0. Denne forudsætning synes at være opfyldt. 2. Check for varianshomogenitet ved at plotte e i mod X i. Residualerne skal ligge som en sky omkring den vandrette linie gennem 0 Dette synes nogenlunde at være tilfældet. 3. Linearitet kan ikke testes, da vi ikke har gentagelser (se næste afsnit). Men scatterplottet viser en pæn lineær sammenhæng. 4. Alle værdier af Cook s D i, er mindre end 1, så outliers ser ikke ud til at være et problem. Vi kan konkludere, at forudsætningerne således synes opfyldte. Konklusion: Der er en signifikant positiv sammenhæng mellem vingelængden og alder.

8 11.1 Regression uden gentagelser 8 SAS-output: Plot of Y*X. Legend: A = 1 obs, B = 2 obs, etc. Y 6 A 5 A A A A 4 A A A A 3 A A 2 A A X

9 11.1 Regression uden gentagelser 9 Model: MODEL1 Dependent Variable: Y Analysis of Variance Sum of Mean Source DF Squares Square F Value Prob>F Model Error C Total Root MSE R-square Dep Mean Adj R-sq C.V Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > T INTERCEP X Dep Var Predict Std Err Lower95% Upper95% Lower95% Upper95% Obs Y Value Predict Mean Mean Predict Predict Std Err Student Cook s Obs Residual Residual Residual D * *** * 0.049

10 11.1 Regression uden gentagelser ** ** ** * ** ** * *** Sum of Residuals 0 Sum of Squared Residuals Predicted Resid SS (Press) Plot of RESID*X. Legend: A = 1 obs, B = 2 obs, etc. 0.3 A A 0.2 A A A A 0.1 R A e A s i d 0.0 u a l -0.1 A

11 11.1 Regression uden gentagelser A A -0.3 A A X Frequency 4 **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** 3 **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** 2 **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** ****

12 11.2 Regression med gentagelser 12 **** **** **** 1 **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** **** Studentized Residual 11.2 Regression med gentagelser Oversigt Antag nu at der er gentagelser, dvs. gentagne målinger af Y for hver værdi af X. Betyder at X er kontrolleret, da vi ellers ikke kan holde X-værdien fast i forbindelse med gentagelserne. Der er altså tale om en årsagssammenhæng: Y forklares ud fra X. Model: Y ij = α + βx i + ǫ ij i: Gruppenummer: i = 1,2,...,k j: Observationsnummer inden for gruppe; j = 1,2,...,n i. n i : Antal replikationer i den i-te gruppe. Bør være mindst 2, men enkelte grupper kan have n i = 1. n: Samlet stikprøvestørrelse n = n n k. Y ij : Den j-te værdi i den i-te gruppe af den afhængige (respons) variabel. X i : Den i-te værdi af den uafhængige, forklarende variabel, som er ens for alle n i data i gruppe i. α: Konstantled. Repræsenterer E(Y ) ved X = 0. β: Hældning. Repræsenterer ændringen i E(Y ) ved en forøgelse af X med 1 enhed. ǫ ij : Den j-te statistisk fejl i gruppe i. Bemærk: regressionsmodeller svarer i bund og grund til ubalancerede forsøg, og der er ikke noget krav om at n i erne skal være ens.

13 11.2 Regression med gentagelser 13 Stikprøveregressionslinie (fittet linie): Ŷ = a + bx, hvor a angiver skæringen med Y -aksen, og b angiver hældningen på linien. Fittede værdier (fælles for alle n i observationer i gruppe i): Lad x i = X i X og y ij = Y ij Ȳ, hvor Ŷ i = a + bx i Ȳ = 1 n k n i j=1 Y ij Bemærk at dobbeltsummen har n led, dvs. summationen er over alle n observationer. For X fås: X = 1 k n i X i n altså det vægtede gennemsnit af X i -erne. Så er mindste kvadraters estimaterne for β og α henholdsvis: b = k ni j=1 x iy ij k n ix 2 i og a = Ȳ b X Estimaterne er som før, bortset fra at den nye notation tvinger os til at erstatte summen med enten en dobbeltsum eller en vægtet sum. den fittede linie går igen igennem punktet ( X, Ȳ ). Modelforudsætninger: 1. ǫ ij N(0,σ 2 ), hvor σ 2 kaldes residualvariansen. 2. ǫ ij -erne er uafhængige stokastiske variable, både inden for grupper og mellem grupper. 3. Lineær sammenhæng mellem Y og X. De statistiske fejl estimeres ved residualerne ˆǫ ij = e ij = Y ij Ŷi, altså de lodrette afvigelser mellem de observerede og de fittede værdier. Modelkontrol: Check normalitet f.eks. ved at indtegne de standardiserede residualer i et normalfordelingsplot. Man kan også bruge et histogram.

14 11.2 Regression med gentagelser 14 Hvis n i -erne alle er passende store (mindst 20) bør man lave et separat normalfordelingsplot for hver af de k grupper. Man skal særlig være på vagt overfor systematiske afvigelser fra rette linier i de k plot. Check for varianshomogenitet ved at plotte residualerne e ij, mod X i eller mod Ŷi. Residualerne skal ligge som en sky omkring den vandrette linie gennem 0 (summen af residualerne er altid 0). Manglende linearitet viser sig i residualplottene i form af en u-fomet eller omvendt u-formet sammenhæng. Bartlett s test for varianshomogenitet kan udføres ligesom ved ensidig variansanalyse, baseret på de k variansestimater s 2 1,...,s2 k, forudsat alle n i > 1. Outliers og indflydelsesrige observationer kan checkes ved at udregne Cook s D ij (n ialt) som bør være mindre end 1. ANOVA-tabel: Source SS DF M S F p Regression SSR 1 MSR = SSR MSR 1 MSE Ikke-linearitet SSL k 2 MSL = SSL MSL k 2 MSE Error SSE n k MSE = SSE n k Total SST n 1 s 2 p = MSE er estimatet for residualvariansen σ2, ligesom i ensidig variansanalyse. Det svarer til at poole de k estimater s 2 1,...,s2 k. Residualer og kvadratsummer: For residualerne gælder der Y ij Ȳ = ( Y ij Ȳi) ) ) + (Ȳi Ŷi + (Ŷi Ȳ Tilsvarende kan man vise at hvor vi har Den totale kvadratsum: SST = SSE + SSL + SSR SST = k n i ( Yij Ȳ ) 2 j=1 Kvadratsum inden for grupper (pure error): SSE = k n i ( Yij Ȳi) 2 j=1

15 11.2 Regression med gentagelser 15 Kvadratsum for afvigelse fra linearitet (lack of fit): Kvadratsum for regression: SSL = SSR = k n i (Ȳi Ŷi k ) 2 ) 2 n i (Ŷi Ȳ Forudsætter igen at vi bruger mindste kvadraters princip ved estimation af α og β. Vurdering af modellen: I. Determinationskoefficienten, r 2 r 2 udtrykker hvor stor en del af variationen i Y, der kan forklares af den uafhængige variabel, X. r 2 = SSR SST, 0 r2 1 (udtrykkes ofte i %). Bemærk også r 2 SSE + SSL = 1 SSE + SSL + SSR 1 = SSR SSE+SSL hvilket viser at r 2 er en voksende funktion af F-testen for regression baseret på den poolede varians (se nedenfor), altså F = hvor DFE = n k og DFL = k 2. II. Test af de enkelte parametre Nulhypotese H 0 : α 0 og β 0 er konstanter. Alternativ hypotese H A : MSR SSE+SSL DFE+DFL Om: α β a) α = α 0 β = β 0 b) α α 0 β β 0 c) α α 0 β β 0 Om: α β a) α α 0 β β 0 b) α < α 0 β < β 0 c) α > α 0 β > β 0

16 11.2 Regression med gentagelser 16 Advarsel: Det giver kun mening at teste hypoteser om α hvis 0 ligger inden for eller nær range for X. Teststørrelser: T = a α0 s a T = b β0 s b Begge T er t-fordelt med n 2 frihedsgrader. Beslutningsregel: Forkast H 0, hvis p-værdi < signifikansniveauet δ. Konfidensinterval for β på niveau δ er givet ved hvor b ± t δ(2),n 2 s b s b = s Y X k n ix 2 i Konfidensinterval for α på niveau δ er givet ved a ± t δ(2),n 2 s a hvor s a = s 1 Y X n + X 2 k n ix 2 i Anvendelse af modellen til prediktion: Lad X være en given værdi af den uafhængige variabel. X bør vælges inden for range for X, dvs. man skal være varsom med extrapolationer. I. Punktestimat Ŷ = a + bx estimerer værdien af E(Y ) = α + βx. Kaldes prediktionen af den nye værdi Y svarende til X. II. Prediktionsinterval hvor Ŷ ± t δ(2),n 2 (sŷ ) 1 ( ) sŷ 1 = s (1 Y X + 1n ( ) ) X X 2 + k n ix 2 i Bruges til at forudse hvor den nye observation Y vil ligge.

17 11.2 Regression med gentagelser 17 III. Konfidensinterval for α + βx: Ŷ ± t δ(2),n 2 sŷ hvor ( ( ) 2 ) sŷ = s 1 X X Y X n + k n ix 2 i Bruges til at indkredse den teoretiske værdi af regressionslinien bedste muligt. Bemærk: Det poolede variansskøn under antagelse af lineær sammenhæng er: s 2 Y X som har DFE + DFL = n 2 frihedsgrader Eksempel 17.8 fra Zar = SSE + SSL DFE + DFL Data og analysemetode: Data er alder (år) og systolisk blodtryk (mm Hg), (Zar, eks. 17.2, p. 346): Alder (år) Blodtryk (mm Hg) n i X Y , 110, , 120, 118, , 137, , 151, 146, 147, , 156, 164, 158, Et plot af de to variable (Zar figur 17.9) viser en pæn lineær sammenhæng. Model: Y ij = α + βx i + ǫ ij i: Aldersgruppe: i = 1,2,...,5 j: Observationsnummer inden for aldersgruppe; j = 1,2,...,n i. n i : Antal personer (replikationer) i den i-te aldersgruppe. n: Samlet stikprøvestørrelse n = = 20. Y ij : Den j-te persons blodtryk i den i-te aldersgruppe. X i : Værdien af alderen i den i-te aldersgruppe (alle personer i gruppen antages at have samme alder). α: Konstantled. Repræsenterer gennemsnitligt blodtryk ved alder 0. Da 0 ligger uden for det betragtede aldersinterval er α ikke interessant i sig selv. β: Hældning. Repræsenterer den gennemsnitlige ændringen i blodtryk per år.

18 11.2 Regression med gentagelser 18 ǫ ij : Den j-te statistisk fejl i gruppe i, altså differensen mellem den j-te persons blodtryk i den i-te gruppe og denne gruppes middelblodtryk. Stikprøveregressionslinie: Regressionsanalyse giver flg. estimerede linie: Ŷ = X Dvs. for hvert år øges det forventede blodtryk med mm Hg. Som referenceblodtryk kan f.eks. bruges det forventede blodtryk ved 45 år, som er Ŷ 45 = = Modelforudsætninger: 1. ǫ ij N(0,σ 2 ) 2. ǫ ij -erne er uafhængige stokastiske variable. 3. Linearitet. Disse forudsætninger ser ud til at være opfyldt. ANOVA-tabel: Source SS DF M S F p Regression p < Ikke-linearitet p > 0.25 Error Total s 2 p = 7.82 er estimatet for residualvariansen σ2. Bemærk: Zar laver F-testet for linearitet baseret på det poolede variansskøn s 2 Y X = 6.61 med 18 frihedsgrader, hvilket giver samme resultat. Vurdering af modellen: I. Determinationskoefficienten, r 2 r 2 = SSR SST = 0.98 dvs. 98% af variationen i Y, blodtryk, kan forklares af alderen. II. Test af de enkelte parametre Nulhypotese H 0 : β 0

19 11.2 Regression med gentagelser 19 Alternativ hypotese H A : β > 0 Teststørrelse: T = b s b T t-fordelt med 18 frihedsgrader, hvis s 2 Y X bruges. Udeladt. Modelkontrol: Udeladt. Konklusion: Der er en signifikant positiv sammenhæng mellem vingelængden og alder.

Modul 12: Regression og korrelation

Modul 12: Regression og korrelation Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 12: Regression og korrelation 12.1 Sammenligning af to regressionslinier........................ 1 12.1.1 Test for ens hældning............................

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

Module 3: Statistiske modeller

Module 3: Statistiske modeller Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Program 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12 Ensidet variansanalyse: analyse af grupperede data Nedbrydningsrate for tre typer af opløsningsmidler (opgave 13.8 side 523) Sorption

Læs mere

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk

Læs mere

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i Da er r i = e i ˆσ ei t(n 3) (tæt på N(0,1) hvis n ikke alt for lille). Program 1. lineær regression: opgave 3 og 13 (sukker-temperatur). 2. studentiserede residualer, multipel regression. Tommelfinger-regel:

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Regressionsanalyse i SAS

Regressionsanalyse i SAS Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Økonometri: Lektion 2 Multipel Lineær Regression 1/27 Multipel Lineær Regression Sidst så vi på simpel lineær regression, hvor y er forklaret af én variabel. Der er intet, der forhindre os i at have mere

Læs mere

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion

Økonometri lektion 5 Multipel Lineær Regression. Inferens Modelkontrol Prædiktion Økonometri lektion 5 Multipel Lineær Regression Inferens Modelkontrol Prædiktion Multipel Lineær Regression Data: Sæt af oservationer (x i, x i,, x ki, y i, i,,n y i er den afhængige variael x i, x i,,

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 32 Konsekvenser af Heteroskedasticitet Antag her (og i resten) at MLR.1 til MLR.4 er opfyldt. Antag MLR.5 ikke er opfyldt, dvs. vi har heteroskedastiske

Læs mere

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3. Model Program (8.15-10): 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. Bruger nu to indices: i = 1,...,k for gruppenr. og j = 1,...,n i for observation indenfor gruppe. k = 3 grupper: µ 1

Læs mere

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2 Økonometri 1 Den simple regressionsmodel 11. september 2006 Dagens program Den simple regressionsmodel SLR : Én forklarende variabel (Wooldridge kap. 2.1-2.4) Motivation for gennemgangen af SLR Definition

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Simpel Lineær Regression: Model

Simpel Lineær Regression: Model Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 + β 1 x + u, hvor fejlledet u, har egenskaben E[u x] = 0. Dette betyder bl.a. E[y x]

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Module 12: Mere om variansanalyse

Module 12: Mere om variansanalyse Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger..........

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

To-sidet varians analyse

To-sidet varians analyse To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),

Læs mere

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet Antag vi har model: y = β 0 + β 1 x 2 + + β k x k + u. Vi ønsker

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

En Introduktion til SAS. Kapitel 6.

En Introduktion til SAS. Kapitel 6. En Introduktion til SAS. Kapitel 6. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 6 Regressionsanalyse i SAS 6.1 Indledning Dette kapitel

Læs mere

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som MLR antagelserne Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + u, hvor β 0, β 1, β 2,...,β k er ukendte parametere,

Læs mere

Statistik Lektion 4. Variansanalyse Modelkontrol

Statistik Lektion 4. Variansanalyse Modelkontrol Statistik Lektion 4 Variansanalyse Modelkontrol Eksempel Spørgsmål: Er der sammenhæng mellem udetemperaturen og forbruget af gas? Y : Forbrug af gas (gas) X : Udetemperatur (temp) Scatterplot SPSS: Estimerede

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Økonometri: Lektion 6 Emne: Heteroskedasticitet Økonometri: Lektion 6 Emne: Heteroskedasticitet 1 / 34 Lagrange multiplier test Et alternativ til F -testet af en eller flere parametre. Antag vi har model: Vi ønsker at teste hypotesen y = β 0 + β 1 x

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Statistik Formelsamling. HA Almen, 1. semester

Statistik Formelsamling. HA Almen, 1. semester Statistik Formelsamling HA Almen, 1. semester Statistik - Formelsamling Indholdsfortegnelse Hvordan kan formelsamlingen bruges?... 5 Værd at vide... 5 Oversigt Mest brugte symboler... 5 Disclaimer... 5

Læs mere

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Økonometri: Lektion 2 Multipel Lineær Regression 1/33 Simpel Lineær Regression: Model Sidst så vi på simpel lineære regression. Det er en statisisk model på formen y = β 0 +β 1 x +u, hvor fejlledet u,

Læs mere

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression

Program. Indhold af kursus i overskrifter. Farlighed af GM-majs? (Ingeniøren Generel lineær model/multipel regression Program Indhold af kursus i overskrifter 1. overblik over kursus (opgaver fra sidst samt huspriser som eksempler). 2. p-værdi 3. uformel evaluering 1. sandsynlighedsregning sandsynlighedsfordelinger (normal,

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

To-sidet variansanalyse

To-sidet variansanalyse Program 1. To-sidet variansanalyse 2. Hierarkisk princip 3. Tre (og flere) sidet variansanalyse 4. Variansanalyse med blocking 5. Flersidet variansanalyse med tilfældige faktorer 6. En oversigtsslide til

Læs mere

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff

Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 21. februar 2017 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 14. december 2009 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper

Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper Program Forsøgsplanlægning og tosidet variansanalyse Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Forsøgstyper og forsøgsplanlægning Analyse af data fra fuldstændigt randomiseret blokforsøg: tosidet

Læs mere

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke. 1/23 Opsummering af fordelinger X 1. Kendt σ: Z = X µ σ/ n N(0,1)

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Basal statistik. 21. oktober 2008

Basal statistik. 21. oktober 2008 Basal statistik 21. oktober 2008 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Parametriseringer Kovariansanalyse Esben Budtz-Jørgensen, Biostatistisk Afdeling

Læs mere

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i. Repetition af vektor-regning Økonometri: Lektion 3 Matrix-formulering Fordelingsantagelse Hypotesetest Antag vi har to n-dimensionelle (søjle)vektorer a 1 b 1 a 2 a =. og b = b 2. a n b n Tænk på a og

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Perspektiver i Matematik-Økonomi: Linær regression

Perspektiver i Matematik-Økonomi: Linær regression Perspektiver i Matematik-Økonomi: Linær regression Jens Ledet Jensen H2.21, email: jlj@imf.au.dk Perspektiver i Matematik-Økonomi: Linær regression p. 1/34 Program for i dag 1. Indledning: sammenhæng mellem

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger. Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

Skriftlig eksamen Science statistik- ST501

Skriftlig eksamen Science statistik- ST501 SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.

Læs mere

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse. 7.1.1 Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 7: Eksempler 7.1 Beskrivende dataanalyse............................... 1 7.1.1 Diagrammer.................................

Læs mere

Module 9: Residualanalyse

Module 9: Residualanalyse Mathematical Statistics ST6: Linear Models Bent Jørgensen og Pia Larsen Module 9: Residualanalyse 9 Rå residualer 92 Standardiserede residualer 3 93 Ensidig variansanalyse 4 94 Studentiserede residualer

Læs mere

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1 (a) Denne opgave bygger på resultaterne fra 2 forsøg med epo-behandling af for tidligt fødte børn, idet gruppe 1 og 3 stammer fra første forsøg, mens gruppe 2 og 4 stammer fra det andet. Det må antages,

Læs mere

Løsning til eksamen d.27 Maj 2010

Løsning til eksamen d.27 Maj 2010 DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1

Læs mere

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling Faculty of Health Sciences Regressionsanalyse Simpel lineær regression, 28-2-2013 Lene Theil Skovgaard Biostatistisk Afdeling 1 / 67 Simpel lineær regression Regression og korrelation Simpel lineær regression

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Løsninger til kapitel 14

Løsninger til kapitel 14 Opgave 14.1 a) Linjetilpasningsplottet bliver: Løsninger til kapitel 14 Idet datapunkterne ligger tæt på og jævnt fordelt omkring den rette linje, så ser det ud til, at der med rimelighed er tale om en

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2007. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 8 sider.

Læs mere

Program. 1. Flersidet variansanalyse 1/11

Program. 1. Flersidet variansanalyse 1/11 Program 1. Flersidet variansanalyse 1/11 To-sidet variansanalyse Eksempel: (opgave 14.2 side 587) vitamin indhold i frossen juice målt for ialt 9 kombinationer af mærke (Rich food, Sealed-sweet, Minute

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner I modsætning til envejs-anova kan flervejs-anova udføres selv om der er kun én

Læs mere

Modul 5: Test for én stikprøve

Modul 5: Test for én stikprøve Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 5: Test for én stikprøve 5.1 Test for middelværdi................................. 1 5.1.1 t-fordelingen.................................

Læs mere