Dette notat om overspredning er tnkt som supplement til Sren Andersen: Statistisk analyse

Størrelse: px
Starte visningen fra side:

Download "Dette notat om overspredning er tnkt som supplement til Sren Andersen: Statistisk analyse"

Transkript

1 Analyse af tlledata, efterar 1992, Henrik Stryhn. Overspredning (i logistisk regression) Dette notat om overspredning er tnkt som supplement til Sren Andersen: Statistisk analyse af tlledata, og indeholder en beskrivelse af dels selve problemstillingen (afsnit 1) og dels en simpel approksimativ metode til korrektion for overspredning (afsnit 2). Endelig prsenteres i afsnit 3 ganske kort to hyppigt anvendte statistiske modeller for overspredning. En mere detaljeret oversigt er givet i Cox & Snell (1989), mens diskussionen i Dean (1992) er centreret omkring tests for overspredning. 1. Introduktion Betegnelsen 'overspredning' refererer til, at variabiliteten i et datast er strre, end man skulle forvente ud fra den statistiske model, her en binomialfordelingsmodel. (Den modsatte situation, at variabiliteten er mindre end forventet, underspredning, er ogsa mulig, men forekommer ikke sa ofte i praksis.) Betragt en logistisk regressionsmodel og en gruppe af gentagelser, dvs. forsgsenheder med samme forsgsbetingelser. At betragte forsgsenheder som gentagelser vil nsten altid vre en idealisering, men der er ofte en 'naturlig', minimal inddeling i grupper af forsgsenheder, der kan regnes som ens. (Datast uden gentagelser behandles ikke i det flgende.) Iflge modellen er udfaldene i gruppen, betegnet med Y1; : : : : ; Y n, uafhngige P med P(Y j = 1) = p = 1? P (Y j = 0). Dermed bliver antallet R af 1'ere i gruppen, R = j Y j, binomialfordelt (n; p), saledes at E(R) = n p ; Var(R) = n p (1? p) : For fastholdt n er variansen altsa fastlagt ud fra middelvrdien, i modstning til fx normalfordelingsmodeller. Ved gentagne observationer af R skal man altsa forvente R np og s 2 R np(1? p). Hvis der faktisk i data er homogene grupper, i den forstand at alle forklarende variable er ens for disse grupper (se eksempel 1), kan man observere R og s 2. R Overspredning viser sig sa ved at s 2 R > n( R=n)(1? ( R=n)), idet R=n er et estimat for p. Eksempel 1. Forekomst af kvik i roemarker. Data i tabel 1 er et uddrag fra en undersgelse af forekomsten af ukrudt, kvik, pa 300 danske marker. Pa hver mark er udfrt 25 malinger vha. Raunkirs metode, gaende ud pa at en ring med areal 0.1 m 2 kastes tilfldigt ud i marken, hvorefter ukrudtsoraen registreres i det omrade, som ringen omslutter. De 3 Kvikforekomst Antal kast med kvik Fyns Amt Vejle Amt Table 1: Kvikforekomst opgjort efter Raunkirs metode pa forskellige marker med fodersukkerroer i Fyns og Vejle Amt. Data fra Tvedegaard (1991). marker i Fyns Amt og de 4 marker i Vejle Amt er ikke identiske mht. alle vrige dyrkningskarakteristika (jordbundstype, forfrugt osv.). For simpelheds skyld ses her dog bort fra dette og opstilles en logistisk regressionsmodel med marker inden for hvert amt som gentagelser (uden hensyntagen til overspredning) Y ijk = ( 1 kvikforekomst 0 ej kvikforekomst ; p i = P(Y ijk = 1) ; logit(p i ) = + i ; 1

2 hvor i = 1; 2 amt; j = 1; : : : ; n i Raunkir kast. Fra tabel 1 fas marker (n1 = 3; n2 = 4) og k = 1; : : : ; 25 ^p1 = 14=75 = 0:19 ; R 1 = 14=3 = 4:67 ; s 2 1 = 16:3 25 ^p1(1? ^p1) = 3:8 ; ^p2 = 37=100 = 0:37 ; R 2 = 37=4 = 9:25 ; s 2 2 = 59:6 25 ^p 2(1? ^p2) = 5:8 : Data udviser en tydelig overspredning i forhold til den statistiske model. 2 For data i eksempel 1 forekommer det indlysende, at overspredningen er et resultat af at ignorere en rkke faktorer (for marker), der har indydelse pa forekomsten af kvik. Men selv om alle de i undersgelsen registrerede dyrkningskarakteristika tages i betragtning, gennem logit(p ij ) = P r x ij;r, udviser data stadig overspredning (Tvedegaard (1991)). Biologisk set er det maske ikke sa overraskende: at marker, hvor alle faktorerne er overensstemmende, stadig ikke kan betragtes som gentagelser. En tilsvarende situation er forsg med dyr, hvor der observeres (antal) hndelser i forskellige kuld, der er udsat for samme forsgsbetingelser. Den ikke-registrerede miljmssige og genetiske homogenitet inden for samme kuld kan fre til overspredning. I nogle tilflde vil overspredning kunne afhjlpes ved at inddrage en eller ere af de underliggende faktorer i forsget { maske er denne ekstra information i sig selv nyttig; i andre tilflde, som eksemplerne ovenfor, er det nppe realistisk at habe pa. Derimod kan overspredningen (naturligvis) elimineres ved at lade modellen indeholde individuelle p{vrdier for hver mark (eller hvert kuld), men sa er der i analysen ikke mulighed for at udtale sig om fllestrk for marker. En analogi til modeller med kontinuerte observationer Y j kan vre nyttig; ogsa i en kontinuert model vil det ofte vre urimeligt at betragte observationerne pa forskellige marker som gentagelser. I en kontinuert model vil man typisk i stedet beskrive variabiliteten mellem marker ved stokastiske komponenter i en varianskomponentmodel med bade systematiske og tilfldige led. Ogsa i en logistisk regression kan man indfre varianskomponenter (dette er omtalt i afsnit 3.2), omend teorien ikke er sa veletableret som i variansanalysen. Det er ogsa muligt direkte at opstille en statistisk model for tilfldige uktuationer i p (mellem grupper), der kan tnkes forarsaget af ikke-observerede forklarende variable, se afsnit 3.1. En anden kilde til overspredning end inhomogenitet af p mellem (homogene) grupper er afhngighed mellem observationerne Y1; : : : ; Y n inden for en gruppe. En afhngighed kan ses som et resultat af, at observationerne netop falder inden for samme gruppe, men der kan ogsa vre mere direkte fortolkninger. Indsamlingen af data i forsget kan spille ind, fx hvis der er en tidsmssig forskydning fra Y1 til Y n. Uden at ga i detaljer kan det nvnes, at hvis Y1; : : : ; Y n er indbyrdes positivt korreleret, frer det til en overspredning pa R { omvendt fas ved negativ korrelation, fx forarsaget af indbyrdes konkurrence, en underspredning pa R. Ved analyse af en logistisk regressionsmodel giver overspredning sig udslag i 'lack-of-t' for enhver reduceret model, dvs. at testet (G 2 eller 2 ) for reduktionen fra den fulde model er signikant. Safremt denne indikation af, at den logistiske regressionsmodel ikke er brugbar, ignoreres, vil man i den flgende analyse undervurdere spredningen. Det frer til for lave estimerede spredninger pa parameterestimaterne og for smalle kondensintervaller, samt kan i sin alvorligste konsekvens medfre fejlagtig signikans for og forkastelse af hypoteser. Dette er illustreret i eksempel 1. Eksempel 1. Forekomst af kvik i roemarker (fortsat). Estimaterne i eksempel 1 viser en tendens til strre kvikforekomst i Vejle Amt; sprgsmalet er om dette er signikant. I tabel 2 er gengivet resultater fra en analyse vha. PROC CATMOD. Det ses, at G 2 for modellen er strkt signikant { en klar indikation af overspredning. Testet for forskel pa amter er 2

3 CATMOD PROCEDURE MAIMUM LIKELIHOOD ANALYSIS OF VARIANCE TABLE Source DF Chi-Square Prob INTERCEPT AMT LIKELIHOOD RATIO Table 2: Logistisk regressions analyse vha. PROC CATMOD uden hensyntagen til overspredning. signikant med P 0:01. En sa klar forskel virker overraskende ud fra tallene i tabel 1, og en analyse hvor der tages hensyn til overspredningen vil ogsa vise, at konklusionen ikke holder, jf afsnit En simpel metode til at korrigere for overspredning I praksis er overspredningen ofte sekundr og nrmest et irritationsmoment i forhold til det primre mal med den logistiske regressionsanalyse: at undersge virkningen af regressionsog kategoriske variable pa P(Y = 1). I dette afsnit beskrives en simpel modikation af den sdvanlige analyse for at tage hjde for overspredning. Metoden er approksimativ, men giver rimelige resultater og er i mange situationer ikke meget darligere end mere prcise og principielle analyser, der er betydelig vanskeligere at udfre. I den statistiske model indfres en ad hoc overspredningsparameter 2, og binomialfordelingsantagelsen for R (fra afsnit 1) erstattes af flgende antagelser alene om middelvrdi og varians for R, E(R) = n p ; Var(R) = 2 n p (1? p) : Der er ere mulige udvidelser heraf til en formel model for hele observationssttet; det skal bl.a. faststtes hvordan overspredningen afhnger af uens antal observationer i forskellige grupper. Den simpleste variant er (McCullagh & Nelder (1989)) E(R i ) = n i p i ; Var(R i ) = 2 n i p i (1? p i ) ; i = 1; : : : ; m ; P n hvor R i = i j=1 Y ij er antallet af 1'ere i den i'te gruppe, og observationerne i grupperne, fx Y11; : : : ; Y1n 1 i den frste gruppe, udgres af gentagelser pa det laveste niveau. I eksempel 1 er der saledes m = 7 grupper med hver n i = 25 observationer. Sandsynlighedsparametrene p i er pa den logistiske skala bestemt ved logit(p i ) = + 1x i;1 + : : : + x i; = r x i;r ; idet 0 = ; x i;0 = 1 ; saledes at der er q frie parametre i modellen. I eksempel 1 er der q = 2 frie parametre. Til estimation af 0; : : : ; anvendes samme metode som i en logistisk regressionsanalyse, hvor der ikke tages hensyn til overspredning. Det er nu ikke lngere maksimum likelihood estimation; sdvanligvis anvendes betegnelsen quasi-likelihood estimater. Metoden kan i denne model opfattes som en slags vgtet mindste kvadraters estimation. Estimaterne kan altsa hentes pa sdvanlig made i udskriftet fra PROC CATMOD eller PROC PROBIT. Til beregning 3

4 af tilhrende estimerede spredninger krves tillige et estimat ~ 2 for 2. Det kan vises, at den asymptotiske varians pa quasi-likelihood estimaterne bliver lig variansen fra analysen uden overspredning - multipliceret med 2. Det giver flgende simple regler for korrektion for overspredning: alle estimerede spredninger skal multipliceres med ~ og estimerede varianser og kovarianser med ~ 2, og alle u-teststrrelser skal divideres med ~ og Walds teststrrelser med ~ 2, ved undret frihedsgradsantal. Tilbage er at estimere 2, og hertil br anvendes ~ 2 = 1 m? q 2 ; 2 = m i=1 (R i? n i^p i ) 2 n i^p i (1? ^p i ) : 2 er Pearsons teststrrelse mod den fulde model i en sdvanlig logistisk regression, og nvneren m? q er antallet af frihedsgrader for 2. I praksis opdages overspredning altsa ved at 2 (eller G 2 ) er signikant i en 2 {fordeling med m? q frihedsgrader, hvorefter ~ 2 straks kan udregnes. Hvis alle n i er store, kan G 2 =(m? q) anvendes som approksimation til 2 =(m? q). I overspredningsmodellen er G 2 ikke lngere en likelihood-ratio teststrrelse, men stadig en vigtig indikator for modellens tilpasning til data, og betegnes ofte med D for devians (eng. deviance). Til test for modelreduktioner anvendes i frste rkke ndringer i deviansen, D=~ 2, evt. Walds test (ligeledes divideret med ~ 2 ). En praktisk detalje er, om 2 skal reestimeres pa linje med 0; : : : ; ved hver modelreduktion. Den asymptotiske teori er baseret pa fast 2, og derfor kan det synes mest logisk kun at udregne ~ 2 for startog slutmodel. I praksis er det, i betragtning af hele metodens approksimative natur, nppe afgrende. For specielle tilflde hvor der er meget strkt varierende og/eller meget lave antal gentagelser i grupperne, ndes alternative estimater (svarende til andre modelspecikationer), og generelt br det i sadanne tilflde overvejes at anvende en af de mere prcise metoder beskrevet i afsnit 3. Eksempel 1. Forekomst af kvik i roemarker (fortsat). Korrektion for overspredning illustreres i analysen fra eksempel 1. Da G 2 = 45:52 er strkt signikant (tabel 2), udviser data overspredning. Vrdien for 2 kan ikke fas direkte i PROC CATMOD, men kan beregnes ud fra residualerne, enten manuelt eller i SAS ved at udnytte muligheden for at eksportere residualerne fra PROC CATMOD til et nyt datast (RESPONSE logit / out = < navn >). I PROC PROBIT er 2 angivet direkte i udskriftet, og tillige foretages automatisk den ovenfor omtalte korrektion for overspredning af de estimerede spredninger og Walds test, se udskrift i tabel 3. En meddelelse signalerer, at der er foretaget en sadan korrektion. Fra udskriftet ases, at ~ 2 = 39:28=5 = 7:856, og det korrigerede Walds test for hypotesen om ingen forskel pa amter giver 6:75=7:856 = 0:859 med 1 frihedsgrad, som angivet i udskriftet, og er klart nonsignikant. Ud fra data i tabel 1 kan der altsa, ved en analyse der tager hensyn til overspredning, ikke pavises forskel pa forekomsten af kvik i Fyns og Vejle amter. 2 En alvorlig ulempe ved PROC PROBIT er, at opdelingen af observationer i grupper, svarende til gentagelser, alene er bestemt ud fra datasttets rkkeflge, og ikke som i PROC CATMOD kan styres ved en POPULATION{stning. For en model som i eksempel 1, hvor marker inden for samme amt skal svare til en separat gruppe, krves en betydelig omordning af datasttet, fr grupperne kan bestemmes korrekt af PROC PROBIT. Det ma anbefales altid at kontrollere, om grupperingerne er udfrt korrekt, fx via antallet af frihedsgrader for 2. En nrmere redegrelse for den omtalte omordning skal ikke gives her, og den vil forhabentlig blive overdiggjort i en revideret udgave af PROC PROBIT. 4

5 Probit Procedure Goodness-of-Fit Tests Statistic Value DF Prob>Chi-Sq Pearson Chi-Square L.R. Chi-Square Response Levels: 2 Number of Covariate Values: 7 WARNING: All variances and covariances have been multiplied by the heterogeneity factor H= Please check to be sure that the large chi-square (p < ) is not caused by systematic departure from the model. A t value of will be used in computing fiducial limits. Variable DF Estimate Std Err ChiSquare Pr>Chi Label/Value INTERCPT Intercept AMT Fyn Vejle Table 3: Logistisk regressions analyse vha. PROC PROBIT, korrigeret for overspredning. 3. Logistiske regressionsmodeller med overspredning Fordelene ved at opstille egentlige statistiske modeller er indlysende; her kan blot nvnes en mere stringent analyse samt fortolkningen af overspredningsparametrene. De nedenfor omtalte modeller er blot to blandt mange. En udfrlig beskrivelse af Beta-binomial modellen i afsnit 3.1 kan ndes i Moore (1987). Logistiske varianskomponentmodeller er behandlet i Im & Gianola (1988). 3.1 Beta-fordelt uktuation i sandsynlighedsparametrene Som omtalt i introduktionen vil inhomogenitet i p = P(Y j = 1) fre til overspredning. Her opstilles en statistisk model P for uktuationerne i p mellem grupper. Sandsynligheden p i binomialfordelingen for R = Y j i afsnit 1, opfattes ikke lngere som en konstant, men som en stokastisk variabel med en speciceret fordeling. Beta-fordelingen med parametre (a; b), hvor a; b > 0, er en sandsynlighedsfordeling pa intervallet (0; 1) med tthedsfunktion f(t; a; b) = c(a; b) t a (1? t) b ; 0 < t < 1 ; hvor c(a; b) er en normeringskonstant. Middelvrdi og varians for en Beta-fordelt (a; b) 5

6 variabel B kan udregnes til E(B) = a=(a + b) ; Var(B) = a b (a + b) 2 (a + b + 1) ; eller med en entydig omparametrisering, = a=(a + b) ; = (a + b + 1)?1, E(B) = ; Var(B) = (1? ) : Bemrk, at 0 < < 1. I parametriseringen med (; ) kan en logistisk regressionsmodel udtrykkes ved logit( i ) = r x i;r ; i = 1; : : : ; m : Ofte antages 1 = : : : = m = (for data i eksempel 1 vil det vre muligt at teste om 1 2 = 2), 2 og den statistiske model indeholder da parametrene (0; : : : ; ; ). Likelihoodfunktionen pa basis af observationerne (Y ij ) eller kvivalent (R i ) kan opstilles og en statistisk analyse foretages ved maksimum likelihood estimation og likelihood-ratio test. nsker man ikke at lade analysen afhnge af en (usikker) antagelse om Beta-fordelte uktuationer i p, kan modellen kombineres med quasi-likelihood estimation som beskrevet i afsnit 2. Det kan vises, at E(R i ) = n i i ; Var(R i ) = n i i (1? i ) (1 + (n i? 1)) : Ved ens gruppeantal, dvs. n i = n, svarer dette prcis til den formelle modelspecikation i afsnit 2 med 2 = 1 + (n? 1). Hvilket af de to udtryk for overspredningens afhngighed af (uens) n i, der i praksis giver den bedste tilpasning til datast med overspredning, er et uafklaret sprgsmal. 3.2 Logistiske varianskomponentmodeller Probit og logit modeller kan gives en fortolkning vha. underliggende kontinuerte og ikkeobserverbare (latente) variable. At W er en latent variabel for et binrt respons Y betyder, at Y = 1 () W > t ; for en fast trskel t : (I det flgende anvendes standard parametriseringen t = 0.) Logit modellen fra afsnit 2 modsvares af flgende model for (W ij ) W ij = r x i;r + " ij ; " ij logistisk fordeling med E(" ij ) = 0 : Normalfordelte f" ij g giver en probit model. Ideen er nu at opstille en varianskomponentmodel for W og overfre den til logistisk skala. For data i eksempel 1 bliver der tale om en varianskomponent for marker. St W ij = r x i;r + A i + " ij ; hvor fa i g og f" ij g er uafhngige. For " ij antages som ovenfor en logistisk fordeling, hvorimod A i N(0; 2 A ). Givet A i = a i fas ved omskrivning til logits logit(p i ) = r x i;r + a i : 6

7 Likelihoodfunktionen kan opskrives og maximum likelihood estimation af modellens parametre (0; : : : ; ; 2 A) udfres. I modstning til modellen i foregaende afsnit er overspredningen modelleret pa logit-skalaen i stedet for den absolutte skala for p. Williams (1982) angiver, at for p-vrdier i intervallet 0.2 { 0.8 giver de to modeller praktisk taget samme datatilpasning. En klar fordel ved varianskomponentmodellen er, at den let kan generaliseres til mere komplicerede varianskomponentdesigns. Endelig kan nvnes den beslgtede og mere direkte metode at opstille en varianskomponentmodel for empiriske logits, dvs. logit(r i =n i ); hertil ma det dog forudsttes, at alle n i er store. References [1] Cox, D. R. and Snell, E. J. (1989). Analysis of Binary Data, Chapman and Hall. [2] Dean, C. B. (1992). Testing for overdispersion in Poisson and binomial regression models. J. Am. Statist. Assoc. 87, 451{457. [3] Im, S. and Gianola, D. (1988). Mixed models for binomial data with an application to lamb mortality. Appl. Statist. 37, 196{204. [4] McCullagh, P. and Nelder, J. A. (1989). Generalized Linear Models, Chapman and Hall. [5] Moore, D. F. (1987). Modeling the extraneous variance in the presence of extra{ binomial variation. Appl. Statist. 36, 8{14. [6] Williams, D. A. (1982). Extra{binomial variation in logistic linear models. Appl. Statist. 31, 144{148. 7

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

Besvarelse af vitcap -opgaven

Besvarelse af vitcap -opgaven Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.

Læs mere

Noter til Specialkursus i videregående statistik

Noter til Specialkursus i videregående statistik Noter til Specialkursus i videregående statistik Poul Thyregod IMM, februar 2005 Indhold Forord 6 1 Momenter og flerdimensionale stokastiske variable 7 1.0 Indledning............................. 7 1.1

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Løsning til opgave i logistisk regression

Løsning til opgave i logistisk regression Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator

Læs mere

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x) Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen

Læs mere

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer. Regressionsanalyser Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer. Hvilke faglige problemer kan man løse vha. regressionsanalyser? 1 Regressionsanalyser Det primære problem

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistiske Modeller 1: Kontingenstabeller i SAS Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.

Læs mere

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Demo af PROC GLIMMIX: Analyse af gentagne observationer Demo af PROC GLIMMIX: Analyse af gentagne observationer Kristina Birch, seniorkonsulent, PS Banking Agenda Uafhængige vs. afhængige observationer Analyse af uafhængige vs. afhængige observationer Lille

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Introduktion til GLIMMIX

Introduktion til GLIMMIX Introduktion til GLIMMIX Af Jens Dick-Nielsen jens.dick-nielsen@haxholdt-company.com 21.08.2008 Proc GLIMMIX GLIMMIX kan bruges til modeller, hvor de enkelte observationer ikke nødvendigvis er uafhængige.

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Analyse af Saltdata. Henrik Spliid

Analyse af Saltdata. Henrik Spliid Analyse af Saltdata Henrik Spliid December 1999 0 Analyse af restsalt ved udspredning af fugtsalt og saltlage Page 1 of 12 Indledning Nrvrende rapport beskriver kort resultaterne af en statistisk analyse

Læs mere

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/?? Dagens Temaer k normalfordelte obs. rækker i proc glm. Test for lineær regression Test for lineær regression - via proc glm p. 1/?? Proc glm Vi indlæser data i datasættet stress, der har to variable: areal,

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Tema. Dagens tema: Indfør centrale statistiske begreber.

Tema. Dagens tema: Indfør centrale statistiske begreber. Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

Center for Statistik. Multipel regression med laggede responser som forklarende variable

Center for Statistik. Multipel regression med laggede responser som forklarende variable Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der

Læs mere

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Statistiske principper

Statistiske principper Statistiske principper 1) Likelihood princippet - Maximum likelihood estimater - Likelihood ratio tests - Deviance 2) Modelbegrebet - Modelkontrol 3) Sufficient datareduktion 4) Likelihood inferens i praksis

Læs mere

Simpel og multipel logistisk regression

Simpel og multipel logistisk regression Faculty of Health Sciences Logistisk regression Simpel og multipel logistisk regression 16. Maj 2012 Analyse af en binær responsvariabel. syg/rask, død/levende, ja/nej... Ud fra en eller flere forklarende

Læs mere

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1) Kursus 02402: Besvarelser til øvelsesopgaver i uge 9 Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1) Som model benyttes en binomialfordeling, som beskriver antallet, X, blandt

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning 1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion

Læs mere

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Skriftlig eksamen Science statistik- ST501

Skriftlig eksamen Science statistik- ST501 SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018 Faculty of Health Sciences Basal Statistik Logistisk regression mm. Lene Theil Skovgaard 5. marts 2018 1 / 22 APPENDIX vedr. SPSS svarende til diverse slides: To-gange-to tabeller, s. 3 Plot af binære

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Fagplan for statistik, efteråret 2015

Fagplan for statistik, efteråret 2015 Side 1 af 7 M Fagplan for statistik, efteråret 20 Litteratur Kenneth Hansen & Charlotte Koldsø (HK): Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave, ISBN 9788741256047 HypoStat

Læs mere

Simpel Lineær Regression

Simpel Lineær Regression Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige

Læs mere

Module 12: Mere om variansanalyse

Module 12: Mere om variansanalyse Mathematical Statistics ST06: Linear Models Bent Jørgensen og Pia Larsen Module 2: Mere om variansanalyse 2. Parreded observationer................................ 2.2 Faktor med 2 niveauer (0- variabel)........................

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2

Læs mere

Generelle lineære modeller

Generelle lineære modeller Generelle lineære modeller Regressionsmodeller med én uafhængig intervalskala variabel: Y en eller flere uafhængige variable: X 1,..,X k Den betingede fordeling af Y givet X 1,..,X k antages at være normal

Læs mere

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Reeksamen i Statistik for biokemikere. Blok

Reeksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 2 2007-2008. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling. Eksempel: dæktyper og brændstofforbrug (opgave 25 side 319) Program: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt 4.1 4.9 6.2 6.9 6.8... Muligheder: 1. vi starter med at gennemgå opgave 7 side

Læs mere

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif).

SAS-øvelse: Vi starter ud med model et hvor x=(kvotient, eksald, halvaar, kvinde, MatB,, Gif). Vi vil formulere en model for et kvalitativ variabel y i med to udfald, at bestå og ikke at bestå første årsprøve. Derefter modeller vi respons-sandsynligheden: Specifikation af sandsynligheden for at

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Kvantitative Metoder 1 - Forår 2007. Dagens program

Kvantitative Metoder 1 - Forår 2007. Dagens program Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative

Læs mere

Kvantitative Metoder 1 - Efterår Dagens program

Kvantitative Metoder 1 - Efterår Dagens program Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1

Læs mere

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller Chi-i-anden Test Repetition Goodness of Fit Uafhængighed i Kontingenstabeller Chi-i-anden Test Chi-i-anden test omhandler data, der har form af antal eller frekvenser. Antag, at n observationer kan inddeles

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Statistik i basketball

Statistik i basketball En note til opgaveskrivning jerome@falconbasket.dk 4. marts 200 Indledning I Falcon og andre klubber er der en del gymnasieelever, der på et tidspunkt i løbet af deres gymnasietid skal skrive en større

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Module 12: Mere om variansanalyse

Module 12: Mere om variansanalyse Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger..........

Læs mere

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater

Økonometri: Lektion 4. Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater Økonometri: Lektion 4 Multipel Lineær Regression: F -test, justeret R 2 og aymptotiske resultater 1 / 35 Hypotesetest for én parameter Antag vi har model y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi

Læs mere

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M. Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet March 1, 2013 Sandsynlighedsregning og lagerstyring Normalfordelingen

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd I dag Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik SaSt) Helle Sørensen Først lidt om de sidste uger af SaSt. Derefter statistisk analyse af en enkelt

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller

Læs mere

Maple 11 - Chi-i-anden test

Maple 11 - Chi-i-anden test Maple 11 - Chi-i-anden test Erik Vestergaard 2014 Indledning I dette dokument skal vi se hvordan Maple kan bruges til at løse opgaver indenfor χ 2 tests: χ 2 - Goodness of fit test samt χ 2 -uafhængighedstest.

Læs mere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Økonometri Lektion 1 Simpel Lineær Regression 1/31 Økonometri Lektion 1 Simpel Lineær Regression 1/31 Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Statistisk model: Vi antager at sammenhængen

Læs mere

Uge 13 referat hold 4

Uge 13 referat hold 4 Uge 13 referat hold 4 Gruppearbejde 1a: Er variablen kvotient inkluderet på en hensigtsmæssig måde? Der er to problemer med kvotient: 1) Den er trunkeret ved 6.9 og 10.0, løsningen er at indføre dummyer

Læs mere

Forelæsning 11: Envejs variansanalyse, ANOVA

Forelæsning 11: Envejs variansanalyse, ANOVA Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalyse, ANOVA Peder Bacher DTU Compute, Dynamiske Systemer Bygning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lyngby Danmark

Læs mere

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven. PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve

Læs mere

Lineær og logistisk regression

Lineær og logistisk regression Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Dagens program Lineær regression

Læs mere

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test) Kursus 02323: Introduktion til Statistik Forelæsning 11: Envejs variansanalse, ANOVA Peder Bacher DTU Compute, Dnamiske Sstemer Bgning 303B, Rum 009 Danmarks Tekniske Universitet 2800 Lngb Danmark e-mail:

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2007. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 8 sider.

Læs mere

2. juni Solitaire spilles med pinde, der pa gurerne er angivet som sorte pletter. Der

2. juni Solitaire spilles med pinde, der pa gurerne er angivet som sorte pletter. Der SOLITAIRE 2. juni 2003 Mogens Esrom Larsen Indledning. Solitaire spilles med pinde, der pa gurerne er angivet som sorte pletter. Der kan sta en eller ingen pind i et felt, som pa guren er angivet som et

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan

Læs mere

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger

En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger Institut for Økonomi Aarhus Universitet Statistik 1, Forår 2001 Allan Würtz 4. April, 2001 En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger Uniform fordeling Benyttes som model for situationer,

Læs mere

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl? Module 6: Exercises 6.1 To laboranter....................... 2 6.2 Nicotamid i piller..................... 3 6.3 Karakterer......................... 5 6.4 Blodtryk hos kvinder................... 6 6.5

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6 Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået

Læs mere

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt

Læs mere

Lineære normale modeller (4) udkast

Lineære normale modeller (4) udkast E6 efterår 1999 Notat 21 Jørgen Larsen 2. december 1999 Lineære normale modeller (4) udkast 4.5 Regressionsanalyse 4.5.1 Præsentation 1 Regressionsanalyse handler om at undersøge hvordan én målt størrelse

Læs mere

2 Opgave i hierarkiske normalfordelingsmodeller

2 Opgave i hierarkiske normalfordelingsmodeller IMM, 2005-04-04 Poul Thyregod Flere rotter Datasættet Metal indeholder resultaterne fra en forsøgsserie, der havde til formål at bestemme toxiteten af et metalsalt (Nikkel). Ved forsøget benyttede man

Læs mere

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af

Læs mere

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3.

Model. k = 3 grupper: hvor ǫ ij uafhængige og normalfordelte med middelværdi nul og varians σi 2, i = 1,2,3. Model Program (8.15-10): 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. Bruger nu to indices: i = 1,...,k for gruppenr. og j = 1,...,n i for observation indenfor gruppe. k = 3 grupper: µ 1

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Løsning til eksaminen d. 29. maj 2009

Løsning til eksaminen d. 29. maj 2009 DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) For 20 nyfødte mus er der i tabellen nedenfor anført oplysning om kuldstørrelsen (fra 3 til 12

Læs mere

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt. Sammenhængsanalyser Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt. rygevaner som 45 årig * helbred som 51 årig Crosstabulation rygevaner

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0 Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt

Læs mere

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede

Læs mere