Poul Thyregod, 14. marts Specialkursus vid.stat. foraar side 182
|
|
|
- Fredrik Lorenzen
- 10 år siden
- Visninger:
Transkript
1 Dagens program: Mandag den 14 marts Eksempler på generaliserede lineære modeller Regressions- og faktormodeller, forskellige responsfordelinger Resume Poisson regression (brug af offset). Data nematod Eksempel på ikke-kanonisk link, bakterietælling, Data bakt Alternativer til logistisk link ved binær respons, Data Gnist Tofaktormodeller, vekselvirkning. Data uheld, Lombard Brug af SAS-procedurer Empiriske varianser fra normaltfordelte observationer, Data vask Gamma-regression, Data blod Evt Ordnet kategorisk respons, Data buscum, busmult Opsamling Indskud: Bestemmelse af p-værdier, tabelopslag Man får ofte brug for den kumulerede χ 2 -fordeling. I stedet for at slå op i en tabel kan man lave et lille program: ISAS: DATA regn; x = 12.3; df = 6 ; P = 1- PROBCHI(x,df); OUTPUT; PROC PRINT; RUN; Eller man kan gå på nettet: feks: eller man kan bruge Excel 1 3 Poisson regression (brug af offset) Generaliserede lineære modeller, Resume I stedet for Center plus støj, bruger vi middelværdi - og fordelingsmodel for obs, karakteriseret ved variansfunktion V (µ) I stedet for lineær model for middelværdier betragter vi en lineær model for en funktion η = g(µ) (linkfunktionen) af middelværdien µ Fordelingsformen bestemmer en variansfunktion V (µ) og en enhedsdeviansfunktion d(y; µ) Og så minimerer vi bare devianser i stedet for kvadratafvigelser og opspalter devianser ligesom Pythagoras (χ 2 fordelte størrelser) og vi kan bruge Error leddet til modelkontrol Sædvanligvis foretrækker vi Likelihood ratio konfidensintervaller (fra profilikelihood) frem for Wald intervaller, og deviansresidualer frem for Pearson. side 182 DATA nematod angiver antal nematoder (ormeagtige parasitter) i forskellige prøvevolumener (10, 20 og 40 ml) af et medium. Ved tilfældig spatiel fordeling af nematoderne i mediet vil man forvente at antallet er proportionalt med volumen. Grafisk vurdering: Scatterplot: Antal mod volumen. Statistisk model: Y = antal, Y i P(ρx i ) (Poisson), hvor x i angiver prøvevolumen. 2 4
2 Analyse ved FIT-menu Brug af offset ved Poisson regression Direkte: ant Y vol X No Intercept Response Dist: Poisson Link: Identity Fit menu: ant Y Intercept Response Dist: Poisson Link: Log lvol Offset Er undertiden nyttig, hvor man bruger kanonisk link til andre forklarende variable med multiplikativ effekt. 5 7 Ved kanonisk link: (log) Analyse ved FIT-menu η i = β + log(x i ) med β =ln(ρ). Vi ønsker ikke at bestemme en koefficient til log(x i ). Derfor betragter vi modellen η i ln(x i )=β dvs en model med offset lig med ln(x i ) og blot et intercept led. Proportionalitetsfaktoren ρ =exp(β) Hvad går galt, hvis man bruger: rate Y Intercept Response Dist: Poisson???? Eller med ant Y lvol X Response Dist: Poisson Link: log???? Eksempler på uhensigtsmæssig adfærd: 6 8
3 Eksempel på brug af ikke-kanonisk link Bestemmelse af bakteriekoncentration i et medium, p. 171 Man kan kun registrere vækst/ ikke vækst Man bruger et dilution assay, hvor man bestemmer vækst/ ikke vækst i en række forskellige fortyndinger. Ofte flere prøver ved hver fortynding. Data bakt: Dilution Number of plates Index Concentration total non-fertile fraction Bestemmelse af bakteriekoncentration Grafisk vurdering: Tegn scatterplot af log andel mod concentration Modelfit: ejvaekst Y conc X Ingen Intercept Response = Poisson Link = log Estimatet kaldes Most Probable Number. Metoden klassisk, estimationen udledt af Fisher 9 11 Bestemmelse af bakteriekoncentration Model: Antag bakterier tilfældigt spredt i mediet. (Poissonproces). Grundlæggende ide: Betragt en prøve med concentration x [ml sample/ml suspension]. p(x) =P[ej vaekst] =P[0 bacterier] = exp( mx). Det følger da, at log(p(x)) = mx er proportional med concentrationen x of mediet i prøven Alternativer til logistisk link ved binær respons Eks side 168 ff. Linkfunktioner side 202 Modellering af overslagssandsynlighed 1 logist p(x) 0.4 loglog cloglog x [kv] 10 12
4 Fortolkning af dosis-respons relation Profilplot Ved dosis-respons forsøg beskriver dosis-respons funktionen fordelingen af tolerancer i populationen. Tidligere brugte man ofte en probit- model (normalfordeling). Nok mest fordi den var tabelleret. Ikke væsensforskellig fra logitmodellen. Tilnærmelsesvis parallelitet - Vi kan vurdere paralleliteten ved et test Eksempel side 191 ff. DATA uheld Kvartalsvise uheldstal Model: Y ij P(µ ij ) (Poisson) Hypotese: proportionalitet, dvs µ ij = ρ i θ j For kanonisk link η ij = α i + β j Vurderes grafisk ved profilplot Tofaktormodeller, vekselvirkning Modelfit: uheld Y aar X kvt X Intercept Response = Poisson Link = log dvs. model uden vekselvirkning. Tofaktormodeller, vekselvirkning Goodness of fit teststørrelse er et test for multiplikativ Poissonfordeling, dvs uden vekselvirkning Modellen uden vekselvirkning giver simple fortolkninger: Forskel på kvartaler afhænger ikke af året
5 Logit link ikke altid naturligt for binært respons Eksempel p. 196 ff., Datasæt Lombard Antal personer med ringe viden om cancer: læsning Nej Ja Avislæsn. Nej 393/477 83/150 Ja 156/ /378 Brug af SAS-procedurer, PROC GENMOD og PROC LOGISTIC: Man kan også skrive SAS-programmer med SAS-procedurer. PROC GENMOD er dedikeret til generaliserede lineære modeller PROC LOGISTIC er dedikeret til logistiske regressionsproblemer (også med kategoriske forklarende variable) Information om procedurerne fås i SAS-hjælp: Help SAS System Help SAS/Stat Software (i venstre side) procedurenavn (i højre side). Udførligere dokumentation (Online documentation) Procedurer bygget op af sætninger. Hver sætning afsluttes med semikolon Ringe viden om cancer (fortsat) Naturligt at tænke på et serielt system: Ringe viden: [ej udbytte af avis] [ej udbytte af læsn] Viden: [udbytte af avis] [udbytte af læsn] Multiplikativ model for ssh for ringe viden ln(p i,j )=κ+α i +β j dvs binomial model uden vekselvirkning for Link=log og respons = ukendsk. ukendsk Y AVIS X LAES X Response = Binomial Pers Binomial Link = log PROC GENMOD og PROC LOGISTIC: Procedurerne skrives i Program-vinduet, og submittes ved klik på submit. Strukturen i MODEL statement minder om FIT-menuen i Insight; Options skrives i sætningen efter en / Procedurerne giver mulighed for lidt flere variationer i output, end SAS/Insight, fx konfidensgrænser for lineæ prædiktor, fittede værdier mv. Bemærk: Modellen har ikke symmetri mellem ukendsk og kendsk Model uden vekselvirkning for Link=logit ville svare til proportionalitet af odds, og det er noget andet. Giver printet output, og mulighed for output til datasæt. Og muligheder for lidt flere responsfordelinger, f.eks. Negativ Binomial og Multinomial
6 Empiriske varianser fra normaltfordelte observationer Side 183 ff. X 1,X 2,...,X n uafhængige med X i N(µ, σ 2 ). Betragt den empiriske varians, n S 2 i=1 = (X i X. ) 2 n 1 med X = n i=1 X i/n. med f = n 1. S 2 σ 2 χ 2 (f)/f En gammafordeling: S 2 G ( f/2,σ 2 /(f/2) ) med E[S 2 ]=σ 2, variansfunktionen V G (σ 2 )=(σ 2 ) 2 og præcisionsparameter w = f/2. Kanonisk link er den reciprokke, η =1/σ 2. Empiriske varianser fra normaltfordelte observationer Fit menu i SAS Insight: Den variable WGT i datasættet er netop DF/2. VAR Y POS X ENZYM X WGT Weight Distribution = Gamma Link = log Scale = Constant (konstanten skal være 1) Vægten f/2 bliver tilgodeset i alle beregnede størrelser, devianser, residualer mv. Lidt forvirrende at symbolet σ 2 nu optræder som middelværdi (i fordelingen af S 2 ) Empiriske varianser fra normaltfordelte observationer EKSEMPEL Datasæt vask indeholder resultater fra et vaskeforsøg med fire forskellige enzymer, ENZYM = A,B,C og D, der blev afprøvet på tre forskellige positioner, POS = 1,2,3 i en vaskemaskine. Den variable VAR angiver den empiriske varians for hver kombination af de to faktorer. Der indgik forskellige antal vaske for de forskellige faktorkombinationer som indikeret ved den variable DF, der angiver frihedsgraderne knyttet til SAK. Vi vil vurdere om der kan antages at være en multiplikativ effekt af de to faktorer Empiriske varianser ved PROC GENMOD I PROC GENMOD skal man huske at deklarere variable af typen Nominal PROC GENMOD DATA=vask; CLASS pos enzym ; MODEL var = pos enzym / TYPE1 TYPE3 DIST=gamma NOSCALE LINK=log OBSTATS ; WEIGHT WGT ; RUN; QUIT; Bemærk at man skal skrive NOSCALE, ellers begynder den at estimere skalaparameter. Også her indgår vægten i alle relevante størrelser 22 24
7 Gamma regression i Insight To-parametret Gamma fordeling som responsfordeling Gammafordelingen er nævnt i oversigten side 123: Y G(α, β/α) har tæthedsfunktion ( ) α 1 1 y g Y (y; α, β) = exp( yα/β) for 0 <y Γ(α)β/α β/α med E[Y] =βog V[Y] =β 2 /α, dvs variansfunktion V (µ) =µ 2 og præcisionsparameter λ = α. I SAS-notation, φ =1/α og SCALE = α. Fit menu: tid Y logkonc X tilsaet X Response Dist: Gamma Link: Power (Potensen vælges til -1) Scale: Maximum likelihood Exact Distribution Vi ser, at den estimerer scale (parameteren α). Men den skalerer ikke devianser mv, så vi kan ikke stole på goodness of fit teststørrelsen. (Den skal multipliceres med værdien af Scale) Eksempel på Gamma regression Datasæt bloddata er resultater af et forsøg, hvor man bestemte den gennemsnitlige størkningstid for blod (i sek) ved tilsaetning af prothromboplastin til forskellige koncentrationer af prothrombofri plasma fra to forskellige plasmabatches. Grafisk vurdering: Datasæt blodplot bruges til den indledende grafiske analyse. Scatterplot af tid mod koncentration, ser hyperbolsk ud Prøv med tid mod reciprok koncentration og reciprok tid mod log-koncentration. Vi vælger en lineær model for reciprok tid af log-koncentration dvs Link = reciprok, η(µ) =1/µ (kanonisk for Gamma) og η i = α + βx i hvor x i angiver log koncentration. Gamma regression ved PROC GENMOD PROC GENMOD data = bloddata; CLASS tilsaet; MODEL tid = logkonc tilsaet /DIST = GAMMA TYPE1 TYPE3 OBSTATS ; RUN; QUIT; Bemærk at vi ikke siger noget om SCALE. For Gammafordelingen vælger den pr default maximum-likelihood estimation af scale og skalering af relevante størrelser. Vi får udskrevet både deviansen og den skalerede devians. Skaleringen influerer ikke på estimationen af middelværdiparametrene. Skaleringen betyder bare en fælles faktor på alle deviansbidrag. (Vægtning tillægger derimod forskellig vægt til de enkelte bidrag)
8 Ordnet kategorisk respons Tilfredshed hos buspassagerer ved forskellige forsinkelser, side 175 ff. 5 svarkategorier, ssh p 1,p 2,p 3,p 4,p 5 Men p 1 + p 2 + p 3 + p 4 + p 5 =1,så egentlig kun fire sandsynligheder. Mange odds-muligheder. Vi vælger kumulative odds svarende til kumulering af svarkategorier (fra neden), Π 1 = p 1, Π 2 = P 1 + p 2 etc. Analyse ved Fit-menu i Insight: Datasæt buscum indeholder de kumulerede svar i de fire variable mutil, utilcum, bogcum og tilfcum, samt den variable ialt. Man kan lave logistisk regression for hver af de enkelte kumulative kategorier Eksempel: Ordnet kategorisk respons i PROC GENMOD og PROC LOGISTIC Datasæt busmult indeholder data fra tilfredshedsundersøgelsen, hvor responserne er samlet i den variable resp, der antager værdierne 0mutil, 1util, 2bog, etc. Antallet respondenter med den pågældende respons er angivet i den variable ant. Datasættet kan behandles såvel af PROC GENMOD som af PROC LOGISTIC. Begge procedurer benytter kumulativ logit som standardoption, og begge procedurer tilpasser en model med proportionale odds, dvs parallelle logit er. ukendsk Y fors X Response = Binomial ialt Binomial Link = logit Tilfredshed hos buspassagerer, kumulativ logit Ordnet kategorisk respons i PROC GENMOD I PROC GENMOD er det nødvendigt at specificere at fordelingen er en multinomialfordeling i MODEL sætningen som vist nedenfor. PROC GENMOD data=busmult; MODEL resp = fors /DIST=mult ; FREQ ant; OUTPUT OUT = busud pred = prob XBETA = eta; RUN; QUIT; Individuelle hældninger. Markeringerne angiver de logittransformerede konfidensintervaller fra de observerede andele 30 32
9 Ordnet kategorisk respons i PROC LOGISTIC PROC LOGISTIC er indrettet mod kategorisk respons, så i dette tilfælde med flere responskategorier ved den godt, at det drejer sig om en multinomialfordeling. PROC LOGISTIC data=busmult; FREQ ant; MODEL resp = fors / LACKFIT CLODDS=PL ; RUN; QUIT; Bemærk, at proceduren udfører et test for parallellitet (proportional odds). Nøgleordet LACKFIT bevirker desuden at der foretages et goodness of fit test 33 Opsamling: diverse GENLM for kombinationer af kanonisk link og responsfordeling brug af offset værdi Vi kan tilmed klare ordnet kategorisk respons og empiriske varianser Kanonisk link ofte naturligt - men ikke altid For Gammafordeling kan vi også estimere formparameter ved ML 34
Noter til Specialkursus i videregående statistik
Noter til Specialkursus i videregående statistik Poul Thyregod IMM, februar 2005 Indhold Forord 6 1 Momenter og flerdimensionale stokastiske variable 7 1.0 Indledning............................. 7 1.1
Statistik II 4. Lektion. Logistisk regression
Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:
Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives
Introduktion til GLIMMIX
Introduktion til GLIMMIX Af Jens Dick-Nielsen [email protected] 21.08.2008 Proc GLIMMIX GLIMMIX kan bruges til modeller, hvor de enkelte observationer ikke nødvendigvis er uafhængige.
µ = κ (θ); Kanonisk link, θ = g(µ) Poul Thyregod, 9. maj Specialkursus vid.stat. foraar 2005
Hierarkiske generaliserede lineære modeller Lee og Nelder, Biometrika (21) 88, pp 987-16 Dagens program: Mandag den 2. maj Hierarkiske generaliserede lineære modeller - Afslutning Hierarkisk generaliseret
Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression
Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende
Statistiske Modeller 1: Kontingenstabeller i SAS
Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.
Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)
Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: [email protected] Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse
Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P
Lineær og logistisk regression
Faculty of Health Sciences Lineær og logistisk regression Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet [email protected] Dagens program Lineær regression
Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018
Faculty of Health Sciences Basal Statistik Logistisk regression mm. Lene Theil Skovgaard 5. marts 2018 1 / 22 APPENDIX vedr. SPSS svarende til diverse slides: To-gange-to tabeller, s. 3 Plot af binære
Logistisk regression
Logistisk regression Anvendt statistik Anders Tolver Jensen Institut for Grundvidenskab og Miljø Onsdag d. 25/2-2009 ATJ (IGM KU-LIFE) Logistisk regression Anvendt statistik 25/2-2009 1 / 12 (Multinomial)
Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008
Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet [email protected] www.biostat.ku.dk/~bxc
Postoperative komplikationer
Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.
Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1
Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen
Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge
Statistik og Sandsynlighedsregning 2 IH kapitel 12 Overheads til forelæsninger, mandag 6. uge 1 Fordelingen af én (1): Regressionsanalyse udfaldsvariabel responsvariabel afhængig variabel Y variabel 2
Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable
Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet [email protected] Sammenhæng
Tema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Løsning til opgave i logistisk regression
Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator
Multipel Lineær Regression
Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer
Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning
1 Multipel regressions model Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning PSE (I17) ASTA - 11. lektion
Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser
Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier
Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning
1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Module 4: Ensidig variansanalyse
Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2
Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014
Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke
Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)
Økonometri 1 Forår 2003 Ugeseddel 13 Program for øvelserne: Gruppearbejde Opsamling af gruppearbejdet og introduktion af SAS SAS-øvelser i computerkælderen Øvelsesopgave 6: Hvem består første årsprøve
Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π
Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22
Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som
Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder
MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme
MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes
Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved
Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,
Basal Statistik Kategoriske Data
Basal Statistik Kategoriske Data 8 oktober 2013 E 2013 Basal Statistik - Kategoriske data Michael Gamborg Institut for sygdomsforebyggelse Københavns Universitetshospital [email protected]
Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1
Økonometri 1 Dummyvariabler 13. oktober 2006 Økonometri 1: F10 1 Dagens program Dummyvariabler i den multiple regressionsmodel (Wooldridge kap. 7.3-7.6) Dummy variabler for kvalitative egenskaber med flere
Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)
Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen
Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer:
1 IHD-Lexis 1.1 Spørgsmål 1 Man indlæser en såkaldt frequency-table i SAS ved følgende kommandoer: data ihdfreq; input eksp alder pyrs cases; lpyrs=log(pyrs); cards; 0 2 346.87 2 0 1 979.34 12 0 0 699.14
Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??
Dagens Temaer k normalfordelte obs. rækker i proc glm. Test for lineær regression Test for lineær regression - via proc glm p. 1/?? Proc glm Vi indlæser data i datasættet stress, der har to variable: areal,
3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12
Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan
Morten Frydenberg 14. marts 2006
Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik 1 RESUME: 2 2. gang: 2006 Institut for Biostatistik, Århus Universitet MPH 1. studieår Specialmodul 4 Cand. San. uddannelsen
Lineær regression i SAS. Lineær regression i SAS p.1/20
Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression
Skriftlig eksamen Science statistik- ST501
SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet
Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1
Økonometri 1 Inferens i den lineære regressionsmodel 2. oktober 2006 Økonometri 1: F8 1 Dagens program Opsamling om asymptotiske egenskaber: Asymptotisk normalitet Asymptotisk efficiens Test af flere lineære
Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Reeksamen i Statistik for biokemikere. Blok 3 2007.
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet
Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Normalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
Center for Statistik. Multipel regression med laggede responser som forklarende variable
Center for Statistik Handelshøjskolen i København MPAS Tue Tjur November 2006 Multipel regression med laggede responser som forklarende variable Ved en tidsrække forstås i almindelighed et datasæt, der
Logistisk Regression - fortsat
Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6
Institut for Matematiske Fag Matematisk Modellering 1 Aarhus Universitet Eva B. Vedel Jensen 25. februar 2008 UGESEDDEL 6 Forelæsningerne torsdag den 21. februar og tirsdag den 26. februar. Jeg har gennemgået
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Anvendt Statistik Lektion 8. Multipel Lineær Regression
Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse
Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser
Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.
Landmålingens fejlteori Lektion 2 Transformation af stokastiske variable - [email protected] http://people.math.aau.dk/ kkb/undervisning/lf12 Institut for Matematiske Fag Aalborg Universitet Repetition:
Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen
Statistik Lektion 3 Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen Repetition En stokastisk variabel er en funktion defineret på S (udfaldsrummet, der antager
Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet
Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,
Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at
Likelihood teori Lineær regression (intro) Dagens Emner Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 1 ) = ( 2πσ 2)n/2 e 1 2 P n (xi µ)2 er tætheden som funktion af
Forelæsning 11: Kapitel 11: Regressionsanalyse
Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
En Introduktion til SAS. Kapitel 5.
En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel
Løsning til eksaminen d. 14. december 2009
DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,
Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk
Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.
1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.
Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller
Konfidensintervaller og Hypotesetest
Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller
Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S
Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed
Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable
Normal fordelingen Normal fordelingen Egenskaber ved normalfordelingen Standard normal fordelingen Find sandsynligheder ud fra tabel Transformation af normal fordelte variable Invers transformation Repetition
12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse
. september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression
Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning
Side 1 af 6 Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning Litteratur: Kenneth Hansen & Charlotte Koldsø: Statistik I økonomisk perspektiv, Hans Reitzels Forlag 2012, 2. udgave,
Morten Frydenberg 26. april 2004
Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik RESUME: 2 2. gang: 2002 Institut for Biostatistik, Århus Universitet MPH. studieår Specialmodul 4 Cand. San. uddannelsen.
