Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)



Relaterede dokumenter
Statistiske modeller

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Elementær sandsynlighedsregning

Elementær sandsynlighedsregning

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Produkt og marked - matematiske og statistiske metoder

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

StatDataN: Middelværdi og varians

Estimation og usikkerhed

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Agenda Sandsynlighedsregning. Regneregler (kap. 3-4) Fordelinger og genkendelse af fordelinger (kap. 3-5) Simultane, marginale og betingede

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik II 4. Lektion. Logistisk regression

Sandsynlighedsregning Oversigt over begreber og fordelinger

Sammenhængsanalyser. Et eksempel: Sammenhæng mellem rygevaner som 45-årig og selvvurderet helbred som 51 blandt mænd fra Københavns amt.

hvor a og b er konstanter. Ved middelværdidannelse fås videre

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

3 Stokastiske variable 3.1 Diskrete variable

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser

Kvantitative Metoder 1 - Forår Dagens program

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Sandsynlighedsregning 4. forelæsning Bo Friis Nielsen

Kvantitative Metoder 1 - Efterår Dagens program

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

Sandsynlighedsregning 11. forelæsning Bo Friis Nielsen

Kvantitative Metoder 1 - Forår 2007

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Tema. Dagens tema: Indfør centrale statistiske begreber.

Løsning eksamen d. 15. december 2008

Landmålingens fejlteori - Lektion 2 - Transformation af stokastiske variable

Sandsynlighedsregning 5. forelæsning Bo Friis Nielsen

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

INSTITUT FOR MATEMATISKE FAG c

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

02402 Vejledende løsninger til hjemmeopgaver og øvelser, Uge 4

Statistik og Sandsynlighedsregning 2

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Kvantitative Metoder 1 - Forår Dagens program

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

Betingede sandsynligheder Aase D. Madsen

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Kvantitative Metoder 1 - Forår Dagens program

Konfidensintervaller og Hypotesetest

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Statistisk Model

Produkt og marked - matematiske og statistiske metoder

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Susanne Ditlevsen Institut for Matematiske Fag susanne

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Repetition Stokastisk variabel

Nanostatistik: Middelværdi og varians

Note om Monte Carlo metoden

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Nanostatistik: Opgavebesvarelser

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Oversigt over nyttige fordelinger

Et firma tuner biler. Antallet af en bils cylindere er givet ved den stokastiske variabel X med massetæthedsfunktionen

Preben Blæsild og Jens Ledet Jensen

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Rettevejledning til Kvantitative metoder 1, 2. årsprøve 18. juni timers prøve med hjælpemidler

Normalfordelingen og Stikprøvefordelinger

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Program. Statistik og Sandsynlighedsregning. Eksempler. Sandsynlighedstæthed og sandsynlighedsmål

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

Definition. Definitioner

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Løsning til eksaminen d. 14. december 2009

Statistik og Sandsynlighedsregning 2

Vejledende løsninger til opgaver i kapitel 6

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

4 Oversigt over kapitel 4

MM501 forelæsningsslides

Statistik og Sandsynlighedsregning 2

Kvantitative Metoder 1 - Efterår Dagens program

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Motivation. Konfidensintervaller og vurdering af usikkerhed på estimerede størrelser

Løsning til eksaminen d. 29. maj 2009

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Sandsynlighedsregning Stokastisk variabel

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Kvantitative Metoder 1 - Forår 2007

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Transkript:

Formelsamlingen 1

Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2

Kovariansen COVAR(X, Y) 1 n n i1 (X - M X )(Y - M Y ) ZX+Y VAR(X + Y) VAR(X)+ 2COVAR(X,Y)+ VAR(Y) VAR( X ) VAR( Y ) COVAR( X, Y ) VAR( X ) VAR( Y ) Standardafvigelsen SD ( X ) VAR( X ) 3

Sandsynlighedsregning P(A eller B) P(A) + P(B) P(ikke A) 1 P(A) P ( A B) P( A, B) P( B) Multiplikationssætningen: To hændelser, A og B, er stokastisk uafhængige, hvis og kun hvis den simultane sandsynlighed for de to hændelser er lig med produktet af de marginale sandsynligheder for hver af dem. Dvs. hvis og kun hvis P(A,B) P(A) P(B) 4

Kvantitative mål for chancer: Odds og logits Sandsynligheden p odds p 1 p p odds 1 + odds Logit-værdier: α ln( odds) ln( 1 p ) p ln( p) ln(1 p) α e p 1 + e α 5

Reference mellem empiriske og teoretiske begreber Empiriside Modelside n observationer: x 1,,x n Den absolutte fordeling: n x antal personer med værdien x Den relative fordeling: h x n x /n Den kumulerede fordeling: 1 n x x n h i i 1 i 1 Percentiler defineret ud fra den kumulerede fordeling Empirisk middelværdi: x Én stokastisk variabel, X Det forventede antal med en bestemt værdi: e x np x Sandsynligheden for at Xx: p x P(Xx) Fordelingsfunktionen: x F( x) p P( X x) i 1 i Percentiler defineret ud fra fordelingsfunktionen Teoretisk middelværdi: M X x xh x (forventet værdi) E( X ) xp x x Empirisk varians: n VAR( X ) hx ( x M X ) n 1 x 2 Teoretisk varians: ( ( )) 2 σ X p x x E X 2 x 6

Bernoulli fordelingen: En fordeling af en variabel, X, med to udfald: X 0 En bestemt begivenhed forekommer ikke X 1 En bestemt begivenhed forekommer Fordelingen indeholder én sandsynlighed: p P(X1) Sandsynligheden for at begivenheden ikke forekommer er lig med P(X0) 1-p Fordelingsindikatorer for Bernoullifordelingen E(X) p σ 2 (X) p(1-p) 7

Fordelingsindikatorer efter omkodning S X + Y E(S) E(X) + E(Y) σ 2 (S) σ 2 (X) + σ 2 (Y) + 2σ 2 (X,Y) Hvis X og Y er stokastisk uafhængige, er den kovarians, σ 2 (X,Y) lig med nul σ 2 (X+Y) σ 2 (X) + σ 2 (Y) 8

Binomialfordelingen Y er binomialfordelt, Y ~ Bin(n,p), hvis den er lig med summen af n indbyrdes uafhængige identisk fordelte Bernoulli variable med sandsynligheden p: Dvs. Y i1..n X i Teoretisk middelværdi E(Y) n p Teoretisk varians σ 2 (Y) n p (1-p) Teoretisk standardafvigelse σ(y) n p (1-p) 9

Standardiserede variable Z X E( X ) σ ( X ) hvor σ(x) er variablens standardafvigelse E(Z) 0 og σ 2 (Z) 1. 10

Kontinuerte variable Har tætheder, f(x) i stedet for sandsynligheder Fordelingsfunktionen F (x) P(X f (x) x) d dx x F(x) f(x)dx 11

Normalfordelingen Symmetriske fordelinger fastlagt ved middelværdi og varians.5 0.0-5 0 5 Tre normalfordelinger Standardiseret normalfordeling P(Z < -1.96) P(Z > +1.96) 0.025 P( Z >1.96) 0.05 95 % af værdierne af en normalt fordelt variabel med middelværdi,ξ, og standardafvigelse,σ, vil ligge inden for intervallet ξ ± 1.96σ 12

Den centrale grænseværdisætning Antag, at X 1,..,X n er n identisk fordelte uafhængige variable med middelværdi, E(X), og varians, σ X 2. Under denne forudsætning vil den empiriske middelværdi, M X 1 i, altid være approksimativt i X n normalt fordelt med middelværdi, E(X), og varians, 2 σ X /n. 13

χ 2 fordelingen Antag, at Z er en variabel med en standardiseret normalfordeling. Fordelingen af Z 2 er en såkaldt χ 2 fordelingen med 1 frihedsgrad. Fordelingen af summen af k uafhængige χ 2 fordelte variable kan beregnes. Den omtales som en χ 2 fordeling med k frihedsgrader (df k). 14

Konfidensintervaller for estimater Standardiser estimatet: Z T T τ σ Den centrale grænseværdisætning garanterer i de fleste tilfælde, at T er normalfordelt. T Z T er derfor tilnærmelsesvist fordelt som en standardiseret normalfordeling τ T ZT σ er også en standardiseret normalfordeling Der er derfor 95 % sandsynlighed for at T T τ < T 196. < + 196. σ T 196. σ < τ < T + 196. σ T T 15

Odds-ratio værdier for 2x2 tabeller a b c d Odds-ratio er lig med krydsproduktforholdet κ ad bc Gamma koefficienten for 2 x 2 tabeller γ OR OR 1 + 1 16

Gamma koefficienten Definition af positiv og negativ sammenhæng p C sandsynligheden for at en sammenligning mellem to personer resulterer i konkordans p D sandsynligheden for at en sammenligning mellem to personer resulterer i diskordans p S sandsynligheden for at en sammenligning mellem to personer resulterer i sammenfald Positiv sammenhæng mellem to variable, hvis p C > p D Negativ sammenhæng hvis p D > p C γ p p C C + p p D D 17

χ 2 -testet En vægtet sum af de kvadrerede residualer. χ 2 e 2 ij ) ( n ij e ij Antal frihedsgrader (df) (antal rækker-1)x(antal søjler -1) 18

To fejltyper: Statistiske fejlslutninger Fejl af type I forekommer, når man forkaster en rigtig nulhypotese. Fejl af type II forekommer, når man accepterer en forkert nul-hypotese. Testets størrelse er lig med sandsynligheden for, at der ikke begås en type I fejl, hvis nul-hypotesen er korrekt, Størrelse P(Nul-hypotesen accepteres Sand nul-hypotese) Styrken er sandsynligheden for, at der ikke bliver begået en type II fejl, hvis nul-hypotesen er forkert, Styrke P(Nul-hypotesen forkastes Falsk nul-hypotese) 19

Det globale χ 2 -test Summen af uafhængige χ 2 fordelte størrelse er χ 2 fordelt. Antallet af frihedsgrader er lig med summen af frihedsgraderne. Den partielle γ-koefficient Et ( vægtet) gennemsnit af γ-koefficienter er derfor også tilnærmelsesvist normalfordelt Den partielle γ-koefficient wγ i i i w i 1 VARi 1 VAR j j 20

Betinget uafhængighed To variable, A og B, er betinget uafhængige givet en eller flere kontrolvariable, C 1,...C k, hvis A og B er uafhængige inden for samtlige de grupper, der kan defineres ved kombinationer af værdier af kontrolvariablene. Symbolsk angives betinget uafhængighed på følgende måde A B C 1,...C k 21

Mantel-Haensel analyser Mantel og Haensel (1959) estimatet af den fælles odds-ratio k ( v ) ω ω MH 1 ω MH er et vægtet gennemsnit af odds-ratio erne fra de enkelte strata. Vægtene er lig med, v bc n bic i i n i 22

Breslow-day test for homogenitet Et klassisk χ 2 test af forskel på det observerede og det forventede. Den forventede tabel: 1) Samme række- og søjlesummer som observeret. 2) Odds-ratio værdierne er lig med ω MH i alle strata Tallene a, b, c, d, erstattes altså at forventede værdier E(a ), E(b ), E(c ), E(d ) for hvilke det gælder at E( a ) E( d ) E( b ) E( c ) ω MH Breslow-Day testet er 2 χ k ( a E( a )) ( b E( b )) ( c E( c )) ( d E( d )) + + + 1 E( a ) E( b ) E( c ) E( d ) 2 2 2 2 Asymptotisk χ 2 fordelt med k-1 frihedsgrader. 23

Cochrans og Mantel-Haensel s test Beregn den observerede og forventede marginale fordeling for de to variable under nul-hypotesen ved at summere samtlige forventede værdier i hver celle henover de forskellige strata. De observerede frekvenser er givet ved a c a, b b, c, d d De forventede værdier er givet ved, F( b) F( b ), F( a) F( a ) F( c) F( c ), F( d) F( d ) Beregn derefter et konventionelt χ 2 test til sammenligning af ovenstående observerede og forventede frekvenser. 24

Z-test og Wald test Wald test for parvise sammenligninger βˆ ˆ b β se a er tilnærmelsesvist fordelt som en standardiseret normalfordeling Wald Z 2 er tilnærmelsesvist fordelt som en χ 2 fordeling med 1 frihedsgrad 25

Wald testet for sammenligning af mere end to grupper Wald testet for hypotesen, at risikoen er den samme i alle grupper, er en generalisering af testet for to grupper. Det er tilnærmelsesvist fordelt som en χ 2 fordeling med et antal frihedsgrader, der er lig med antal grupper minus 1 26

Den logistiske regressionsmodel Y binær afhængig variabel med to udfald kodet som 0 eller 1 X 1, X 2, X 3, X k er afhængige variable i e P(Y 1 X,.., X ) i 1 + e α+ β x +β x x i i ab a b 1 k α+ β x +β x x i i ab a b Hvor produktledet fortæller, at der er interaktion mellem x a og x b Hvis X er en kategorivariabel kan man skrive e P(Y 1 X x) 1 + e α+β x α+β x 27

H 28