Formelsamlingen 1
Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2
Kovariansen COVAR(X, Y) 1 n n i1 (X - M X )(Y - M Y ) ZX+Y VAR(X + Y) VAR(X)+ 2COVAR(X,Y)+ VAR(Y) VAR( X ) VAR( Y ) COVAR( X, Y ) VAR( X ) VAR( Y ) Standardafvigelsen SD ( X ) VAR( X ) 3
Sandsynlighedsregning P(A eller B) P(A) + P(B) P(ikke A) 1 P(A) P ( A B) P( A, B) P( B) Multiplikationssætningen: To hændelser, A og B, er stokastisk uafhængige, hvis og kun hvis den simultane sandsynlighed for de to hændelser er lig med produktet af de marginale sandsynligheder for hver af dem. Dvs. hvis og kun hvis P(A,B) P(A) P(B) 4
Kvantitative mål for chancer: Odds og logits Sandsynligheden p odds p 1 p p odds 1 + odds Logit-værdier: α ln( odds) ln( 1 p ) p ln( p) ln(1 p) α e p 1 + e α 5
Reference mellem empiriske og teoretiske begreber Empiriside Modelside n observationer: x 1,,x n Den absolutte fordeling: n x antal personer med værdien x Den relative fordeling: h x n x /n Den kumulerede fordeling: 1 n x x n h i i 1 i 1 Percentiler defineret ud fra den kumulerede fordeling Empirisk middelværdi: x Én stokastisk variabel, X Det forventede antal med en bestemt værdi: e x np x Sandsynligheden for at Xx: p x P(Xx) Fordelingsfunktionen: x F( x) p P( X x) i 1 i Percentiler defineret ud fra fordelingsfunktionen Teoretisk middelværdi: M X x xh x (forventet værdi) E( X ) xp x x Empirisk varians: n VAR( X ) hx ( x M X ) n 1 x 2 Teoretisk varians: ( ( )) 2 σ X p x x E X 2 x 6
Bernoulli fordelingen: En fordeling af en variabel, X, med to udfald: X 0 En bestemt begivenhed forekommer ikke X 1 En bestemt begivenhed forekommer Fordelingen indeholder én sandsynlighed: p P(X1) Sandsynligheden for at begivenheden ikke forekommer er lig med P(X0) 1-p Fordelingsindikatorer for Bernoullifordelingen E(X) p σ 2 (X) p(1-p) 7
Fordelingsindikatorer efter omkodning S X + Y E(S) E(X) + E(Y) σ 2 (S) σ 2 (X) + σ 2 (Y) + 2σ 2 (X,Y) Hvis X og Y er stokastisk uafhængige, er den kovarians, σ 2 (X,Y) lig med nul σ 2 (X+Y) σ 2 (X) + σ 2 (Y) 8
Binomialfordelingen Y er binomialfordelt, Y ~ Bin(n,p), hvis den er lig med summen af n indbyrdes uafhængige identisk fordelte Bernoulli variable med sandsynligheden p: Dvs. Y i1..n X i Teoretisk middelværdi E(Y) n p Teoretisk varians σ 2 (Y) n p (1-p) Teoretisk standardafvigelse σ(y) n p (1-p) 9
Standardiserede variable Z X E( X ) σ ( X ) hvor σ(x) er variablens standardafvigelse E(Z) 0 og σ 2 (Z) 1. 10
Kontinuerte variable Har tætheder, f(x) i stedet for sandsynligheder Fordelingsfunktionen F (x) P(X f (x) x) d dx x F(x) f(x)dx 11
Normalfordelingen Symmetriske fordelinger fastlagt ved middelværdi og varians.5 0.0-5 0 5 Tre normalfordelinger Standardiseret normalfordeling P(Z < -1.96) P(Z > +1.96) 0.025 P( Z >1.96) 0.05 95 % af værdierne af en normalt fordelt variabel med middelværdi,ξ, og standardafvigelse,σ, vil ligge inden for intervallet ξ ± 1.96σ 12
Den centrale grænseværdisætning Antag, at X 1,..,X n er n identisk fordelte uafhængige variable med middelværdi, E(X), og varians, σ X 2. Under denne forudsætning vil den empiriske middelværdi, M X 1 i, altid være approksimativt i X n normalt fordelt med middelværdi, E(X), og varians, 2 σ X /n. 13
χ 2 fordelingen Antag, at Z er en variabel med en standardiseret normalfordeling. Fordelingen af Z 2 er en såkaldt χ 2 fordelingen med 1 frihedsgrad. Fordelingen af summen af k uafhængige χ 2 fordelte variable kan beregnes. Den omtales som en χ 2 fordeling med k frihedsgrader (df k). 14
Konfidensintervaller for estimater Standardiser estimatet: Z T T τ σ Den centrale grænseværdisætning garanterer i de fleste tilfælde, at T er normalfordelt. T Z T er derfor tilnærmelsesvist fordelt som en standardiseret normalfordeling τ T ZT σ er også en standardiseret normalfordeling Der er derfor 95 % sandsynlighed for at T T τ < T 196. < + 196. σ T 196. σ < τ < T + 196. σ T T 15
Odds-ratio værdier for 2x2 tabeller a b c d Odds-ratio er lig med krydsproduktforholdet κ ad bc Gamma koefficienten for 2 x 2 tabeller γ OR OR 1 + 1 16
Gamma koefficienten Definition af positiv og negativ sammenhæng p C sandsynligheden for at en sammenligning mellem to personer resulterer i konkordans p D sandsynligheden for at en sammenligning mellem to personer resulterer i diskordans p S sandsynligheden for at en sammenligning mellem to personer resulterer i sammenfald Positiv sammenhæng mellem to variable, hvis p C > p D Negativ sammenhæng hvis p D > p C γ p p C C + p p D D 17
χ 2 -testet En vægtet sum af de kvadrerede residualer. χ 2 e 2 ij ) ( n ij e ij Antal frihedsgrader (df) (antal rækker-1)x(antal søjler -1) 18
To fejltyper: Statistiske fejlslutninger Fejl af type I forekommer, når man forkaster en rigtig nulhypotese. Fejl af type II forekommer, når man accepterer en forkert nul-hypotese. Testets størrelse er lig med sandsynligheden for, at der ikke begås en type I fejl, hvis nul-hypotesen er korrekt, Størrelse P(Nul-hypotesen accepteres Sand nul-hypotese) Styrken er sandsynligheden for, at der ikke bliver begået en type II fejl, hvis nul-hypotesen er forkert, Styrke P(Nul-hypotesen forkastes Falsk nul-hypotese) 19
Det globale χ 2 -test Summen af uafhængige χ 2 fordelte størrelse er χ 2 fordelt. Antallet af frihedsgrader er lig med summen af frihedsgraderne. Den partielle γ-koefficient Et ( vægtet) gennemsnit af γ-koefficienter er derfor også tilnærmelsesvist normalfordelt Den partielle γ-koefficient wγ i i i w i 1 VARi 1 VAR j j 20
Betinget uafhængighed To variable, A og B, er betinget uafhængige givet en eller flere kontrolvariable, C 1,...C k, hvis A og B er uafhængige inden for samtlige de grupper, der kan defineres ved kombinationer af værdier af kontrolvariablene. Symbolsk angives betinget uafhængighed på følgende måde A B C 1,...C k 21
Mantel-Haensel analyser Mantel og Haensel (1959) estimatet af den fælles odds-ratio k ( v ) ω ω MH 1 ω MH er et vægtet gennemsnit af odds-ratio erne fra de enkelte strata. Vægtene er lig med, v bc n bic i i n i 22
Breslow-day test for homogenitet Et klassisk χ 2 test af forskel på det observerede og det forventede. Den forventede tabel: 1) Samme række- og søjlesummer som observeret. 2) Odds-ratio værdierne er lig med ω MH i alle strata Tallene a, b, c, d, erstattes altså at forventede værdier E(a ), E(b ), E(c ), E(d ) for hvilke det gælder at E( a ) E( d ) E( b ) E( c ) ω MH Breslow-Day testet er 2 χ k ( a E( a )) ( b E( b )) ( c E( c )) ( d E( d )) + + + 1 E( a ) E( b ) E( c ) E( d ) 2 2 2 2 Asymptotisk χ 2 fordelt med k-1 frihedsgrader. 23
Cochrans og Mantel-Haensel s test Beregn den observerede og forventede marginale fordeling for de to variable under nul-hypotesen ved at summere samtlige forventede værdier i hver celle henover de forskellige strata. De observerede frekvenser er givet ved a c a, b b, c, d d De forventede værdier er givet ved, F( b) F( b ), F( a) F( a ) F( c) F( c ), F( d) F( d ) Beregn derefter et konventionelt χ 2 test til sammenligning af ovenstående observerede og forventede frekvenser. 24
Z-test og Wald test Wald test for parvise sammenligninger βˆ ˆ b β se a er tilnærmelsesvist fordelt som en standardiseret normalfordeling Wald Z 2 er tilnærmelsesvist fordelt som en χ 2 fordeling med 1 frihedsgrad 25
Wald testet for sammenligning af mere end to grupper Wald testet for hypotesen, at risikoen er den samme i alle grupper, er en generalisering af testet for to grupper. Det er tilnærmelsesvist fordelt som en χ 2 fordeling med et antal frihedsgrader, der er lig med antal grupper minus 1 26
Den logistiske regressionsmodel Y binær afhængig variabel med to udfald kodet som 0 eller 1 X 1, X 2, X 3, X k er afhængige variable i e P(Y 1 X,.., X ) i 1 + e α+ β x +β x x i i ab a b 1 k α+ β x +β x x i i ab a b Hvor produktledet fortæller, at der er interaktion mellem x a og x b Hvis X er en kategorivariabel kan man skrive e P(Y 1 X x) 1 + e α+β x α+β x 27
H 28