Kvantitative metoder 2 Beskrivende statistik og analyse af kvalitatitive data 12. februar 2007 Kvantitative metoder 2: F3 1
Program for i dag: Test i multinomialfordelingen: Q-testet (BL.13.1-2) Opsamling fra sidste gang To eksempler To-dimensionale kontingenstabeller (BL.13.5) 2 x 2 tabeller Generelle r x c tabeller Test af uafhængighed og homogenitet Ex: Ledelsestransitioner i danske virksomheder Kvantitative metoder 2: F3 2
Analyse af to-dimensionale kontingenstabeller Krydser to kategoriserede variabler, X og Y Ex. (fortsat fra sidste gang): Bennedsen mfl. Ledelsestransitioner i familieejede virksomheder To typer af transitioner: Familie eller ej-familie To værdier af kønnet på afgående direktørs førstefødte barn: Pige eller dreng 2x2 tabel: Begge variabler har to kategorier Danske virksomheder fordelt efter køn på afgående direktørs førstefødte barn og transitionstype Pige Dreng Familie 704 1084 1788 Ejfamilie 1745 1691 3436 2449 2775 5224 Kvantitative metoder 2: F3 3
Analyse af to-dimensionale kontingenstabeller: 2x2 tilfældet Generel notation: Y=1 Y=2 n ij antal udfald hvor X=i og Y=j n i+ antal udfald hvor X=i = n i1 + n i2 n +j antal udfald hvor Y=j = n 1j + n 2j X=1 X=2 n 11 n 21 n +1 n 12 n 22 n +2 n 1+ n 2+ n Estimat af sandsynlighed i den simultane fordeling af X og Y: pˆ = n / n ij ij Estimat af marginale sandsynligheder: pˆ = n / n og pˆ = n / n i+ i+ + j + j Kvantitative metoder 2: F3 4
Analyse af to-dimensionale kontingenstabeller: 2x2 tilfældet Uafhængighed mellem X og Y: Hvis og kun hvis for alle i og j: p = p p ij i+ + j Test af H 0 : Uafhængighed overfor H 1 : Generel form for afhængighed Testet baseret på sammenligning af urestrikterede sandsynligheder og sandsynligheder pålagt uafhængighedsantagelsen. Urestrikteret Y=1 Y=2 X=1 X=2 Marg. Under uafhængighed X=1 X=2 Marg. p 11 p 12 p 21 p 22 p +1 p +2 Y=1 Y=2 p 1+ p +1 p 1+ p +2 p 2+ p +1 p 2+ p +2 p +1 p +2 Marg. p 1+ p 2+ 1 Marg. p 1+ p 2+ 1 Kvantitative metoder 2: F3 5
Analyse af to-dimensionale kontingenstabeller: 2x2 tilfældet Under H 0 : Uafhængighed bliver den forventede cellefrekvens: 0 n n n n i+ e ˆ ˆ ˆ ij = npij = npi+ p+ j = n = n n n + j i+ + j hvor estimaterne af de marginale sandsynligheder er sat ind. Danske virksomheder fordelt efter køn på afgående direktørs førstefødte barn og transitionstype: n ij og e ij Familie Ejfamilie Pige 704 838.2 1745 1610.8 2449 Forventede cellefrekvenser med kursiv Dreng 1084 949.8 1691 1825.2 2775 1788 3436 5224 Kvantitative metoder 2: F3 6
Analyse af to-dimensionale kontingenstabeller: 2x2 tilfældet Q-testet for uafhængighed for 2x2 tabel: 2 2 ( nij eij ) (704 838.2) (1745 1610.8) (1084 949.8) (1691 1825.2) Q = = + + + e 838.2 1610.8 949.8 1825.2 i= 1 j= 1 ij 2 2 2 2 2 H X Y Q 2 * Under 0 : og uafhængige er χ (1) asymp. i ekse H0 mplet. afvises for store værdier. Antal frihedsgrader i testet: Den urestrikterede 2x2 tabel har 3 frie sandsynligheder (summen er lig 1) Den restrikterede 2x2 tabel har 2 frie (marginale) sandsynligheder. Eller brug generelt resultat for parametrisk multinomialfordeling: Antal frihedsgrader = k 1 r = 1, hvor k = 4 og r = 2 : antal parametre under H (de to marginalsandsynligheder). 0 FAMTRANS.SAS beregner testet Q = 61.05. Konklusion: H afvises meget markant! 0 Kvantitative metoder 2: F3 7
Analyse af to-dimensionale kontingenstabeller: rxc tilfældet Q-testet for uafhængighed for rx c tabel (NB. BL "genbruger" symbolet r): Q = r c ( n e ) ij e i= 1 j= 1 ij ij 2 * Under H : X og Y uafhængige er Q χ (( r 1)( c 1)) asymp. H afvises for store værdier. 2 0 0 Antal frihedsgrader i testet: Brug generelt resultat for parametrisk multinomialfordeling: Antal frihedsgrader = k 1 f, hvor k = rc og f er antal parametre under H0: r 1 frie rækkesandsynligheder og c 1 frie kolonnesandsynligheder. Samlet: k 1 f = rc 1 ( r 1) ( c 1) = ( r 1)( c 1) Kvantitative metoder 2: F3 8
Analyse af to-dimensionale kontingenstabeller: Homogenitetstestet I uafhængighedstestet betragtes stikprøven som et tilfældigt udvalg, hvor (X,Y) kombinationen registreres for hvert individ. Alternativ betragtning: Analysere fordelingen af udfaldene over Y for r givne værdier af X. Relevant i tilfælde, hvor værdien af X kan kontrolleres: Fx udtrækkes lige mange personer af hvert køn til stikprøven. Teste om de r betingede fordelinger af Y er ens. Hypotesen kan formuleres som No difference between subpopulations eller homogenitetshypotesen Q-testet er uændret i forhold til uafhængighedstestet. Antal frihedsgrader i testet også uændret. Kvantitative metoder 2: F3 9
Resume og NB er: Beskrivende statistisk analyse for at undersøge datasættets struktur (grafisk eller som tabel) Introducere et nyt statistisk redskab til analysen: Fordelinger af kategoriserede data. Q-testet til test af simple hypoteser på sandsynligheder Q-testet til test af sammensatte hypoteser i kontingenstabel: Estimation af frie parametre under nulhypotesen giver reduktion i antal frihedsgrader Test for uafhængighed og homogenitet er formelt ækvivalente, men afspejler forskellig fortolkning af data. Kvantitative metoder 2: F3 10
Hvad bliver det næste? Næste forelæsning: Onsdag den 14. februar: Lineær regression. W.2 Øvelserne: Begynder i denne uge. Læs Ugeseddel 1 Kast et blik på Varians kap. 6 om forbrugerens problem NB: Hold 1: Øvelser flyttet til onsdag kl. 15-18 i Større Øvelsessal Kvantitative metoder 2: F3 11