Program for i dag: Kvantitative metoder Beskrivende statistik og analyse af kvalitatitive data 1. februar 007 Test i multinomialfordelingen: Q-testet (BL.13.1-) Opsamling fra sidste gang To eksempler To-dimensionale kontingenstabeller (BL.13.5) x tabeller Generelle r x c tabeller Test af uafhængighed og homogenitet Ex: Ledelsestransitioner i danske virksomheder Kvantitative metoder : F3 1 Kvantitative metoder : F3 1
Analyse af to-dimensionale kontingenstabeller Analyse af to-dimensionale kontingenstabeller: x tilfældet Krydser to kategoriserede variabler, X og Y Ex. (fortsat fra sidste gang): Bennedsen mfl. Ledelsestransitioner i familieejede virksomheder To typer af transitioner: Familie eller ej-familie To værdier af kønnet på afgående direktørs førstefødte barn: Pige eller dreng x tabel: Begge variabler har to kategorier Danske virksomheder fordelt efter køn på afgående direktørs førstefødte barn og transitionstype Pige Dreng Familie 704 1084 1788 Ejfamilie 1745 1691 3436 449 775 54 Generel notation: n antal udfald hvor X=i og Y=j n i+ antal udfald hvor X=i = n i1 + n i n +j antal udfald hvor Y=j = n 1j + n j Estimat af sandsynlighed i den simultane fordeling af X og Y: Estimat af marginale sandsynligheder: X=1 X= Y=1 n 11 n 1 n +1 pˆ = n / n Y= n 1 n n + pˆ = n / n og pˆ = n / n i+ i+ + j + j n 1+ n + n Kvantitative metoder : F3 3 Kvantitative metoder : F3 4
Analyse af to-dimensionale kontingenstabeller: x tilfældet Analyse af to-dimensionale kontingenstabeller: x tilfældet Uafhængighed mellem X og Y: Hvis og kun hvis for alle i og j: p = p p i+ + j Test af H 0 : Uafhængighed overfor H 1 : Generel form for afhængighed Testet baseret på sammenligning af urestrikterede sandsynligheder og sandsynligheder pålagt uafhængighedsantagelsen. Urestrikteret Y=1 Y= X=1 X= Under uafhængighed X=1 X= p 11 p 1 p 1 p p +1 p + Y=1 Y= p 1+ p +1 p 1+ p + p + p +1 p + p + p +1 p + p 1+ p + 1 p 1+ p + 1 Under H 0 : Uafhængighed bliver den forventede cellefrekvens: 0 n n n n i+ e ˆ ˆ ˆ = np = npi+ p+ j = n = n n n + j i+ + j hvor estimaterne af de marginale sandsynligheder er sat ind. Forventede cellefrekvenser med kursiv Danske virksomheder fordelt efter køn på afgående direktørs førstefødte barn og transitionstype: n og e Familie Ejfamilie Pige Dreng 704 838. 1084 949.8 1788 1745 1610.8 1691 185. 3436 449 775 54 Kvantitative metoder : F3 5 Kvantitative metoder : F3 6 3
Analyse af to-dimensionale kontingenstabeller: x tilfældet Analyse af to-dimensionale kontingenstabeller: rxc tilfældet Q-testet for uafhængighed for x tabel: ( n e ) (704 838.) (1745 1610.8) (1084 949.8) (1691 185.) Q = = + + + e 838. 1610.8 949.8 185. i= 1 j= 1 * Under H0 : X og Y uafhængige er Q χ (1) asymp. i ekse H0 mplet. afvises for store værdier. Antal frihedsgrader i testet: Den urestrikterede x tabel har 3 frie sandsynligheder (summen er lig 1) Den restrikterede x tabel har frie (marginale) sandsynligheder. Eller brug generelt resultat for parametrisk multinomialfordeling: Antal frihedsgrader = k 1 r = 1, hvor k = 4 og r = : antal parametre under H (de to marginalsandsynligheder). 0 Q-testet for uafhængighed for rc x tabel (NB. BL "genbruger" symbolet r): r c ( n e ) Q = e i= 1 j= 1 * Under H : X og Y uafhængige er Q χ (( r 1)( c 1)) asymp. H afvises for store værdier. 0 0 Antal frihedsgrader i testet: Brug generelt resultat for parametrisk multinomialfordeling: Antal frihedsgrader = k 1 f, hvor k = rc og f er antal parametre under H0: r 1 frie rækkesandsynligheder og c 1 frie kolonnesandsynligheder. Samlet: k 1 f = rc 1 ( r 1) ( c 1) = ( r 1)( c 1) FAMTRANS.SAS beregner testet Q = 61.05. Konklusion: H afvises meget markant! 0 Kvantitative metoder : F3 7 Kvantitative metoder : F3 8 4
Analyse af to-dimensionale kontingenstabeller: Homogenitetstestet I uafhængighedstestet betragtes stikprøven som et tilfældigt udvalg, hvor (X,Y) kombinationen registreres for hvert individ. Alternativ betragtning: Analysere fordelingen af udfaldene over Y for r givne værdier af X. Relevant i tilfælde, hvor værdien af X kan kontrolleres: Fx udtrækkes lige mange personer af hvert køn til stikprøven. Teste om de r betingede fordelinger af Y er ens. Hypotesen kan formuleres som No difference between subpopulations eller homogenitetshypotesen Q-testet er uændret i forhold til uafhængighedstestet. Antal frihedsgrader i testet også uændret. Resume og NB er: Beskrivende statistisk analyse for at undersøge datasættets struktur (grafisk eller som tabel) Introducere et nyt statistisk redskab til analysen: Fordelinger af kategoriserede data. Q-testet til test af simple hypoteser på sandsynligheder Q-testet til test af sammensatte hypoteser i kontingenstabel: Estimation af frie parametre under nulhypotesen giver reduktion i antal frihedsgrader Test for uafhængighed og homogenitet er formelt ækvivalente, men afspejler forskellig fortolkning af data. Kvantitative metoder : F3 9 Kvantitative metoder : F3 10 5
Hvad bliver det næste? Næste forelæsning: Onsdag den 14. februar: Lineær regression. W. Øvelserne: Begynder i denne uge. Læs Ugeseddel 1 Kast et blik på Varians kap. 6 om forbrugerens problem NB: Hold 1: Øvelser flyttet til onsdag kl. 15-18 i Større Øvelsessal Kvantitative metoder : F3 11 6