Program for i dag og næste gang: Kvantitative metoder Besrivende statisti og analyse af valitatitive data 7. februar 007 Besrivende statisti som grundlag for en øonometris analyse Statistise metoder til analyse af valitative data Test i multinomialfordelingen: Q-testet (BL.3.-) To-dimensionale ontingenstabeller (BL.3.5) x tabeller r x c tabeller Test af uafhængighed og homogenitet Kvantitative metoder : F Kvantitative metoder : F
Besrivende statisti Redsaber til besrivende statisti (BL.7) Formål: At analysere og doumentere datasættets strutur Relevante spørgsmål: Hvile typer af individer (personer, firmaer, lande,..)? Hvilen perioder/hvilet land/region? Hvad er de væsentligste arateristia: Fx udeluende vinder: Uegnet til analyse af disrimination Fx udeluende OECD-lande: Uegnet til analyse af bistand Fx udeluende små virsomheder: Uegnet til analyse af forsning og udviling i erhvervslivet. Fel og mangler: Er der set trunering? Er der outliers i data? Doumenteres af en besrivende analyse. Analytise grafise redsaber: Krydsplots af ontinuerte variabler (Proc GPLOT) Histogram (Proc UNIVARIATE) Analytise tabeller: Beregning af besrivende statisti for ontinuerte og valitative variabler (Proc MEANS) Krydstabulering af ategoriserede variabler (Proc FREQ) Esempel: Datasæt til analyse af effeten af politiovervågning på øonomis riminalitet (biltyverier) (anuar 007-opgaven i Øonometri ) Kvantitative metoder : F 3 Kvantitative metoder : F 4
Analyse af valitative data: Fordelinger af ategoriserede variabler En variabel med to udfald: BL.4. Binomial fordelt, Y Bin( n, p ) Ofte indeholder datasættet en eller flere ategoriserede variabler: Hver enelt observation falder i én af i alt gensidigt udeluende ategorierer (en lassedeling). Kategorierne er ie (nødvendigvis) ordnede. Må nødvendigvis behandles som en valitativ variabel Esempler i dag: Ex: Kønsproportioner Ex: Valg nu? Ex: Kønsproportioner i store (!) familier Har det statistise grundlag for at analysere og teste hypoteser på fordelingen over ategorier: Multinomialfordelingen (BL.4.8). Kategori Sum Sandsynlighed p p p + p = Frevens Y Y Y + Y = n Kvantitative metoder : F 5 Kvantitative metoder : F 6 3
En variabel med to udfald En variabel med to udfald Y Bin( n, p ), p er uendt parameter ( p = p ) * Bedste estimat (søn) på p ud fra de fatise udfald: pˆ = Y /n * Ønser at teste, at p har en bestemt værdi: H : p = π 0 overfor et tosidet alternativ: H : p π * Z test (BL.0.3): pˆ E( pˆ ˆ H 0) p π Y / n π Y / n π Z = = = = sd..( pˆ H ) se..( pˆ H ) π ( π ) / n π π / n 0 0 Teststatistien Z er fordelt som N (0,) asymptotis (i store stiprøver) * For at generalisere til flere udfald ser vi på Z, som er asymptotis fordelt χ () (læses: chi-i-anden med frihedsgrad). Stor værdi af Z er ritise for H. Fx hvis man vælger et 5 pct. signifiansniveau vil H blive afvist for 3.84. 0 Z > 0 Z Z med to udfald: Y / n π ( Y / n π) ( Y nπ) = = = / / n ππ ππ n nππ π + π = = + nππ nππ nπ nπ Udnyt at til at srive: Z ( Y nπ ) ( Y nπ ) ( Y nπ ) ( Y nπ ) ( Y nπ ) = = + = + nππ nπ nπ nπ nπ hvor sidste lighedstegn benytter: ( Y nπ ) = [ n Y n( π )] = ( Y nπ ) (*) (*) er på en form så den generaliserer til tilfældet med flere end to udfald. Kvantitative metoder : F 7 Kvantitative metoder : F 8 4
En variabel med to udfald: Esempel: Kønsproportioner (BL.ex.3.a) Esempler på øonomise modeller med børnefødsler og ønsproportioner Ser på nulhypotesen: H 0 : π = 0.5 overfor H : π 0.5 (95 75.4) (50 69.6) Z = + 45* 0.5 45* 0.48 = 0.6 Kritis værdi: χ () 0.95 = 3.84 Z = 0.6 >χ () 0.95 = 3.84 Konlusion: Forast H 0 på et 5% signifiansniveau. Kategori Sum Sandsyn lighed under H 0 0.50 0.480 π Forventet frevens nπ 75.4 69.6 45 Observeret frevens 95 50 45 Y Kvinders arbedsudbud Analyseret af mange, bl.a. Browning. US: Fødsler påvirer vinders arbedsudbud senere i arrieren, størrelsen af effeten er omstridt. Heller ie aflaret, hvilen retning effeten (primært) går: Er det (forventet) fremtidig løn og besæftigelse, der påvirer den atuelle fertilitet? Ledelsestransitioner i familieeede virsomheder: Analyseret af Bennedsen mfl. på et stort antal danse firmaer Videreførelse af ledelsesposter indenfor familien ser oftere i firmaer, hvor eerens/lederens førstefødte barn er en dreng. Kønnet på den førstefødte er tilfældigt og uden relation til øonomise variabler og valg: Nyttig information for den øonometrise analyse! Kvantitative metoder : F 9 Kvantitative metoder : F 0 5
En variabel med udfald: Multinomialfordelingen En variabel med udfald BL.4.8: Multinomialfordelingen * Kategoriseret variabel X med forsellige udfald: A, A,..., A = og sandsynligheder p, p,..., p, hvor p = og p > 0. * Ser på en sevens af n uafhængige træninger af X. * Udfaldet A foreommer med frevensen Y ( Y gange). * Y stoastis variabel som er fordelt Y Bin( n, p ) * Den fælles fordeling af Y, Y,..., Y er multinomial. Ser på nulhypotesen: Kategori Sandsynlighed under H 0 H0 : p =π, p =π,..., p =π overfor H : Generelt alternativ. π Fx. H0 : p = / π Pearson's χ eller Q-testet: ( Y ) - nπ Q = = nπ Sum Under H0 : Q χ ( ) asymp. : antal frihedsgrader i testet ( = for binomialfordeling) π π Forventet Frevens nπ nπ nπ nπ n Observeret frevens n Y Y Y Y OK approximation hvis nπ 5 for alle Kvantitative metoder : F Kvantitative metoder : F 6
En variabel med udfald: Opdatering af esempel i AFJM.7: Megafonmåling 6/-07 En variabel med udfald: Megafon meningsmåling Parti/måling -5/ 007 Frevens Valget 005 Soc. dem. 8,4% 46 5,8% Rad. V. 9,% 80 9,% Kons. 0,5% 90 0,3% CD 0,%,0% SF 8,6% 75 6,0% Kristendem.,0% 9,7% DF,6% 09 3,3% Venstre 5,8% 4 9,0% EL 3,4% 9 3,4% Andre 0,4% 3 0,3% I alt 00% 867 00% Er der set signifiante forsydninger siden valget i 005? H 0 : Ingen forsydning vs. H : Forsydning af generel art VALG.SAS Kategori Soc.dem. Rad.V. Enhedsl. Andre Sum Sandsynlighed under H 0 0.58 0.09 0.034 0.004.000 Forventet Frevens 867*0.58=3 867*0.09=80 867*0.034=9 867*0.003=3 867 Observeret frevens 46 80 9 3 867 Kvantitative metoder : F 3 Kvantitative metoder : F 4 7
En variabel med udfald: r uendte parametre i multinomialfordelingen En variabel med udfald: r uendte parametre i multinomialfordelingen Parametris multinomialfordeling og "goodness of fit": Anden type af spørgsmål * Kategoriseret variabel X med forsellige udfald: A, A,..., A og sandsynligheder p, p,..., p, hvor p = og p = > 0. r p θ θ θ r * Sandsynlighederne afhænger af et lille antal parametre, (,,..., ) * Den observerede fordeling af udfaldene an sammenlignes med den postulerede fordeling ved at de uendte parametre estimeres på stiprøven og estimerede sandsynligheder beregnes: pˆ = p ( θˆ, θˆ,..., θˆ ) r * Q-testet bliver da et "goodness of fit" test: Q = = ( Y n pˆ ) npˆ * Under H0 : p = p( θ, θ,..., θr) er Q χ ( r) asymp. Der tabes yderligere r frihedsgrader i testet. Ex. Kønsproportioner i store (!) familier: BL.Ex3.b.xls (regnear) Kvantitative metoder : F 5 Kvantitative metoder : F 6 8
Hvad bliver det næste? Næste forelæsning: Mandag den. februar: Mere om analyse af valitative data. Uafhængigheds- og homogenitetstest. BL.3.5, AFJM.7. Øvelserne: Begynder i næste uge. Ugeseddel : På hemmesiden fra fredag. NB: Hold : Øvelser flyttet til onsdag l. 5-8 i Større Øvelsessal Kvantitative metoder : F 7 9