Kvantitative metoder 2

Relaterede dokumenter
Kvantitative metoder 2

Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Konfidensintervaller og Hypotesetest

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Tema. Dagens tema: Indfør centrale statistiske begreber.

Kvantitative Metoder 1 - Forår Dagens program

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Løsning eksamen d. 15. december 2008

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Basal Statistik Kategoriske Data

Statistiske Modeller 1: Kontingenstabeller i SAS

MATEMATIK A-NIVEAU. Anders Jørgensen & Mark Kddafi. Vejledende eksempler på eksamensopgaver og eksamensopgaver i matematik, 2012

Kvantitative metoder 2

Normalfordelingen og Stikprøvefordelinger

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Vejledende besvarelser til opgaver i kapitel 15

Multipel Lineær Regression

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Diskrete fordelinger. Fire vigtige diskrete fordelinger: 1. Uniform fordeling (diskret) 2. Binomial fordeling. 3. Hyper-geometrisk fordeling

Løsning til eksaminen d. 29. maj 2009

En Introduktion til SAS. Kapitel 5.

Løsning til eksamen d.27 Maj 2010

Sandsynlighed og Statistik

Økonometri 1. Dummyvariabler 13. oktober Økonometri 1: F10 1

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

Binomialfordelingen. X ~ bin(n,p): X = antal "succeser" i n uafhængige forsøg, der alle har samme sandsynlighed p for at ende med succes.

Repetition. Diskrete stokastiske variable. Kontinuerte stokastiske variable

Kønsproportion og familiemønstre.

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Løsning til eksaminen d. 14. december 2009

Partinavn Antal stemmer Kønsfordeling Antal stemmer Kvinde 533 Grand Total 667 Mand 126 Grand Total 659 Stemmefordeling

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Postoperative komplikationer

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Kvantitative Metoder 1 - Efterår Dagens program

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Teoretisk Statistik, 2. december Sammenligning af poissonfordelinger

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Morten Frydenberg 26. april 2004

Bernoullis differentialligning v/ Bjørn Grøn Side 1 af 10

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Personlig stemmeafgivning

Kvantitative Metoder 1 - Efterår Dagens program

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Sammenligning af kvaliteten af kommunernes sagsbehandling 06:2006 ARBEJDSPAPIR. Martin Rasmussen. Forslag til metode

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Kvantitative Metoder 1 - Forår 2007

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Statistisk mekanik 1 Side 1 af 11 Introduktion. Indledning

Preben Blæsild og Jens Ledet Jensen

Transkript:

Program for i dag og næste gang: Kvantitative metoder Besrivende statisti og analyse af valitatitive data 7. februar 007 Besrivende statisti som grundlag for en øonometris analyse Statistise metoder til analyse af valitative data Test i multinomialfordelingen: Q-testet (BL.3.-) To-dimensionale ontingenstabeller (BL.3.5) x tabeller r x c tabeller Test af uafhængighed og homogenitet Kvantitative metoder : F Kvantitative metoder : F

Besrivende statisti Redsaber til besrivende statisti (BL.7) Formål: At analysere og doumentere datasættets strutur Relevante spørgsmål: Hvile typer af individer (personer, firmaer, lande,..)? Hvilen perioder/hvilet land/region? Hvad er de væsentligste arateristia: Fx udeluende vinder: Uegnet til analyse af disrimination Fx udeluende OECD-lande: Uegnet til analyse af bistand Fx udeluende små virsomheder: Uegnet til analyse af forsning og udviling i erhvervslivet. Fel og mangler: Er der set trunering? Er der outliers i data? Doumenteres af en besrivende analyse. Analytise grafise redsaber: Krydsplots af ontinuerte variabler (Proc GPLOT) Histogram (Proc UNIVARIATE) Analytise tabeller: Beregning af besrivende statisti for ontinuerte og valitative variabler (Proc MEANS) Krydstabulering af ategoriserede variabler (Proc FREQ) Esempel: Datasæt til analyse af effeten af politiovervågning på øonomis riminalitet (biltyverier) (anuar 007-opgaven i Øonometri ) Kvantitative metoder : F 3 Kvantitative metoder : F 4

Analyse af valitative data: Fordelinger af ategoriserede variabler En variabel med to udfald: BL.4. Binomial fordelt, Y Bin( n, p ) Ofte indeholder datasættet en eller flere ategoriserede variabler: Hver enelt observation falder i én af i alt gensidigt udeluende ategorierer (en lassedeling). Kategorierne er ie (nødvendigvis) ordnede. Må nødvendigvis behandles som en valitativ variabel Esempler i dag: Ex: Kønsproportioner Ex: Valg nu? Ex: Kønsproportioner i store (!) familier Har det statistise grundlag for at analysere og teste hypoteser på fordelingen over ategorier: Multinomialfordelingen (BL.4.8). Kategori Sum Sandsynlighed p p p + p = Frevens Y Y Y + Y = n Kvantitative metoder : F 5 Kvantitative metoder : F 6 3

En variabel med to udfald En variabel med to udfald Y Bin( n, p ), p er uendt parameter ( p = p ) * Bedste estimat (søn) på p ud fra de fatise udfald: pˆ = Y /n * Ønser at teste, at p har en bestemt værdi: H : p = π 0 overfor et tosidet alternativ: H : p π * Z test (BL.0.3): pˆ E( pˆ ˆ H 0) p π Y / n π Y / n π Z = = = = sd..( pˆ H ) se..( pˆ H ) π ( π ) / n π π / n 0 0 Teststatistien Z er fordelt som N (0,) asymptotis (i store stiprøver) * For at generalisere til flere udfald ser vi på Z, som er asymptotis fordelt χ () (læses: chi-i-anden med frihedsgrad). Stor værdi af Z er ritise for H. Fx hvis man vælger et 5 pct. signifiansniveau vil H blive afvist for 3.84. 0 Z > 0 Z Z med to udfald: Y / n π ( Y / n π) ( Y nπ) = = = / / n ππ ππ n nππ π + π = = + nππ nππ nπ nπ Udnyt at til at srive: Z ( Y nπ ) ( Y nπ ) ( Y nπ ) ( Y nπ ) ( Y nπ ) = = + = + nππ nπ nπ nπ nπ hvor sidste lighedstegn benytter: ( Y nπ ) = [ n Y n( π )] = ( Y nπ ) (*) (*) er på en form så den generaliserer til tilfældet med flere end to udfald. Kvantitative metoder : F 7 Kvantitative metoder : F 8 4

En variabel med to udfald: Esempel: Kønsproportioner (BL.ex.3.a) Esempler på øonomise modeller med børnefødsler og ønsproportioner Ser på nulhypotesen: H 0 : π = 0.5 overfor H : π 0.5 (95 75.4) (50 69.6) Z = + 45* 0.5 45* 0.48 = 0.6 Kritis værdi: χ () 0.95 = 3.84 Z = 0.6 >χ () 0.95 = 3.84 Konlusion: Forast H 0 på et 5% signifiansniveau. Kategori Sum Sandsyn lighed under H 0 0.50 0.480 π Forventet frevens nπ 75.4 69.6 45 Observeret frevens 95 50 45 Y Kvinders arbedsudbud Analyseret af mange, bl.a. Browning. US: Fødsler påvirer vinders arbedsudbud senere i arrieren, størrelsen af effeten er omstridt. Heller ie aflaret, hvilen retning effeten (primært) går: Er det (forventet) fremtidig løn og besæftigelse, der påvirer den atuelle fertilitet? Ledelsestransitioner i familieeede virsomheder: Analyseret af Bennedsen mfl. på et stort antal danse firmaer Videreførelse af ledelsesposter indenfor familien ser oftere i firmaer, hvor eerens/lederens førstefødte barn er en dreng. Kønnet på den førstefødte er tilfældigt og uden relation til øonomise variabler og valg: Nyttig information for den øonometrise analyse! Kvantitative metoder : F 9 Kvantitative metoder : F 0 5

En variabel med udfald: Multinomialfordelingen En variabel med udfald BL.4.8: Multinomialfordelingen * Kategoriseret variabel X med forsellige udfald: A, A,..., A = og sandsynligheder p, p,..., p, hvor p = og p > 0. * Ser på en sevens af n uafhængige træninger af X. * Udfaldet A foreommer med frevensen Y ( Y gange). * Y stoastis variabel som er fordelt Y Bin( n, p ) * Den fælles fordeling af Y, Y,..., Y er multinomial. Ser på nulhypotesen: Kategori Sandsynlighed under H 0 H0 : p =π, p =π,..., p =π overfor H : Generelt alternativ. π Fx. H0 : p = / π Pearson's χ eller Q-testet: ( Y ) - nπ Q = = nπ Sum Under H0 : Q χ ( ) asymp. : antal frihedsgrader i testet ( = for binomialfordeling) π π Forventet Frevens nπ nπ nπ nπ n Observeret frevens n Y Y Y Y OK approximation hvis nπ 5 for alle Kvantitative metoder : F Kvantitative metoder : F 6

En variabel med udfald: Opdatering af esempel i AFJM.7: Megafonmåling 6/-07 En variabel med udfald: Megafon meningsmåling Parti/måling -5/ 007 Frevens Valget 005 Soc. dem. 8,4% 46 5,8% Rad. V. 9,% 80 9,% Kons. 0,5% 90 0,3% CD 0,%,0% SF 8,6% 75 6,0% Kristendem.,0% 9,7% DF,6% 09 3,3% Venstre 5,8% 4 9,0% EL 3,4% 9 3,4% Andre 0,4% 3 0,3% I alt 00% 867 00% Er der set signifiante forsydninger siden valget i 005? H 0 : Ingen forsydning vs. H : Forsydning af generel art VALG.SAS Kategori Soc.dem. Rad.V. Enhedsl. Andre Sum Sandsynlighed under H 0 0.58 0.09 0.034 0.004.000 Forventet Frevens 867*0.58=3 867*0.09=80 867*0.034=9 867*0.003=3 867 Observeret frevens 46 80 9 3 867 Kvantitative metoder : F 3 Kvantitative metoder : F 4 7

En variabel med udfald: r uendte parametre i multinomialfordelingen En variabel med udfald: r uendte parametre i multinomialfordelingen Parametris multinomialfordeling og "goodness of fit": Anden type af spørgsmål * Kategoriseret variabel X med forsellige udfald: A, A,..., A og sandsynligheder p, p,..., p, hvor p = og p = > 0. r p θ θ θ r * Sandsynlighederne afhænger af et lille antal parametre, (,,..., ) * Den observerede fordeling af udfaldene an sammenlignes med den postulerede fordeling ved at de uendte parametre estimeres på stiprøven og estimerede sandsynligheder beregnes: pˆ = p ( θˆ, θˆ,..., θˆ ) r * Q-testet bliver da et "goodness of fit" test: Q = = ( Y n pˆ ) npˆ * Under H0 : p = p( θ, θ,..., θr) er Q χ ( r) asymp. Der tabes yderligere r frihedsgrader i testet. Ex. Kønsproportioner i store (!) familier: BL.Ex3.b.xls (regnear) Kvantitative metoder : F 5 Kvantitative metoder : F 6 8

Hvad bliver det næste? Næste forelæsning: Mandag den. februar: Mere om analyse af valitative data. Uafhængigheds- og homogenitetstest. BL.3.5, AFJM.7. Øvelserne: Begynder i næste uge. Ugeseddel : På hemmesiden fra fredag. NB: Hold : Øvelser flyttet til onsdag l. 5-8 i Større Øvelsessal Kvantitative metoder : F 7 9