Dagens program Kapitel 7 Introduktion til statistik Organisering af data Diskrete variabler Kontinuerte variabler Beskrivende statistik Fraktiler Gennemsnit Empirisk varians og spredning Empirisk korrelationkoe cient 1
Introduktion til statistik Kvantitative Metoder 1 - Forår 2007 Anden del af kurset drejer sig om statistik, hvor data kommer til at spille en central rolle. Hvorfor er statistik nyttigt? Statistik drejer sig blandt andet om, hvad vi kan lære om en population ud fra en stikprøve. I de sandsynlighedsteoretiske (og økonomiske modeller) har vi antaget, at parameterne er kendte (f.eks. X Poisson(m), hvor m = 0; 1). I praksis viser det sig, at for en række modeller kender vi ikke parameteren. En vigtig del af statistik handler om, at man, baseret på en stikprøve, vil give et "gæt"på, hvad den "sande"ukendte parameter er. Da man ikke kan nde den sande parameter men kun et "gæt"(estimat) på parameteren, er det nødvendigt at opstille regler for, hvordan man vurderer et sådan "gæt". I dette kursus behandles emnerne: Estimation og Hypotesetest. 2
Organisering af data Kvantitative Metoder 1 - Forår 2007 Diskrete variabler Diskrete variabler er variabler, som kan inddeles i kategorier (f.eks. køn, alder, kommune, land). Disse variabler kaldes også kvalitative variabler. Diskrete variabler kan lettest organiseres i Tabeller, hvor frekvensen af de enkelte kataegorier angives Søjlediagrammer Er der mere end en variabel, kan man anvende kontingenstabeller, hvor de simultane frekvenser angives. Eksempel (data fra Danmarks Statistik): Data: registeroplysninger om 1.789 personer i alderen 25-74 år i 1994. Variabler: køn (mand eller kvinde) og højeste fuldførte uddannelse (antal års uddannelse). 3
Kontinuerte variabler Kontinuerte variabler er variabler, der kan måles på en skala som f.eks. indkomst, priser, renter. Disse variabler kaldes også kvantitative variabler. Kontinuerte variabler kan lettest organiseres i: Histogrammer Tabeller, hvor den kontinuerte variabel inddeles i intervaller Er der mere end en variabel, kan man anvende et krydsplot til at vise data. Eksempel (data fra Danmarks Statistik, fortsat): Data: registeroplysninger om 1.789 personer i alderen 25-74 år i 1994. Variabler: indkomst (i kr.) og alder (i år). Tabeller kan laves i SAS ved f.eks. at anvende PROC FREQ 4
Data analyse Man bør altid undersøge sit datasæt grundigt, inden man begynder at bruge det. Er der ekstreme observationer (Outliers) i data? Er nogle af variablene trunkeret? Outliers kan skyldes fejl i data, eller blot at der ndes ekstreme (men rigtige) observationer. Eksempel (data fra Danmarks Statistik, fortsat): Uddannelsesvariablen har mange individer med 0 års uddannelse. Hvordan kan det opstå? Indkomstvariablen er trunkeret ved 500.000 kr. Histogrammer kan laves ved at anvende PROC UNIVARIATE. 5
Beskrivende statistik Kvantitative Metoder 1 - Forår 2007 For de kontinuerte variabler ndes en række mål, som kan bruges til at beskrive data. Disse mål forsøger at beskrive beliggenheden og spredningen af data. Disse mål giver ikke mening for kvalitative variabler som f.eks. køn eller kommune. Fraktiler Antag at stikprøven består af n observationer: (X 1 ; X 2 ; :::X n ) af en kontinuert variabel. Observationerne kan så ordnes efter størrelse, således at X (1) er den mindste observation, X (2) er den næstmindste observation osv. (X (1) ; X (2) ; X (3) ; :::X (n) ) kaldes den ordnede stikprøve. Den miderste observation kaldes sample median, X. ~ 8 < X ([n+1]=2) for n ulige ~X = : 1 (X 2 (n=2) + X (n=2+1) ) for n lige 6
Hvis man har store mængder af data, kan det være nyttigt også at se på kvartilerne. Kvartilerne de neres på tilsvarende måde ved at inddele data i re dele. Antag at n er givet ved: n = 4m + 1, hvor m = 1; 2; 3; :: 1. Kvartil Q 1 = X ([n+3]=4) 2. Kvartil Q 2 = ~ X = X ([n+1]=2) 3. Kvartil Q 3 = X ([n+1] [n+3]=4) Eksempel: n = 81 : Q 1 = X (21) ; Q 2 = X (42) ; Q 3 = X (61) For store datasæt kan man anvende percentiler. Igen de neres percentilerne således, at for den 37. percentil x 0;37 er ca. 37% af observationerne mindre end x 0;37 og ca. 63% større. 7
Statistikker Der ndes nogle mål (statistikker) baseret på ordnede stikprøver Variationsområdet : X (n) X (1) Kvartilafstanden IQR : Q 3 Q 1 Midt variationsområde : 1=2(X (1) + X (n) ) Midtkvartil : 1=2(Q 1 + Q 3 ) Oftest anvendes følgende 5 statistikker til at beskrive data fra en variabel: Median ~ X, 1. og 3. kvartil Q 1 og Q 3, største og mindste observation X (n) og X (1) Box-plot Diagram (eller kassediagram) er en gra sk fremstilling af de 5 statistikker. 8
Eksempel (data fra Danmarks Statistik, fortsat): Box-plot kan laves i SAS ved at anvende PROC BOXPLOT: Linien (vandrette): Median Kassen: 1. og 3. kvartil Stregen (lodrette): Største og mindste observation Krydset (i SAS): Gennemsnittet 9
Gennemsnit Gennemsnittet er også et mål til at beskrive beliggenheden af fordelingen. Gennemsnittet (sample mean) er de neret ved X = 1 nx X i n For data, hvor frekvenserne f j for de enkelte udfald x j j = 1; :::k er opgivet, kan gennemsnittet beregnes som X = 1 kx f j x j n i=1 j=1 10
Eksempel: Antag at data for X er: 1; 2; 3; 2; 2; 5; 5; 3; 1; 4: Data kan også organiseres i en frekvenstabel x j 1 2 3 4 5 f j 0.2 0.3 0.2 0.1 0.2 Gennemsnittet er 1 (1 + 2 + 3 + 2 + 2 + 5 + 5 + 3 + 1 + 4) = 2:3 10 1 (0:1 1 + 0:3 2 + 0:2 3 + 0:1 4 + 0:2 5) = 2:3 10 11
Gennemsnit og median Både gennemsnittet og medianen angiver beliggenheden af stikprøven. Hvad er bedst at anvende?: Medianen er mere robust overfor ekstreme observationer Gennemsnittet anvender alle observationer e cient Store forskelle på medianen og gennemsnittet tyder på, at stikprøven stammer fra en ikke-symmetrisk fordeling. 12
Spredningsmål Et mål for spedningen kan baseres på afvigelser mellem observationerne og gennemsnittet. For at motivere hvorledes variansen skal de neres, kunne man forestille sig, at variansen er givet ved V = 1 nx (X i X) 2 n Formuleret ved frekvenser kan variansen udtrykkes som V = 1 kx f j (x j X) 2 n i=1 j=1 Variansen kan også udtrykkes på følgende måde V = V = 1 nx X 2 i n i=1 X 2 13
I praksis viser det sig, at det er "smartere"(af grunde som vil fremgå i kapitel 9.1) at de nere den empiriske varians (sample variansen) som S 2 = 1 nx (X i X) 2 = n n 1 n 1 V i=1 Forskellen mellem V og S er lille, når n er stor. Ud fra den empiriske varians kan man udregne den empiriske spredning som v u S = t 1 nx (X i X) 2 n 1 i=1 Sample mean deviation (gennemsnitlige afvigelse) m:a:d: = 1 nx jx i n i=1 Xj 14
Lineær transformation Gennemsnit og empirisk spredning kan ndes for en lineær transformation af variablen X: Y = a + bx Y = a + b X; S Y = jbjs X 15
Korrelationer Den empiriske korrelation kan også beregnes. Først angives den empiriske kovarians C X;Y = 1 nx (X i X)(Yi 1 nx Y ) = X i Y i X Y n n i=1 Den empiriske korrelationskoe cient r = C X;Y p VX V Y = r Pn P n i=1 X iy i i=1 n X Y i=1 X2 i n X 2 P n i=1 Y 2 i n Y 2 1 til at dividere med i varians- Bemærk at r ikke afhænger af, om vi bruger n eller n udtrykkene. 16
Eksempel (data fra Danmarks Statistik, fortsat): I eksemplet fra tidligere med data fra Danmarks Statistik kan man anvende proceduren PROC UNIVARIATE i SAS til at få lavet den relevante beskrivende statistik. X S ~ X Q1 Q 3 IQR min max Bruttoindkomst 187.548 98.553 176.930 118.904 238.030 114.126 1 500.000 Alder 46,27 13,71 45 34 56 22 25 74 Empirisk korrelationskoe cient mellem alder og bruttoindkomst kan udregnes med PROC CORR og bestemmes til r = 0; 206 17
Opsummering Organisering af data Beskrivende statistik (Fraktiler, gennemsnit, empiriske varians og korrelationskoe cient) 18
Næste gang Mandag gennemgås afsnit 8.1-8.3: Tilfældig stikprøve (8.1) Likelihood funktionen (8.2) Su ciente statistikker (8.3) 19