Kvantitative Metoder 1 - Forår 2007. Dagens program

Relaterede dokumenter

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Beskrivende statistik

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Kvantitative Metoder 1 - Forår Dagens program

Forelæsning 1: Intro og beskrivende statistik

Kapitel 3 Centraltendens og spredning

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

Kvantitative Metoder 1 - Forår 2007

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Kvantitative Metoder 1 - Forår Dagens program

Indblik i statistik - for samfundsvidenskab

Deskriptiv statistik for matc i stx og hf

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Modul 1: Beskrivende dataanalyse

Deskriptiv statistik for hf-matc

Fagplan for statistik, efteråret 2015

Løsning til eksamen d.27 Maj 2010

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

En Introduktion til SAS. Kapitel 5.

Lars Andersen: Anvendelse af statistik. Notat om deskriptiv statistik, χ 2 -test og Goodness of Fit test.

Kvantitative Metoder 1 - Efterår Dagens program

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Kvantitative Metoder 1 - Forår 2007

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Kvantitative Metoder 1 - Efterår Dagens program

Dagens program. Praktisk information: Husk evalueringer af kurset

Basal statistik. 30. januar 2007

Kvantitative Metoder 1 - Forår Dagens program

Løsninger til kapitel 1

Kvantitative Metoder 1 - Forår 2007

Kvantitative Metoder 1 - Forår Dagens program

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Statistiske modeller

Kvantitative Metoder 1 - Forår Dagens program

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Kapitel 3 Centraltendens og spredning

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Kvantitative Metoder 1 - Forår 2007

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Dagens program. Praktisk information:

Undervisningsbeskrivelse

Forelæsning 11: Kapitel 11: Regressionsanalyse

2 Populationer. 2.1 Virkelige populationer

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

I. Deskriptiv analyse af kroppens proportioner

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Program dag 2 (11. april 2011)

Deskriptiv Statitik. Judith L. Jacobsen, PhD.

MPH specialmodul Epidemiologi og Biostatistik

Løsning til eksaminen d. 14. december 2009

Basal statistik. 29. januar 2008

Konfidensintervaller og Hypotesetest

IDRÆTSSTATISTIK BIND 1

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Definition. Definitioner

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

Per Vejrup-Hansen STATISTIK. med Excel. 2. udgave

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres)

Statistik II 1. Lektion. Analyse af kontingenstabeller

Normalfordelingen og Stikprøvefordelinger

Løsning eksamen d. 15. december 2008

Basal statistik. 2. september 2008

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Landmålingens fejlteori - Repetition - Kontinuerte stokastiske variable - Lektion 3

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

Antal timer Køn k m k m m k m k m k k k m k k k

Kvantitative metoder 2

(Projektets første del er rent deskriptiv, mens anden del peger frem mod hypotesetest. Projektet kan gemmes til dette emne, eller tages op igen der)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Produkt og marked - matematiske og statistiske metoder

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

3 Stokastiske variable 3.1 Diskrete variable

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

for gymnasiet og hf 2016 Karsten Juul

Statistik Lektion 3. Simultan fordelte stokastiske variable Kontinuerte stokastiske variable Normalfordelingen

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Undervisningsbeskrivelse

Transkript:

Dagens program Kapitel 7 Introduktion til statistik Organisering af data Diskrete variabler Kontinuerte variabler Beskrivende statistik Fraktiler Gennemsnit Empirisk varians og spredning Empirisk korrelationkoe cient 1

Introduktion til statistik Kvantitative Metoder 1 - Forår 2007 Anden del af kurset drejer sig om statistik, hvor data kommer til at spille en central rolle. Hvorfor er statistik nyttigt? Statistik drejer sig blandt andet om, hvad vi kan lære om en population ud fra en stikprøve. I de sandsynlighedsteoretiske (og økonomiske modeller) har vi antaget, at parameterne er kendte (f.eks. X Poisson(m), hvor m = 0; 1). I praksis viser det sig, at for en række modeller kender vi ikke parameteren. En vigtig del af statistik handler om, at man, baseret på en stikprøve, vil give et "gæt"på, hvad den "sande"ukendte parameter er. Da man ikke kan nde den sande parameter men kun et "gæt"(estimat) på parameteren, er det nødvendigt at opstille regler for, hvordan man vurderer et sådan "gæt". I dette kursus behandles emnerne: Estimation og Hypotesetest. 2

Organisering af data Kvantitative Metoder 1 - Forår 2007 Diskrete variabler Diskrete variabler er variabler, som kan inddeles i kategorier (f.eks. køn, alder, kommune, land). Disse variabler kaldes også kvalitative variabler. Diskrete variabler kan lettest organiseres i Tabeller, hvor frekvensen af de enkelte kataegorier angives Søjlediagrammer Er der mere end en variabel, kan man anvende kontingenstabeller, hvor de simultane frekvenser angives. Eksempel (data fra Danmarks Statistik): Data: registeroplysninger om 1.789 personer i alderen 25-74 år i 1994. Variabler: køn (mand eller kvinde) og højeste fuldførte uddannelse (antal års uddannelse). 3

Kontinuerte variabler Kontinuerte variabler er variabler, der kan måles på en skala som f.eks. indkomst, priser, renter. Disse variabler kaldes også kvantitative variabler. Kontinuerte variabler kan lettest organiseres i: Histogrammer Tabeller, hvor den kontinuerte variabel inddeles i intervaller Er der mere end en variabel, kan man anvende et krydsplot til at vise data. Eksempel (data fra Danmarks Statistik, fortsat): Data: registeroplysninger om 1.789 personer i alderen 25-74 år i 1994. Variabler: indkomst (i kr.) og alder (i år). Tabeller kan laves i SAS ved f.eks. at anvende PROC FREQ 4

Data analyse Man bør altid undersøge sit datasæt grundigt, inden man begynder at bruge det. Er der ekstreme observationer (Outliers) i data? Er nogle af variablene trunkeret? Outliers kan skyldes fejl i data, eller blot at der ndes ekstreme (men rigtige) observationer. Eksempel (data fra Danmarks Statistik, fortsat): Uddannelsesvariablen har mange individer med 0 års uddannelse. Hvordan kan det opstå? Indkomstvariablen er trunkeret ved 500.000 kr. Histogrammer kan laves ved at anvende PROC UNIVARIATE. 5

Beskrivende statistik Kvantitative Metoder 1 - Forår 2007 For de kontinuerte variabler ndes en række mål, som kan bruges til at beskrive data. Disse mål forsøger at beskrive beliggenheden og spredningen af data. Disse mål giver ikke mening for kvalitative variabler som f.eks. køn eller kommune. Fraktiler Antag at stikprøven består af n observationer: (X 1 ; X 2 ; :::X n ) af en kontinuert variabel. Observationerne kan så ordnes efter størrelse, således at X (1) er den mindste observation, X (2) er den næstmindste observation osv. (X (1) ; X (2) ; X (3) ; :::X (n) ) kaldes den ordnede stikprøve. Den miderste observation kaldes sample median, X. ~ 8 < X ([n+1]=2) for n ulige ~X = : 1 (X 2 (n=2) + X (n=2+1) ) for n lige 6

Hvis man har store mængder af data, kan det være nyttigt også at se på kvartilerne. Kvartilerne de neres på tilsvarende måde ved at inddele data i re dele. Antag at n er givet ved: n = 4m + 1, hvor m = 1; 2; 3; :: 1. Kvartil Q 1 = X ([n+3]=4) 2. Kvartil Q 2 = ~ X = X ([n+1]=2) 3. Kvartil Q 3 = X ([n+1] [n+3]=4) Eksempel: n = 81 : Q 1 = X (21) ; Q 2 = X (42) ; Q 3 = X (61) For store datasæt kan man anvende percentiler. Igen de neres percentilerne således, at for den 37. percentil x 0;37 er ca. 37% af observationerne mindre end x 0;37 og ca. 63% større. 7

Statistikker Der ndes nogle mål (statistikker) baseret på ordnede stikprøver Variationsområdet : X (n) X (1) Kvartilafstanden IQR : Q 3 Q 1 Midt variationsområde : 1=2(X (1) + X (n) ) Midtkvartil : 1=2(Q 1 + Q 3 ) Oftest anvendes følgende 5 statistikker til at beskrive data fra en variabel: Median ~ X, 1. og 3. kvartil Q 1 og Q 3, største og mindste observation X (n) og X (1) Box-plot Diagram (eller kassediagram) er en gra sk fremstilling af de 5 statistikker. 8

Eksempel (data fra Danmarks Statistik, fortsat): Box-plot kan laves i SAS ved at anvende PROC BOXPLOT: Linien (vandrette): Median Kassen: 1. og 3. kvartil Stregen (lodrette): Største og mindste observation Krydset (i SAS): Gennemsnittet 9

Gennemsnit Gennemsnittet er også et mål til at beskrive beliggenheden af fordelingen. Gennemsnittet (sample mean) er de neret ved X = 1 nx X i n For data, hvor frekvenserne f j for de enkelte udfald x j j = 1; :::k er opgivet, kan gennemsnittet beregnes som X = 1 kx f j x j n i=1 j=1 10

Eksempel: Antag at data for X er: 1; 2; 3; 2; 2; 5; 5; 3; 1; 4: Data kan også organiseres i en frekvenstabel x j 1 2 3 4 5 f j 0.2 0.3 0.2 0.1 0.2 Gennemsnittet er 1 (1 + 2 + 3 + 2 + 2 + 5 + 5 + 3 + 1 + 4) = 2:3 10 1 (0:1 1 + 0:3 2 + 0:2 3 + 0:1 4 + 0:2 5) = 2:3 10 11

Gennemsnit og median Både gennemsnittet og medianen angiver beliggenheden af stikprøven. Hvad er bedst at anvende?: Medianen er mere robust overfor ekstreme observationer Gennemsnittet anvender alle observationer e cient Store forskelle på medianen og gennemsnittet tyder på, at stikprøven stammer fra en ikke-symmetrisk fordeling. 12

Spredningsmål Et mål for spedningen kan baseres på afvigelser mellem observationerne og gennemsnittet. For at motivere hvorledes variansen skal de neres, kunne man forestille sig, at variansen er givet ved V = 1 nx (X i X) 2 n Formuleret ved frekvenser kan variansen udtrykkes som V = 1 kx f j (x j X) 2 n i=1 j=1 Variansen kan også udtrykkes på følgende måde V = V = 1 nx X 2 i n i=1 X 2 13

I praksis viser det sig, at det er "smartere"(af grunde som vil fremgå i kapitel 9.1) at de nere den empiriske varians (sample variansen) som S 2 = 1 nx (X i X) 2 = n n 1 n 1 V i=1 Forskellen mellem V og S er lille, når n er stor. Ud fra den empiriske varians kan man udregne den empiriske spredning som v u S = t 1 nx (X i X) 2 n 1 i=1 Sample mean deviation (gennemsnitlige afvigelse) m:a:d: = 1 nx jx i n i=1 Xj 14

Lineær transformation Gennemsnit og empirisk spredning kan ndes for en lineær transformation af variablen X: Y = a + bx Y = a + b X; S Y = jbjs X 15

Korrelationer Den empiriske korrelation kan også beregnes. Først angives den empiriske kovarians C X;Y = 1 nx (X i X)(Yi 1 nx Y ) = X i Y i X Y n n i=1 Den empiriske korrelationskoe cient r = C X;Y p VX V Y = r Pn P n i=1 X iy i i=1 n X Y i=1 X2 i n X 2 P n i=1 Y 2 i n Y 2 1 til at dividere med i varians- Bemærk at r ikke afhænger af, om vi bruger n eller n udtrykkene. 16

Eksempel (data fra Danmarks Statistik, fortsat): I eksemplet fra tidligere med data fra Danmarks Statistik kan man anvende proceduren PROC UNIVARIATE i SAS til at få lavet den relevante beskrivende statistik. X S ~ X Q1 Q 3 IQR min max Bruttoindkomst 187.548 98.553 176.930 118.904 238.030 114.126 1 500.000 Alder 46,27 13,71 45 34 56 22 25 74 Empirisk korrelationskoe cient mellem alder og bruttoindkomst kan udregnes med PROC CORR og bestemmes til r = 0; 206 17

Opsummering Organisering af data Beskrivende statistik (Fraktiler, gennemsnit, empiriske varians og korrelationskoe cient) 18

Næste gang Mandag gennemgås afsnit 8.1-8.3: Tilfældig stikprøve (8.1) Likelihood funktionen (8.2) Su ciente statistikker (8.3) 19