Beskrivende statistik

Relaterede dokumenter
Modul 1: Beskrivende dataanalyse

Kvantitative Metoder 1 - Forår Dagens program

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Deskriptiv statistik for hf-matc

Løsninger til kapitel 1

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Kapitel 3 Centraltendens og spredning

Deskriptiv statistik for matc i stx og hf

Løsning til eksamen d.27 Maj 2010

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Forelæsning 1: Intro og beskrivende statistik

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Undervisningsbeskrivelse

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Forelæsning 11: Kapitel 11: Regressionsanalyse

To samhørende variable

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Modul 6: Regression og kalibrering

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Fagplan for statistik, efteråret 2015

Momenter som deskriptive størrelser. Hvad vi mangler fra onsdag. Momenter for sandsynlighedsmål

Undervisningsbeskrivelse

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

hvor y antages approksimeret ved normalfordeling med middelværdi y og varians va^r(y): y ± u 1-/2 # cv(y) # y = y(1 ± u 1-/2 # cv(y))

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

FACITLISTE TIL MATEMA10K C for HHX

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Løsning eksamen d. 15. december 2008

Indblik i statistik - for samfundsvidenskab

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Middelværdi og varians. Kovarians. korrelation = 0.02 korrelation = 0.7 korrelation = 1.0

Basal statistik. 30. januar 2007

Kapitel 3 Centraltendens og spredning

Undervisningsbeskrivelse

Epidemiologi og Biostatistik

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Syddansk Universitet. Statistik i grænseregionen Sørensen, Nils Karl. Publication date: Document Version Tidlig version også kaldet pre-print

Per Vejrup-Hansen STATISTIK. med Excel. 2. udgave

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Løsning til eksaminen d. 14. december 2009

Undervisningsbeskrivelse

Module 2: Beskrivende Statistik

Statistiske modeller

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Statistik. Statistik er analyse af indsamlet data. Det vil sige at man bearbejder et datamateriale som i matematik næsten altid er tal.

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Studieplan Biostatistik Semester 1

Statistik. Peter Sørensen: Statistik og sandsynlighed Side 1

En Introduktion til SAS. Kapitel 5.

GRUNDLÆGGENDE STATISTIK

INSTITUT FOR MATEMATISKE FAG c

Kvantitative Metoder 1 - Forår 2007

Transkript:

Beskrivende statistik Stikprøve af størrelse n for variablen x: x 1, x 2,, x n Beskriv fordelingen af data med nogle få talstørrelser. Centralt mål: en værdi som data er centreret om. Variationsmål: mål for afvigelsen fra centeret. Eksempel Procent rigtige svar Resultatet af en prøve for 11 studerende 62 52 68 23 34 45 27 42 83 56 40

Stem-and-leaf plot: 1 2 3 7 3 4 4 0 5 2 5 2 6 6 2 8 7 8 3 9 Modus midtpunkt af højeste top 45

Modus Modus (typetal): Den hyppigst forekommende værdi For en diskret/kategorisk variabel: Værdien med størst hyppighed. For en kontinuert variabel: Midtpunktet i det interval, som har størst hyppighed. Bemærk: Modus bruges om samtlige toppe i et diagram. Sammenlign med unimodal/bimodal. Lineær transformation: Hvis y i a bx i for alle i gælder Modus y a b Modus x

Momenter Gennemsnit Gennemsnit x (første moment): x 1 n i 1 Eksempel Procent rigtige svar n x i. x 1 11 62 52 40 48.36. Lineær transformation: Hvis y i a bx i for alle i gælder y a b x

Varians og spredning Varians s x2 (andet centrale moment): s x2 1 n 1 x i x 2 i 1 Den gennemsnitlige kvadratafvigelse fra gennemsnittet. Spredning (også kaldet standardafvigelse): n s x 1 n 1 x i x 2. i 1 Den gennemsnitlige afvigelse fra gennemsnittet. n

Lineær transformation: Hvis y i a bx i for alle i gælder s 2 y b 2 2 s x s y b s x Eksempel Procent rigtige svar s 2 x 10 1 62 48. 36 2 52 48. 36 2 40 48.36 2 327.05. s x 327. 05 18. 08.

1 2 3 7 x s x 30. 28 3 4 4 0 5 2 x 48. 36 5 2 6 6 2 8 x s x 66. 44 7 8 3 9

Chebyshev s ulighed I bogen stavet Tsjebytsjev. Chebyshev s ulighed: Afvigelser større end k s x fra x er sjældnere end 1/k 2. For k 2 betyder det at mindst 75% af data ligger mellem x 2 s x og x 2 s x. For k 2. 5 betyder det at mindst 84% af data ligger mellem x 2. 5 s x og x 2. 5 s x.

1 x 2s x 12. 20 2 3 7 3 4 4 0 5 2 x 48. 36 5 2 6 6 2 8 7 x 2s x 84. 52 8 3 9

Variationskoefficient Variationskoefficienten CV (coefficient of variation) defineres for positive data ved CV x s x x Angives ofte i procent, altså CV 100%. Fortolkes som den relative variation. Afhænger ikke af måleenheden. Hvis y i bx i for alle i med b 0 fås CV y CV x For procent rigtige svar: CV x 18. 08 48. 36 0. 3739 37.39%

Chebyshev s ulighed for CV Afvigelser større end k x k x sx s x fra x er sjældnere end s2 x CV 2 x k 2 x 2 k 2 For k 1 betyder det at mindst 86% af data ligger mellem 0 og 2x, idet 1 0. 37392 0.86 1 2

Skævhed Skævhed (tredje centrale standardiserede moment): Skævhed x 1 n i 1 n x i x s x 3 Fortolkning: Negativ værdi betyder, at fordelingen er venstreskæv. Positiv værdi betyder, at fordelingen er højreskæv. Lineær transformation: Hvis y i a bx i for alle i gælder Skævhed y sign b Skævhed x hvor sign b betyder fortegnet for b. Procent rigtige svar: Skævhed x 0. 3419

Kurtose Kurtose (topstejlhed) (fjerde centrale standardiserede moment): Kurtose x 1 n i 1 n x i x s x 4 3 Der trækkes 3 fra fordi 0 skal svare til normalfordelingen. Fortolkning: Positiv værdi betyder, at fordelingen har en høj og spids top. Negativ værdi betyder, at fordelingen har en lav og bred top. Lineær transformation: Hvis y i a bx i for alle i gælder Kurtose y Kurtose x Procent rigtige svar: Kurtose x 1. 0474

Kvantiler Kvantil: for givet 0 p 1 er det et tal q p så: mindst p 100% af data er q p og mindst 1 p 100% af data er q p Hvis q p ligger mellem to dataværdier, defineres q p normalt som deres gennemsnit. Kvartiler: Første kvartil: Q 1 q 25% Median: Q 2 q 50% Tredje kvartil Q 3 q 75% Q 1 Q 2 Q 3 : Tre værdier som deler data i "fire lige store dele"

Eksempel Procent rigtige svar (reducerede data, n 8) Ordnede data: 23 27 40 42 45 56 68 83 Nedre kvartil: Q 1 27 40 /2 33.5 Median: Q 2 42 45 /2 43.5 Øvre kvartil: Q 3 56 68 /2 62 Monoton transformation f: Hvis y i f x i for alle i gælder approximativt Median y f Median x Inter-quartile range: IQR Q 3 Q 1 62 33.5 28.5 Variationsbredde: max min 83 23 60 Simpelt boxplot angiver min, max og de tre kvartiler:

Median Stil data op i rækkefølge x 1 x 2 x n Hvis n er ulige: Q 2 x n 1 2 Hvis n er lige: Q 2 x n 2 Eksempel Procent rigtige svar x n 2 1 2 Ordnede data: 23 27 34 40 42 45 52 56 62 68 83 Q 1 34 Q 2 45 Q 3 62.

Boxplot, generel form Boxplot viser Kvartilerne Q 1 Q 2 og Q 3 (husk IQR Q 3 Q 1 ) Øvre og nedre adjacent values, defineret ved A den største værdi som er mindre end Q 3 1.5 IQR (øvre hinge) A den mindste værdi som er større end Q 1 1.5 IQR (nedre hinge) Værdier som er uden for de to hinges kaldes outside values, og markeres ofte med. Eksempel Procent rigtige svar Data med outlier: 23 27 34 40 42 45 52 56 62 68 95

Outliers: Særligt store eller særligt små værdier, som ikke passer med resten af data. Outside values regnes ofte for at være mulige outliers. Om det er tilfældet, afhænger af, hvor grelle de er, og om de i øvrigt er specielle. Sammenligning af centrale mål: Modus: Simpel, men varierer meget. Median: Simpel og robust, bevares ved monotone transformationer. Gennemsnit: God til variable som er additive (længde, rumfang, vægt, kr. osv.). Når der er symmetri er alle tre mål ens. Når der er asymmetri er de lidt forskellige. Procent rigtige svar: x 48. 36, median 45, modus 45

Sammenhængsmål (p. 268) Givetetvariabelpar x, y. n parafdata: x 1, y 1,, x n, y n,måltpå x,y. Hvor stærkt (linært) afhængige er de to variable x og y, bedømt ud fra data? Kovarians mellem x og y: s xy 1 n 1 x i x y i ȳ. i 1 Gennemsnitlig grad af sam-variation mellem x og y. Pearson korrelation: r xy s xy s x s y 1 n 1 i 1 n n x i x s x y i ȳ s y.

r xy er et mål for associationen mellem x og y. Mulige værdier: 1 r xy 1 Vurdering af korrelation: Stærk positiv korrelation hvis r 0.5 Svag korrelation hvis 0. 5 r 0.5 Stærk negativ korrelation hvis r 0.5 Eksempel: Eksamensresultater (n 35) Korrelation mellem resultat og procent deltagelse er 0.2459