Beskrivende statistik

Beskrivende statistik Stikprøve af størrelse n for variablen x: x 1, x 2,, x n Beskriv fordelingen af data med nogle få talstørrelser. Centralt mål: en værdi som data er centreret om. Variationsmål: mål for afvigelsen fra centeret. Eksempel Procent rigtige svar Resultatet af en prøve for 11 studerende 62 52 68 23 34 45 27 42 83 56 40

Stem-and-leaf plot: 1 2 3 7 3 4 4 0 5 2 5 2 6 6 2 8 7 8 3 9 Modus midtpunkt af højeste top 45

Modus Modus (typetal): Den hyppigst forekommende værdi For en diskret/kategorisk variabel: Værdien med størst hyppighed. For en kontinuert variabel: Midtpunktet i det interval, som har størst hyppighed. Bemærk: Modus bruges om samtlige toppe i et diagram. Sammenlign med unimodal/bimodal. Lineær transformation: Hvis y i a bx i for alle i gælder Modus y a b Modus x

Momenter Gennemsnit Gennemsnit x (første moment): x 1 n i 1 Eksempel Procent rigtige svar n x i. x 1 11 62 52 40 48.36. Lineær transformation: Hvis y i a bx i for alle i gælder y a b x

Varians og spredning Varians s x2 (andet centrale moment): s x2 1 n 1 x i x 2 i 1 Den gennemsnitlige kvadratafvigelse fra gennemsnittet. Spredning (også kaldet standardafvigelse): n s x 1 n 1 x i x 2. i 1 Den gennemsnitlige afvigelse fra gennemsnittet. n

Lineær transformation: Hvis y i a bx i for alle i gælder s 2 y b 2 2 s x s y b s x Eksempel Procent rigtige svar s 2 x 10 1 62 48. 36 2 52 48. 36 2 40 48.36 2 327.05. s x 327. 05 18. 08.

1 2 3 7 x s x 30. 28 3 4 4 0 5 2 x 48. 36 5 2 6 6 2 8 x s x 66. 44 7 8 3 9

Chebyshev s ulighed I bogen stavet Tsjebytsjev. Chebyshev s ulighed: Afvigelser større end k s x fra x er sjældnere end 1/k 2. For k 2 betyder det at mindst 75% af data ligger mellem x 2 s x og x 2 s x. For k 2. 5 betyder det at mindst 84% af data ligger mellem x 2. 5 s x og x 2. 5 s x.

1 x 2s x 12. 20 2 3 7 3 4 4 0 5 2 x 48. 36 5 2 6 6 2 8 7 x 2s x 84. 52 8 3 9

Variationskoefficient Variationskoefficienten CV (coefficient of variation) defineres for positive data ved CV x s x x Angives ofte i procent, altså CV 100%. Fortolkes som den relative variation. Afhænger ikke af måleenheden. Hvis y i bx i for alle i med b 0 fås CV y CV x For procent rigtige svar: CV x 18. 08 48. 36 0. 3739 37.39%

Chebyshev s ulighed for CV Afvigelser større end k x k x sx s x fra x er sjældnere end s2 x CV 2 x k 2 x 2 k 2 For k 1 betyder det at mindst 86% af data ligger mellem 0 og 2x, idet 1 0. 37392 0.86 1 2

Skævhed Skævhed (tredje centrale standardiserede moment): Skævhed x 1 n i 1 n x i x s x 3 Fortolkning: Negativ værdi betyder, at fordelingen er venstreskæv. Positiv værdi betyder, at fordelingen er højreskæv. Lineær transformation: Hvis y i a bx i for alle i gælder Skævhed y sign b Skævhed x hvor sign b betyder fortegnet for b. Procent rigtige svar: Skævhed x 0. 3419

Kurtose Kurtose (topstejlhed) (fjerde centrale standardiserede moment): Kurtose x 1 n i 1 n x i x s x 4 3 Der trækkes 3 fra fordi 0 skal svare til normalfordelingen. Fortolkning: Positiv værdi betyder, at fordelingen har en høj og spids top. Negativ værdi betyder, at fordelingen har en lav og bred top. Lineær transformation: Hvis y i a bx i for alle i gælder Kurtose y Kurtose x Procent rigtige svar: Kurtose x 1. 0474

Kvantiler Kvantil: for givet 0 p 1 er det et tal q p så: mindst p 100% af data er q p og mindst 1 p 100% af data er q p Hvis q p ligger mellem to dataværdier, defineres q p normalt som deres gennemsnit. Kvartiler: Første kvartil: Q 1 q 25% Median: Q 2 q 50% Tredje kvartil Q 3 q 75% Q 1 Q 2 Q 3 : Tre værdier som deler data i "fire lige store dele"

Eksempel Procent rigtige svar (reducerede data, n 8) Ordnede data: 23 27 40 42 45 56 68 83 Nedre kvartil: Q 1 27 40 /2 33.5 Median: Q 2 42 45 /2 43.5 Øvre kvartil: Q 3 56 68 /2 62 Monoton transformation f: Hvis y i f x i for alle i gælder approximativt Median y f Median x Inter-quartile range: IQR Q 3 Q 1 62 33.5 28.5 Variationsbredde: max min 83 23 60 Simpelt boxplot angiver min, max og de tre kvartiler:

Median Stil data op i rækkefølge x 1 x 2 x n Hvis n er ulige: Q 2 x n 1 2 Hvis n er lige: Q 2 x n 2 Eksempel Procent rigtige svar x n 2 1 2 Ordnede data: 23 27 34 40 42 45 52 56 62 68 83 Q 1 34 Q 2 45 Q 3 62.

Boxplot, generel form Boxplot viser Kvartilerne Q 1 Q 2 og Q 3 (husk IQR Q 3 Q 1 ) Øvre og nedre adjacent values, defineret ved A den største værdi som er mindre end Q 3 1.5 IQR (øvre hinge) A den mindste værdi som er større end Q 1 1.5 IQR (nedre hinge) Værdier som er uden for de to hinges kaldes outside values, og markeres ofte med. Eksempel Procent rigtige svar Data med outlier: 23 27 34 40 42 45 52 56 62 68 95

Outliers: Særligt store eller særligt små værdier, som ikke passer med resten af data. Outside values regnes ofte for at være mulige outliers. Om det er tilfældet, afhænger af, hvor grelle de er, og om de i øvrigt er specielle. Sammenligning af centrale mål: Modus: Simpel, men varierer meget. Median: Simpel og robust, bevares ved monotone transformationer. Gennemsnit: God til variable som er additive (længde, rumfang, vægt, kr. osv.). Når der er symmetri er alle tre mål ens. Når der er asymmetri er de lidt forskellige. Procent rigtige svar: x 48. 36, median 45, modus 45

Sammenhængsmål (p. 268) Givetetvariabelpar x, y. n parafdata: x 1, y 1,, x n, y n,måltpå x,y. Hvor stærkt (linært) afhængige er de to variable x og y, bedømt ud fra data? Kovarians mellem x og y: s xy 1 n 1 x i x y i ȳ. i 1 Gennemsnitlig grad af sam-variation mellem x og y. Pearson korrelation: r xy s xy s x s y 1 n 1 i 1 n n x i x s x y i ȳ s y.

r xy er et mål for associationen mellem x og y. Mulige værdier: 1 r xy 1 Vurdering af korrelation: Stærk positiv korrelation hvis r 0.5 Svag korrelation hvis 0. 5 r 0.5 Stærk negativ korrelation hvis r 0.5 Eksempel: Eksamensresultater (n 35) Korrelation mellem resultat og procent deltagelse er 0.2459