Kapitel 3 Centraltendens og spredning



Relaterede dokumenter
Kapitel 3 Centraltendens og spredning

Kapitel 2 Frekvensfordelinger

Løsninger til kapitel 1

Kapitel 1 Statistiske grundbegreber

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Kapitel 7 Forskelle mellem centraltendenser

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 11 Lineær regression

Kvantitative Metoder 1 - Forår Dagens program

Kapitel 4 Sandsynlighed og statistiske modeller

Module 2: Beskrivende Statistik

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Kapitel 12 Variansanalyse

Kapitel 12 Variansanalyse

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

Statistik med GeoGebra

Grupperede observationer et eksempel. (begreber fra MatC genopfriskes og varians og spredning indføres)

Antal timer Køn k m k m m k m k m k k k m k k k

Kapitel 10 Simpel korrelation

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Basal statistik. 30. januar 2007

LØNSPREDNINGSOPGØRELSER NU TILGÆNGELIG I LOPAKS

Kapitel 13 Reliabilitet og enighed

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Formelsamling Matematik C

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Valgkampens og valgets matematik

5. Statistik. Hayati Balo,AAMS. 1. Carstensen, Frandsen og Studsgaard, stx mat B2, systime

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Beskrivende statistik

T A L K U N N E N. Datasæt i samspil. Krydstabeller Grafer Mærketal. INFA Matematik Allan C

Undervisningsbeskrivelse

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Matematik/Statistik. statistik. Forelæser og ansvarlig for kursets statistikdel: Peter Sunde Afd. f. Populationsbiologi

Note til styrkefunktionen

2 Populationer. 2.1 Virkelige populationer

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Forelæsning 1: Intro og beskrivende statistik

Undervisningsbeskrivelse

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Undervisningsbeskrivelse

To samhørende variable

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

M1, slide 4 (Introduktion til kurset: praktiske oplysninger) M1, slide 5 (Introduktion til kurset: praktiske oplysninger)

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Undervisningsplan. Stamoplysninger til brug ved prøver til gymnasiale uddannelser. Oversigt over planlagte undervisningsforløb

Statistik. Hjemmeside: kkb. Statistik - lektion 1 p.1/22

Forelæsning 8: Inferens for varianser (kap 9)

Statistik er at behandle en stor mængde af tal, så de bliver lettere at overskue og forstå.

Per Vejrup-Hansen Praktisk statistik. Omslag: Torben Klahr.dk Lundsted Grafisk tilrettelæggelse: Samfundslitteratur Grafik Tryk: Narayana Press

Per Vejrup-Hansen Praktisk statistik. Omslag: Torben Klahr.dk Lundsted Grafisk tilrettelæggelse: Samfundslitteratur Grafik Tryk: Narayana Press

Undervisningsbeskrivelse

En Introduktion til SAS. Kapitel 5.

STATISTISKE GRUNDBEGREBER

Undervisningsbeskrivelse

Undervisningsbeskrivelse

4. september π B = Lungefunktions data fra tirsdags Gennemsnit l/min

statistik og sandsynlighed

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Taldata 1. Chancer gennem eksperimenter

Undervisningsbeskrivelse

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Statistik (deskriptiv)

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Undervisningsbeskrivelse

Løsning eksamen d. 15. december 2008

Statistiske data. Datamatricen. Variable j. ... X ij = x ij... Anonymiserede og ækvivalente dataindivider. Datamodellen

Susanne Ditlevsen Institut for Matematiske Fag susanne

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Syddansk Universitet. Statistik i grænseregionen Sørensen, Nils Karl. Publication date: Document Version Tidlig version også kaldet pre-print

Estimation og usikkerhed

Deskriptiv Statitik. Judith L. Jacobsen, PhD.

c) For, er, hvorefter. Forklar.

Undervisningsbeskrivelse

Fagplan for statistik, efteråret 2015

Undervisningsbeskrivelse

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Fig. 1 Billede af de 60 terninger på mit skrivebord

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Forelæsning 2: Kapitel 4, Diskrete fordelinger

Kvantitative Metoder 1 - Forår 2007

Undervisningsbeskrivelse

Konfidensintervaller og Hypotesetest

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Bilag til Statistik i løb : Statistik og Microsoft Excel tastevejledning / af Lars Bo Kristensen

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Normalfordelingen og Stikprøvefordelinger

Undervisningsbeskrivelse


CCWS Working paper no "Education paper" - om at anvende statistik i tilknytning til det problemorienterede projektarbejde

Transkript:

Kapitel 3 Centraltendens og spredning Peter Tibert Stoltze stat@peterstoltze.dk Elementær statistik F2011 1 / 25 Indledning I kapitel 2 omsatte vi de rå data til en tabel, der bedre viste materialets fordeling Fordelingen illustrerede vi med forskellige former for grafik Nu vil vi gerne karakterisere fordelingerne kvantitativt gennem deres beliggenhed og variation 2 / 25

Centraltendens Typetal eller modus (eng: mode) Aritmetisk middelværdi eller stikprøvegennemsnit (eng: mean or sample mean) Median 3 / 25 Modus Modus eller typetallet er den hyppigst forekommende værdi Eneste anvendelige mål for data målt på nominalskala (m/k, ja/nej) men vel nok mest anvendt ifm. data målt på ordinalskala (karakterer, scores) Læsescores: 71 for pigerne mod 55 for drengene Beregnes i Excel med funktionen hyppigst 4 / 25

Aritmetisk middelværdi Betegnes også tit som stikprøvegennemsnit Den aritmetiske middelværdi er summen af observationerne i forhold til antallet af observationer x = 1 n n i=1 x i = x 1 + x 2 +... + x n n Læsescores: 59,7 for pigerne mod 51,9 for drengene Beregnes i Excel med funktionen middel 5 / 25 Median Medianen er den midterste observation (gennemsnittet af de to midterste hvis n er lige) Specialtilfælde af generelt fraktilbegreb, som vi gennemgår senere Læsescores: 62,5 for pigerne mod 50,5 for drengene Beregnes i Excel med funktionen median 6 / 25

Centraltendenser for læsescores Score Drenge Piger n 30 30 Modus 55 71 x (stikprøvegennemsnit) 51,9 59,7 Median 50,5 62,5 7 / 25 Spredning og varians Spredning kaldes også for standardafvigelse Spredning på læsescores er 16,6 for pigerne mod 19,2 for drengene der er større spredning på drengenes score end på pigernes, der i gennemsnit ligner hinanden mere Med Excel benyttes funktionerne stdafv og varians til beregning af spredning og varians 8 / 25

Spredning og varians Spredningen s er kvadratroden af variansen s 2 Variansen s 2 er kvadratet på spredningen s Variansen beregnes efter følgende formel: hvor s 2 = 1 n 1 SAK x = n i=1 n i=1 (x i x) 2 = SAK x n 1 x 2 i 1 n n ( x i ) 2 Hvis der ikke er tale om en stikprøve kan man benytte n i stedet for n 1 i nævneren, men... i=1 9 / 25 n 1 giver centrale estimater SAK n SAK n 1 Population 7 9 13 14 27 48,80 61,00 Stikprøve 1 7 9 13 14 8,19 10,92 Stikprøve 2 7 9 13 27 61,00 81,33 Stikprøve 3 7 9 14 27 60,69 80,92 Stikprøve 4 7 13 14 27 53,19 70,92 Stikprøve 5 9 13 14 27 45,69 60,92 Gennemsnit 45,75 61,00 10 / 25

Standardafvigelse og standardfejl Spredning kaldes også for standardafvigelse (eng: standard deviation) Må ikke forveksles med standardfejl (eng: standard error), der er spredningen på middelværdien: s x = s n Dette vender vi tilbage til i kapitel 4 11 / 25 Først lidt opsamling på nomenklatur Vi regner på en simpelt tilfældigt udtaget stikprøve fra en population. Vi antager at observationerne er målt på en intervalskala eller en ratioskala. Gennemsnittet i stikprøven x er et estimat for middelværdien µ i populationen: ˆµ = x Spredningen i stikprøven s er estimat for spredningen σ i populationen: ˆσ = s Spredningen er målt på samme skala som observationerne det er variansen ikke. 12 / 25

Praktisk beregning af middelværdi og spredning Data (stikprøven) præsenteres på en liste på følgende måde x = {9; 2; 8; 11; 16; 16; 6; 5; 4; 6} Start med at bestemme antallet af observationer n = 10 og dernæst summen af observationerne (indeks på sumtegnene er udeladt, da der summeres over alle observationer) x = 9 + 2 + 8 + 11 + 16 + 16 + 6 + 5 + 4 + 6 = 83 Nu kan du bestemme gennemsnittet i stikprøven x = x n = 83 10 = 8, 3 13 / 25 Praktisk beregning af middelværdi og spredning Så beregner du summen af de kvadrerede observationer (kvadratsummen) x 2 = 9 2 +2 2 +8 2 +11 2 +16 2 +16 2 +6 2 +5 2 +4 2 +6 2 = 895 så du kan beregne summen af de kvadrerede afvigelser fra gennemsnittet (summen af afvigelsernes kvadrater) SAK x = (x i x) 2 = x 2 1 n ( x) 2 = 895 832 10 = 206, 1 Så kan du beregne variansen for xerne i stikprøven var(x) ˆ = SAK x n 1 = 206, 1 10 1 = 22, 9 og endelig spredningen (stikprøvestandardafvigelsen) s = var(x) ˆ = 22, 9 = 4, 8 14 / 25

Fraktiler Om P%-fraktilen gælder, at P procent af observationerne er mindre end eller lig denne værdi Der er nogle fraktilværdier, man ofte er specielt interesseret i: Medianen (50) Kvartiler (25, 50, 75) Deciler (10, 20,..., 90) Percentiler (1, 2,..., 99) Specielt er 25% fraktilen den nedre kvartil og 75% fraktilen den øvre kvartil, og forskellen mellem øvre og nedre kvartil kaldes for interkvartilafstanden (IQR) 15 / 25 Direkte beregning af fraktiler Lad en stikprøve med n elementer være opstillet i rækkefølge, således at x 1 er den mindste observation og x n er den største, da er den i te observation P-fraktilen i stikprøven, hvor P = i 0, 5 n For store stikprøver er således P 0 for i = 1 og P 1 for i = n Ønsker man at kende en bestemt fraktil, da kan man regne baglæns i ovenstående udtryk, hvor resultatet dog kun sjældent vil være heltalligt i og dermed en bestemt observation. Dette kan løses ved lineær interpolation... 16 / 25

Beregning af fraktiler for grupperet data hvor P% = L + P er den ønskede fraktil k( Pn 100 F ) f L nedre grænse i klassen, hvor den ønskede fraktil befinder sig k er klassebredden n er antal observationer F er antal observationer op til nedre grænse i den klasse, hvor fraktilen befinder sig f er antal observationer i den klasse, hvor fraktilen befinder sig 17 / 25 Eksempel: Vokalvarighed Frekvensfordeling for vokalvarighed i ms. Klassebredde er 5ms. Nedre Øvre Frekvens Kumulativ frekvens Relativt 184,5 0 0 0,0 184,5 189,5 2 2 5,0 189,5 194,5 0 2 5,0 194,5 199,5 5 7 17,5 199,5 204,5 6 13 32,5 204,5 209,5 9 22 55,0 209,5 214,5 8 30 75,0 214,5 219,5 4 34 85,0 219,5 224,5 4 38 95,0 224,5 229,5 1 39 97,5 229,5 234,5 1 40 100,0 234,5 0 40 100,0 40 18 / 25

Kumulativ fordeling af vokalvarighed Fraktil [pct.] 0 20 40 60 80 100 Grupperet data Direkte beregning 190 200 210 220 230 240 Vokalvarighed [ms] 19 / 25 Eksempel på beregning Vi vil beregne 50% fraktilen (medianen) for datasættet med vokalvarighed: Median = L + k( Pn 100 F ) f = 204, 5 + 5( 50 40 100 13) 9 = 208, 39 Vi kunne også lave interpolation i tabellen: dvs. bestemme x 204,5 32,5 x 50,0 209,5 55,0 20 / 25

Lineær interpolation generelt Vi kender punkterne (x 1, y 1 ) og (x 2, y 2 ) og ønsker at bestemme punktet (x, y ) idet vi kender den ene af koordinaterne. Vi antager at der gælder y 2 y 1 x 2 x 1 = y y 1 x x 1 Kender vi x kan vi bestemme y som y = y 1 + y 2 y 1 x 2 x 1 (x x 1 ) Kender vi omvendt y kan vi bestemme x som x = x 1 + x 2 x 1 y 2 y 1 (y y 1 ) 21 / 25 Lineær interpolation grafisk Fraktil [pct.] 30 40 50 60 (204.5, 32.5) (209.5, 55.0) (208.39, 50) 204 205 206 207 208 209 210 Vokalvarighed [ms] 55, 0 32, 5 50, 0 32, 5 = 209, 5 204, 5 x 204, 5 x 209, 5 204, 5 = 204, 5 + 55, 0 32, 5 (50, 0 32, 5) = 208, 39 22 / 25

Beregning med Excel Beregnes i Excel med funktionen fraktil Der benyttes her en lidt anden definition end den her anvendte, men resultaterne minder en del om hinanden (specielt for store n) Beregning med Excel af de tre kvartiler samt interkvartilafstand (IQR) og spredning (s) for læsescores: Fraktil Drenge Piger 25% fraktil 39,3 55,0 50% fraktil 49,0 62,7 75% fraktil 65,0 67,6 IQR 25,8 12,6 s 19,2 16,6 23 / 25 Omsamling omkring fraktiler Om P%-fraktilen for et datasæt gælder, at P procent af observationerne i datasættet er mindre end eller lig denne værdi Specielle fraktiler har navne som kvartiler, deciler og percentiler, men det er altså alle fraktiler Beregning kan foretages direkte på stikprøven, typisk vha en regnearksfunktion Der kan også laves beregning for grupperede data enten med en lidt kryptisk formel eller ved lineær interpolation 24 / 25

Opsamling Vi regner på en simpelt tilfældigt udvalgt stikprøve fra en population Centraltendens kan beskrives ved modus, stikprøvegennemsnit og median Spredning kan beskrives ved variationsområde, stikprøvestandardafvigelse og interkvartilafstand Den samlede fordeling kan beskrives med den empiriske fordelingsfunktion, dvs. fraktilværdien afsat som funktion af observationsværdien. 25 / 25