Uge 7 I Teoretisk Statistik, 9 februar 004 Beskrivede statistik Kategoriserede variable 3 Kvatitative variable 4 Fraktiler for ugrupperede observatioer 5 Fraktiler for grupperede observatioer 6 Beliggeheds- og spredigsål Beskrivede statistik Idledede udersøgelse af data Bruges til at få overblik over data ide e egetlig statistisk aalyse (dvs ide opstillig af odel, estiatio, test af hypoteser) Både ueriske og grafiske etoder: Grafiske: Histogra, sølediagra, lagkagediagra, fraktildiagra, kassediagra, Nueriske: Geesit, spredig, edia, kvartiler, Lidt o ord Stokastisk variabel, X X atager sie værdier i S Udfaldsru, S E observatio er e observeret værdi af e stokastisk variabel Data/dataaterialet/datasættet/stikprøve er de salig af observatioer, der er til rådighed til statistisk aalyse
Kategoriserede variable Udfaldsruet har edelig age eleeter (et atal grupper/kategorier), og e observatio er e agivelse af de kategori observatioe tilhører E stikprøve på observatioer af e kategoriseret variabel ed kategorier er således e agivelse af : a = atal gage kategori er observeret =,, På basis heraf defieres de observerede relative hyppighed for kategori so a h = =,, De relative hyppigheder h,, h agiver stikprøves fordelig på kategorier Eksepler: Ferieforer Måed for rygestop Boligforer Lagkagediagra, blokdiagra, sølediagraer (af forskellige art)
Eksepel: Kategoriseret ferieavedelsesfordelig / grupperet idkostfordelig 3 Stikprøve på 3 daskere over 8 år fordelt både på kategorier for feries avedelse og på grupper efter deres idkosts størrelse i 974 Idkostiterval Kr Uder 0000 0000-39999 40000-59999 60000-79999 80000-99999 00000-49999 50000 og derover Ferie i Daark Hee Soerhus Ade ferie 33 5 8 00 0 5 55 8 66 57 43 5 3 5 46 4 79 64 3 3 34 Ferie i udladet 5 90 00 9 08 4 66 Ige ferie 0 65 05 7 33 39 8 Total 300 500 554 54 47 564 80 Total 749 68 868 675 55 3 Kilde: Levevilkår i Daark: Statistisk Oversigt 976 Daarks Statistik og Socialforskigsistituttet 976 Tabel 93 Kvatitative variable Egetlige talværdier x,, x ed udfaldsru (del af) ú Fordelige af e såda stikprøve på i alt observatioer på ú ka beskrives dels ved hælp af de ordede stikprøve x () x () x() hvor x (i) er i te idste observatio, dels ved at karakterisere stikprøve ht beliggehed og spredig på de reelle akse Eksepler: ædrig i $-kurs (se AJKM ex ) idkosters fordelig, se eksepel edefor
4 atal polit-studerede på e årgag pris på skrueøgler, se eksepel edefor Fraktildiagraer, histograer, kassediagraer Geesit, spredig, edia, kvartiler, deciler Fraktiler for ugrupperede observatioer Observatioer af ugrupperet kvatitativ variabel: x,,x x(p) er e p-fraktil (0 < p < ): Adele p af observatioere er idre ed eller lig x(p), adele -p er større ed x(p) For i`te observatio er x(p i ) = x (i),hvor p i = (i 05)/ (,hvis alle obs er forskellige) For adre p-værdier: teg (x (i),p i ), forbid successive pukter ed rette liier og aflæs x(p) på fraktildiagraet, (eller bereg x(p) ved lieær iterpolatio) fraktio p i+ p p i x (i) x (i+) x x(p)
5 Altså, hvis alle observatioer er forskellige, er hvor x (i) = x(p i ) () p i = i ½ Begrudelse for (): betragt liie x () x () x (3) x (4) Hvis atal observatioer øges, vil ca /4 af observatioere fordele sig ede for de første stiplede liie elle x () og x () Dee liie svarer altså til x(05) så Det er derfor rieligt at sætte hvilket fås so x(p ) ed x(05) = (x () + x () )/ x(05) = x (), p = /8 = ( - /)/
6 Eksepel: Fraktiler i fordelige af 5 idkoster i x (i) (i - /)/5 = p i x(p) 53 0033 67 000 x(0) = 67 3 83 067 4 84 033 5 0 0300 x(05) = 883 6 47 0367 7 54 0433 8 8 0500 x(05) = x = 8 9 93 0567 0 303 0633 385 0700 44 0767 x(075) = 443 3 633 0833 4 658 0900 x(090) = 658 5 803 0967 x(05) og x(075) er bestet ved lieær iterpolatio, se AJKM forel ()
7 Fraktiler for grupperede observatioer Grupperet ateriale: o hver ekelt observatio vides ku hvilket af give itervaller - "klasser" - de tilhører Klasse = [t -, t ], =,, = + = + Klasseidtpukt t t ( t t ) ( t t ) Atal observatioer i te klasse a =,, Hyppighed af observatioer i klasse h = a / klasse ]-, t ] ]t, t ] ]t -, [ klasse = idtpukt atal relativ hyppighed kuuleret hyppighed t a h = a / H = h t a h = a / H = h + h t a h = a / H =Σ h = = total Σa = Σh = Grupperet stikprøve: (a, a,,a ) Fordelig af de grupperede stikprøve: (h, h,, h ) Kuuleret hyppighed: H = (atal obs t )/ = h + þ +h = hyppighed af obs # t =,,, dvs t er e H -fraktil
8 Histogra: afbildig af h = h /(t t ) od t : Eksepel : E forbrugerorgaisatio øsker at udersøge priseres variatio på værktø Med heblik herpå udtog a i uge, 980 e tilfældig stikprøve på 00 isekræere, værktøsagasier, byggearkeder, etc fordelt over hele ladet I edeståede tabel er aført de således idsalede prisoplysiger på 6"- skrueøgler Tabel : De grupperede fordelig af prise på 6"-skrueøgler for 000 detailudsalg, uge, 980 pris i kroer atal observerede priser (0,5] 03 (5,0] 6 (0,0] 54 (0,30] 6 (30,40] 85 (40,50] 6 (50,60] 9 (60,70] 4 (70,+ ] 3 Total 000
9 Svarede til dee tabel ka edeståede histogra kostrueres % 0 h 00 0 t 5 0 0 30 40 50 60 70 Beliggeheds- og spredigsål Stikprøvefuktio: Reel fuktio af x, x,, x Lad os idføre betegelsere: i, i S= x SK = x i= i= hvor S står for Su og SK for Su af Kvadrater Geesit: ( ) S i i= x = x + x + + x /= x = Epirisk varias = stikprøvevarias:
s x x (SK S ) x x = ( i ) = ( i ) i= = 0 i= 0 Stadardafvigelse: s = s For grupperet stikprøve: Klasseidtpukt: ( ) Geesit: t = t + t / t = at a= = = Epirisk varias: st = a( t t) = SKt St a( t t) = 0 = = Beregig af s t : S a t,sk a t t = t = = = st = Σa( t tt + t ) = = Σat tσ at + Σat ( ) t ( ) ( ) = Σat Σ at = SKt S t/ t x & s s
() Beliggeheds- og spredigsål Geesit og edia er begge ål for fordeliges beliggehed Mediae er ere robust overfor ekstree observatioer ed geesittet Observatioer 3 4 5 3 4 50 Geesit 3 Media 3 3 Tilsvarede er kvartilafstade et ere robust ål for fordeliges bredde (eller spredig) ed stadardafvigelse s Hvis data ku foreligger so grupperede observatioer: Reg so o alle observatioer i e gruppe er lig idtpuktet i itervallet Dette giver aturligvis ikke det sae so hvis vi havde adgag til de ugrupperede observatioer