Modul 1: Beskrivende dataanalyse

Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 1: Beskrivende dataanalyse 1.1 Statistik og dataanalyse............................... 1 1.2 Variable og data................................... 2 1.2.1 Typer af variable............................... 3 1.3 Grafiske metoder til at vise data.......................... 3 1.3.1 Vurdering af grafer.............................. 7 1.4 Nøglestørrelser for numeriske variable....................... 9 1.4.1 Positionsmål................................. 10 1.4.2 Variationsmål................................. 12 1.5 Box plots....................................... 13 1.6 Sammenhængsmål.................................. 15 1.1 Statistik og dataanalyse In God we trust, all others must bring data. W. Edwards Deming Data = systematisk indsamlet information. Eksempler: 1. Massefylden af vand ved 10 givne temperaturer. 2. Koncentrationen af HCl i 15 prøver fra en industriel produktion. 3. De første 300,000 primtal. 4. En algoritmes tidsforbrug for 75 forskellige inddata. 5. Den daglige dollarkurs i 2006. 6. Vanddybden i 25 søer på Fyn. 7. Massespektret for 27 proteinprøver. Statistik = at indsamle, fortolke og analysere data. Eksempler på statistiske problemstillinger: 1. Hvordan afhænger vands massefylde af temperaturen?

1.2 Variable og data 2 2. Hvordan fordeler koncentrationen af HCl sig langs tromlen? 3. Hvordan kan man beskrive den asymptotiske fordelingen af primtallene på aksen? 4. For hvilken type inddata er algoritmen bedst? 5. Hvorledes opfører de daglige fluktuationer af dollarkursen sig? 6. Hvor mange dybe søer er der på Fyn? 7. Hvad siger massespektret om proteinsammensætningen? Variationskilder = hvor kommer variationen fra? Nogle eksempler: 1. Massefylden afhænger af temperaturen. 2. Koncentrationen af HCl aftager i procesretningen. 3. Spiller tilfældigheder ind på fordelingen af primtallene? 4. Algoritmen er robust over for komplexiteten af input. 5. Dollarkursen svinger tilfældigt fra dag til dag. 6. De dybe søer er formet af istiden. 7. Der er forskel på en ondartet og en godartet knude. To typer variationskilder: Systematisk variation. Hvordan måles den? Tilfældig variation. Hvordan måles den? 1.2 Variable og data Variable: betegnelsen for det man registrerer (måler, tæller, observerer,...) fx højde, længde, køn, styrke, vægtforskel, koncentration, farve, vindretning,... Data: de faktiske målinger, observationer,... fx 198 cm, 0.05 mm, kvinde, 42 p.s.i., 45kg, 3%, blå, sydøst...

1.3 Grafiske metoder til at vise data 3 Bemærk: I dette kursus bruger vi engelsk decimalpunktum i stedet for komma! Eksempel 1.1 Standardvægt Tidligere havde United States National Bureau of Standards en standardvægt på 10g. For at sikre sig at vægten var tilregnelig, vejedes den jævnligt. 100 målinger resulterede i: 9.999591g, 9.999600g, 9.999594g,..., 9.999596g. Eksempel 1.2 Studerendes fravær I et kursus med 28 forelæsninger, blev fraværet af hver af de 203 studerende noteret: 2, 3, 2,..., 4, 1. Eksempel 1.3 Isforbrug og temperatur Isforbruget per inbygger (i pints per dag) blev målt i forskellige områder af USA om sommeren. Desuden blev, for hver måling af isforbrug, gennemsnitstemperaturen noteret (bl.a.): Isforbrug (pints): 0.386 0.374 0.393... 0.548 Temperatur (Fahrenheit): 41 56 63... 71 1.2.1 Typer af variable Variabeltyper: Kvalitative (fx køn, farve, hvorvidt man lider af en bestemt sygdom,...) Dvs. klasseopdeling, skal være entydig. Kvantitative Diskret (fx antal biler i husstand, antal tropenætter i juli, antal fejl i en test,...) Kontinuert (fx længde, højde, vægt, styrke, koncentration,...) 1.3 Grafiske metoder til at vise data Søjlediagram (kun for diskrete variable): 1. En søjle for hver mulige/relevante værdi af variabel. 2. Søjlehøjde = antal data med pågældende værdi.

1.3 Grafiske metoder til at vise data 4 Tæthedsdiagram: del søjlehøjderne med det totale antal data. Figur 1.1: Fraværende Studerende. Histogram for kontinuert variabel. Frekvenshistogram: 1. Del det mulige/relevante interval op i et antal lige store intervaller. 2. Søjlehøjde = antal data i pågældende interval. 3. Søjlerne skal hænge sammen. Tæthedshistogram (standard): 1. Del det mulige/relevante interval op i et antal intervaller. 2. Søjlehøjde = antal data i pågældende interval delt med samlet antal data og med intervallængden. 3. Søjlerne skal hænge sammen. Areal under kurven = 1. Kan håndtere varierende intervallængde. 4. Bemærk: Grafen afhænger i høj grad af den valgte intervalopdeling!

1.3 Grafiske metoder til at vise data 5 Figur 1.2: Standardvægt 1. Figur 1.3: Standardvægt 2 (andet startpunkt).

1.3 Grafiske metoder til at vise data 6 Figur 1.4: Standardvægt 3 (mindre intervallængde). Figur 1.5: Standardvægt 4 (mindste intervallængde). Scatterplot: (for to (sædvanligvis) kontinuerte variable) 1. Tegn samhørende punkter (x,y) ind i diagram.

1.3 Grafiske metoder til at vise data 7 Figur 1.6: Isforbrug og temperatur. 1.3.1 Vurdering af grafer Søjlediagram/histogram: Hvor mange data danner baggrund for grafen? Er grafen fornuftig? er intervalopdelingen for grov/fin? er endepunkterne for intervallerne valgt fornuftigt? Er grafen som forventet? stemmer den overens med din forhåndsviden? hvordan afviger grafen fra forventningen? hvorfor? Er grafen pæn? symmetrisk/skæv? lige/ujævn? et eller flere toppunkter (modus er)? er der outliers? Scatterplot:

1.3 Grafiske metoder til at vise data 8 Figur 1.7: Isforbrug og temperatur 2. Er der sammenhæng mellem de to variable? lineær/ikke-lineær? følger de hinanden tæt? er de positivt/negativt korrelerede? er der outliers? Eksempel 1.4 Anoreksibehandling I en engelsk undersøgelse blev unge anoreksiramte piger behandlet med cognitiv terapi. Forskellen i vægt før og efter behandling blev målt i pund (lb). Figur 1.8: Vægtforøgelse efter terapi.

1.4 Nøglestørrelser for numeriske variable 9 Eksempel 1.5 Papirstyrke Styrken (p.s.i.) blev målt for forskellige partier af Kraft Paper (kraftigt indpakningspapir). For hvert parti er også angivet andelen af hårdt træ i papirmassen. Figur 1.9: Papirstyrke. 1.4 Nøglestørrelser for numeriske variable Beskriv fordelingen af givne data med nogle få talstørrelser: Position hvor på aksen er vi? (systematikken) Variation hvor store er de tilfældige udsving? Sammenhængen mellem to variable. Generel betegnelse for data fra variablen y: n = antal data. y 1,y 2,...,y n Eksempel 1.6 Flagermus på jagt Når flagermus jager, udsender de højfrekvente lyde og bruger ekkoet af lyden til at finde byttet. Data angiver afstanden (i cm) mellem flagermus og byttedyret, når flagermusen opdager byttet. 62 52 68 23 34 45 27 42 83 56 40

1.4 Nøglestørrelser for numeriske variable 10 Figur 1.10: Afstand mellem flagermus og bytte. 1.4.1 Positionsmål Middelværdi ȳ: Gennemsnit ȳ = 1 n n y i. i=1 Eksempel 1.6 Flagermus på jagt Middelværdi: ȳ = (62 + 52 + + 40)/11 = 48.36. Median Q 2 : Midterste værdi Stil data op i rækkefølge y (1) y (2) y (n) Hvis n ulige: Q 2 = y ((n+1)/2) Hvis n lige: Q 2 = y (n/2) + y (n/2+1). 2 Eksempel 1.6 Flagermus på jagt Ordnede data: 23 27 34 40 42 45 52 56 62 68 83

1.4 Nøglestørrelser for numeriske variable 11 Median: Q 2 = 45 Typetal (modus): Mest typiske værdi/interval Værdi som flest data antager (diskret variabel) Midtpunkt i intervalstykke med flest data (kontinuert variabel) Bemærk: Modus bruges ofte om samtlige høje toppe i et diagram. Eksempel 1.6 Flagermus på jagt Data: 23 27 34 40 42 45 52 56 62 68 83 Interval 0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 Frekvens 0 0 2 1 3 2 2 0 1 Typetal: 45 Fordele og ulemper: Middelværdi: God at regne med, men påvirkes meget af outliers. Median: Påvirkes ikke af outliers, men er sværere at regne med. Typetal: Let at forklare, men varierer meget. Andre mål for position: Fraktil (percentil) for 0 q 1: et tal Q q så: mindst q 100% af data er Q q og mindst (1 q) 100% af data er Q q Kvartiler: Nedre (første) kvartil: Q 1 = Q 25% Median (anden kvartil): Q 2 = Q 50% Øvre (tredje) kvartil Q 3 = Q 75%

1.4 Nøglestørrelser for numeriske variable 12 IQR = Q 3 Q 1 min = Q 0% max = Q 100% range =max min Eksempel 1.6 Flagermus på jagt Ordnede data: 23 27 34 40 42 45 52 56 62 68 83 Nedre kvartil: Q 1 = 34 Median: Q 2 = 45 Øvre kvartil: Q 3 = 62 Hvis Q q ligger mellem to dataværdier, defineres Q q som gennemsnittet af de to værdier. Eksempel 1.6 (fortsat) Flagermus på jagt (reducerede data) Ordnede data: 23 27 40 42 45 56 68 83 Nedre kvartil: Q 1 = (27 + 40) /2 = 33.5 Median: Q 2 = (42 + 45) /2 = 43.5 Øvre kvartil: Q 3 = (56 + 68) /2 = 62 1.4.2 Variationsmål Varians s 2 : s 2 = 1 n 1 n (y i ȳ) 2 i=1 Eksempel 1.6 Flagermus på jagt Varians: s 2 = 1 [ (62 48.36) 2 + (52 48.36) 2 + + (40 48.36) 2] = 327.05. 10

1.5 Box plots 13 Spredning (standardafvigelse): s = s 2 = 1 n (y i ȳ) 2. n 1 i=1 Eksempel 1.6 Flagermus på jagt Spredning: s = 327.05 = 18.08. Interquantile range IQR: IQR = Q 3 Q 1 Eksempel 1.6 Flagermus på jagt IQR = Q 3 Q 1 = 62 34 = 28 1.5 Box plots En simpel figur, som viser de vigtigste nøglestørrelser: Medianen Q 2 Nedre og øvre kvartiler, h.h.v. Q 1 og Q 3 Øvre og nedre adjacent values, defineret ved A + = den største værdi som er mindre end Q 3 + 1.5 IQR (øvre hinge) A = den mindste værdi som er større end Q 1 1.5 IQR (nedre hinge) Værdier som er uden for de to hinges kaldes outside values, og markeres ofte med.

1.5 Box plots 14 Figur 1.11: Flagermus på jagt Figur 1.12: Fraværende studerende.

1.6 Sammenhængsmål 15 Figur 1.13: Afvigelser på standardvægt. Outliers: Særligt store eller særligt små værdier, som ikke passer med resten af data. Outside values regnes ofte for at være muligt outliers. Om det er tilfældet, afhænger af, hvor grelle de er, og om de i øvrigt er specielle. 1.6 Sammenhængsmål Givet et variabelpar (x,y). n par af data: (x 1,y 1 ),...,(x n,y n ), målt på (x,y). Hvor stærkt (linært) afhængige er de to variable x og y, bedømt ud fra data? Kovarians mellem x og y: c = c xy = 1 n 1 n (x i x) (y i ȳ). i=1 Gennemsnitlig grad af ko-variation mellem x og y, dvs. hvor meget de varierer sammen (co-vary). Korrelation (Pearsons korrelationskoefficient): r = r xy = 1 n 1 n i=1 Mål for associationen mellem x og y. (x i x) (y i ȳ) s x s y = 1 n 1 n ( )( ) xi x yi ȳ. i=1 s x s y

1.6 Sammenhængsmål 16 Bemærk: Mulige værdier: r [ 1,1] Fortegn: Positiv korrelation hvis r > 0. Negativ korrelation hvis r < 0. Styrke: Stærk korrelation hvis r stor, dvs. tæt ved 1. Svag korrelation hvis r lille, dvs. tæt ved 0. Eksakt lineær sammenhæng hvis r = 1. Ingen lineær sammenhæng hvis r = 0. Eksempler: Isforbrug og temperatur: r = 0.776. Lineær regression Den lineære sammenhæng mellem x og y kan beskrives ved lineær regression. Vi taler om regression af y på x, dvs. vi forklarer y s variation ved x s variation. Sammenhængen er givet ved regressionslinien. For givne værdier af x, ȳ, s x og c xy er linien y = ȳ + b(x x), hvor hældningen b er defineret ved Det forudsættes at s 2 x > 0. b = c xy s 2. x

1.6 Sammenhængsmål 17 Figur 1.14: Isforbrug og temperatur, med ret linie indlagt.