Deskriptiv Statitik Judith L. Jacobsen, PhD. http://staff.pubhealth.ku.dk/~lts/basal09_1/ jlj@statcon.dk
Kursus formål Planlægning af studier selve indsamlingen af data, opstilling af statistiske hypoteser valg af tests og udførsel enkle analyser Faglig fortolkning af statistiske resultater Normalfordelingen & binomial fordelingen Frekvens og antals tabeller
Deskriptiv Statistik Typer af data Tabeller Grafik Summary statistik Forstå variation i observerede værdier Forskellige datatyper, skala og deres fordeling
Undersøg ALTID Data Plot ALLE observationerne STUDER dine plots Analyser dine data
Handler om Ud fra tal data: at kunne udtale sig om aspekter af virkeligheden (lægevidenskabelige/biologiske problemstillinger) (Ikke officiel statistik, statistikproduktion) Ud fra stikprøve: 1. Deskriptiv statistik: beskrive variation i population 2. Statistisk inferens (cf. infer ) drage konklusioner om ukendte størrelser, parametre, knyttet til populationen.
Hvad er Statistik Generalisere (gøre inferens) omkring en population ved at studere et udsnit fra denne Udsnit Inferens Population
Eksempel Population Alle voksne med mistanke om CHD ud fra nogle observationer Forsøg Udsnit af 60 voksne med mistanke om CHD Afprøvning af en intervention Statistik går ud på at sige noget om, hvor tæt vores observationer er på de resultater vi ville have, hvis vi havde observeret alle voksne med CHD
Emner Nøgleord Datareduktion Datapræsentation Statistiske modeller Værktøj Matematik Sandsynlighedsregning Grafik og sund fornuft!
Data typer I Kvalitativ Kvantitativ Binære Kategorisk Subjektiv Numerisk, målbar Objektiv Enten Eller Død levende Præcision 0 1 1 2 3
Data typer II Kvalitative Beskrivelse Subjektivt Objektivt Kvantitative Målinger Kontinuerte Diskrete Nominal Benævnte kategorier Ordinal Ordnede kategorier Interval Specifik afstand Ratio Samme reference
Interval & Ratio Interval skala Specifik distance Temperatur Arbitrær reference, Celcius og Farenheit, man kan ikke sige at 20 er dobbelt så varmt som 10 Ratio skala Samme reference Alder Ratio har samme reference 50 år er dobbelt så gammel som 25 år
Kategoriske Data To kategorier (dikotom/binær): Mand/kvinde Gravid/ikke gravid Gift/ugift Ryger/ikke ryger Flere end to: Nominal: Gift / ugift / fraskilt / enke(mand) Ordinal: minimal / moderat / alvorlig / uudholdelig smerte
Kontinuerte Data Måling på en sammenhængende skala I praksis afrundede tal Variable der antager mange værdier Ofte noget med normalfordelingen Eksempler Højde Vægt Serum-kolesterol Blodtryk
Diskrete Numeriske Data Tælletal Antal børn i en familie Antal metastaser/celler/bakteriekolonier Flydende grænser mellem diskrete numeriske og ordinale kategoriske data. OBS: Ofte meningsløst at behandle ordinale data som om de var numeriske. Gennemsnitlig socialklasse eller cancerstadium??
Censurerede data Typisk overlevelsesdata For nogen data vides kun om de er større end en vis værdi. For andre kendes værdien. Patienten var i live ved sidste follow-up / pr. 1.jan. 1997 NB: der er også trunkerede data hvor man slet ikke har data hvis de er mindre/større end en vis værdi: Tid til diagnose blandt patienter med symptomstart i 1995, fx.
Beaufort Vindskala Beaufort m/s Knob km/t Betegnelse Observationer på land Observationer på vand 12 >32 >63 118 - Orkan Voldsomme ødelæggelser Luften fyldt med skum, der forringer sigten væsentligt 11 29-32 56-63 103-117 Stærk storm Talrige ødelæggelser Umådeligt høje bølger - havet dækket af hvide skumflager - sigten forringet 10 25-28 48-55 89-102 Storm Træer rives op med rode - betydelige skader på huse Meget høje bølger - næsten hvid overflade - skumsprøjt påvirker udsigten 9 21-24 41-47 75-88 Stormende kuling Store grene knækkes - tagsten blæser ned Høje bølger, hvor toppen vælter over - skumsprøjt kan påvirke sigten 8 17-20 34-40 62-74 Hård kuling Kviste og grene brækkes af - besværligt at gå mod vinden Ret høje, lange bølger - bølgekammen brydes til skumsprøjt Vel defineret Ordinal Elastisk skala Admiral Francis Beaufort
Oversigt over Teknikker Respons Kovariater Dikotome Kategoriske Kontinuerte Kategoriske og Kontinuerte Dikotome 2 x 2-tabeller 2 χ test Logistisk regression Kategoriske Kontingens tabeller / 2 χ test Gen. Logistisk regression Ordinale Vanskeligt, e.g. proportional odds models Kontinuerte Mann Whitney Kruskal - Wallis Robust multipel Wilcon sign rank - Friedman regression Normal T-test Varians Analyse Kovarians analyse Fordeling Parret / uparret En- / to-sidet Multipel regression Censorede data Korrelerede Normalt ford. Log-rank test Varians komponent Modeller Cox regression Modeller for gentagne målinger
Overblik Interval & ratio data indeholder mere information end ordinal data, som indeholder mere information end nominal data Man kan altid gå fra kontinuert diskret ordinal nominal Men aldrig den anden vej!
Beskrivelse af Data Nominal Frekvenser Tabellering Tærte diagram Kontinuerte Middel, median, Sd, fraktiler Scatter plot Ordinal Frekvenser Stolpe diagram Diskret Median, min, max Stolpe diagram
Beskrivelse Kategoriske Data Stolpediagrammer (barplots)
Tabeller Absolutte hyppigheder/frekvenser (antal) Kejsersnit og skostørrelse: Section Yes No Total <4 4 4½ 5 5½ 6+ 5 7 6 7 8 10 17 28 36 41 46 140 22 35 42 48 54 150 Total 43 308 351
Tabeller - i procent Kejsersnit og skostørrelse: Relative frekvenser (i %) Section Yes No Total <4 4 4½ 5 5½ 6+ 22.7 20.0 14.3 14.6 14.8 6.7 77.3 80.0 85.7 85.4 85.2 93.3 100 100 100 100 100 100 Total 12.3 87.7 100 Fordel: direkte sammenlignelighed Ulempe: mister de faktiske antal
Procenter den anden vej Kejsersnit og skostørrelse: Relative frekvenser (i %) Section Yes No Total <4 4 4½ 5 5½ 6+ 11.6 16.3 14.0 16.3 18.6 23.3 5.5 9.1 11.7 13.3 14.9 45.5 6.3 10.0 12.0 13.7 15.4 42.7 Total 100 100 100 Dette siger noget om fodstørrelse og ikke så meget om hyppighed af kejsersnit
Mere om Frekvenser Trafikofre i the London Borough of Harrow 1985 (65 med ukendt alder udeladt) Alder Frekv. Fr./ år 0-4 5-9 10-15 16 17 18-19 20-24 25-59 60+ 28 46 58 20 31 64 149 316 103 5.4 9.2 11.6 20.0 31.0 32.0 29.8 9.0 5.2 Total 815 Remark: Her kommer grupperne fra kontinuerte observationer Så et bar chart af frekvenserne er mere som et histogram...
Ukorrekt: (uens interval bredde) højden af stolper = absolutte frekvenser
Korrekt: (uens interval bredde) højden af stolper = antal ofre pr år (alder)
Grupperinger 1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0 Histogrammer Overvej om data bør deles op A B 1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0 1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0
Grupperinger II 400 400 Measure 300 Value 300 200 200 100 AGE(1)AGE(2)AGE(3)AGE(4) Trial GRUPPE$ W R 100 R W GRUPPE$ AGE(4) AGE(3) AGE(2) AGE(1)
Eksempel Kvantitative Data PI max
Beskrivelse Kvantitative Variable Graphs: Histogram Probability plot QQ plot Box plot Graph/Histogram pimax i Analysis
Histogram tæthed
Sandsynligheder Tæthed Hvad betyder sandsynligheder, f.eks. for PImax? Her: hver enkelt værdi sandsynlighed = 0 for at indtræffe (fordi der i princippet er mange mulige udfald) Sandsynlighedstætheder, sandsynligheden for et interval = arealet under kurven
Diagrammer Histogram Frekvens fordeling Box plot Scatter plot
Normalfordelingstætheder µ middel forventet σ standard afvigelse
Histogram med overlejret Normalfordeling Graph/Histogram pimax i Analysis klik Fit og afkryds Normal Parameters
Gennemsnit Et mål for centrum i en fordeling Kan opfattes som ligevægtspunkt påvirkes af yderlige observationer Eksempel: Indlæggelsestider: 5,5,5,7,10,16,106 dage Gennemsnit: 154/7=22 dage Repræsentativt for hvad?? Hvis omkostninger er proportionale med indlæggelsestiden, er det måske gennemsnittet, der er interessant
Skal vi skræmme modstanderne Ved at give vores middelhøjde? Eller berolige dem ved at give median højden?
Estimatorer for Beliggenhed Middel Den aritmetiske middelværdi for et set observationer. Misvisende når baseret på skewed data. Median Den værdi, i et set ordnede observationer, som deler data i to ens dele. God til skewed data og relativ robust for outliere. Modus Den oftest observerede værdi i et set observationer ( typisk værdi ). Bruges bla. når ovennævnte ikke slår til
Estimatorer for Spredning Range Forskellen mellem max. og min. i et set observationer. Ikke anbefalet til at måle spredning pga. sensitiviteten til outliers. Dens størrelse øger med stikprøve størrelsen. Varians Gennemsnittet af observationernes kvadrerede afvigelser fra middelværdien. Standard afvigelse SD = kvadratroden af variansen. Standard fejl SD for stikprøve fordelingen af en statistik. SE = s / n ½
Deskriptive Mål Udregning af basale mål Middel: x = x n Varians: s 2 ( ) = x x ( n 1) 2 Std.afv.: s = s 2 Medianen (50%) er den midterste værdi når data er sorteret efter størrelse
Hvornår bruges hvad? Beliggenhed Formen på data Skewed: Median Symmetrisk: Middel Type data Nominale data: Modus Ordinale data: Median Kontinuerte Data: Middel Skala Formen på data Gir ingen mening at beregne SD for skewed data Brug kvartiler og fraktiler i stedet
Fraktiler og kvartiler Et mål for variabilitet 2000 Viser skævheder 50% = medianen 25% og 75% STYRKE 1500 1000 Fraktiler Frekvens fordeling 500 S T METODE$
Summary Statistik i SAS Statistics/Descriptive/Summary Statistics pimax i Analysis i Statistics afkrydses: Mean, Standard Deviation, Minimum, Maximum, Median & Number of Observations The MEANS Procedure Analysis Variable : pimax Mean Std Dev Minimum Maximum Median N --------------------------------------------------------------------------------------------------- 92.60 24.9215436 40.00 150.00 95.00 25 ---------------------------------------------------------------------------------------------------
Normalfordeling God? Hvordan ses, om normalfordelingen er en god beskrivelse? Computersimulation af 150 observationer fra samme normalfordeling, gentages 9 gange. Nogle ser ikke ret normalfordelte ud! Ganske store afvigelser kan tolereres (i visse sammenhænge) specielt når de ikke er for systematiske
Tilfældigt udtrukket 150 obs fra en normalfordeling middel = 115 og spredning = 10
Varians er vigtig Samme forskel i middelværdi, men ikke lige vigtig
Test af Normalitet i SAS Analyst Statistics/ Descriptive/ Distributions klik: Fit/Normal Parameters blandt meget andet output fås: The UNIVARIATE Procedure Fitted Distribution for pimax Parameters for Normal Distribution Parameter Symbol Estimate Mean Mu 92.6 Std Dev Sigma 24.92154 Goodness-of-Fit Tests for Normal Distribution Test --- Statistic --- --- p Value --- Kolmogorov-Smirnov D 0.12002682 Pr > D >0.150 Cramer-von Mises W-Sq 0.05671455 Pr > W-Sq >0.250 Anderson-Darling A-Sq 0.35232007 Pr > A-Sq >0.250
Quantiles Normal Fordeling ------- Quantile ------ Percent Observed Estimated 1.0 40.0000 34.6238 5.0 45.0000 51.6077 10.0 70.0000 60.6618 25.0 75.0000 75.7907 50.0 95.0000 92.6000 75.0 110.0000 109.4093 90.0 125.0000 124.5382 95.0 130.0000 133.5923 99.0 150.0000 150.5762
Fraktiler (PImax-eksempel) Data i rækkefølge: I pimax 1 40 2 45 3 70 4 75 5 75 6 75 7 75 8 80 9 80 108 0 I 11 12 13 14 15 16 17 18 19 20 pimax 85 95 95 95 95 100 100 100 110 110 I 21 22 23 24 25 pimax 110 120 125 130 150 Median: Midterste observation, 50%-fraktil: 95 Kvartiler (25% og 75% fraktiler): 75, 110.
Fraktildiagram Graphs/Probability Plot: Hvis data er normalfordelt, skal fraktildiagrammet ligne en ret linie
Graph/Box Plot i Display skiftes til Schematic
Hvis Fordelingen er Skæv eller afviger tydeligt fra N- Formalfordelingen: gennemsnit og spredning bør ikke angives I stedet: fraktiler median Inter-quartile range, IQR intervallet mellem 25% og 75% fraktil range Om muligt bør fordelingen illustreres grafisk! Alternativ: Transformer til normalitet For små materialer angives median range
Hvorfor Normalfordelingen? Ofte en rimelig approksimation Evt. efter transformation med logaritme, kvadratrod, invers,... Central grænseværdisætning: Summen af et stort antal variable ligner efterhånden en Normalfordeling (sum af N-fordelinger er igen en N-fordeling). Rimelig let at arbejde med, fordi standard programmel er udviklet for Normalfordelingen
Højder
Diastolisk Blodtryk
Central Grænseværdisætning standard error of the mean = SD SEM = = n 1 n SD
Normal Fordelingen Hvis variablen Y er normalfordelt med middelværdi µ og varians σ 2, skrives N( µ, σ Standardiseret /normeret variabel: Ζ Y ~ = Y µ s ~ t 2 ) df 3σ 2σ σ µ +σ +2σ +3σ 68,3% 95,4% 99,7% t df t-fordeling med df frihedsgrader (afh af ant. obs.)
N-Ford. Middel & Varians σ = 1 σ = 2 µ = 10 µ = 24
Eksempel Fra et stort materiale har vi fundet gennemsnitlig Se-albumin på 34.46 (g/l) og empirisk varians på 5.842 (g/l)2 Hvis vi antager Se-albumin er normalfordelt med middelværdi 34.46 g/l og spredning 5.84 g/l, hvad er sandsynligheden for at en tilfældigt udvalgt person har en værdi over 42.0 g/l? Hvor mange standardafvigelser er 42.0 fra 34.46? Tabelopslag i standardnormalfordeling eller computer: P = 0.0985 10% 42 34.46 5.84 = 1.29
Normalområder der omslutter 95% af normale observationer: nedre grænse: 2 ½ % fraktil øvre grænse: 97 ½ % fraktil Hvis fordelingen kan beskrives ved en normalfordeling N(µ,σ 2 ) kan disse fraktiler direkte udtrykkes som 2 ½ % fraktil: µ 1.96 y 1.96 s 97 ½ % fraktil: µ + 1.96 y + 1.96 s og normalområdet udregnes derfor som y ± 2 s = ( y 2 s, y + 2 s) z 0.025 = z0.975 1.96 hvis standard N-fordeling
Skæve fordelinger Gennemsnit 0.80g/l Standard deviation s = SD - 0.47g/l ( y + 2s, y + 2s) = ( 0.14g / l,1.74g / l)
Transformation På log10 skala: middel SD - 0.158 0.238 0.158 ± 2 0.238 = ( 0.63, 0.32) Antilogs: 10 10 10 0.32 0.158 0.63 = 0.695 = 0.23 = 2.08 Bedre grænser: (0.23, 2.08)