MPH Deskriptiv Statitik Judith L. Jacobsen, PhD. http://staff.pubhealth.ku.dk/~lts/basal09_1/ jlj@statcon.dk Kursus formål Planlægning af studier selve indsamlingen af data, opstilling af statistiske hypoteser valg af tests og udførsel enkle analyser Faglig fortolkning af statistiske resultater Normalfordelingen & binomial fordelingen Frekvens og antals tabeller Deskriptiv Statistik Typer af data Tabeller Grafik Summary statistik Forstå variation i observerede værdier Forskellige datatyper, skala og deres fordeling Judith L. Jacobsen 1
MPH Undersøg ALTID Data Plot ALLE observationerne STUDER dine plots Analyser dine data Handler om Ud fra tal data: at kunne udtale sig om aspekter af virkeligheden (lægevidenskabelige/biologiske problemstillinger) (Ikke officiel statistik, statistikproduktion) Ud fra stikprøve: 1. Deskriptiv statistik: beskrive variation i population 2. Statistisk inferens (cf. infer ) drage konklusioner om ukendte størrelser, parametre, knyttet til populationen. Hvad er Statistik Generalisere (gøre inferens) omkring en population ved at studere et udsnit fra denne Udsnit Inferens Population Judith L. Jacobsen 2
MPH Eksempel Population Alle voksne med mistanke om CHD ud fra nogle observationer Forsøg Udsnit af 60 voksne med mistanke om CHD Afprøvning af en intervention Statistik går ud på at sige noget om, hvor tæt vores observationer er på de resultater vi ville have, hvis vi havde observeret alle voksne med CHD Emner Nøgleord Datareduktion Datapræsentation Statistiske modeller Værktøj Matematik Sandsynlighedsregning Grafik og sund fornuft! Data typer I Kvalitativ Kvantitativ Binære Kategorisk Subjektiv Numerisk, målbar Objektiv Enten Eller Død levende 0 1 Præcision 1 2 3 Judith L. Jacobsen 3
MPH Data typer II Kvalitative Beskrivelse Subjektivt Objektivt Nominal Benævnte kategorier Ordinal Ordnede kategorier Kvantitative Målinger Kontinuerte Diskrete Interval Specifik afstand Ratio Samme reference Interval & Ratio Interval skala Specifik distance Temperatur Arbitrær reference, Celcius og Farenheit, man kan ikke sige at 20 er dobbelt så varmt som 10 Ratio skala Samme reference Alder Ratio har samme reference 50 år er dobbelt så gammel som 25 år Kategoriske Data To kategorier (dikotom/binær): Mand/kvinde Gravid/ikke gravid Gift/ugift Ryger/ikke ryger Flere end to: Nominal: Gift / ugift / fraskilt / enke(mand) Ordinal: minimal / moderat / alvorlig / uudholdelig smerte Judith L. Jacobsen 4
MPH Kontinuerte Data Måling på en sammenhængende skala I praksis afrundede tal Variable der antager mange værdier Ofte noget med normalfordelingen Eksempler Højde Vægt Serum-kolesterol Blodtryk Diskrete Numeriske Data Tælletal Antal børn i en familie Antal metastaser/celler/bakteriekolonier Flydende grænser mellem diskrete numeriske og ordinale kategoriske data. OBS: Ofte meningsløst at behandle ordinale data som om de var numeriske. Gennemsnitlig socialklasse eller cancerstadium?? Censurerede data Typisk overlevelsesdata For nogen data vides kun om de er større end en vis værdi. For andre kendes værdien. Patienten var i live ved sidste follow-up / pr. 1.jan. 1997 NB: der er også trunkerede data hvor man slet ikke har data hvis de er mindre/større end en vis værdi: Tid til diagnose blandt patienter med symptomstart i 1995, fx. Judith L. Jacobsen 5
MPH Beaufort Vindskala Beaufort m/s Knob km/t Betegnelse Observationer på land Observationer på vand 12 >32 >63 118-11 29-32 56-63 103-117 10 25-28 48-55 89-102 9 21-24 41-47 75-88 8 17-20 34-40 62-74 Vel defineret Orkan Stærk storm Storm Stormende kuling Hård kuling Ordinal Voldsomme ødelæggelser Luften fyldt med skum, der forringer sigten væsentligt Talrige ødelæggelser Umådeligt høje bølger - havet dækket af hvide skumflager - sigten forringet Træer rives op med rode - Meget høje bølger - næsten hvid betydelige skader på huse overflade - skumsprøjt påvirker udsigten Store grene knækkes - Høje bølger, hvor toppen vælter tagsten blæser ned over - skumsprøjt kan påvirke sigten Kviste og grene brækkes af Ret høje, lange bølger - - besværligt at gå mod bølgekammen brydes til vinden skumsprøjt Elastisk skala Admiral Francis Beaufort Respons Oversigt over Teknikker Kovariater Dikotome Kategoriske Kontinuerte Kategoriske og Kontinuerte Dikotome Kategoriske Ordinale Kontinuerte Normal Fordeling 2 x 2-tabeller Kontingens tabeller / Mann Whitney Wilcon sign rank T-test Parret / uparret 2 χ test 2 χ test Vanskeligt, e.g. proportional odds models Kruskal - Wallis - Friedman Varians Analyse En- / to-sidet Logistisk regression Gen. Logistisk regression Robust multipel regression Kovarians analyse Multipel regression Censorede data Korrelerede Normalt ford. Log-rank test Varians komponent Modeller Cox regression Modeller for gentagne målinger Overblik Interval & ratio data indeholder mere information end ordinal data, som indeholder mere information end nominal data Man kan altid gå fra kontinuert diskret ordinal nominal Men aldrig den anden vej! Judith L. Jacobsen 6
MPH Beskrivelse af Data Nominal Frekvenser Tabellering Tærte diagram Ordinal Frekvenser Stolpe diagram Kontinuerte Middel, median, Sd, fraktiler Scatter plot Diskret Median, min, max Stolpe diagram Beskrivelse Kategoriske Data Stolpediagrammer (barplots) Tabeller Absolutte hyppigheder/frekvenser (antal) Kejsersnit og skostørrelse: Section Yes No Total <4 4 4½ 5 5½ 6+ 5 7 6 7 8 10 17 28 36 41 46 140 22 35 42 48 54 150 Total 43 308 351 Judith L. Jacobsen 7
MPH Tabeller - i procent Kejsersnit og skostørrelse: Relative frekvenser (i %) Section Yes No <4 4 4½ 5 5½ 6+ 22.7 20.0 14.3 14.6 14.8 6.7 77.3 80.0 85.7 85.4 85.2 93.3 Total 12.3 87.7 Total 100 100 100 100 100 100 100 Fordel: direkte sammenlignelighed Ulempe: mister de faktiske antal Procenter den anden vej Kejsersnit og skostørrelse: Relative frekvenser (i %) Section Yes No Total <4 4 4½ 5 5½ 6+ 11.6 16.3 14.0 16.3 18.6 23.3 5.5 9.1 11.7 13.3 14.9 45.5 6.3 10.0 12.0 13.7 15.4 42.7 Total 100 100 100 Dette siger noget om fodstørrelse og ikke så meget om hyppighed af kejsersnit Mere om Frekvenser Trafikofre i the London Borough of Harrow 1985 (65 med ukendt alder udeladt) Alder Frekv. Fr./ år 0-4 5-9 10-15 16 17 18-19 20-24 25-59 60+ 28 46 58 20 31 64 149 316 103 5.4 9.2 11.6 20.0 31.0 32.0 29.8 9.0 5.2 Total 815 Remark: Her kommer grupperne fra kontinuerte observationer Så et bar chart af frekvenserne er mere som et histogram... Judith L. Jacobsen 8
MPH Ukorrekt: (uens interval bredde) højden af stolper = absolutte frekvenser Korrekt: (uens interval bredde) højden af stolper = antal ofre pr år (alder) Grupperinger 1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0 Histogrammer Overvej om data bør deles op A B 1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0 1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0 Judith L. Jacobsen 9
MPH Grupperinger II 400 400 Measure 300 Value 300 200 200 100 AGE(1)AGE(2)AGE(3)AGE(4) Trial GRUPPE$ W R 100 R W GRUPPE$ AGE(4) AGE(3) AGE(2) AGE(1) Eksempel Kvantitative Data PI max Beskrivelse Kvantitative Variable Graphs: Histogram Probability plot QQ plot Box plot Graph/Histogram pimax i Analysis Judith L. Jacobsen 10
MPH Histogram tæthed Sandsynligheder Tæthed Hvad betyder sandsynligheder, f.eks. for PImax? Her: hver enkelt værdi sandsynlighed = 0 for at indtræffe (fordi der i princippet er mange mulige udfald) Sandsynlighedstætheder, sandsynligheden for et interval = arealet under kurven Diagrammer Histogram Frekvens fordeling Box plot Scatter plot Judith L. Jacobsen 11
MPH µ middel forventet σ standard afvigelse Normalfordelingstætheder med overlejret Normalfordeling Graph/Histogram pimax i Analysis klik Fit og afkryds Normal Parameters Histogram Et mål for centrum i en fordeling Kan opfattes som ligevægtspunkt påvirkes af yderlige observationer Gennemsnit Eksempel: Indlæggelsestider: 5,5,5,7,10,16,106 dage Gennemsnit: 154/7=22 dage Repræsentativt for hvad?? Hvis omkostninger er proportionale med indlæggelsestiden, er det måske gennemsnittet, der er interessant Judith L. Jacobsen 12
MPH Skal vi skræmme modstanderne Ved at give vores middelhøjde? Eller berolige dem ved at give median højden? Estimatorer for Beliggenhed Middel Den aritmetiske middelværdi for et set observationer. Misvisende når baseret på skewed data. Median Den værdi, i et set ordnede observationer, som deler data i to ens dele. God til skewed data og relativ robust for outliere. Modus Den oftest observerede værdi i et set observationer ( typisk værdi ). Bruges bla. når ovennævnte ikke slår til Estimatorer for Spredning Range Forskellen mellem max. og min. i et set observationer. Ikke anbefalet til at måle spredning pga. sensitiviteten til outliers. Dens størrelse øger med stikprøve størrelsen. Varians Gennemsnittet af observationernes kvadrerede afvigelser fra middelværdien. Standard afvigelse SD = kvadratroden af variansen. Standard fejl SD for stikprøve fordelingen af en statistik. SE = s / n ½ Judith L. Jacobsen 13
MPH Deskriptive Mål Udregning af basale mål Middel: x x = n Varians: 2 ( x x) 2 s = ( n 1) Std.afv.: s = 2 s Medianen (50%) er den midterste værdi når data er sorteret efter størrelse Hvornår bruges hvad? Beliggenhed Formen på data Skewed: Median Symmetrisk: Middel Type data Nominale data: Modus Ordinale data: Median Kontinuerte Data: Middel Skala Formen på data Gir ingen mening at beregne SD for skewed data Brug kvartiler og fraktiler i stedet Fraktiler og kvartiler Et mål for variabilitet Viser skævheder 50% = medianen 25% og 75% STYRKE 2000 1500 1000 Fraktiler Frekvens fordeling 500 S T METODE$ Judith L. Jacobsen 14
MPH Summary Statistik i SAS Statistics/Descriptive/Summary Statistics pimax i Analysis i Statistics afkrydses: Mean, Standard Deviation, Minimum, Maximum, Median & Number of Observations The MEANS Procedure Analysis Variable : pimax Mean Std Dev Minimum Maximum Median N --------------------------------------------------------------------------------------------------- 92.60 24.9215436 40.00 150.00 95.00 25 --------------------------------------------------------------------------------------------------- Normalfordeling God? Hvordan ses, om normalfordelingen er en god beskrivelse? Computersimulation af 150 observationer fra samme normalfordeling, gentages 9 gange. Nogle ser ikke ret normalfordelte ud! Ganske store afvigelser kan tolereres (i visse sammenhænge) specielt når de ikke er for systematiske Tilfældigt udtrukket 150 obs fra en normalfordeling middel = 115 og spredning = 10 Judith L. Jacobsen 15
MPH Varians er vigtig Samme forskel i middelværdi, men ikke lige vigtig Test af Normalitet i SAS Analyst Statistics/ Descriptive/ Distributions klik: Fit/Normal Parameters blandt meget andet output fås: The UNIVARIATE Procedure Fitted Distribution for pimax Parameters for Normal Distribution Parameter Symbol Estimate Mean Mu 92.6 Std Dev Sigma 24.92154 Goodness-of-Fit Tests for Normal Distribution --- Statistic --- --- p Value Test --- Kolmogorov-Smirnov D 0.12002682 > D >0.150 Pr Cramer-von Mises W-Sq 0.05671455 Pr > W-Sq >0.250 Anderson-Darling A-Sq 0.35232007 Pr > A-Sq >0.250 Quantiles Normal Fordeling ------- Quantile ------ Percent Observed Estimated 1.0 40.0000 34.6238 5.0 45.0000 51.6077 10.0 70.0000 60.6618 25.0 75.0000 75.7907 50.0 95.0000 92.6000 75.0 110.0000 109.4093 90.0 125.0000 124.5382 95.0 130.0000 133.5923 99.0 150.0000 150.5762 Judith L. Jacobsen 16
MPH Fraktiler (PImax-eksempel) Data i rækkefølge: I pimax I pimax I pimax 1 40 11 85 21 110 2 45 12 95 22 120 3 70 13 95 23 125 4 75 14 95 24 130 5 75 15 95 25 150 6 75 16 100 7 75 17 100 8 80 18 100 9 80 19 110 108 0 20 110 Median: Midterste observation, 50%-fraktil: 95 Kvartiler (25% og 75% fraktiler): 75, 110. Graphs/Probability Plot: Fraktildiagram Hvis data er normalfordelt, skal fraktildiagrammet ligne en ret linie Graph/Box Plot i Display skiftes til Schematic Judith L. Jacobsen 17
MPH Hvis Fordelingen er Skæv eller afviger tydeligt fra N- Formalfordelingen: gennemsnit og spredning bør ikke angives I stedet: fraktiler median Inter-quartile range, IQR intervallet mellem 25% og 75% fraktil range Om muligt bør fordelingen illustreres grafisk! Alternativ: Transformer til normalitet For små materialer angives median range Hvorfor Normalfordelingen? Ofte en rimelig approksimation Evt. efter transformation med logaritme, kvadratrod, invers,... Central grænseværdisætning: Summen af et stort antal variable ligner efterhånden en Normalfordeling (sum af N-fordelinger er igen en N-fordeling). Rimelig let at arbejde med, fordi standard programmel er udviklet for Normalfordelingen Højder Judith L. Jacobsen 18
MPH Diastolisk Blodtryk Central Grænseværdisætning SD standard error of the mean = SEM = = n 1 n SD Normal Fordelingen Hvis variablen Y er normalfordelt med middelværdi µ og varians σ 2, skrives Standardiseret /normeret variabel: 2 Y ~ N( µ, σ ) Ζ = Y µ s ~ t df 3σ 2σ σ σ µ +σ +2σ +3σ 68,3% 95,4% 99,7% t df t-fordeling med df frihedsgrader (afh af ant. obs.) Judith L. Jacobsen 19
MPH N-Ford. Middel & Varians σ = 1 σ = 2 µ = 10 µ = 24 Eksempel Fra et stort materiale har vi fundet gennemsnitlig Se-albumin på 34.46 (g/l) og empirisk varians på 5.842 (g/l)2 Hvis vi antager Se-albumin er normalfordelt med middelværdi 34.46 g/l og spredning 5.84 g/l, hvad er sandsynligheden for at en tilfældigt udvalgt person har en værdi over 42.0 g/l? Hvor mange standardafvigelser er 42.0 fra 34.46? 42 34.46 5.84 = 1.29 Tabelopslag i standardnormalfordeling eller computer: P = 0.0985 10% Normalområder der omslutter 95% af normale observationer: nedre grænse: 2 ½ % fraktil øvre grænse: 97 ½ % fraktil Hvis fordelingen kan beskrives ved en normalfordeling N(µ,σ 2 ) kan disse fraktiler direkte udtrykkes som 2 ½ % fraktil: µ 1.96 y 1.96 s 97 ½ % fraktil: µ + 1.96 y + 1.96 s og normalområdet udregnes derfor som y ± 2 s = ( y 2 s, y + 2 s) z 0.025 = z0.975 1.96 hvis standard N-fordeling Judith L. Jacobsen 20
MPH Skæve fordelinger Gennemsnit 0.80g/l Standard deviation s = SD - 0.47g/l ( y + 2s, y + 2s) = ( 0.14g / l,1.74g / l) Transformation På log10 skala: middel SD - 0.158 0.238 0.158± 2 0.238 = ( 0.63, 0.32) Antilogs : 10 10 10 0.32 0.158 0.63 = 0.695 = 0.23 = 2.08 Bedre grænser: (0.23, 2.08) Judith L. Jacobsen 21