Deskriptiv Statitik. Kursus formål. Deskriptiv Statistik MPH F Judith L. Jacobsen 1

Transkript

1 MPH Deskriptiv Statitik Judith L. Jacobsen, PhD. Kursus formål Planlægning af studier selve indsamlingen af data, opstilling af statistiske hypoteser valg af tests og udførsel enkle analyser Faglig fortolkning af statistiske resultater Normalfordelingen & binomial fordelingen Frekvens og antals tabeller Deskriptiv Statistik Typer af data Tabeller Grafik Summary statistik Forstå variation i observerede værdier Forskellige datatyper, skala og deres fordeling Judith L. Jacobsen 1

2 MPH Undersøg ALTID Data Plot ALLE observationerne STUDER dine plots Analyser dine data Handler om Ud fra tal data: at kunne udtale sig om aspekter af virkeligheden (lægevidenskabelige/biologiske problemstillinger) (Ikke officiel statistik, statistikproduktion) Ud fra stikprøve: 1. Deskriptiv statistik: beskrive variation i population 2. Statistisk inferens (cf. infer ) drage konklusioner om ukendte størrelser, parametre, knyttet til populationen. Hvad er Statistik Generalisere (gøre inferens) omkring en population ved at studere et udsnit fra denne Udsnit Inferens Population Judith L. Jacobsen 2

3 MPH Eksempel Population Alle voksne med mistanke om CHD ud fra nogle observationer Forsøg Udsnit af 60 voksne med mistanke om CHD Afprøvning af en intervention Statistik går ud på at sige noget om, hvor tæt vores observationer er på de resultater vi ville have, hvis vi havde observeret alle voksne med CHD Emner Nøgleord Datareduktion Datapræsentation Statistiske modeller Værktøj Matematik Sandsynlighedsregning Grafik og sund fornuft! Data typer I Kvalitativ Kvantitativ Binære Kategorisk Subjektiv Numerisk, målbar Objektiv Enten Eller Død levende 0 1 Præcision Judith L. Jacobsen 3

4 MPH Data typer II Kvalitative Beskrivelse Subjektivt Objektivt Nominal Benævnte kategorier Ordinal Ordnede kategorier Kvantitative Målinger Kontinuerte Diskrete Interval Specifik afstand Ratio Samme reference Interval & Ratio Interval skala Specifik distance Temperatur Arbitrær reference, Celcius og Farenheit, man kan ikke sige at 20 er dobbelt så varmt som 10 Ratio skala Samme reference Alder Ratio har samme reference 50 år er dobbelt så gammel som 25 år Kategoriske Data To kategorier (dikotom/binær): Mand/kvinde Gravid/ikke gravid Gift/ugift Ryger/ikke ryger Flere end to: Nominal: Gift / ugift / fraskilt / enke(mand) Ordinal: minimal / moderat / alvorlig / uudholdelig smerte Judith L. Jacobsen 4

5 MPH Kontinuerte Data Måling på en sammenhængende skala I praksis afrundede tal Variable der antager mange værdier Ofte noget med normalfordelingen Eksempler Højde Vægt Serum-kolesterol Blodtryk Diskrete Numeriske Data Tælletal Antal børn i en familie Antal metastaser/celler/bakteriekolonier Flydende grænser mellem diskrete numeriske og ordinale kategoriske data. OBS: Ofte meningsløst at behandle ordinale data som om de var numeriske. Gennemsnitlig socialklasse eller cancerstadium?? Censurerede data Typisk overlevelsesdata For nogen data vides kun om de er større end en vis værdi. For andre kendes værdien. Patienten var i live ved sidste follow-up / pr. 1.jan NB: der er også trunkerede data hvor man slet ikke har data hvis de er mindre/større end en vis værdi: Tid til diagnose blandt patienter med symptomstart i 1995, fx. Judith L. Jacobsen 5

6 MPH Beaufort Vindskala Beaufort m/s Knob km/t Betegnelse Observationer på land Observationer på vand 12 >32 > Vel defineret Orkan Stærk storm Storm Stormende kuling Hård kuling Ordinal Voldsomme ødelæggelser Luften fyldt med skum, der forringer sigten væsentligt Talrige ødelæggelser Umådeligt høje bølger - havet dækket af hvide skumflager - sigten forringet Træer rives op med rode - Meget høje bølger - næsten hvid betydelige skader på huse overflade - skumsprøjt påvirker udsigten Store grene knækkes - Høje bølger, hvor toppen vælter tagsten blæser ned over - skumsprøjt kan påvirke sigten Kviste og grene brækkes af Ret høje, lange bølger - - besværligt at gå mod bølgekammen brydes til vinden skumsprøjt Elastisk skala Admiral Francis Beaufort Respons Oversigt over Teknikker Kovariater Dikotome Kategoriske Kontinuerte Kategoriske og Kontinuerte Dikotome Kategoriske Ordinale Kontinuerte Normal Fordeling 2 x 2-tabeller Kontingens tabeller / Mann Whitney Wilcon sign rank T-test Parret / uparret 2 χ test 2 χ test Vanskeligt, e.g. proportional odds models Kruskal - Wallis - Friedman Varians Analyse En- / to-sidet Logistisk regression Gen. Logistisk regression Robust multipel regression Kovarians analyse Multipel regression Censorede data Korrelerede Normalt ford. Log-rank test Varians komponent Modeller Cox regression Modeller for gentagne målinger Overblik Interval & ratio data indeholder mere information end ordinal data, som indeholder mere information end nominal data Man kan altid gå fra kontinuert diskret ordinal nominal Men aldrig den anden vej! Judith L. Jacobsen 6

7 MPH Beskrivelse af Data Nominal Frekvenser Tabellering Tærte diagram Ordinal Frekvenser Stolpe diagram Kontinuerte Middel, median, Sd, fraktiler Scatter plot Diskret Median, min, max Stolpe diagram Beskrivelse Kategoriske Data Stolpediagrammer (barplots) Tabeller Absolutte hyppigheder/frekvenser (antal) Kejsersnit og skostørrelse: Section Yes No Total <4 4 4½ 5 5½ Total Judith L. Jacobsen 7

8 MPH Tabeller - i procent Kejsersnit og skostørrelse: Relative frekvenser (i %) Section Yes No <4 4 4½ 5 5½ Total Total Fordel: direkte sammenlignelighed Ulempe: mister de faktiske antal Procenter den anden vej Kejsersnit og skostørrelse: Relative frekvenser (i %) Section Yes No Total <4 4 4½ 5 5½ Total Dette siger noget om fodstørrelse og ikke så meget om hyppighed af kejsersnit Mere om Frekvenser Trafikofre i the London Borough of Harrow 1985 (65 med ukendt alder udeladt) Alder Frekv. Fr./ år Total 815 Remark: Her kommer grupperne fra kontinuerte observationer Så et bar chart af frekvenserne er mere som et histogram... Judith L. Jacobsen 8

9 MPH Ukorrekt: (uens interval bredde) højden af stolper = absolutte frekvenser Korrekt: (uens interval bredde) højden af stolper = antal ofre pr år (alder) Grupperinger 1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0 Histogrammer Overvej om data bør deles op A B 1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0 1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0 Judith L. Jacobsen 9

10 MPH Grupperinger II Measure 300 Value AGE(1)AGE(2)AGE(3)AGE(4) Trial GRUPPE$ W R 100 R W GRUPPE$ AGE(4) AGE(3) AGE(2) AGE(1) Eksempel Kvantitative Data PI max Beskrivelse Kvantitative Variable Graphs: Histogram Probability plot QQ plot Box plot Graph/Histogram pimax i Analysis Judith L. Jacobsen 10

11 MPH Histogram tæthed Sandsynligheder Tæthed Hvad betyder sandsynligheder, f.eks. for PImax? Her: hver enkelt værdi sandsynlighed = 0 for at indtræffe (fordi der i princippet er mange mulige udfald) Sandsynlighedstætheder, sandsynligheden for et interval = arealet under kurven Diagrammer Histogram Frekvens fordeling Box plot Scatter plot Judith L. Jacobsen 11

12 MPH µ middel forventet σ standard afvigelse Normalfordelingstætheder med overlejret Normalfordeling Graph/Histogram pimax i Analysis klik Fit og afkryds Normal Parameters Histogram Et mål for centrum i en fordeling Kan opfattes som ligevægtspunkt påvirkes af yderlige observationer Gennemsnit Eksempel: Indlæggelsestider: 5,5,5,7,10,16,106 dage Gennemsnit: 154/7=22 dage Repræsentativt for hvad?? Hvis omkostninger er proportionale med indlæggelsestiden, er det måske gennemsnittet, der er interessant Judith L. Jacobsen 12

13 MPH Skal vi skræmme modstanderne Ved at give vores middelhøjde? Eller berolige dem ved at give median højden? Estimatorer for Beliggenhed Middel Den aritmetiske middelværdi for et set observationer. Misvisende når baseret på skewed data. Median Den værdi, i et set ordnede observationer, som deler data i to ens dele. God til skewed data og relativ robust for outliere. Modus Den oftest observerede værdi i et set observationer ( typisk værdi ). Bruges bla. når ovennævnte ikke slår til Estimatorer for Spredning Range Forskellen mellem max. og min. i et set observationer. Ikke anbefalet til at måle spredning pga. sensitiviteten til outliers. Dens størrelse øger med stikprøve størrelsen. Varians Gennemsnittet af observationernes kvadrerede afvigelser fra middelværdien. Standard afvigelse SD = kvadratroden af variansen. Standard fejl SD for stikprøve fordelingen af en statistik. SE = s / n ½ Judith L. Jacobsen 13

14 MPH Deskriptive Mål Udregning af basale mål Middel: x x = n Varians: 2 ( x x) 2 s = ( n 1) Std.afv.: s = 2 s Medianen (50%) er den midterste værdi når data er sorteret efter størrelse Hvornår bruges hvad? Beliggenhed Formen på data Skewed: Median Symmetrisk: Middel Type data Nominale data: Modus Ordinale data: Median Kontinuerte Data: Middel Skala Formen på data Gir ingen mening at beregne SD for skewed data Brug kvartiler og fraktiler i stedet Fraktiler og kvartiler Et mål for variabilitet Viser skævheder 50% = medianen 25% og 75% STYRKE Fraktiler Frekvens fordeling 500 S T METODE$ Judith L. Jacobsen 14

15 MPH Summary Statistik i SAS Statistics/Descriptive/Summary Statistics pimax i Analysis i Statistics afkrydses: Mean, Standard Deviation, Minimum, Maximum, Median & Number of Observations The MEANS Procedure Analysis Variable : pimax Mean Std Dev Minimum Maximum Median N Normalfordeling God? Hvordan ses, om normalfordelingen er en god beskrivelse? Computersimulation af 150 observationer fra samme normalfordeling, gentages 9 gange. Nogle ser ikke ret normalfordelte ud! Ganske store afvigelser kan tolereres (i visse sammenhænge) specielt når de ikke er for systematiske Tilfældigt udtrukket 150 obs fra en normalfordeling middel = 115 og spredning = 10 Judith L. Jacobsen 15

16 MPH Varians er vigtig Samme forskel i middelværdi, men ikke lige vigtig Test af Normalitet i SAS Analyst Statistics/ Descriptive/ Distributions klik: Fit/Normal Parameters blandt meget andet output fås: The UNIVARIATE Procedure Fitted Distribution for pimax Parameters for Normal Distribution Parameter Symbol Estimate Mean Mu 92.6 Std Dev Sigma Goodness-of-Fit Tests for Normal Distribution --- Statistic p Value Test --- Kolmogorov-Smirnov D > D >0.150 Pr Cramer-von Mises W-Sq Pr > W-Sq >0.250 Anderson-Darling A-Sq Pr > A-Sq >0.250 Quantiles Normal Fordeling Quantile Percent Observed Estimated Judith L. Jacobsen 16

17 MPH Fraktiler (PImax-eksempel) Data i rækkefølge: I pimax I pimax I pimax Median: Midterste observation, 50%-fraktil: 95 Kvartiler (25% og 75% fraktiler): 75, 110. Graphs/Probability Plot: Fraktildiagram Hvis data er normalfordelt, skal fraktildiagrammet ligne en ret linie Graph/Box Plot i Display skiftes til Schematic Judith L. Jacobsen 17

18 MPH Hvis Fordelingen er Skæv eller afviger tydeligt fra N- Formalfordelingen: gennemsnit og spredning bør ikke angives I stedet: fraktiler median Inter-quartile range, IQR intervallet mellem 25% og 75% fraktil range Om muligt bør fordelingen illustreres grafisk! Alternativ: Transformer til normalitet For små materialer angives median range Hvorfor Normalfordelingen? Ofte en rimelig approksimation Evt. efter transformation med logaritme, kvadratrod, invers,... Central grænseværdisætning: Summen af et stort antal variable ligner efterhånden en Normalfordeling (sum af N-fordelinger er igen en N-fordeling). Rimelig let at arbejde med, fordi standard programmel er udviklet for Normalfordelingen Højder Judith L. Jacobsen 18

19 MPH Diastolisk Blodtryk Central Grænseværdisætning SD standard error of the mean = SEM = = n 1 n SD Normal Fordelingen Hvis variablen Y er normalfordelt med middelværdi µ og varians σ 2, skrives Standardiseret /normeret variabel: 2 Y ~ N( µ, σ ) Ζ = Y µ s ~ t df 3σ 2σ σ σ µ +σ +2σ +3σ 68,3% 95,4% 99,7% t df t-fordeling med df frihedsgrader (afh af ant. obs.) Judith L. Jacobsen 19

20 MPH N-Ford. Middel & Varians σ = 1 σ = 2 µ = 10 µ = 24 Eksempel Fra et stort materiale har vi fundet gennemsnitlig Se-albumin på (g/l) og empirisk varians på (g/l)2 Hvis vi antager Se-albumin er normalfordelt med middelværdi g/l og spredning 5.84 g/l, hvad er sandsynligheden for at en tilfældigt udvalgt person har en værdi over 42.0 g/l? Hvor mange standardafvigelser er 42.0 fra 34.46? = 1.29 Tabelopslag i standardnormalfordeling eller computer: P = % Normalområder der omslutter 95% af normale observationer: nedre grænse: 2 ½ % fraktil øvre grænse: 97 ½ % fraktil Hvis fordelingen kan beskrives ved en normalfordeling N(µ,σ 2 ) kan disse fraktiler direkte udtrykkes som 2 ½ % fraktil: µ 1.96 y 1.96 s 97 ½ % fraktil: µ y s og normalområdet udregnes derfor som y ± 2 s = ( y 2 s, y + 2 s) z = z hvis standard N-fordeling Judith L. Jacobsen 20

21 MPH Skæve fordelinger Gennemsnit 0.80g/l Standard deviation s = SD g/l ( y + 2s, y + 2s) = ( 0.14g / l,1.74g / l) Transformation På log10 skala: middel SD ± = ( 0.63, 0.32) Antilogs : = = 0.23 = 2.08 Bedre grænser: (0.23, 2.08) Judith L. Jacobsen 21