Basal statistik. 2. september 2008

Transkript

1 Basal statistik 2. september 2008

2 Deskriptiv statistik Grafik Summary statistics Normalfordelingen Typer af data

3 Esben Budtz-Jørgensen, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet

4 Deskriptiv statistik, september Eksempel på kvantitative data

5 Deskriptiv statistik, september Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden (sundhedsvidenskabelige problemstillinger) (Ikke officiel statistik, statistikproduktion) Ud fra stikprøve: 1. Deskriptiv statistik: beskrive niveau og variation i population 2. Statistisk inferens: drage konklusioner om ukendte størrelser, parametre, knyttet til populationen, f.eks. forskel i niveau for mænd og kvinder eller stigning i niveau pr. år.

6 Deskriptiv statistik, september Nøgleord Datareduktion Datapræsentation Statistiske modeller Værktøjer matematik, sandsynlighedsregning edb grafik og sund fornuft!

7 Deskriptiv statistik, september Scatter plot af PImax mod alder

8 Deskriptiv statistik, september Histogram SAS ANALYST: Graph/Histogram pimax i Analysis

9 Deskriptiv statistik, september Beskrivelse af kvantitative variable Histogram Location, centrum Gennemsnit: ȳ = 1 n (y y n ) Median: midterste observation, efter størrelsesorden (50% fraktil) Variation Varians: s 2 = 1 n 1 Σ(y i ȳ) 2 spredning = standardafvigelse = varians Fraktiler (kumuleret fordelingsfunktion) Fraktildiagram Boxplot

10 Deskriptiv statistik, september Gennemsnit Eksempel: Indlæggelsestider: 5,5,5,7,10,16,106 dage Gennemsnit: 154/7=22 dage. Repræsentativt for hvad?? På den anden side, hvis omkostninger er kan opfattes som ligevægtspunkt påvirkes kraftigt af yderlige observationer proportionale med indlæggelsestiden, så er det måske gennemsnittet, der er interessant for hospitalsledelsen.

11 Deskriptiv statistik, september Data i rækkefølge: Fraktiler for PImax-eksempel Median: Midterste observation, 50%-fraktil: 95 Kvartiler (25% og 75% fraktiler): 75, 110.

12 Deskriptiv statistik, september Should we scare the opposition by announcing our mean height, or lull them by announcing our median height?

13 Deskriptiv statistik, september Håndregning Beregning af gennemsnit: ȳ = 1 n i y i her: ( )/25 = 92.6 Beregning af varians: s 2 = 1 n 1 (y i ȳ) 2 her: (( ) 2 + ( ) ( ) 2 )/24 = Beregning af spredning: her: = 24.9 i s = s 2

14 Deskriptiv statistik, september Summary statistics i SAS Statistics/Descriptive/Summary Statistics pimax i Analysis i Statistics afkrydses: Mean, Standard Deviation, Minimum, Maximum, Median og Number of Observations samt Standard error The MEANS Procedure Analysis Variable : pimax Mean Std Dev Minimum Maximum Median N Std Error

15 Deskriptiv statistik, september Fortolkning af spredningen, s Hovedparten af observationerne ligger inden for ȳ ± ca.2 s dvs. sandsynligheden for at en tilfældig udtrukket person fra populationen har en værdi i dette interval er stor... For PImax finder vi 92.6 ± = (42.8, 142.4) Hvis data er normalfordelt, vil dette interval indeholde ca. 95% af fremtidige observationer. For at benytte ovenstående, skal der i hvert fald helst være rimelig symmetri...

16 Deskriptiv statistik, september For kvantitative variable har hver enkelt værdi sandsynlighed 0 for at indtræffe (fordi der i princippet er uendeligt mange mulige udfald). Vi taler i stedet om sandsynlighedstætheder, således at sandsynligheden for et interval udregnes som arealet under kurven. Område, der dækker de centrale 95% af observationerne, må gå fra % fraktilen til % fraktilen, her... Men hvordan finder man % af kun 25 observationer??

17 Deskriptiv statistik, september Normalfordelingstætheder benævnes ofte N(µ,σ 2 ) middelværdi = mean, ofte benævnt µ, α el.lign. spredning, ofte benævnt σ

18 Deskriptiv statistik, september Histogram med overlejret normalfordeling SAS ANALYST: Graph/Histogram pimax i Analysis klik Fit og afkryds Normal Parameters

19 Deskriptiv statistik, september

20 Deskriptiv statistik, september Skæve fordelinger: Immunoglobulin (n=298) Histogram of IgM Frequency gennemsnit ȳ 0.80g/l spredning s=sd 0.47g/l (ȳ+2s, ȳ+2s) = ( 0.14g/l, 1.74g/l) Urimeligt interval, indeholder f.eks. negative værdier IgM

21 Deskriptiv statistik, september Fraktiler for IgM-data Quantile Estimate Kumulativ fordeling: 100% Max % % % % Q % Median % Q % 0.4 5% 0.3 1% 0.1 0% Min 0.1 Obs P_2_5 P_5 P_95 P_97_ Intervallet (0.2, 2.0) synes mere repræsentativt

22 Deskriptiv statistik, september Hvordan kan vi se, om normalfordelingen er en god beskrivelse? Simulation af 40 observationer fra samme normalfordeling, gentaget 9 gange: Nogle af dem ser ikke ret normalfordelte ud! Frequency Frequency Histogram of nf nf1 Histogram of nf4 Frequency Frequency Histogram of nf nf2 Histogram of nf5 Frequency Frequency Histogram of nf nf3 Histogram of nf Ganske store afvigelser kan tolereres i visse sammenhænge, specielt når de ikke er for systematiske! Frequency nf4 Histogram of nf nf7 Frequency nf5 Histogram of nf nf8 Frequency nf6 Histogram of nf nf9

23 Deskriptiv statistik, september Test af normalitet for PImax blandt meget andet output fra Statistics/Descriptive/Distributions når der afkrydses i Fit/Normal Parameters: The UNIVARIATE Procedure Fitted Distribution for pimax Parameters for Normal Distribution Quantiles for Normal Distribution Test Parameter Symbol Estimate Mean Mu 92.6 Std Dev Sigma Goodness-of-Fit Tests for Normal Distribution ---Statistic p Value----- Kolmogorov-Smirnov D Pr > D >0.150 Cramer-von Mises W-Sq Pr > W-Sq >0.250 Anderson-Darling A-Sq Pr > A-Sq >0.250 Percent Quantile Observed Estimated

24 Deskriptiv statistik, september Test af normalfordelingen er ikke særligt informativt! giver ikke udtryk for graden af afvigelse fra normalitet i små samples skal afvigelsen være stor for at slå igennem i store samples vil selv ubetydelige afvigelser give signifikant udslag

25 Deskriptiv statistik, september Fraktildiagram Graphs/Probability Plot: Hvis data er normalfordelt, skal fraktildiagrammet ligne en ret linie: De observerede fraktiler skal passe med de teoretiske (pånær en skala)

26 Deskriptiv statistik, september Fitted Distribution for igm Test af normalitet for IgM Parameters for Normal Distribution Parameter Symbol Estimate Mean Mu Std Dev Sigma Test Goodness-of-Fit Tests for Normal Distribution ---Statistic p Value----- Kolmogorov-Smirnov D Pr > D <0.010 Cramer-von Mises W-Sq Pr > W-Sq <0.005 Anderson-Darling A-Sq Pr > A-Sq <0.005 Quantiles for Normal Distribution Quantile Percent Observed Estimated

27 Deskriptiv statistik, september Fraktildiagram for IgM ses at passe meget dårligt med en ret linie

28 Deskriptiv statistik, september Normalområde: Område, der omslutter 95% af normale observationer: nedre grænse: % fraktil øvre grænse: % fraktil Hvis fordelingen kan beskrives ved en normalfordeling N(µ,σ 2 ), kan disse fraktiler direkte udtrykkes som % fraktil: µ 1.96σ ȳ 1.96s % fraktil: µ σ ȳ s og normalområdet udregnes derfor som ȳ ± ca.2 s = (ȳ ca.2 s, ȳ + ca.2 s)

29 Deskriptiv statistik, september Sådanne normalområder dur ikke for IgM: fordi fordelingen er tydeligt skæv Hvad gør vi så? benytter empiriske fraktiler (se s. 18) transformerer, typisk med logaritmen (se s. 27)

30 Deskriptiv statistik, september Transformation med logaritme (log 10 ) gennemsnit spredning Antilog: = = 0.63 Antilog: = = 0.32 Antilog: = 2.08 Frequency Histogram of log10(igm) log10(igm) Bedre grænser: (0.23, 2.08)

31 Deskriptiv statistik, september Hvorfor benyttes normalfordelingen så ofte? Det er ofte en rimelig approksimation Evt. efter transformation med logaritme, kvadratrod, invers,... Central grænseværdisætning: Sum (eller gennemsnit) af et stort antal variable får en fordeling, der efterhånden kommer til at ligne en normalfordeling (sum af normalfordelinger er igen en normalfordeling). Rimelig let at arbejde med, fordi standard programmel er udviklet for normalfordelingen.

33 Deskriptiv statistik, september Målet med en statistisk analyse er ofte udfra en stikprøve at udtale sig om hele populationen. Middelindkomsten i DK kunne f.eks estimeres ved at udtage en stikprøve af personer og for hver person måle indkomsten. Et naturligt estimat for populationens middelindkomst ville være stikprøvegennemsnittet ȳ. Bias: Hvis stikprøven ikke er repræsentativ. Varians: Hvor sikkert er estimatet? Hvis forsøget blev gentaget hvor meget ville estimatet variere omkring den sande populationsværdi? (det er klart at jo større stikprøven er jo mindre er denne variation)

34 Deskriptiv statistik, september Hvordan kan vi sige noget om fordelingen af gennemsnittet ȳ? vi har jo kun et... Bootstrap: Resampling (trækning af observationer fra vores sample, med tilbagelæggelse Udregn gennemsnit af hvert nyt sample Fordeling af Bootstrap gennemsnit...!! Ved at benytte en fordelingsantagelse for selve y erne Hvis y i erne er normalfordelte, vil ȳ også være det, og spredningen i denne fordeling vil være SEM = SD n

35 Deskriptiv statistik, september Bootstrap distribution of PIMAX ȳ, 1000 samples Histogram of bootstrap.pimax.snit "bootstrap gennemsnit" "bootstrap spredning" modsvarer SEM i samplet Frequency bootstrap.pimax.snit "fraktiler for bootstrap gennemsnit" 1% 2.5% 5% 50% 95% 97.5% 99%

36 Deskriptiv statistik, september Central grænseværdisætning: IgM Histogram of igm Histogram of boot.igm.snit4 Histogram of boot.igm.snit16 Frequency Frequency Frequency igm boot.igm.snit4 boot.igm.snit16 Histogram of boot.igm.snit16 Histogram of boot.igm.snit64 Histogram of boot.igm.snit298 Frequency Frequency Frequency boot.igm.snit16 boot.igm.snit64 boot.igm.snit298

37 Deskriptiv statistik, september Central grænseværdisætning: Jo flere observationer, der indgår i gennemsnittet des mere normalfordelt ser det ud des mindre spredning har fordelingen Standard error (of the mean), SEM siger noget om usikkerheden på gennemsnittet SEM = SD n

38 Deskriptiv statistik, september Konfidensinterval Hvad tror vi på, at den sande middelværdi kan være? Et interval, der fanger den sande middelværdi med en passende høj (95%) sandsynlighed kaldes et 95% konfidensinterval 95% kaldes dækningsgraden eller coverage ȳ ± ca.2 SEM Dette er ofte en god approksimation, selv når data ikke er særligt pænt normalfordelt (på grund af CLT, den centrale grænseværdisætning)

39 Deskriptiv statistik, september For PImax fås: 92.6 ± = (82.64, ) som sammenlignes med Bootstrap-fraktilerne: (83.0, 102.2) For IgM fås: 0.80 ± = (0.75, 0.85) som sammenlignes med Bootstrap-fraktilerne: (0.75, 0.86) Men gennemsnittet er stadig ikke et godt mål for IgM!! Medianen er

40 Deskriptiv statistik, september Spredning=standard deviation, SD siger noget om variationen i vores sample, og formentlig i populationen benyttes ved beskrivelser af data Standard error (of the mean), SEM siger noget om usikkerheden på gennemsnittet SEM = SD n standard error (of mean, of estimate) = 1 n standard deviation benyttes ved sammenligninger, sammenhænge etc.

41 Deskriptiv statistik, september Boxplot for PImax-eksempel Graph/Box Plot i Display skiftes til Schematic God ved sammenligning af fordelinger

42 Deskriptiv statistik, september Hvis fordelingen er tydeligt skæv eller på anden måde afviger tydeligt fra normalfordelingen, bør man ikke angive gennemsnit og spredning, men snarere: fraktiler: median inter-quartile range, IQR: intervallet mellem 25% og 75% fraktil range Om muligt bør fordelingen illustreres grafisk! Alternativ: Transformer til normalitet. For små materialer angives median og range

43 Deskriptiv statistik, september Hvis variablen Y er normalfordelt med middelværdi µ og varians σ 2, skriver vi y N(µ, σ 2 ) Standardiseret/normeret variabel: z = y µ s t(df) N(0, 1) når df = n 1 er stor

45 Deskriptiv statistik, september Eksempel: Ud fra et stort materiale har vi fundet en gennemsnitlig Se-albumin på (g/l) og en empirisk varians på (g/l) 2 Hvis vi udfra dette antager at Se-albumin er normalfordelt med middelværdi g/l og spredning 5.84 g/l, hvad er så sandsynligheden for at en tilfældigt udvalgt person har en værdi over 42.0 g/l? Hvor mange standardafvigelser er 42.0 fra 34.46? = 1.29 Tabelopslag i standardnormalfordeling (B1) eller computer: P = %

46 Deskriptiv statistik, september Vigtigheden af normalfordelingen afhænger af formålet med undersøgelsen vigtig ved beskrivelser ved konstruktion af diagnostisk værktøj ikke så vigtig ved sammenligninger ved vurdering af effekter

47 Deskriptiv statistik, september Kategoriske kun distinkte værdier mulige død ja/nej Typer af data fysisk aktivitet i 4 kategorier Kvantitative (numeriske) Diskrete (tælledata) antal børn i en famile antal metastaser Kontinuerte (måledata) Censurerede (e.g. levetider)

48 Deskriptiv statistik, september Kategoriske data To kategorier (dikotom/binær): Mand/kvinde dør/overlever Gift/ugift Ryger/ikke ryger Flere end to: Nominal: Gift/ugift/fraskilt/enke(mand) Ordinal: minimal/moderat/alvorlig/uudholdelig smerte

49 Deskriptiv statistik, september Diskrete kvantitative/numeriske data Tælletal Antal børn i en familie Antal metastaser/celler/bakteriekolonier Flydende grænser mellem diskrete numeriske og ordinale kategoriske data. OBS: Ofte meningsløst at behandle ordinale data som om de var numeriske. Gennemsnitlig socialklasse eller cancerstadium??

50 Deskriptiv statistik, september Højde Vægt Se-kolesterol Blodtryk Kontinuerte data Måling på en sammenhængende skala. I praksis afrundede tal. Variable der antager mange værdier. Ofte noget med normalfordelingen

51 Deskriptiv statistik, september Censurerede data Typisk overlevelsesdata For nogen data vides kun om de er større end en vis værdi. For andre kendes værdien. Patienten var i live ved sidste follow-up / pr. 1.jan NB: der er også trunkerede data hvor man slet ikke har data hvis de er mindre/større end en vis værdi: Tid til diagnose blandt patienter med symptomstart i 1995, fx.

52 Deskriptiv statistik, september Beskrivelse af kategoriske data Stolpediagrammer (barplots) Tabeller Absolutte hyppigheder/frekvenser (antal) Relative hyppigheder (procenter)

53 Deskriptiv statistik, september Tabeller Kejsersnit og skostørrelse: Absolutte frekvenser (antal) Shoe size Sectio < Total Yes No Total

54 Deskriptiv statistik, september Tabeller - i procent Kejsersnit og skostørrelse: Relative frekvenser (i %) Shoe size Sectio < Total Yes No Total Fordel: direkte sammenlignelighed Ulempe: mister de faktiske antal

55 Deskriptiv statistik, september Procenter, den anden vej Kejsersnit og skostørrelse: Relative frekvenser (i %) Shoe size Sectio < Total Yes No Total Dette siger noget om fodstørrelse og ikke så meget om hyppighed af kejsersnit