Basal statistik. 30. januar 2007

Relaterede dokumenter

Deskriptiv Statitik. Judith L. Jacobsen, PhD.

Deskriptiv Statitik. Kursus formål. Deskriptiv Statistik MPH F Judith L. Jacobsen 1

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

En Introduktion til SAS. Kapitel 5.

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Susanne Ditlevsen Institut for Matematiske Fag susanne

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Kapitel 3 Centraltendens og spredning

Normalfordelingen. Statistik og Sandsynlighedsregning 2

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Kvantitative Metoder 1 - Forår Dagens program

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Modul 5: Test for én stikprøve

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Note til styrkefunktionen

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

MPH specialmodul Epidemiologi og Biostatistik

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Produkt og marked - matematiske og statistiske metoder

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Introduktion til overlevelsesanalyse

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Normalfordelingen og Stikprøvefordelinger

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Kapitel 3 Centraltendens og spredning

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

9. Chi-i-anden test, case-control data, logistisk regression.

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning eksamen d. 15. december 2008

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Sandsynlighedsregning: endeligt udfaldsrum (repetition)

Konfidensinterval for µ (σ kendt)

Statistik II 4. Lektion. Logistisk regression

Epidemiologi og Biostatistik

Besvarelse af vitcap -opgaven

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Konfidensintervaller og Hypotesetest

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Reeksamen i Statistik for Biokemikere 6. april 2009

Module 2: Beskrivende Statistik

Basal Statistik Kategoriske Data

Uge 10 Teoretisk Statistik 1. marts 2004

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Modelkontrol i Faktor Modeller

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Statistiske modeller

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Morten Frydenberg 26. april 2004

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Skriftlig eksamen Science statistik- ST501

Opgaver til kapitel 3

1 Hb SS Hb Sβ Hb SC = , (s = )

Transkript:

Basal statistik 30. januar 2007

Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics

Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet e-mail: L.T.Skovgaard@biostat.ku.dk http://staff.pubhealth.ku.dk/~lts/basal07_1

Deskriptiv statistik, januar 2007 1 Eksempel på kvantitative data

Deskriptiv statistik, januar 2007 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden (sundhedsvidenskabelige problemstillinger) (Ikke officiel statistik, statistikproduktion) Ud fra stikprøve: 1. Deskriptiv statistik: beskrive niveau og variation i population 2. Statistisk inferens: drage konklusioner om ukendte størrelser, parametre, knyttet til populationen, f.eks. forskel i niveau for mænd og kvinder eller stigning i niveau pr. år.

Deskriptiv statistik, januar 2007 3 Nøgleord Datareduktion Datapræsentation Statistiske modeller Værktøjer matematik, sandsynlighedsregning edb grafik og sund fornuft!

Deskriptiv statistik, januar 2007 4 Scatter plot af PImax mod alder

Deskriptiv statistik, januar 2007 5 Histogram SAS ANALYST: Graph/Histogram pimax i Analysis

Deskriptiv statistik, januar 2007 6 Beskrivelse af kvantitative variable Histogram Location, centrum Gennemsnit: ȳ = 1 n (y 1 + + y n ) Median: midterste observation, efter størrelsesorden (50% fraktil) Variation Varians: s 2 = 1 n 1 Σ(y i ȳ) 2 spredning = standardafvigelse = varians Fraktiler (kumuleret fordelingsfunktion) Fraktildiagram Boxplot

Deskriptiv statistik, januar 2007 7

Deskriptiv statistik, januar 2007 8 Gennemsnit Eksempel: Indlæggelsestider: 5,5,5,7,10,16,106 dage Gennemsnit: 154/7=22 dage. Repræsentativt for hvad?? På den anden side, hvis omkostninger er kan opfattes som ligevægtspunkt påvirkes kraftigt af yderlige observationer proportionale med indlæggelsestiden, så er det måske gennemsnittet, der er interessant for hospitalsledelsen.

Deskriptiv statistik, januar 2007 9 Data i rækkefølge: Fraktiler for PImax-eksempel 1 2 3 4 5 6 7 8 40 45 70 75 75 75 75 80 9 10 11 12 13 14 15 16 80 80 85 95 95 95 95 100 17 18 19 20 21 22 23 24 25 100 100 110 110 110 120 125 130 150 Median: Midterste observation, 50%-fraktil: 95 Kvartiler (25% og 75% fraktiler): 75, 110.

Deskriptiv statistik, januar 2007 10 Should we scare the opposition by announcing our mean height, or lull them by announcing our median height?

Deskriptiv statistik, januar 2007 11 Håndregning Beregning af gennemsnit: ȳ = 1 n i y i her: (80 + 85 + + 95)/25 = 92.6 Beregning af varians: s 2 = 1 n 1 (y i ȳ) 2 her: ((80 92.6) 2 + (85 92.6) 2 + + (95 92.6) 2 )/24 = 621.1 Beregning af spredning: her: 621.1 = 24.9 i s = s 2

Deskriptiv statistik, januar 2007 12 Summary statistics i SAS Statistics/Descriptive/Summary Statistics pimax i Analysis i Statistics afkrydses: Mean, Standard Deviation, Minimum, Maximum, Median og Number of Observations samt Standard error The MEANS Procedure Analysis Variable : pimax Mean Std Dev Minimum Maximum Median N Std Error ---------------------------------------------------------------------------------------- 92.6000000 24.9215436 40.0000000 150.0000000 95.0000000 25 4.9843087 ----------------------------------------------------------------------------------------

Deskriptiv statistik, januar 2007 13 Fortolkning af spredningen, s Hovedparten af observationerne ligger inden for ȳ ± ca.2 s dvs. sandsynligheden for at en tilfældig udtrukket person fra populationen har en værdi i dette interval er stor... For PImax finder vi 92.6 ± 2 24.9 = (42.8, 142.4) Hvis data er normalfordelt, vil dette interval indeholde ca. 95% af fremtidige observationer. Hvis ikke... For at benytte ovenstående, skal der i hvert fald helst være rimelig symmetri...

Deskriptiv statistik, januar 2007 14 For kvantitative variable har hver enkelt værdi sandsynlighed 0 for at indtræffe (fordi der i princippet er mange mulige udfald). Vi taler i stedet om sandsynlighedstætheder, således at sandsynligheden for et interval udregnes som arealet under kurven. Område, der dækker de centrale 95% af observationerne, må gå fra 2 1 2 % fraktilen til 971 2 % fraktilen, her... Men hvordan finder man 2 1 2 % af kun 25 observationer??

Deskriptiv statistik, januar 2007 15 Normalfordelingstætheder benævnes ofte N(µ,σ 2 ) middelværdi = mean, ofte benævnt µ, α el.lign. spredning, ofte benævnt σ

Deskriptiv statistik, januar 2007 16 Histogram med overlejret normalfordeling SAS ANALYST: Graph/Histogram pimax i Analysis klik Fit og afkryds Normal Parameters

Deskriptiv statistik, januar 2007 17 Skæve fordelinger Histogram of IgM Frequency 0 50 100 150 gennemsnit ȳ 0.80g/l spredning s=sd 0.47g/l (ȳ+2s, ȳ+2s) = ( 0.14g/l, 1.74g/l) Urimeligt interval, indeholder f.eks. negative værdier 0 1 2 3 4 5 IgM

Deskriptiv statistik, januar 2007 18 Fraktiler for IgM-data Kumulativ fordeling: Quantile Estimate 100% Max 4.5 99% 2.5 95% 1.7 90% 1.4 75% Q3 1.0 50% Median 0.7 25% Q1 0.5 10% 0.4 5% 0.3 1% 0.1 0% Min 0.1 Obs P_2_5 P_5 P_95 P_97_5 1 0.2 0.3 1.7 2 Intervallet (0.2, 2.0) synes mere repræsentativt

Deskriptiv statistik, januar 2007 19 Hvordan kan vi se, om normalfordelingen er en god beskrivelse? Simulation af 50 observationer fra samme normalfordeling, gentaget 16 gange: Nogle af dem ser ikke ret normalfordelte ud! Ganske store afvigelser kan tolereres i visse sammenhænge, specielt når de ikke er for systematiske.

Deskriptiv statistik, januar 2007 20 Test af normalitet for PImax blandt meget andet output fra Statistics/Descriptive/Distributions når der afkrydses i Fit/Normal Parameters: The UNIVARIATE Procedure Fitted Distribution for pimax Parameters for Normal Distribution Quantiles for Normal Distribution Test Parameter Symbol Estimate Mean Mu 92.6 Std Dev Sigma 24.92154 Goodness-of-Fit Tests for Normal Distribution ---Statistic---- -----p Value----- Kolmogorov-Smirnov D 0.12002682 Pr > D >0.150 Cramer-von Mises W-Sq 0.05671455 Pr > W-Sq >0.250 Anderson-Darling A-Sq 0.35232007 Pr > A-Sq >0.250 Percent -------Quantile------ Observed Estimated 1.0 40.0000 34.6238 5.0 45.0000 51.6077 10.0 70.0000 60.6618 25.0 75.0000 75.7907 50.0 95.0000 92.6000 75.0 110.0000 109.4093 90.0 125.0000 124.5382 95.0 130.0000 133.5923 99.0 150.0000 150.5762

Deskriptiv statistik, januar 2007 21 Fraktildiagram Graphs/Probability Plot: Hvis data er normalfordelt, skal fraktildiagrammet ligne en ret linie: De observerede fraktiler skal passe med de teoretiske (pånær en skala)

Deskriptiv statistik, januar 2007 22 Fitted Distribution for igm Test af normalitet for IgM Parameters for Normal Distribution Parameter Symbol Estimate Mean Mu 0.80302 Std Dev Sigma 0.469498 Test Goodness-of-Fit Tests for Normal Distribution ---Statistic---- -----p Value----- Kolmogorov-Smirnov D 0.17035149 Pr > D <0.010 Cramer-von Mises W-Sq 1.72717601 Pr > W-Sq <0.005 Anderson-Darling A-Sq 9.83760415 Pr > A-Sq <0.005 Quantiles for Normal Distribution ------Quantile------ Percent Observed Estimated 1.0 0.10000-0.28920 5.0 0.30000 0.03076 10.0 0.40000 0.20133 25.0 0.50000 0.48635 50.0 0.70000 0.80302 75.0 1.00000 1.11969 90.0 1.40000 1.40471 95.0 1.70000 1.57528 99.0 2.50000 1.89524

Deskriptiv statistik, januar 2007 23 Fraktildiagram for IgM ses at passe meget dårligt med en ret linie

Deskriptiv statistik, januar 2007 24 Normalområde: Område, der omslutter 95% af normale observationer: nedre grænse: 2 1 2 % fraktil øvre grænse: 97 1 2 % fraktil Hvis fordelingen kan beskrives ved en normalfordeling N(µ,σ 2 ), kan disse fraktiler direkte udtrykkes som 2 1 2 % fraktil: µ 1.96σ ȳ 1.96s 97 1 2 % fraktil: µ + 1.96σ ȳ + 1.96s og normalområdet udregnes derfor som ȳ ± ca.2 s = (ȳ ca.2 s, ȳ + ca.2 s)

Deskriptiv statistik, januar 2007 25 Hvorfor benyttes normalfordelingen så ofte? Det er ofte en rimelig approksimation Evt. efter transformation med logaritme, kvadratrod, invers,... Central grænseværdisætning: Summen af et stort antal variable kommer efterhånden til at ligne en normalfordeling (sum af normalfordelinger er igen en normalfordeling). Rimelig let at arbejde med, fordi standard programmel er udviklet for normalfordelingen.

Deskriptiv statistik, januar 2007 26

Deskriptiv statistik, januar 2007 27 Transformation med logaritme (log 10 ) gennemsnit spredning 0.158 0.238 Antilog: 10 0.158 = 0.695 0.158 2 0.238 = 0.63 Antilog: 10 0.63 = 0.23 0.158 + 2 0.238 = 0.32 Antilog: 10 0.32 = 2.08 Frequency 0 20 40 60 80 100 Histogram of log10(igm) 1.0 0.5 0.0 0.5 log10(igm) Bedre grænser: (0.23, 2.08)

Deskriptiv statistik, januar 2007 28 Central grænseværdisætning. Spredning på gennemsnit: SEM, standard error of the mean Fordeling af gennemsnit, ȳ??

Deskriptiv statistik, januar 2007 29 Hvordan kan vi sige noget om fordelingen af ȳ? Jackknife: Udelad en observation ad gangen Udregn gennemsnit af resten, z i = ȳ ( i) = nȳ y i n 1 Fordeling af disse leave-one-out gennemsnit...?? Bootstrap: Resampling med tilbagelæggelse Udregn gennemsnit af hvert nyt sample Fordeling af Bootstrap gennemsnit...!! Ved at benytte en fordelingsantagelse for selve y erne Hvis y i erne er normalfordelte, vil ȳ også være det, og spredningen i denne fordeling vil være SEM = SD n

Deskriptiv statistik, januar 2007 30 Bootstrap distribution of ȳ, 1000 samples "bootstrap gennemsnit" 92.61624 "bootstrap spredning" 4.911366 "bootstrap sem" 4.911366 Frequency 0 500 1000 1500 Histogram of bootstrap.pimax.snit 80 90 100 110 bootstrap.pimax.snit "fraktiler for bootstrap gennemsnit" 1% 2.5% 5% 50% 95% 97.5% 99% 81.2 83.0 84.6 92.6 100.6 102.2 104.0

Deskriptiv statistik, januar 2007 31 Konfidensinterval Hvad tror vi på, at den sande middelværdi kan være? Et interval, der fanger den sande middelværdi med en passende høj (95%) sandsynlighed kaldes et 95% konfidensinterval 95% kaldes dækningsgraden eller coverage ȳ ± ca.2 SEM Dette er ofte en god approksimation, selv når data ikke er særligt pænt normalfordelt (på grund af CLT, den centrale grænseværdisætning) For PImax: 92.6 ± 2 4.98 = (82.64, 102.56)

Deskriptiv statistik, januar 2007 32 Spredning=standard deviation, SD siger noget om variationen i vores sample, og formentlig i populationen benyttes ved beskrivelser af data Standard error (of the mean), SEM siger noget om usikkerheden på gennemsnittet SEM = SD n standard error (of mean, of estimate) = 1 n standard deviation benyttes ved sammenligninger, sammenhænge etc.

Deskriptiv statistik, januar 2007 33 Boxplot for PImax-eksempel Graph/Box Plot i Display skiftes til Schematic God ved sammenligning af fordelinger

Deskriptiv statistik, januar 2007 34 Hvis fordelingen er tydeligt skæv eller på anden måde afviger tydeligt fra normalfordelingen, bør man ikke angive gennemsnit og spredning, men snarere: fraktiler: median inter-quartile range, IQR: intervallet mellem 25% og 75% fraktil range Om muligt bør fordelingen illustreres grafisk! Alternativ: Transformer til normalitet. For små materialer angives median og range

Deskriptiv statistik, januar 2007 35 Hvis variablen Y er normalfordelt med middelværdi µ og varians σ 2, skriver vi y N(µ, σ 2 ) Standardiseret/normeret variabel: z = y µ s t(df) N(0, 1) når df = n 1 er stor

Deskriptiv statistik, januar 2007 36

Deskriptiv statistik, januar 2007 37 Eksempel: Ud fra et stort materiale har vi fundet en gennemsnitlig Se-albumin på 34.46 (g/l) og en empirisk varians på 5.84 2 (g/l) 2 Hvis vi udfra dette antager at Se-albumin er normalfordelt med middelværdi 34.46 g/l og spredning 5.84 g/l, hvad er så sandsynligheden for at en tilfældigt udvalgt person har en værdi over 42.0 g/l? Hvor mange standardafvigelser er 42.0 fra 34.46? 42 34.46 5.84 = 1.29 Tabelopslag i standardnormalfordeling (B1) eller computer: P = 0.0985 10%

Deskriptiv statistik, januar 2007 38 Kategoriske kun distinkte værdier mulige død ja/nej Typer af data fysisk aktivitet i 4 kategorier Kvantitative (numeriske) Diskrete (tælledata) antal børn i en famile antal metastaser Kontinuerte (måledata) Censurerede (e.g. levetider)

Deskriptiv statistik, januar 2007 39 Kategoriske data To kategorier (dikotom/binær): Mand/kvinde dør/overlever Gift/ugift Ryger/ikke ryger Flere end to: Nominal: Gift/ugift/fraskilt/enke(mand) Ordinal: minimal/moderat/alvorlig/uudholdelig smerte

Deskriptiv statistik, januar 2007 40 Diskrete kvantitative/numeriske data Tælletal Antal børn i en familie Antal metastaser/celler/bakteriekolonier Flydende grænser mellem diskrete numeriske og ordinale kategoriske data. OBS: Ofte meningsløst at behandle ordinale data som om de var numeriske. Gennemsnitlig socialklasse eller cancerstadium??

Deskriptiv statistik, januar 2007 41 Højde Vægt Se-kolesterol Blodtryk Kontinuerte data Måling på en sammenhængende skala. I praksis afrundede tal. Variable der antager mange værdier. Ofte noget med normalfordelingen

Deskriptiv statistik, januar 2007 42 Censurerede data Typisk overlevelsesdata For nogen data vides kun om de er større end en vis værdi. For andre kendes værdien. Patienten var i live ved sidste follow-up / pr. 1.jan. 1997 NB: der er også trunkerede data hvor man slet ikke har data hvis de er mindre/større end en vis værdi: Tid til diagnose blandt patienter med symptomstart i 1995, fx.

Deskriptiv statistik, januar 2007 43 Outcome Forklarende variable = Kovariater Respons Dikotom Kategorisk Kontinuert Kategoriske og kontinuerte Dikotom 2*2-tabeller χ 2 -test Logistisk regression Kategorisk Kontingenstabeller/χ 2 -test Generaliseret logistisk regression Ordinale svært, f.eks. proportional odds modeller Kontinuert Mann-Whitney Kruskal-Wallis Robust multipel Wilcoxon signed rank Friedman regression Normalfordelt T-test Variansanalyse Kovariansanalyse parret/uparret ensidet/tosidet Multipel regression Censureret Log-rank test Cox regression Korrelerede Varianskomponent- Modeller for normalfordelte modeller gentagne målinger

Deskriptiv statistik, januar 2007 44 Beskrivelse af kategoriske data Stolpediagrammer (barplots) Tabeller Absolutte hyppigheder/frekvenser (antal) Relative hyppigheder (procenter)

Deskriptiv statistik, januar 2007 45

Deskriptiv statistik, januar 2007 46 Tabeller Kejsersnit og skostørrelse: Absolutte frekvenser (antal) Shoe size Sectio <4 4 4 1 2 5 5 1 2 6+ Total Yes 5 7 6 7 8 10 43 No 17 28 36 41 46 140 308 Total 22 35 42 48 54 150 351

Deskriptiv statistik, januar 2007 47 Tabeller - i procent Kejsersnit og skostørrelse: Relative frekvenser (i %) Shoe size Sectio <4 4 4 1 2 5 5 1 2 6+ Total Yes 22.7 20.0 14.3 14.6 14.8 6.7 12.3 No 77.3 80.0 85.7 85.4 85.2 93.3 87.7 Total 100 100 100 100 100 100 100 Fordel: direkte sammenlignelighed Ulempe: mister de faktiske antal

Deskriptiv statistik, januar 2007 48 Procenter, den anden vej Kejsersnit og skostørrelse: Relative frekvenser (i %) Shoe size Sectio <4 4 4 1 2 5 5 1 2 6+ Total Yes 11.6 16.3 14.0 16.3 18.6 23.3 100 No 5.5 9.1 11.7 13.3 14.9 45.5 100 Total 6.3 10.0 12.0 13.7 15.4 42.7 100 Dette siger noget om fodstørrelse og ikke så meget om hyppighed af kejsersnit