Basal statistik. 2. september 2008

Relaterede dokumenter
Basal statistik. 29. januar 2008

Basal statistik. 30. januar 2007

Deskriptiv Statitik. Judith L. Jacobsen, PhD.

Deskriptiv Statitik. Kursus formål. Deskriptiv Statistik MPH F Judith L. Jacobsen 1

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Basal Statistik. Medicinsk forskning. Mulig problemstilling. Ide. Faculty of Health Sciences. Begreber. Oversigt.

En Introduktion til SAS. Kapitel 5.

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Normalfordelingen og Stikprøvefordelinger

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Produkt og marked - matematiske og statistiske metoder

Tema. Dagens tema: Indfør centrale statistiske begreber.

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Kommentarer til øvelser i basalkursus, 2. uge

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

Uge 10 Teoretisk Statistik 1. marts 2004

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Oversigt. Kursus Introduktion til Statistik. Forelæsning 3: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

Konfidensintervaller og Hypotesetest

t-fordeling Boxplot af stikprøve (n=20) fra t(2)-fordeling Program ( ): 1. repetition: fordeling af observatorer X, S 2 og t.

Susanne Ditlevsen Institut for Matematiske Fag susanne

Estimation og usikkerhed

Kvantitative Metoder 1 - Forår Dagens program

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Løsning eksamen d. 15. december 2008

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Opgaver til kapitel 3

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Landmålingens fejlteori - Lektion 2. Sandsynlighedsintervaller Estimation af µ Konfidensinterval for µ. Definition: Normalfordelingen

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Forsøgsplanlægning Stikprøvestørrelse

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Kapitel 3 Centraltendens og spredning

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Hvorfor er det lige at vi skal lære det her?

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

Praktiske ting og sager: Forelæsninger tirsdag og torsdag kl i Kirkesalen, Studiestræde 38 Øvelser

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Oversigt. Kursus Introduktion til Statistik. Forelæsning 2: Kapitel 4, Diskrete fordelinger. Per Bruun Brockhoff. Stokastiske Variable

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

VIGTIGT! Kurset består af: 1. Forelæsninger. 2. Øvelser. 3. Litteraturlæsning

Forelæsning 2: Kapitel 4, Diskrete fordelinger

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Kapitel 4 Sandsynlighed og statistiske modeller

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Statistiske modeller

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

Kapitel 4 Sandsynlighed og statistiske modeller

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

enote 2: Kontinuerte fordelinger Introduktion til Statistik Forelæsning 3: Kontinuerte fordelinger Peder Bacher enote 2: Continuous Distributions

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Basal statistik. 11.september Sandsynligheder Fordelinger og modeller Statistisk analyse Type 1 og 2 fejl, styrke

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

I dag. Statistisk analyse af en enkelt stikprøve med kendt varians Sandsynlighedsregning og Statistik (SaSt) Eksempel: kobbertråd

Oversigt. Kursus Introduktion til Statistik. Forelæsning 1: Intro og beskrivende statistik. Per Bruun Brockhoff. Praktisk Information

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002

Forelæsning 1: Intro og beskrivende statistik

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Statistik og Sandsynlighedsregning 2

Kvantitative Metoder 1 - Forår 2007

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

1 Hb SS Hb Sβ Hb SC = , (s = )

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Introduktion til overlevelsesanalyse

Modelkontrol i Faktor Modeller

Løsning til eksamen d.27 Maj 2010

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Basal statistik. 11.september 2007

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

Landmålingens fejlteori Lektion 1 Det matematiske fundament Kontinuerte stokastiske variable

Transkript:

Basal statistik 2. september 2008

Deskriptiv statistik Grafik Summary statistics Normalfordelingen Typer af data

Esben Budtz-Jørgensen, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet e-mail: ebj@biostat.ku.dk http://staff.pubhealth.ku.dk/~ebj/basal08_2

Deskriptiv statistik, september 2008 1 Eksempel på kvantitative data

Deskriptiv statistik, september 2008 2 Statistik Handler om ud fra tal, data at udtale sig om aspekter af virkeligheden (sundhedsvidenskabelige problemstillinger) (Ikke officiel statistik, statistikproduktion) Ud fra stikprøve: 1. Deskriptiv statistik: beskrive niveau og variation i population 2. Statistisk inferens: drage konklusioner om ukendte størrelser, parametre, knyttet til populationen, f.eks. forskel i niveau for mænd og kvinder eller stigning i niveau pr. år.

Deskriptiv statistik, september 2008 3 Nøgleord Datareduktion Datapræsentation Statistiske modeller Værktøjer matematik, sandsynlighedsregning edb grafik og sund fornuft!

Deskriptiv statistik, september 2008 4 Scatter plot af PImax mod alder

Deskriptiv statistik, september 2008 5 Histogram SAS ANALYST: Graph/Histogram pimax i Analysis

Deskriptiv statistik, september 2008 6 Beskrivelse af kvantitative variable Histogram Location, centrum Gennemsnit: ȳ = 1 n (y 1 + + y n ) Median: midterste observation, efter størrelsesorden (50% fraktil) Variation Varians: s 2 = 1 n 1 Σ(y i ȳ) 2 spredning = standardafvigelse = varians Fraktiler (kumuleret fordelingsfunktion) Fraktildiagram Boxplot

Deskriptiv statistik, september 2008 7 Gennemsnit Eksempel: Indlæggelsestider: 5,5,5,7,10,16,106 dage Gennemsnit: 154/7=22 dage. Repræsentativt for hvad?? På den anden side, hvis omkostninger er kan opfattes som ligevægtspunkt påvirkes kraftigt af yderlige observationer proportionale med indlæggelsestiden, så er det måske gennemsnittet, der er interessant for hospitalsledelsen.

Deskriptiv statistik, september 2008 8 Data i rækkefølge: Fraktiler for PImax-eksempel 1 2 3 4 5 6 7 8 40 45 70 75 75 75 75 80 9 10 11 12 13 14 15 16 80 80 85 95 95 95 95 100 17 18 19 20 21 22 23 24 25 100 100 110 110 110 120 125 130 150 Median: Midterste observation, 50%-fraktil: 95 Kvartiler (25% og 75% fraktiler): 75, 110.

Deskriptiv statistik, september 2008 9 Should we scare the opposition by announcing our mean height, or lull them by announcing our median height?

Deskriptiv statistik, september 2008 10 Håndregning Beregning af gennemsnit: ȳ = 1 n i y i her: (80 + 85 + + 95)/25 = 92.6 Beregning af varians: s 2 = 1 n 1 (y i ȳ) 2 her: ((80 92.6) 2 + (85 92.6) 2 + + (95 92.6) 2 )/24 = 621.1 Beregning af spredning: her: 621.1 = 24.9 i s = s 2

Deskriptiv statistik, september 2008 11 Summary statistics i SAS Statistics/Descriptive/Summary Statistics pimax i Analysis i Statistics afkrydses: Mean, Standard Deviation, Minimum, Maximum, Median og Number of Observations samt Standard error The MEANS Procedure Analysis Variable : pimax Mean Std Dev Minimum Maximum Median N Std Error ---------------------------------------------------------------------------------------- 92.6000000 24.9215436 40.0000000 150.0000000 95.0000000 25 4.9843087 ----------------------------------------------------------------------------------------

Deskriptiv statistik, september 2008 12 Fortolkning af spredningen, s Hovedparten af observationerne ligger inden for ȳ ± ca.2 s dvs. sandsynligheden for at en tilfældig udtrukket person fra populationen har en værdi i dette interval er stor... For PImax finder vi 92.6 ± 2 24.9 = (42.8, 142.4) Hvis data er normalfordelt, vil dette interval indeholde ca. 95% af fremtidige observationer. For at benytte ovenstående, skal der i hvert fald helst være rimelig symmetri...

Deskriptiv statistik, september 2008 13 For kvantitative variable har hver enkelt værdi sandsynlighed 0 for at indtræffe (fordi der i princippet er uendeligt mange mulige udfald). Vi taler i stedet om sandsynlighedstætheder, således at sandsynligheden for et interval udregnes som arealet under kurven. Område, der dækker de centrale 95% af observationerne, må gå fra 2 1 2 % fraktilen til 971 2 % fraktilen, her... Men hvordan finder man 2 1 2 % af kun 25 observationer??

Deskriptiv statistik, september 2008 14 Normalfordelingstætheder benævnes ofte N(µ,σ 2 ) middelværdi = mean, ofte benævnt µ, α el.lign. spredning, ofte benævnt σ

Deskriptiv statistik, september 2008 15 Histogram med overlejret normalfordeling SAS ANALYST: Graph/Histogram pimax i Analysis klik Fit og afkryds Normal Parameters

Deskriptiv statistik, september 2008 16

Deskriptiv statistik, september 2008 17 Skæve fordelinger: Immunoglobulin (n=298) Histogram of IgM Frequency 0 50 100 150 gennemsnit ȳ 0.80g/l spredning s=sd 0.47g/l (ȳ+2s, ȳ+2s) = ( 0.14g/l, 1.74g/l) Urimeligt interval, indeholder f.eks. negative værdier 0 1 2 3 4 5 IgM

Deskriptiv statistik, september 2008 18 Fraktiler for IgM-data Quantile Estimate Kumulativ fordeling: 100% Max 4.5 99% 2.5 95% 1.7 90% 1.4 75% Q3 1.0 50% Median 0.7 25% Q1 0.5 10% 0.4 5% 0.3 1% 0.1 0% Min 0.1 Obs P_2_5 P_5 P_95 P_97_5 1 0.2 0.3 1.7 2 Intervallet (0.2, 2.0) synes mere repræsentativt

Deskriptiv statistik, september 2008 19 Hvordan kan vi se, om normalfordelingen er en god beskrivelse? Simulation af 40 observationer fra samme normalfordeling, gentaget 9 gange: Nogle af dem ser ikke ret normalfordelte ud! Frequency Frequency 0 2 4 6 8 0 2 4 6 8 Histogram of nf1 2 1 0 1 2 3 nf1 Histogram of nf4 Frequency Frequency 0 2 4 6 8 0 2 4 6 8 Histogram of nf2 2 1 0 1 2 nf2 Histogram of nf5 Frequency Frequency 0 4 8 12 0 2 4 6 8 Histogram of nf3 2 0 1 2 3 4 nf3 Histogram of nf6 2 1 0 1 2 2 1 0 1 2 2 1 0 1 2 Ganske store afvigelser kan tolereres i visse sammenhænge, specielt når de ikke er for systematiske! Frequency 0 2 4 6 8 nf4 Histogram of nf7 2 1 0 1 2 nf7 Frequency 0 2 4 6 8 nf5 Histogram of nf8 2 1 0 1 2 nf8 Frequency 0 5 10 15 nf6 Histogram of nf9 4 2 0 1 2 3 nf9

Deskriptiv statistik, september 2008 20 Test af normalitet for PImax blandt meget andet output fra Statistics/Descriptive/Distributions når der afkrydses i Fit/Normal Parameters: The UNIVARIATE Procedure Fitted Distribution for pimax Parameters for Normal Distribution Quantiles for Normal Distribution Test Parameter Symbol Estimate Mean Mu 92.6 Std Dev Sigma 24.92154 Goodness-of-Fit Tests for Normal Distribution ---Statistic---- -----p Value----- Kolmogorov-Smirnov D 0.12002682 Pr > D >0.150 Cramer-von Mises W-Sq 0.05671455 Pr > W-Sq >0.250 Anderson-Darling A-Sq 0.35232007 Pr > A-Sq >0.250 Percent -------Quantile------ Observed Estimated 1.0 40.0000 34.6238 5.0 45.0000 51.6077 10.0 70.0000 60.6618 25.0 75.0000 75.7907 50.0 95.0000 92.6000 75.0 110.0000 109.4093 90.0 125.0000 124.5382 95.0 130.0000 133.5923 99.0 150.0000 150.5762

Deskriptiv statistik, september 2008 21 Test af normalfordelingen er ikke særligt informativt! giver ikke udtryk for graden af afvigelse fra normalitet i små samples skal afvigelsen være stor for at slå igennem i store samples vil selv ubetydelige afvigelser give signifikant udslag

Deskriptiv statistik, september 2008 22 Fraktildiagram Graphs/Probability Plot: Hvis data er normalfordelt, skal fraktildiagrammet ligne en ret linie: De observerede fraktiler skal passe med de teoretiske (pånær en skala)

Deskriptiv statistik, september 2008 23 Fitted Distribution for igm Test af normalitet for IgM Parameters for Normal Distribution Parameter Symbol Estimate Mean Mu 0.80302 Std Dev Sigma 0.469498 Test Goodness-of-Fit Tests for Normal Distribution ---Statistic---- -----p Value----- Kolmogorov-Smirnov D 0.17035149 Pr > D <0.010 Cramer-von Mises W-Sq 1.72717601 Pr > W-Sq <0.005 Anderson-Darling A-Sq 9.83760415 Pr > A-Sq <0.005 Quantiles for Normal Distribution ------Quantile------ Percent Observed Estimated 1.0 0.10000-0.28920 5.0 0.30000 0.03076 10.0 0.40000 0.20133 25.0 0.50000 0.48635 50.0 0.70000 0.80302 75.0 1.00000 1.11969 90.0 1.40000 1.40471 95.0 1.70000 1.57528 99.0 2.50000 1.89524

Deskriptiv statistik, september 2008 24 Fraktildiagram for IgM ses at passe meget dårligt med en ret linie

Deskriptiv statistik, september 2008 25 Normalområde: Område, der omslutter 95% af normale observationer: nedre grænse: 2 1 2 % fraktil øvre grænse: 97 1 2 % fraktil Hvis fordelingen kan beskrives ved en normalfordeling N(µ,σ 2 ), kan disse fraktiler direkte udtrykkes som 2 1 2 % fraktil: µ 1.96σ ȳ 1.96s 97 1 2 % fraktil: µ + 1.96σ ȳ + 1.96s og normalområdet udregnes derfor som ȳ ± ca.2 s = (ȳ ca.2 s, ȳ + ca.2 s)

Deskriptiv statistik, september 2008 26 Sådanne normalområder dur ikke for IgM: fordi fordelingen er tydeligt skæv Hvad gør vi så? benytter empiriske fraktiler (se s. 18) transformerer, typisk med logaritmen (se s. 27)

Deskriptiv statistik, september 2008 27 Transformation med logaritme (log 10 ) gennemsnit spredning 0.158 0.238 Antilog: 10 0.158 = 0.695 0.158 2 0.238 = 0.63 Antilog: 10 0.63 = 0.23 0.158 + 2 0.238 = 0.32 Antilog: 10 0.32 = 2.08 Frequency 0 20 40 60 80 100 Histogram of log10(igm) 1.0 0.5 0.0 0.5 log10(igm) Bedre grænser: (0.23, 2.08)

Deskriptiv statistik, september 2008 28 Hvorfor benyttes normalfordelingen så ofte? Det er ofte en rimelig approksimation Evt. efter transformation med logaritme, kvadratrod, invers,... Central grænseværdisætning: Sum (eller gennemsnit) af et stort antal variable får en fordeling, der efterhånden kommer til at ligne en normalfordeling (sum af normalfordelinger er igen en normalfordeling). Rimelig let at arbejde med, fordi standard programmel er udviklet for normalfordelingen.

Deskriptiv statistik, september 2008 29

Deskriptiv statistik, september 2008 30 Målet med en statistisk analyse er ofte udfra en stikprøve at udtale sig om hele populationen. Middelindkomsten i DK kunne f.eks estimeres ved at udtage en stikprøve af personer og for hver person måle indkomsten. Et naturligt estimat for populationens middelindkomst ville være stikprøvegennemsnittet ȳ. Bias: Hvis stikprøven ikke er repræsentativ. Varians: Hvor sikkert er estimatet? Hvis forsøget blev gentaget hvor meget ville estimatet variere omkring den sande populationsværdi? (det er klart at jo større stikprøven er jo mindre er denne variation)

Deskriptiv statistik, september 2008 31 Hvordan kan vi sige noget om fordelingen af gennemsnittet ȳ? vi har jo kun et... Bootstrap: Resampling (trækning af observationer fra vores sample, med tilbagelæggelse Udregn gennemsnit af hvert nyt sample Fordeling af Bootstrap gennemsnit...!! Ved at benytte en fordelingsantagelse for selve y erne Hvis y i erne er normalfordelte, vil ȳ også være det, og spredningen i denne fordeling vil være SEM = SD n

Deskriptiv statistik, september 2008 32 Bootstrap distribution of PIMAX ȳ, 1000 samples Histogram of bootstrap.pimax.snit "bootstrap gennemsnit" 92.61624 "bootstrap spredning" 4.911366 modsvarer SEM i samplet Frequency 0 500 1000 1500 80 90 100 110 bootstrap.pimax.snit "fraktiler for bootstrap gennemsnit" 1% 2.5% 5% 50% 95% 97.5% 99% 81.2 83.0 84.6 92.6 100.6 102.2 104.0

Deskriptiv statistik, september 2008 33 Central grænseværdisætning: IgM Histogram of igm Histogram of boot.igm.snit4 Histogram of boot.igm.snit16 Frequency 0 50 100 150 Frequency 0 500 1000 1500 2000 Frequency 0 500 1000 1500 0.0 1.0 2.0 3.0 0.0 1.0 2.0 3.0 0.0 1.0 2.0 3.0 igm boot.igm.snit4 boot.igm.snit16 Histogram of boot.igm.snit16 Histogram of boot.igm.snit64 Histogram of boot.igm.snit298 Frequency 0 500 1000 1500 Frequency 0 500 1500 2500 Frequency 0 500 1000 1500 0.6 1.0 1.4 0.6 1.0 1.4 0.6 1.0 1.4 boot.igm.snit16 boot.igm.snit64 boot.igm.snit298

Deskriptiv statistik, september 2008 34 Central grænseværdisætning: Jo flere observationer, der indgår i gennemsnittet des mere normalfordelt ser det ud des mindre spredning har fordelingen Standard error (of the mean), SEM siger noget om usikkerheden på gennemsnittet SEM = SD n

Deskriptiv statistik, september 2008 35 Konfidensinterval Hvad tror vi på, at den sande middelværdi kan være? Et interval, der fanger den sande middelværdi med en passende høj (95%) sandsynlighed kaldes et 95% konfidensinterval 95% kaldes dækningsgraden eller coverage ȳ ± ca.2 SEM Dette er ofte en god approksimation, selv når data ikke er særligt pænt normalfordelt (på grund af CLT, den centrale grænseværdisætning)

Deskriptiv statistik, september 2008 36 For PImax fås: 92.6 ± 2 4.98 = (82.64, 102.56) som sammenlignes med Bootstrap-fraktilerne: (83.0, 102.2) For IgM fås: 0.80 ± 2 0.47 298 = (0.75, 0.85) som sammenlignes med Bootstrap-fraktilerne: (0.75, 0.86) Men gennemsnittet er stadig ikke et godt mål for IgM!! Medianen er 0.7...

Deskriptiv statistik, september 2008 37 Spredning=standard deviation, SD siger noget om variationen i vores sample, og formentlig i populationen benyttes ved beskrivelser af data Standard error (of the mean), SEM siger noget om usikkerheden på gennemsnittet SEM = SD n standard error (of mean, of estimate) = 1 n standard deviation benyttes ved sammenligninger, sammenhænge etc.

Deskriptiv statistik, september 2008 38 Boxplot for PImax-eksempel Graph/Box Plot i Display skiftes til Schematic God ved sammenligning af fordelinger

Deskriptiv statistik, september 2008 39 Hvis fordelingen er tydeligt skæv eller på anden måde afviger tydeligt fra normalfordelingen, bør man ikke angive gennemsnit og spredning, men snarere: fraktiler: median inter-quartile range, IQR: intervallet mellem 25% og 75% fraktil range Om muligt bør fordelingen illustreres grafisk! Alternativ: Transformer til normalitet. For små materialer angives median og range

Deskriptiv statistik, september 2008 40 Hvis variablen Y er normalfordelt med middelværdi µ og varians σ 2, skriver vi y N(µ, σ 2 ) Standardiseret/normeret variabel: z = y µ s t(df) N(0, 1) når df = n 1 er stor

Deskriptiv statistik, september 2008 41

Deskriptiv statistik, september 2008 42 Eksempel: Ud fra et stort materiale har vi fundet en gennemsnitlig Se-albumin på 34.46 (g/l) og en empirisk varians på 5.84 2 (g/l) 2 Hvis vi udfra dette antager at Se-albumin er normalfordelt med middelværdi 34.46 g/l og spredning 5.84 g/l, hvad er så sandsynligheden for at en tilfældigt udvalgt person har en værdi over 42.0 g/l? Hvor mange standardafvigelser er 42.0 fra 34.46? 42 34.46 5.84 = 1.29 Tabelopslag i standardnormalfordeling (B1) eller computer: P = 0.0985 10%

Deskriptiv statistik, september 2008 43 Vigtigheden af normalfordelingen afhænger af formålet med undersøgelsen vigtig ved beskrivelser ved konstruktion af diagnostisk værktøj ikke så vigtig ved sammenligninger ved vurdering af effekter

Deskriptiv statistik, september 2008 44 Kategoriske kun distinkte værdier mulige død ja/nej Typer af data fysisk aktivitet i 4 kategorier Kvantitative (numeriske) Diskrete (tælledata) antal børn i en famile antal metastaser Kontinuerte (måledata) Censurerede (e.g. levetider)

Deskriptiv statistik, september 2008 45 Kategoriske data To kategorier (dikotom/binær): Mand/kvinde dør/overlever Gift/ugift Ryger/ikke ryger Flere end to: Nominal: Gift/ugift/fraskilt/enke(mand) Ordinal: minimal/moderat/alvorlig/uudholdelig smerte

Deskriptiv statistik, september 2008 46 Diskrete kvantitative/numeriske data Tælletal Antal børn i en familie Antal metastaser/celler/bakteriekolonier Flydende grænser mellem diskrete numeriske og ordinale kategoriske data. OBS: Ofte meningsløst at behandle ordinale data som om de var numeriske. Gennemsnitlig socialklasse eller cancerstadium??

Deskriptiv statistik, september 2008 47 Højde Vægt Se-kolesterol Blodtryk Kontinuerte data Måling på en sammenhængende skala. I praksis afrundede tal. Variable der antager mange værdier. Ofte noget med normalfordelingen

Deskriptiv statistik, september 2008 48 Censurerede data Typisk overlevelsesdata For nogen data vides kun om de er større end en vis værdi. For andre kendes værdien. Patienten var i live ved sidste follow-up / pr. 1.jan. 1997 NB: der er også trunkerede data hvor man slet ikke har data hvis de er mindre/større end en vis værdi: Tid til diagnose blandt patienter med symptomstart i 1995, fx.

Deskriptiv statistik, september 2008 49 Beskrivelse af kategoriske data Stolpediagrammer (barplots) Tabeller Absolutte hyppigheder/frekvenser (antal) Relative hyppigheder (procenter)

Deskriptiv statistik, september 2008 50 Tabeller Kejsersnit og skostørrelse: Absolutte frekvenser (antal) Shoe size Sectio <4 4 4 1 2 5 5 1 2 6+ Total Yes 5 7 6 7 8 10 43 No 17 28 36 41 46 140 308 Total 22 35 42 48 54 150 351

Deskriptiv statistik, september 2008 51 Tabeller - i procent Kejsersnit og skostørrelse: Relative frekvenser (i %) Shoe size Sectio <4 4 4 1 2 5 5 1 2 6+ Total Yes 22.7 20.0 14.3 14.6 14.8 6.7 12.3 No 77.3 80.0 85.7 85.4 85.2 93.3 87.7 Total 100 100 100 100 100 100 100 Fordel: direkte sammenlignelighed Ulempe: mister de faktiske antal

Deskriptiv statistik, september 2008 52 Procenter, den anden vej Kejsersnit og skostørrelse: Relative frekvenser (i %) Shoe size Sectio <4 4 4 1 2 5 5 1 2 6+ Total Yes 11.6 16.3 14.0 16.3 18.6 23.3 100 No 5.5 9.1 11.7 13.3 14.9 45.5 100 Total 6.3 10.0 12.0 13.7 15.4 42.7 100 Dette siger noget om fodstørrelse og ikke så meget om hyppighed af kejsersnit