Deskriptiv Statitik. Kursus formål. Deskriptiv Statistik MPH F 2009. Judith L. Jacobsen 1

Relaterede dokumenter

Deskriptiv Statitik. Judith L. Jacobsen, PhD.

Basal statistik. 30. januar 2007

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Modul 5: Test for én stikprøve

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Konfidensinterval for µ (σ kendt)

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

En Introduktion til SAS. Kapitel 5.

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Kapitel 3 Centraltendens og spredning

Module 2: Beskrivende Statistik

Kapitel 3 Centraltendens og spredning

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Kvantitative Metoder 1 - Forår Dagens program

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Hypotese test. Repetition fra sidst Hypoteser Test af middelværdi Test af andel Test af varians Type 1 og type 2 fejl Signifikansniveau

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Normalfordelingen og Stikprøvefordelinger

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Note til styrkefunktionen

Konfidensintervaller og Hypotesetest

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Introduktion til overlevelsesanalyse

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Løsning eksamen d. 15. december 2008

1 Hb SS Hb Sβ Hb SC = , (s = )

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Modelkontrol i Faktor Modeller

Beskrivende statistik

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

To samhørende variable

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Basal statistik for sundhedsvidenskabelige forskere, forår 2015 Udleveret 3. marts, afleveres senest ved øvelserne i uge 13 (

Susanne Ditlevsen Institut for Matematiske Fag susanne

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Statistik og Sandsynlighedsregning 2

Multipel Lineær Regression. Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test

Faculty of Health Sciences. Logistisk regression: Interaktion Kvantitative responsvariable

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002

Modul 3: Kontinuerte stokastiske variable

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Statistikkompendium. Statistik

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Seniorkursus i Biostatistik og Stata, Dag 2

SENIORKURSUS STATA OG BIOSTATISTIK

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Løsning til øvelsesopgaver dag 4 spg 5-9

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

9. Chi-i-anden test, case-control data, logistisk regression.

Modul 6: Regression og kalibrering

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Basal Statistik Kategoriske Data

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

for gymnasiet og hf 2016 Karsten Juul

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Ensidet variansanalyse

Program. Simpel og multipel lineær regression. I tirsdags: model og estimation. I tirsdags: Prædikterede værdier og residualer

Statistik og Sandsynlighedsregning 2

Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie

Statistiske modeller

Trivsel og fravær i folkeskolen

Statistik kommandoer i Stata opdateret 16/ Erik Parner

Transkript:

MPH Deskriptiv Statitik Judith L. Jacobsen, PhD. http://staff.pubhealth.ku.dk/~lts/basal09_1/ jlj@statcon.dk Kursus formål Planlægning af studier selve indsamlingen af data, opstilling af statistiske hypoteser valg af tests og udførsel enkle analyser Faglig fortolkning af statistiske resultater Normalfordelingen & binomial fordelingen Frekvens og antals tabeller Deskriptiv Statistik Typer af data Tabeller Grafik Summary statistik Forstå variation i observerede værdier Forskellige datatyper, skala og deres fordeling Judith L. Jacobsen 1

MPH Undersøg ALTID Data Plot ALLE observationerne STUDER dine plots Analyser dine data Handler om Ud fra tal data: at kunne udtale sig om aspekter af virkeligheden (lægevidenskabelige/biologiske problemstillinger) (Ikke officiel statistik, statistikproduktion) Ud fra stikprøve: 1. Deskriptiv statistik: beskrive variation i population 2. Statistisk inferens (cf. infer ) drage konklusioner om ukendte størrelser, parametre, knyttet til populationen. Hvad er Statistik Generalisere (gøre inferens) omkring en population ved at studere et udsnit fra denne Udsnit Inferens Population Judith L. Jacobsen 2

MPH Eksempel Population Alle voksne med mistanke om CHD ud fra nogle observationer Forsøg Udsnit af 60 voksne med mistanke om CHD Afprøvning af en intervention Statistik går ud på at sige noget om, hvor tæt vores observationer er på de resultater vi ville have, hvis vi havde observeret alle voksne med CHD Emner Nøgleord Datareduktion Datapræsentation Statistiske modeller Værktøj Matematik Sandsynlighedsregning Grafik og sund fornuft! Data typer I Kvalitativ Kvantitativ Binære Kategorisk Subjektiv Numerisk, målbar Objektiv Enten Eller Død levende 0 1 Præcision 1 2 3 Judith L. Jacobsen 3

MPH Data typer II Kvalitative Beskrivelse Subjektivt Objektivt Nominal Benævnte kategorier Ordinal Ordnede kategorier Kvantitative Målinger Kontinuerte Diskrete Interval Specifik afstand Ratio Samme reference Interval & Ratio Interval skala Specifik distance Temperatur Arbitrær reference, Celcius og Farenheit, man kan ikke sige at 20 er dobbelt så varmt som 10 Ratio skala Samme reference Alder Ratio har samme reference 50 år er dobbelt så gammel som 25 år Kategoriske Data To kategorier (dikotom/binær): Mand/kvinde Gravid/ikke gravid Gift/ugift Ryger/ikke ryger Flere end to: Nominal: Gift / ugift / fraskilt / enke(mand) Ordinal: minimal / moderat / alvorlig / uudholdelig smerte Judith L. Jacobsen 4

MPH Kontinuerte Data Måling på en sammenhængende skala I praksis afrundede tal Variable der antager mange værdier Ofte noget med normalfordelingen Eksempler Højde Vægt Serum-kolesterol Blodtryk Diskrete Numeriske Data Tælletal Antal børn i en familie Antal metastaser/celler/bakteriekolonier Flydende grænser mellem diskrete numeriske og ordinale kategoriske data. OBS: Ofte meningsløst at behandle ordinale data som om de var numeriske. Gennemsnitlig socialklasse eller cancerstadium?? Censurerede data Typisk overlevelsesdata For nogen data vides kun om de er større end en vis værdi. For andre kendes værdien. Patienten var i live ved sidste follow-up / pr. 1.jan. 1997 NB: der er også trunkerede data hvor man slet ikke har data hvis de er mindre/større end en vis værdi: Tid til diagnose blandt patienter med symptomstart i 1995, fx. Judith L. Jacobsen 5

MPH Beaufort Vindskala Beaufort m/s Knob km/t Betegnelse Observationer på land Observationer på vand 12 >32 >63 118-11 29-32 56-63 103-117 10 25-28 48-55 89-102 9 21-24 41-47 75-88 8 17-20 34-40 62-74 Vel defineret Orkan Stærk storm Storm Stormende kuling Hård kuling Ordinal Voldsomme ødelæggelser Luften fyldt med skum, der forringer sigten væsentligt Talrige ødelæggelser Umådeligt høje bølger - havet dækket af hvide skumflager - sigten forringet Træer rives op med rode - Meget høje bølger - næsten hvid betydelige skader på huse overflade - skumsprøjt påvirker udsigten Store grene knækkes - Høje bølger, hvor toppen vælter tagsten blæser ned over - skumsprøjt kan påvirke sigten Kviste og grene brækkes af Ret høje, lange bølger - - besværligt at gå mod bølgekammen brydes til vinden skumsprøjt Elastisk skala Admiral Francis Beaufort Respons Oversigt over Teknikker Kovariater Dikotome Kategoriske Kontinuerte Kategoriske og Kontinuerte Dikotome Kategoriske Ordinale Kontinuerte Normal Fordeling 2 x 2-tabeller Kontingens tabeller / Mann Whitney Wilcon sign rank T-test Parret / uparret 2 χ test 2 χ test Vanskeligt, e.g. proportional odds models Kruskal - Wallis - Friedman Varians Analyse En- / to-sidet Logistisk regression Gen. Logistisk regression Robust multipel regression Kovarians analyse Multipel regression Censorede data Korrelerede Normalt ford. Log-rank test Varians komponent Modeller Cox regression Modeller for gentagne målinger Overblik Interval & ratio data indeholder mere information end ordinal data, som indeholder mere information end nominal data Man kan altid gå fra kontinuert diskret ordinal nominal Men aldrig den anden vej! Judith L. Jacobsen 6

MPH Beskrivelse af Data Nominal Frekvenser Tabellering Tærte diagram Ordinal Frekvenser Stolpe diagram Kontinuerte Middel, median, Sd, fraktiler Scatter plot Diskret Median, min, max Stolpe diagram Beskrivelse Kategoriske Data Stolpediagrammer (barplots) Tabeller Absolutte hyppigheder/frekvenser (antal) Kejsersnit og skostørrelse: Section Yes No Total <4 4 4½ 5 5½ 6+ 5 7 6 7 8 10 17 28 36 41 46 140 22 35 42 48 54 150 Total 43 308 351 Judith L. Jacobsen 7

MPH Tabeller - i procent Kejsersnit og skostørrelse: Relative frekvenser (i %) Section Yes No <4 4 4½ 5 5½ 6+ 22.7 20.0 14.3 14.6 14.8 6.7 77.3 80.0 85.7 85.4 85.2 93.3 Total 12.3 87.7 Total 100 100 100 100 100 100 100 Fordel: direkte sammenlignelighed Ulempe: mister de faktiske antal Procenter den anden vej Kejsersnit og skostørrelse: Relative frekvenser (i %) Section Yes No Total <4 4 4½ 5 5½ 6+ 11.6 16.3 14.0 16.3 18.6 23.3 5.5 9.1 11.7 13.3 14.9 45.5 6.3 10.0 12.0 13.7 15.4 42.7 Total 100 100 100 Dette siger noget om fodstørrelse og ikke så meget om hyppighed af kejsersnit Mere om Frekvenser Trafikofre i the London Borough of Harrow 1985 (65 med ukendt alder udeladt) Alder Frekv. Fr./ år 0-4 5-9 10-15 16 17 18-19 20-24 25-59 60+ 28 46 58 20 31 64 149 316 103 5.4 9.2 11.6 20.0 31.0 32.0 29.8 9.0 5.2 Total 815 Remark: Her kommer grupperne fra kontinuerte observationer Så et bar chart af frekvenserne er mere som et histogram... Judith L. Jacobsen 8

MPH Ukorrekt: (uens interval bredde) højden af stolper = absolutte frekvenser Korrekt: (uens interval bredde) højden af stolper = antal ofre pr år (alder) Grupperinger 1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0 Histogrammer Overvej om data bør deles op A B 1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0 1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0 Judith L. Jacobsen 9

MPH Grupperinger II 400 400 Measure 300 Value 300 200 200 100 AGE(1)AGE(2)AGE(3)AGE(4) Trial GRUPPE$ W R 100 R W GRUPPE$ AGE(4) AGE(3) AGE(2) AGE(1) Eksempel Kvantitative Data PI max Beskrivelse Kvantitative Variable Graphs: Histogram Probability plot QQ plot Box plot Graph/Histogram pimax i Analysis Judith L. Jacobsen 10

MPH Histogram tæthed Sandsynligheder Tæthed Hvad betyder sandsynligheder, f.eks. for PImax? Her: hver enkelt værdi sandsynlighed = 0 for at indtræffe (fordi der i princippet er mange mulige udfald) Sandsynlighedstætheder, sandsynligheden for et interval = arealet under kurven Diagrammer Histogram Frekvens fordeling Box plot Scatter plot Judith L. Jacobsen 11

MPH µ middel forventet σ standard afvigelse Normalfordelingstætheder med overlejret Normalfordeling Graph/Histogram pimax i Analysis klik Fit og afkryds Normal Parameters Histogram Et mål for centrum i en fordeling Kan opfattes som ligevægtspunkt påvirkes af yderlige observationer Gennemsnit Eksempel: Indlæggelsestider: 5,5,5,7,10,16,106 dage Gennemsnit: 154/7=22 dage Repræsentativt for hvad?? Hvis omkostninger er proportionale med indlæggelsestiden, er det måske gennemsnittet, der er interessant Judith L. Jacobsen 12

MPH Skal vi skræmme modstanderne Ved at give vores middelhøjde? Eller berolige dem ved at give median højden? Estimatorer for Beliggenhed Middel Den aritmetiske middelværdi for et set observationer. Misvisende når baseret på skewed data. Median Den værdi, i et set ordnede observationer, som deler data i to ens dele. God til skewed data og relativ robust for outliere. Modus Den oftest observerede værdi i et set observationer ( typisk værdi ). Bruges bla. når ovennævnte ikke slår til Estimatorer for Spredning Range Forskellen mellem max. og min. i et set observationer. Ikke anbefalet til at måle spredning pga. sensitiviteten til outliers. Dens størrelse øger med stikprøve størrelsen. Varians Gennemsnittet af observationernes kvadrerede afvigelser fra middelværdien. Standard afvigelse SD = kvadratroden af variansen. Standard fejl SD for stikprøve fordelingen af en statistik. SE = s / n ½ Judith L. Jacobsen 13

MPH Deskriptive Mål Udregning af basale mål Middel: x x = n Varians: 2 ( x x) 2 s = ( n 1) Std.afv.: s = 2 s Medianen (50%) er den midterste værdi når data er sorteret efter størrelse Hvornår bruges hvad? Beliggenhed Formen på data Skewed: Median Symmetrisk: Middel Type data Nominale data: Modus Ordinale data: Median Kontinuerte Data: Middel Skala Formen på data Gir ingen mening at beregne SD for skewed data Brug kvartiler og fraktiler i stedet Fraktiler og kvartiler Et mål for variabilitet Viser skævheder 50% = medianen 25% og 75% STYRKE 2000 1500 1000 Fraktiler Frekvens fordeling 500 S T METODE$ Judith L. Jacobsen 14

MPH Summary Statistik i SAS Statistics/Descriptive/Summary Statistics pimax i Analysis i Statistics afkrydses: Mean, Standard Deviation, Minimum, Maximum, Median & Number of Observations The MEANS Procedure Analysis Variable : pimax Mean Std Dev Minimum Maximum Median N --------------------------------------------------------------------------------------------------- 92.60 24.9215436 40.00 150.00 95.00 25 --------------------------------------------------------------------------------------------------- Normalfordeling God? Hvordan ses, om normalfordelingen er en god beskrivelse? Computersimulation af 150 observationer fra samme normalfordeling, gentages 9 gange. Nogle ser ikke ret normalfordelte ud! Ganske store afvigelser kan tolereres (i visse sammenhænge) specielt når de ikke er for systematiske Tilfældigt udtrukket 150 obs fra en normalfordeling middel = 115 og spredning = 10 Judith L. Jacobsen 15

MPH Varians er vigtig Samme forskel i middelværdi, men ikke lige vigtig Test af Normalitet i SAS Analyst Statistics/ Descriptive/ Distributions klik: Fit/Normal Parameters blandt meget andet output fås: The UNIVARIATE Procedure Fitted Distribution for pimax Parameters for Normal Distribution Parameter Symbol Estimate Mean Mu 92.6 Std Dev Sigma 24.92154 Goodness-of-Fit Tests for Normal Distribution --- Statistic --- --- p Value Test --- Kolmogorov-Smirnov D 0.12002682 > D >0.150 Pr Cramer-von Mises W-Sq 0.05671455 Pr > W-Sq >0.250 Anderson-Darling A-Sq 0.35232007 Pr > A-Sq >0.250 Quantiles Normal Fordeling ------- Quantile ------ Percent Observed Estimated 1.0 40.0000 34.6238 5.0 45.0000 51.6077 10.0 70.0000 60.6618 25.0 75.0000 75.7907 50.0 95.0000 92.6000 75.0 110.0000 109.4093 90.0 125.0000 124.5382 95.0 130.0000 133.5923 99.0 150.0000 150.5762 Judith L. Jacobsen 16

MPH Fraktiler (PImax-eksempel) Data i rækkefølge: I pimax I pimax I pimax 1 40 11 85 21 110 2 45 12 95 22 120 3 70 13 95 23 125 4 75 14 95 24 130 5 75 15 95 25 150 6 75 16 100 7 75 17 100 8 80 18 100 9 80 19 110 108 0 20 110 Median: Midterste observation, 50%-fraktil: 95 Kvartiler (25% og 75% fraktiler): 75, 110. Graphs/Probability Plot: Fraktildiagram Hvis data er normalfordelt, skal fraktildiagrammet ligne en ret linie Graph/Box Plot i Display skiftes til Schematic Judith L. Jacobsen 17

MPH Hvis Fordelingen er Skæv eller afviger tydeligt fra N- Formalfordelingen: gennemsnit og spredning bør ikke angives I stedet: fraktiler median Inter-quartile range, IQR intervallet mellem 25% og 75% fraktil range Om muligt bør fordelingen illustreres grafisk! Alternativ: Transformer til normalitet For små materialer angives median range Hvorfor Normalfordelingen? Ofte en rimelig approksimation Evt. efter transformation med logaritme, kvadratrod, invers,... Central grænseværdisætning: Summen af et stort antal variable ligner efterhånden en Normalfordeling (sum af N-fordelinger er igen en N-fordeling). Rimelig let at arbejde med, fordi standard programmel er udviklet for Normalfordelingen Højder Judith L. Jacobsen 18

MPH Diastolisk Blodtryk Central Grænseværdisætning SD standard error of the mean = SEM = = n 1 n SD Normal Fordelingen Hvis variablen Y er normalfordelt med middelværdi µ og varians σ 2, skrives Standardiseret /normeret variabel: 2 Y ~ N( µ, σ ) Ζ = Y µ s ~ t df 3σ 2σ σ σ µ +σ +2σ +3σ 68,3% 95,4% 99,7% t df t-fordeling med df frihedsgrader (afh af ant. obs.) Judith L. Jacobsen 19

MPH N-Ford. Middel & Varians σ = 1 σ = 2 µ = 10 µ = 24 Eksempel Fra et stort materiale har vi fundet gennemsnitlig Se-albumin på 34.46 (g/l) og empirisk varians på 5.842 (g/l)2 Hvis vi antager Se-albumin er normalfordelt med middelværdi 34.46 g/l og spredning 5.84 g/l, hvad er sandsynligheden for at en tilfældigt udvalgt person har en værdi over 42.0 g/l? Hvor mange standardafvigelser er 42.0 fra 34.46? 42 34.46 5.84 = 1.29 Tabelopslag i standardnormalfordeling eller computer: P = 0.0985 10% Normalområder der omslutter 95% af normale observationer: nedre grænse: 2 ½ % fraktil øvre grænse: 97 ½ % fraktil Hvis fordelingen kan beskrives ved en normalfordeling N(µ,σ 2 ) kan disse fraktiler direkte udtrykkes som 2 ½ % fraktil: µ 1.96 y 1.96 s 97 ½ % fraktil: µ + 1.96 y + 1.96 s og normalområdet udregnes derfor som y ± 2 s = ( y 2 s, y + 2 s) z 0.025 = z0.975 1.96 hvis standard N-fordeling Judith L. Jacobsen 20

MPH Skæve fordelinger Gennemsnit 0.80g/l Standard deviation s = SD - 0.47g/l ( y + 2s, y + 2s) = ( 0.14g / l,1.74g / l) Transformation På log10 skala: middel SD - 0.158 0.238 0.158± 2 0.238 = ( 0.63, 0.32) Antilogs : 10 10 10 0.32 0.158 0.63 = 0.695 = 0.23 = 2.08 Bedre grænser: (0.23, 2.08) Judith L. Jacobsen 21