Deskriptiv Statitik. Judith L. Jacobsen, PhD. http://staff.pubhealth.ku.dk/~lts/basal09_1/ jlj@statcon.dk



Relaterede dokumenter
Basal statistik. 30. januar 2007

Deskriptiv Statitik. Kursus formål. Deskriptiv Statistik MPH F Judith L. Jacobsen 1

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

En Introduktion til SAS. Kapitel 5.

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

Kapitel 3 Centraltendens og spredning

Kvantitative Metoder 1 - Forår Dagens program

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Deskriptiv statistik. Version 2.1. Noterne er et supplement til Vejen til matematik AB1. Henrik S. Hansen, Sct. Knuds Gymnasium

Normalfordelingen. Statistik og Sandsynlighedsregning 2

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Kursus Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, ( , ) Per Bruun Brockhoff

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Normalfordelingen og Stikprøvefordelinger

Modul 5: Test for én stikprøve

Statistik. Introduktion Deskriptiv statistik Sandsynslighedregning

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Note til styrkefunktionen

Module 2: Beskrivende Statistik

Konfidensintervaller og Hypotesetest

Kapitel 3 Centraltendens og spredning

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Introduktion til overlevelsesanalyse

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Løsning eksamen d. 15. december 2008

1 Hb SS Hb Sβ Hb SC = , (s = )

Konfidensinterval for µ (σ kendt)

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Modelkontrol i Faktor Modeller

Beskrivende statistik

Oversigt. Course 02402/02323 Introducerende Statistik. Forelæsning 3: Kontinuerte fordelinger. Per Bruun Brockhoff

Forelæsning 6: Kapitel 7: Hypotesetest for gennemsnit (one-sample setup)

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

To samhørende variable

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Susanne Ditlevsen Institut for Matematiske Fag susanne

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Modul 7: Eksempler. 7.1 Beskrivende dataanalyse Diagrammer. Bent Jørgensen. Forskningsenheden for Statistik ST501: Science Statistik

Forelæsning 3: Kapitel 5: Kontinuerte fordelinger

Løsning til øvelsesopgaver dag 4 spg 5-9

Epidemiologi og Biostatistik. Mogens Erlandsen, Institut for Biostatistik Uge 1, tirsdag d. 5. februar 2002

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Sandsynlighedsregning

Seniorkursus i Biostatistik og Stata, Dag 2

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Værktøjshjælp for TI-Nspire CAS Struktur for appendiks:

OR stiger eksponentielt med forskellen i BMI. kompliceret model svær at forstå og analysere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

9. Chi-i-anden test, case-control data, logistisk regression.

OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model

Billedbehandling og mønstergenkendelse: Lidt elementær statistik (version 1)

Basal Statistik Kategoriske Data

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

for gymnasiet og hf 2016 Karsten Juul

Introduktion til Statistik. Forelæsning 3: Kontinuerte fordelinger. Peder Bacher

Program. 1. Repetition: konfidens-intervaller. 2. Hypotese test, type I og type II fejl, signifikansniveau, styrke, en- og to-sidede test.

Statistik vejledende læreplan og læringsmål, efteråret 2013 SmartLearning

Statistiske modeller

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Modul 6: Regression og kalibrering

Oversigt. Kursus Introduktion til Statistik. Forelæsning 4: Kapitel 5: Kontinuerte fordelinger. Per Bruun Brockhoff. Eksponential fordelingen

Løsning til eksaminen d. 14. december 2009

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Statistik noter - Efterår 2009 Keller - Statistics for management and economics

Produkt og marked - matematiske og statistiske metoder

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

a) Har måleresultaterne for de 2 laboranter samme varians? b) Tyder resultaterne på, at nogen af laboranterne måler med en systematisk fejl?

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

Tema. Dagens tema: Indfør centrale statistiske begreber.

K.U Metode Skriveøvelse 1 Af Marie Hammer og Steffen Tiedemann Christensen. Indholdsfortegnelse Opgave Opgave 2...

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

24. februar Analyse af overlevelsesdata (ventetidsdata) Ikke parametrisk statistiske test : Det statistiske modelbegreb Modelselektion

Modul 1: Beskrivende dataanalyse

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Statistik og Sandsynlighedsregning 2. IH kapitel 12. Overheads til forelæsninger, mandag 6. uge

1/41. 2/41 Landmålingens fejlteori - Lektion 1 - Kontinuerte stokastiske variable

Transkript:

Deskriptiv Statitik Judith L. Jacobsen, PhD. http://staff.pubhealth.ku.dk/~lts/basal09_1/ jlj@statcon.dk

Kursus formål Planlægning af studier selve indsamlingen af data, opstilling af statistiske hypoteser valg af tests og udførsel enkle analyser Faglig fortolkning af statistiske resultater Normalfordelingen & binomial fordelingen Frekvens og antals tabeller

Deskriptiv Statistik Typer af data Tabeller Grafik Summary statistik Forstå variation i observerede værdier Forskellige datatyper, skala og deres fordeling

Undersøg ALTID Data Plot ALLE observationerne STUDER dine plots Analyser dine data

Handler om Ud fra tal data: at kunne udtale sig om aspekter af virkeligheden (lægevidenskabelige/biologiske problemstillinger) (Ikke officiel statistik, statistikproduktion) Ud fra stikprøve: 1. Deskriptiv statistik: beskrive variation i population 2. Statistisk inferens (cf. infer ) drage konklusioner om ukendte størrelser, parametre, knyttet til populationen.

Hvad er Statistik Generalisere (gøre inferens) omkring en population ved at studere et udsnit fra denne Udsnit Inferens Population

Eksempel Population Alle voksne med mistanke om CHD ud fra nogle observationer Forsøg Udsnit af 60 voksne med mistanke om CHD Afprøvning af en intervention Statistik går ud på at sige noget om, hvor tæt vores observationer er på de resultater vi ville have, hvis vi havde observeret alle voksne med CHD

Emner Nøgleord Datareduktion Datapræsentation Statistiske modeller Værktøj Matematik Sandsynlighedsregning Grafik og sund fornuft!

Data typer I Kvalitativ Kvantitativ Binære Kategorisk Subjektiv Numerisk, målbar Objektiv Enten Eller Død levende Præcision 0 1 1 2 3

Data typer II Kvalitative Beskrivelse Subjektivt Objektivt Kvantitative Målinger Kontinuerte Diskrete Nominal Benævnte kategorier Ordinal Ordnede kategorier Interval Specifik afstand Ratio Samme reference

Interval & Ratio Interval skala Specifik distance Temperatur Arbitrær reference, Celcius og Farenheit, man kan ikke sige at 20 er dobbelt så varmt som 10 Ratio skala Samme reference Alder Ratio har samme reference 50 år er dobbelt så gammel som 25 år

Kategoriske Data To kategorier (dikotom/binær): Mand/kvinde Gravid/ikke gravid Gift/ugift Ryger/ikke ryger Flere end to: Nominal: Gift / ugift / fraskilt / enke(mand) Ordinal: minimal / moderat / alvorlig / uudholdelig smerte

Kontinuerte Data Måling på en sammenhængende skala I praksis afrundede tal Variable der antager mange værdier Ofte noget med normalfordelingen Eksempler Højde Vægt Serum-kolesterol Blodtryk

Diskrete Numeriske Data Tælletal Antal børn i en familie Antal metastaser/celler/bakteriekolonier Flydende grænser mellem diskrete numeriske og ordinale kategoriske data. OBS: Ofte meningsløst at behandle ordinale data som om de var numeriske. Gennemsnitlig socialklasse eller cancerstadium??

Censurerede data Typisk overlevelsesdata For nogen data vides kun om de er større end en vis værdi. For andre kendes værdien. Patienten var i live ved sidste follow-up / pr. 1.jan. 1997 NB: der er også trunkerede data hvor man slet ikke har data hvis de er mindre/større end en vis værdi: Tid til diagnose blandt patienter med symptomstart i 1995, fx.

Beaufort Vindskala Beaufort m/s Knob km/t Betegnelse Observationer på land Observationer på vand 12 >32 >63 118 - Orkan Voldsomme ødelæggelser Luften fyldt med skum, der forringer sigten væsentligt 11 29-32 56-63 103-117 Stærk storm Talrige ødelæggelser Umådeligt høje bølger - havet dækket af hvide skumflager - sigten forringet 10 25-28 48-55 89-102 Storm Træer rives op med rode - betydelige skader på huse Meget høje bølger - næsten hvid overflade - skumsprøjt påvirker udsigten 9 21-24 41-47 75-88 Stormende kuling Store grene knækkes - tagsten blæser ned Høje bølger, hvor toppen vælter over - skumsprøjt kan påvirke sigten 8 17-20 34-40 62-74 Hård kuling Kviste og grene brækkes af - besværligt at gå mod vinden Ret høje, lange bølger - bølgekammen brydes til skumsprøjt Vel defineret Ordinal Elastisk skala Admiral Francis Beaufort

Oversigt over Teknikker Respons Kovariater Dikotome Kategoriske Kontinuerte Kategoriske og Kontinuerte Dikotome 2 x 2-tabeller 2 χ test Logistisk regression Kategoriske Kontingens tabeller / 2 χ test Gen. Logistisk regression Ordinale Vanskeligt, e.g. proportional odds models Kontinuerte Mann Whitney Kruskal - Wallis Robust multipel Wilcon sign rank - Friedman regression Normal T-test Varians Analyse Kovarians analyse Fordeling Parret / uparret En- / to-sidet Multipel regression Censorede data Korrelerede Normalt ford. Log-rank test Varians komponent Modeller Cox regression Modeller for gentagne målinger

Overblik Interval & ratio data indeholder mere information end ordinal data, som indeholder mere information end nominal data Man kan altid gå fra kontinuert diskret ordinal nominal Men aldrig den anden vej!

Beskrivelse af Data Nominal Frekvenser Tabellering Tærte diagram Kontinuerte Middel, median, Sd, fraktiler Scatter plot Ordinal Frekvenser Stolpe diagram Diskret Median, min, max Stolpe diagram

Beskrivelse Kategoriske Data Stolpediagrammer (barplots)

Tabeller Absolutte hyppigheder/frekvenser (antal) Kejsersnit og skostørrelse: Section Yes No Total <4 4 4½ 5 5½ 6+ 5 7 6 7 8 10 17 28 36 41 46 140 22 35 42 48 54 150 Total 43 308 351

Tabeller - i procent Kejsersnit og skostørrelse: Relative frekvenser (i %) Section Yes No Total <4 4 4½ 5 5½ 6+ 22.7 20.0 14.3 14.6 14.8 6.7 77.3 80.0 85.7 85.4 85.2 93.3 100 100 100 100 100 100 Total 12.3 87.7 100 Fordel: direkte sammenlignelighed Ulempe: mister de faktiske antal

Procenter den anden vej Kejsersnit og skostørrelse: Relative frekvenser (i %) Section Yes No Total <4 4 4½ 5 5½ 6+ 11.6 16.3 14.0 16.3 18.6 23.3 5.5 9.1 11.7 13.3 14.9 45.5 6.3 10.0 12.0 13.7 15.4 42.7 Total 100 100 100 Dette siger noget om fodstørrelse og ikke så meget om hyppighed af kejsersnit

Mere om Frekvenser Trafikofre i the London Borough of Harrow 1985 (65 med ukendt alder udeladt) Alder Frekv. Fr./ år 0-4 5-9 10-15 16 17 18-19 20-24 25-59 60+ 28 46 58 20 31 64 149 316 103 5.4 9.2 11.6 20.0 31.0 32.0 29.8 9.0 5.2 Total 815 Remark: Her kommer grupperne fra kontinuerte observationer Så et bar chart af frekvenserne er mere som et histogram...

Ukorrekt: (uens interval bredde) højden af stolper = absolutte frekvenser

Korrekt: (uens interval bredde) højden af stolper = antal ofre pr år (alder)

Grupperinger 1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0 Histogrammer Overvej om data bør deles op A B 1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0 1,0-1,5 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0

Grupperinger II 400 400 Measure 300 Value 300 200 200 100 AGE(1)AGE(2)AGE(3)AGE(4) Trial GRUPPE$ W R 100 R W GRUPPE$ AGE(4) AGE(3) AGE(2) AGE(1)

Eksempel Kvantitative Data PI max

Beskrivelse Kvantitative Variable Graphs: Histogram Probability plot QQ plot Box plot Graph/Histogram pimax i Analysis

Histogram tæthed

Sandsynligheder Tæthed Hvad betyder sandsynligheder, f.eks. for PImax? Her: hver enkelt værdi sandsynlighed = 0 for at indtræffe (fordi der i princippet er mange mulige udfald) Sandsynlighedstætheder, sandsynligheden for et interval = arealet under kurven

Diagrammer Histogram Frekvens fordeling Box plot Scatter plot

Normalfordelingstætheder µ middel forventet σ standard afvigelse

Histogram med overlejret Normalfordeling Graph/Histogram pimax i Analysis klik Fit og afkryds Normal Parameters

Gennemsnit Et mål for centrum i en fordeling Kan opfattes som ligevægtspunkt påvirkes af yderlige observationer Eksempel: Indlæggelsestider: 5,5,5,7,10,16,106 dage Gennemsnit: 154/7=22 dage Repræsentativt for hvad?? Hvis omkostninger er proportionale med indlæggelsestiden, er det måske gennemsnittet, der er interessant

Skal vi skræmme modstanderne Ved at give vores middelhøjde? Eller berolige dem ved at give median højden?

Estimatorer for Beliggenhed Middel Den aritmetiske middelværdi for et set observationer. Misvisende når baseret på skewed data. Median Den værdi, i et set ordnede observationer, som deler data i to ens dele. God til skewed data og relativ robust for outliere. Modus Den oftest observerede værdi i et set observationer ( typisk værdi ). Bruges bla. når ovennævnte ikke slår til

Estimatorer for Spredning Range Forskellen mellem max. og min. i et set observationer. Ikke anbefalet til at måle spredning pga. sensitiviteten til outliers. Dens størrelse øger med stikprøve størrelsen. Varians Gennemsnittet af observationernes kvadrerede afvigelser fra middelværdien. Standard afvigelse SD = kvadratroden af variansen. Standard fejl SD for stikprøve fordelingen af en statistik. SE = s / n ½

Deskriptive Mål Udregning af basale mål Middel: x = x n Varians: s 2 ( ) = x x ( n 1) 2 Std.afv.: s = s 2 Medianen (50%) er den midterste værdi når data er sorteret efter størrelse

Hvornår bruges hvad? Beliggenhed Formen på data Skewed: Median Symmetrisk: Middel Type data Nominale data: Modus Ordinale data: Median Kontinuerte Data: Middel Skala Formen på data Gir ingen mening at beregne SD for skewed data Brug kvartiler og fraktiler i stedet

Fraktiler og kvartiler Et mål for variabilitet 2000 Viser skævheder 50% = medianen 25% og 75% STYRKE 1500 1000 Fraktiler Frekvens fordeling 500 S T METODE$

Summary Statistik i SAS Statistics/Descriptive/Summary Statistics pimax i Analysis i Statistics afkrydses: Mean, Standard Deviation, Minimum, Maximum, Median & Number of Observations The MEANS Procedure Analysis Variable : pimax Mean Std Dev Minimum Maximum Median N --------------------------------------------------------------------------------------------------- 92.60 24.9215436 40.00 150.00 95.00 25 ---------------------------------------------------------------------------------------------------

Normalfordeling God? Hvordan ses, om normalfordelingen er en god beskrivelse? Computersimulation af 150 observationer fra samme normalfordeling, gentages 9 gange. Nogle ser ikke ret normalfordelte ud! Ganske store afvigelser kan tolereres (i visse sammenhænge) specielt når de ikke er for systematiske

Tilfældigt udtrukket 150 obs fra en normalfordeling middel = 115 og spredning = 10

Varians er vigtig Samme forskel i middelværdi, men ikke lige vigtig

Test af Normalitet i SAS Analyst Statistics/ Descriptive/ Distributions klik: Fit/Normal Parameters blandt meget andet output fås: The UNIVARIATE Procedure Fitted Distribution for pimax Parameters for Normal Distribution Parameter Symbol Estimate Mean Mu 92.6 Std Dev Sigma 24.92154 Goodness-of-Fit Tests for Normal Distribution Test --- Statistic --- --- p Value --- Kolmogorov-Smirnov D 0.12002682 Pr > D >0.150 Cramer-von Mises W-Sq 0.05671455 Pr > W-Sq >0.250 Anderson-Darling A-Sq 0.35232007 Pr > A-Sq >0.250

Quantiles Normal Fordeling ------- Quantile ------ Percent Observed Estimated 1.0 40.0000 34.6238 5.0 45.0000 51.6077 10.0 70.0000 60.6618 25.0 75.0000 75.7907 50.0 95.0000 92.6000 75.0 110.0000 109.4093 90.0 125.0000 124.5382 95.0 130.0000 133.5923 99.0 150.0000 150.5762

Fraktiler (PImax-eksempel) Data i rækkefølge: I pimax 1 40 2 45 3 70 4 75 5 75 6 75 7 75 8 80 9 80 108 0 I 11 12 13 14 15 16 17 18 19 20 pimax 85 95 95 95 95 100 100 100 110 110 I 21 22 23 24 25 pimax 110 120 125 130 150 Median: Midterste observation, 50%-fraktil: 95 Kvartiler (25% og 75% fraktiler): 75, 110.

Fraktildiagram Graphs/Probability Plot: Hvis data er normalfordelt, skal fraktildiagrammet ligne en ret linie

Graph/Box Plot i Display skiftes til Schematic

Hvis Fordelingen er Skæv eller afviger tydeligt fra N- Formalfordelingen: gennemsnit og spredning bør ikke angives I stedet: fraktiler median Inter-quartile range, IQR intervallet mellem 25% og 75% fraktil range Om muligt bør fordelingen illustreres grafisk! Alternativ: Transformer til normalitet For små materialer angives median range

Hvorfor Normalfordelingen? Ofte en rimelig approksimation Evt. efter transformation med logaritme, kvadratrod, invers,... Central grænseværdisætning: Summen af et stort antal variable ligner efterhånden en Normalfordeling (sum af N-fordelinger er igen en N-fordeling). Rimelig let at arbejde med, fordi standard programmel er udviklet for Normalfordelingen

Højder

Diastolisk Blodtryk

Central Grænseværdisætning standard error of the mean = SD SEM = = n 1 n SD

Normal Fordelingen Hvis variablen Y er normalfordelt med middelværdi µ og varians σ 2, skrives N( µ, σ Standardiseret /normeret variabel: Ζ Y ~ = Y µ s ~ t 2 ) df 3σ 2σ σ µ +σ +2σ +3σ 68,3% 95,4% 99,7% t df t-fordeling med df frihedsgrader (afh af ant. obs.)

N-Ford. Middel & Varians σ = 1 σ = 2 µ = 10 µ = 24

Eksempel Fra et stort materiale har vi fundet gennemsnitlig Se-albumin på 34.46 (g/l) og empirisk varians på 5.842 (g/l)2 Hvis vi antager Se-albumin er normalfordelt med middelværdi 34.46 g/l og spredning 5.84 g/l, hvad er sandsynligheden for at en tilfældigt udvalgt person har en værdi over 42.0 g/l? Hvor mange standardafvigelser er 42.0 fra 34.46? Tabelopslag i standardnormalfordeling eller computer: P = 0.0985 10% 42 34.46 5.84 = 1.29

Normalområder der omslutter 95% af normale observationer: nedre grænse: 2 ½ % fraktil øvre grænse: 97 ½ % fraktil Hvis fordelingen kan beskrives ved en normalfordeling N(µ,σ 2 ) kan disse fraktiler direkte udtrykkes som 2 ½ % fraktil: µ 1.96 y 1.96 s 97 ½ % fraktil: µ + 1.96 y + 1.96 s og normalområdet udregnes derfor som y ± 2 s = ( y 2 s, y + 2 s) z 0.025 = z0.975 1.96 hvis standard N-fordeling

Skæve fordelinger Gennemsnit 0.80g/l Standard deviation s = SD - 0.47g/l ( y + 2s, y + 2s) = ( 0.14g / l,1.74g / l)

Transformation På log10 skala: middel SD - 0.158 0.238 0.158 ± 2 0.238 = ( 0.63, 0.32) Antilogs: 10 10 10 0.32 0.158 0.63 = 0.695 = 0.23 = 2.08 Bedre grænser: (0.23, 2.08)