24. januar Epidemiologi og biostatistik. Forelæsning 1 Uge 1, tirsdag. Niels Trolle Andersen, Afdelingen for Biostatistik.

Relaterede dokumenter
29. januar Epidemiologi og biostatistik Forelæsning 2 Uge 1, torsdag 2. februar 2006 Michael Væth, Afdeling for Biostatistik.

Sandsynlighedsfordelinger for kontinuerte data på interval/ratioskala

30. august Epidemiologi og biostatistik. Forelæsning 3 Uge 2, torsdag d. 8. september 2005 Michael Væth, Afdeling for Biostatistik.

13. februar Resumé: En statistisk analyse resulterer ofte i : Et estimat ˆ θ med en tilhørende se( ˆ θ )

hvor i er observationsnummeret, som løber fra 1 til stikprøvestørrelsen n, X i

Anvendt Statistik Lektion 3. Punkt- og intervalestimater Konfidensintervaller Valg af stikprøvestørrelse

Definition: Normalfordelingen. siges at være normalfordelt med middelværdi µ og varians σ 2, hvor µ og σ er reelle tal og σ > 0.

Estimation ved momentmetoden. Estimation af middelværdiparameter

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

Statistik 8. gang 1 KONFIDENSINTERVALLER. Konfidensintervaller: kapitel 11. Valg og test af fordelingsfunktion

Praktisk info. Statistisk analyse af en enkelt stikprøve: kendt eller ukendt varians Sandsynlighedsregning og Statistik (SaSt) I tirsdags.

Dagens program. Estimation: Kapitel Eksempler på middelrette og/eller konsistente estimator (de sidste fra sidste forelæsning)

Eksempel: PEFR. Epidemiologi og biostatistik. Uge 1, tirsdag. Erik Parner, Institut for Biostatistik.

Løsninger til kapitel 7

Statistik Lektion 7. Hypotesetest og kritiske værdier Type I og Type II fejl Styrken af en test Sammenligning af to populationer

Generelle lineære modeller

Test i to populationer. Hypotesetest for parrede observationer Test for ens varians Gensyn med flyskræk!

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab

Program. Populationer og stikprøver. Praktiske oplysninger. Eksempel vaccine mod miltbrand hos får. Praktiske oplysninger

Sætning: Middelværdi og varians for linearkombinationer. Lad X 1,X 2,...,X n være stokastiske variable. Da gælder. Var ( a 0 + a 1 X a n X n

Stikprøvefordelinger og konfidensintervaller

Program. Ensidet variansanalyse Normalfordelingen. Antibiotika og nedbrydning af organisk materiale. Tegninger

Motivation. En tegning

Vejledende besvarelser til opgaver i kapitel 15

Statistik Lektion 8. Parrede test Test for forskel i andele Test for ens varians Gensyn med flyskræk!

Morten Frydenberg version dato:

Meningsmålinger KLADDE. Thomas Heide-Jørgensen, Rosborg Gymnasium & HF, 2017

Økonometri 1. Inferens i den lineære regressionsmodel 29. september Økonometri 1: F7 1

9. Binomialfordelingen

Maja Tarp AARHUS UNIVERSITET

antal gange krone sker i første n kast = n

Sammenligning af to grupper

Tests for forskel i central tendens for data på ordinal- og intervalskala. Typer af statistiske test:

Simpel Lineær Regression. Opsplitning af variationen Determinations koefficient Variansanalyse F-test Model-kontrol

Oversigt. Kursus 02402/02323 Introducerende Statistik. Forelæsning 12: Inferens for andele. Klaus K. Andersen og Per Bruun Brockhoff

Økonometri 1. Definition og motivation. Definition og motivation. Dagens program. Den multiple regressionsmodel 15. februar 2006

Diskrete og kontinuerte stokastiske variable

Statistiske test. Efteråret 2010 Jens Friis, AAU. Hjemmeside :

Spørgsmål 3 (5 %) Bestem sandsynligheden for at et tilfældigt valgt vindue har en fejl ved listerne, når man ved at der er fejl i glasset.

Mikroøkonomi, matematik og statistik Eksamenshjemmeopgave december 2007

Teoretisk Statistik, 9. februar Beskrivende statistik

Hypotesetest. Hypotesetest og kritiske værdier Type 1 og Type 2 fejl Styrken af en test Sammenligning af to populationer

Program. Middelværdi af Y = t(x ) Transformationssætningen

Konfidens intervaller

Kvantitative metoder 2

Asymptotisk optimalitet af MLE

(VIDENSKABSTEORI) STATISTIK (EKSPERIMENTELT ARBEJDE)

Velkommen. Program. Statistik og Sandsynlighedsregning 2 Sandsynlighedstætheder og kontinuerte fordelinger på R. Praktiske ting og sager

Indholdsfortegnelse Generelt Diskrete stokastiske variable: Kontinuerte stokastiske variable: Regneregler for stokastiske variable

Den flerdimensionale normalfordeling

Program. Statistisk inferens En enkelt stikprøve og lineær regression Stat. modeller, estimation og konfidensintervaller. Fordeling af gennemsnit

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Opsamling. Lidt om det hele..!

Undersøgelse af numeriske modeller

STATISTIKNOTER Simple normalfordelingsmodeller

Uge 40 I Teoretisk Statistik, 30. september 2003

STATISTISKE GRUNDBEGREBER

Mikro-kursus i statistik 1. del Mikrokursus i biostatistik 1

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

Modul 14: Goodness-of-fit test og krydstabelanalyse

Estimation og test i normalfordelingen

STATISTISKE GRUNDBEGREBER

Asymptotisk estimationsteori

STATISTIK x-klasserne Gammel Hellerup Gymnasium

Begreber og definitioner

Vejledende opgavebesvarelser

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

Hovedpointer fra SaSt

vejer (med fortegn). Det vil vi illustrere visuelt og geometrisk for (2 2)-matricer og (3 3)-matricer i enote 6.

Bestemmelse af vandføring i Østerå

Kapitel 10 KALIBRERING AF STRØMNINGSMODEL

Lys og gitterligningen

Oversigt. 1 Fordelingen for gennemsnittet t-fordelingen. 3 Den statistiske sprogbrug og formelle ramme

Normalfordelingen og Stikprøvefordelinger

Projekt 1.3 Brydningsloven

STATISTISKE GRUNDBEGREBER

STATISTISKE GRUNDBEGREBER

Løsningsforslag til skriftlig eksamen i Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Renteformlen. Erik Vestergaard

Introduktion til Statistik

Du skal redegøre for løsning af ligninger og herunder behandle omformningsreglerne for ligninger.

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

Formelsamling til statistik-del af metodekursus, 4. semester, lægevidenskab Version 3 (26/9-2011)

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Introduktion

Uge 37 opgaver. Opgave 1. Svar : Starter med at definere sup (M) og inf (M) :

Introduktion til uligheder

Projekt 4.8 De reelle tal og 1. hovedsætning om kontinuerte funktioner

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

Claus Munk. kap. 1-3

Dagens forelæsning. Claus Munk. kap Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro. Obligationer Grundlæggende Intro

Projekt 9.10 St. Petersborg paradokset

Statistik Lektion 8. Test for ens varians

Repetition. Forårets højdepunkter

Sandsynlighedsteori 1.2 og 2 Uge 5.

Matematisk Modellering 1 Hjælpeark

x-klasserne Gammel Hellerup Gymnasium

NOTAT Det daglige arbejde med blisterpakninger

Sandsynlighedsregning 9. forelæsning Bo Friis Nielsen

TEKST NR TEKSTER fra IMFUFA

Transkript:

Epidemiologi og biostatistik. Forelæsig Uge, tirsdag. Niels Trolle Aderse, Afdelige for Biostatistik. Geerelt om kurset: - Formål - Forelæsiger - Øvelser - Forelæsigsoter - Bøger - EpiBasic: http://www.biostat.au.dk/teachig/software I dag: Geerelt om statistik Dataaalyse - Deskriptiv statistik - Statistisk iferes Deskriptiv statistik (kotiuerte data) - Geemsit og spredig - Parametre - Estimater - Usikkerhed på estimater Normalfordelige ere om Deskriptiv statistik (kotiuerte data) 2 Eksempel: Sammeligig af to grupper med kotiuerte data Udgagspukt: Vi øsker at sammelige lugefuktio for mæd og kvider. Idsamlig af data (stikprøve): -måliger for - 4 tilfældigt udvalgte kvider - 6 tilfældigt udvalgte mæd Data: - : 522, 383, 428, 442, 500, 548, 540, 475, 540, 475, 50, 470, 485, 480 - : 580, 560, 460, 600, 600, 55, 550, 640, 550, 620, 50, 547, 540, 570, 430, 575 3 Hvorfor er der brug for statistik? Data/observatioer er uderlagt tilfældig variatio. Behov for at kvatificere hvor meget skyldes tilfældig og hvor meget skyldes systematisk variatio. Behov for at resumere mage ekelte observatioer i ogle få tal. vatificere at koklusioer baseret på meget data er mere præcise ed koklusioer baseret på få data. 4 Formålet med de statistiske aalyse er ofte at estimere e ukedt kostat (parameter), som fx.: iddel iddel for e 30 årig kvide Forskel i (middel) mellem mæd og kvider De relative risiko for SIDS forbudet med maveleje Bemærk: disse parametre omhadler ikke ku vores stikprøve, me hele de populatio vi betragter. Det ka være e større opgave, at beslutte sig til hvilke størrelse ma øsker at estimere: Hvorda beskriver ma sammehæge mellem kost og kræft? 5 Hvorfor stikprøver (samples)? hurtigere billigere umuligt at udersøge alle mere præcist (idsamlig af data/ homogeitet) statistiske metoder ka bruges til at vurdere usikkerhed Dataaalyse ka opdeles i deskriptiv statistik statistisk iferes 6

Dataaalyse: deskriptiv statistik Dataaalyse: statistisk iferes Beskrivelse af data fra stikprøve: Data summary : - geemsit / media / percetiler - hyppigheder / relativ risiko / oddsratio - varias / spredig - korrelatioer Tegiger/figurer: Vigtig! Fra stikprøve til populatio: odel / Atagelser agåede variatioe i data. Estimatio af relevate parametre i populatioe (f.eks. middelværdi eller forskel mellem to grupper) ud fra stikprøve med tilhørede sikkerhedsitervaller. Opstillig af statistiske hypoteser, statistiske test Statistiske koklusioer Faglige koklusioer 7 8 (l/mi) Eksempel - deskriptiv statistik (=6) Figure er god, me ka ma beskrive disse data med få tal? 9 (l/mi) Geemsit = x = x = ( x + x + + x ) / i i = (=6) 2 (Summe af tallee divideret med atallet) Geemsittet for hver grupper er markeret med : 485.6 l/mi : 552.9 l/mi Geemsittet beskriver midte / det geerelle iveau / 0 de cetrale tedes af data. (l/mi) (=6) sd = ( xi x) i= : sd=46.6 l/mi : sd=55.0 l/mi Jo mere data varierer jo større sd. På figure er vist geemsit +/- sd. Som et mål for variatioe bruges ofte spredige (stadard afvigelse / stadard deviatio / sd) 2 (l/mi) 350 400 450 500 550 600 6% 68% 6% 2.5% 95% 2.5% Hvad siger spredige? Hvis data er fordelt rimeligt symmetrisk omkrig geemsittet (ormalfordelt), da vil itervallet geemsit ± sd dække ca. 68% af data, og geemsit ±.96 sd dække ca. 95% af (kommede) data. Vi veder tilbage disse itervaller (prædiktiositervaller) seere. 2 2

Parametre: Udfra vores data vil gere komme med et gæt (et estimat) på de sade parametre µ = middelværdi = geemsittet for hele populatioe σ = spredig = sd udreget for hele populatioe Hvis data er Normalfordelte er fordelige beskrevet ved de to parametre: middelværdi og spredig. Estimatio: : ˆ µ = geemsit = 485.6 l/mi ˆ σ = sd = 46.6 l/mi : ˆ µ = geemsit = 552.9 l/mi ˆ σ = sd = 55. 0 l/mi ^: Dette er et estimat, dvs. et gæt bereget på basis af data. 3 Hvor godt passer de observerede geemsit med de sade værdier? Hvis vi havde taget 6 adre mæd og målt deres ville vi ikke få et geemsit på 552.9 l/mi Udfra spredige i populatioe (sd) ka usikkerhede ( spredige ) på geemsittet bereges. Geerelt kaldes spredige på estimater se (Stadard Error) eller see (Stadard Error of the Estimate) E ade måde ma ka beskrive usikkerhede på estimatet er ved at berege et (sikkerheds-) iterval omkrig estimatet. Sikkerhedsitervallet er de parameter-værdier der er foreelige (i e eller ade forstad) med data. (mere æste gag) 4 Usikkerhed på estimater Usikkerhede på et geemsit, baseret på (uafhægige) observatioer er: sd se( ˆ µ ) = sem = sem: stadard error of the mea : = 4, ˆ µ = 485.6 l/mi, ˆ σ = 46. 6 l/mi 46.6 se ( ˆ µ ) = = 2.4 4 De estimerede differes mellem mæd og kvider: ˆ µ ˆ µ = 552.9-485.6 = 67. 4 l/mi Usikkerhede på differese i geemsittee (to uafhægige grupper): 2 2 se( ˆ µ ˆ ) se( ˆ ) se( ˆ µ = µ + µ ) 2 2 = 2.4 + 3.7 = 8.5 l/mi 5 Normalfordelige E vigtig fordelig af to forskellige grude: age slags data er æste ormalfordelte ormalfordelte (muligvis efter e trasformatio). age estimater er ormalfordelte, æste ormalfordelte, hvis de er baseret på mage observatioer (muligvis efter e trasformatio). Igetig er helt ormalfordelt, me mage gage er det e rigtig god approksimatio! Relative størrelser som Odds Ratio, Relative Risiko og Rate Ratio skal aalyseres på log-skala (l). 6 400 300 200 00 0 400 800 2200 2600 3000 3400 3800 4200 4600 5000 barets vægt Fødselsvægt for 203 bør 5400 0.0 0.2 0.4 0.6 P ( 3.5kg < fødselsvægt < 4.0kg ) Normalfordelig: 2 3 4 5 6 e god approksimatio 7 8 Fødselsvægt i kg 3

0.0 0.05 0.0 0.5 Tæthedsfuktio: Sadsylighed for e observatio i et iterval = areal uder kurve. Areal uder kurve=. Høj værdi for e give x-værdi age observatioer tæt ved dee værdi. Lille værdi for e give x-værdi Få observatioer tæt ved dee værdi. 0 5 0 5 20 25 30 9 Forskellige ormalfordeliger: 0.0 0. 0.2 0.3 0.4 iddelværdi=0 Spredig= iddelværdi=2 Spredig= iddelværdi=0 Spredig=2-7 -6-5 -4-3 -2-0 2 3 4 5 6 7 Stadard ormalfordelige 20 µ = σ = iddelværdi Spredig 68.3% µ = σ = iddelværdi Spredig 95.45% 5.9% 5.9% 2.28% 2.28% µ σ µ µ + σ µ 2 σ µ µ + 2 σ irkwood og Stere side 48 2 22 µ = iddelværdi σ = Spredig µ.96 σ µ 95.00% 2.50% 2.50% irkwood og Stere side 48 µ +.96 σ 23 Tabel over stadardormalfordelige irkwood & Stere side 470 z P ( Z > z) z P ( Z > z) z P ( Z > z) -3.0 99.9% -.0 84.%.0 5.9% -2.9 99.8% -0.9 8.6%. 3.6% -2.8 99.7% -0.8 78.8%.2.5% -2.7 99.7% -0.7 75.8%.3 9.7% -2.6 99.5% -0.6 72.6%.4 8.% -2.5 99.4% -0.5 69.%.5 6.7% -2.4 99.2% -0.4 65.5%.6 5.5% -2.3 98.9% -0.3 6.8%.7 4.5% -2.2 98.6% -0.2 57.9%.8 3.6% -2. 98.2% -0. 54.0%.9 2.9% -2.0 97.7% 0.0 50.0% 2.0 2.3% -.9 97.% 0. 46.0% 2..8% -.8 96.4% 0.2 42.% 2.2.4% -.7 95.5% 0.3 38.2% 2.3.% -.6 94.5% 0.4 34.5% 2.4 0.8% -.5 93.3% 0.5 30.9% 2.5 0.6% -.4 9.9% 0.6 27.4% 2.6 0.5% -.3 90.3% 0.7 24.2% 2.7 0.3% -.2 88.5% 0.8 2.2% 2.8 0.3% -. 86.4% 0.9 8.4% 2.9 0.2% -.0 84.%.0 5.9% 3.0 24 0.% 4

Sadsylighed for mere ed.96 sprediger fra middelværdi: 5% i e ormalfordelig! ud af 20 observatioer: ere ed.96 sd fra middelværdi stadard deviatio (spredig) 95% af observatioere fra e ormalfordelig : Tilbage til fødselsvægtee: 400 300 200 00 Godt beskrevet ved e ormalfordelig! = 203 x = 3558g sd = 446g middelværdi.96 sd observatio middelværd i+.96 sd 0 400 800 2200 2600 3000 3400 3800 4200 4600 5000 5400 Et 95% prædiktiositerval for fødselsvægte: 3558g ±.96 446g = ( 2683; 4432) g 95% prædiktiositerval for e observatio 25 oklusio: 95% af bør fra e tilsvarede populatio vil have e fødselsvægt mellem 2.7 og 4.4 kg. 26 500 250 000 750 500 250 0-250 -500 Eksempel: Blødiger (ml) 6 % 68 % 2½ % 95 % 6 % 2½ % Hvis vi tror blødigere er (æste) ormalfordelt skal 2½% bløde uder -300ml Geemsit og sd giver ofte ku meig hvis data er (æste) ormalfordelt. Data fra blødiger (opgjort i ml) fra operatioer giver geemsit = 500ml og sd = 400ml dvs (00,900) skal dække ca. 68% og (-300,300) skal dække ca. 95% 27 Numeriske metoder til beskrivelse af kotiuerte data: Hvor ligger typiske data (det geerelle iveau): Geemsit (aritmetrisk): data skal være (æste) ormalfordelt Geemsit (geometrisk): logaritme-trasformerede (se def. i boge side 22) data skal være (æste) ormalfordelt edia (50 percetil): Dataaalyse: deskriptiv statistik skæve fordeliger 28 Numeriske metoder til beskrivelse af kotiuerte data: Hvor meget afviger de fra hiade (variatio)? Spredig/varias: data skal være (æste) ormalfordelt Variatioskoefficiet logaritme-trasformerede (= σ / µ) data skal være (æste) ormalfordelt Percetiler: 5 percetile er der hvor der er 5% af data der er midre (og 95% større) 25 percetile er lig. kvartil 50 percetile er lig 2. kvartil der er lig mediae 95 percetile er der hvor der er 95% af data der er midre (og 5% større) Percetiler / kvartiler: Rage/ max / mi skæve fordeliger 29 og geerelt X percetile er der hvor der er X% af data der er midre (og 00-X% større) 30 5

vartiler: Præsetatio af (få) umeriske data: scatterplot 0. kvartil er lig det midste tal. kvartil = 25 percetile 2. kvartil = 50 percetile = mediae 3. kvartil = 75 percetile 4. kvartil er lig det største tal (l/mi) (=6) 3 32 Præsetatio af (mage) umeriske data: boxplot * det varierer lidt hvorda ma defierer de øvre maximum* 3. kvartil media. kvartil miimum* Præsetatio af umeriske data: histogram 350 400 450 500 550 to observatioer mellem 400-450 é observatio mellem 350-400 33 34 og edre græse. Atal 0 2 3 4 5 6 Histogrammet beskriver stikprøves fordelig. Vi vil seere bruge histogrammet til grafisk at udersøge om data er ormalfordelt. Typer af data Vi skal i dette kursus kigge på statistiske aalyser af kotiuerte [ ] to kategorier (dichotom) [ Syg/rask ] flere kategorier [ Hvilket amt ma bor ] vetetidsdata [ Tid til død eller tilbagefald af sygdom ] De statistiske aalyse afhæger af type af data og hvorda data er idsamlet. Vi vil også kigge på statistiske aalyser som ka besvare spørgsmål som: a forskelle i mæd og kvider s værdi forklares ved at mæd er højre ed kvider? 35 Resumé Dataaalyse Deskriptiv statistik geemsit og spredig (sd) i e stikprøve Percetiler og vartiler Normalfordelige Beregig af sadsyligheder i ormalfordelige Estimater med tilhørede usikkerhed (se) Prediktiositerval Fortolkig Beregig ud fra geemsit og sd (ormalfordelte data) 36 6