Basal Statistik Kategoriske Data
|
|
|
- Simon Kjærgaard
- 7 år siden
- Visninger:
Transkript
1 Basal Statistik Kategoriske Data 8 oktober 2013 E 2013 Basal Statistik - Kategoriske data
2 Michael Gamborg Institut for sygdomsforebyggelse Københavns Universitetshospital Lene Theil Skovgaard overheads/kategoriske_data.pdf E 2013 Basal Statistik - Kategoriske data
3 Kategoriske variable Binær, dikotom To kategorier Ja/Nej Død/Levende Nominal Flere kategorier Selvstændig / Faglært / Ufaglært / Funktionær Blå / Brune / Grå / Grønne Ordinale Ingen < Let < Moderat < Svær 0-10 < < < 51+ E 2013 Basal Statistik - Kategoriske data 3
4 Kategoriske variable E 2013 Basal Statistik - Kategoriske data 4
5 Kategoriske variable Vi ønsker model for xi E 2013 Basal Statistik - Kategoriske data 5
6 Binomialfordelingen Sandsynligheden for at en tilfældigt valgt person responderer: P(respons)=p P(intet respons)=1-p Personerne er ikke ens Variationen kommer fra den tilfældige udvælgelse af personerne p er ukendt en parameter som karakteriserer populationen Vi observerer: x respondere, n-x respondere ikke E 2013 Basal Statistik - Kategoriske data 6
7 Binomialfordelingen Summen af uafhængige 0-1 variable med samme sandsandlighed p x = antallet af 1-taller = xi Er binomial fordelt med antalsparameter n og sandsynlighedsparameter p P( X n x n! x!( n ( ) n x x ( ) n x 1 p = p p x = x) = p 1 x)! E 2013 Basal Statistik - Kategoriske data 7
8 Binomialfordelingen Middelværdi: E(X)=np Spredning: std( X ) = np(1 p) E 2013 Basal Statistik - Kategoriske data 8
9 Binomialfordeling E 2011 Basal Statistik - Kategoriske data 9
10 Estimation i binomialfordelingen Parameter: p = sandsynligheden for succes Observation: x ud af n er succeser Estimat: x p ˆ = n p( 1 p) Spredning på estimatet: se( pˆ ) = n Aproksimativt 95% konfidensinterval for p: pˆ ± 1.96 pˆ ( 1 pˆ ) E 2013 Basal Statistik - Kategoriske data 10 n
11 Eksempel 215 kvinder fra almen praksis 39 har astmatisk sygdom i familien p = sandsynligheden for at en tilfældig kvinde har astma i familien (prævalensen) x 39 Estimat for prævalensen: p ˆ = = = n 215 ( 1 p) p se ( pˆ ) = = = n E 2013 Basal Statistik - Kategoriske data 11
12 Eksempel 95% konfidensinterval pˆ ( 1 pˆ ) pˆ ± 1.96 = 0.181± = n ( 0.130;0.233) Det vil sige: data er foreneligt med prævalenser i populationen i området 13% til 23% E 2013 Basal Statistik - Kategoriske data 12
13 Eksempel, eksakt CI Find p, så sandsynligheden for at få noget der er mere ekstremt end det observerede er præcis 2.5% E 2013 Basal Statistik - Kategoriske data 13
14 Eksakt CI Hvis vi observerer 5 succes ud af 20: Eksakt konfidensinterval: 5 p ˆ = = Aproximativt konfidensinterval 0.25 ± 1.96 = ( 0.06;0.44) E 2013 Basal Statistik - Kategoriske data 14
15 Eksakt CI, hvis x=0 0 p ˆ = = 0 n Den nedre grænse er nul Den øvre grænse: p vælges således at Altså P( X = 0 ) = ( ) n 1/ n 1 p = dvs : p = Eksempel: observeres 0 ud af 4, så er den øvre grænse 1/ = E 2013 Basal Statistik - Kategoriske data 15
16 Konfidensinterval for p Alternativ formel for konfidensinterval fås ved at beregne error factoren erf = exp 1.96 np 1 p ( ( )) Og derefter grænserne: ( 1 ) erf p + p Virker hvis x>0, hvis x=0 så bruges den eksakte formel p E 2013 Basal Statistik - Kategoriske data 16
17 Konfidensinterval for p Eksemplet fra før n=20 x=5 ( ) erf = exp 1.96 = Dvs nedre grænse bliver: Den øvre grænse bliver: 0.25 = = / 2.75 E 2013 Basal Statistik - Kategoriske data 17
18 Hypotese: p = p0 Vi betragter: Simpelt test x n Hvis hypotesen er sand så: p s e ( x n p ) s e ( x n) =.. = n Teststørrelse: x n p0 z = p 1 p p 0 0 ( ) n ( 1 p ) Hvis hypotesen er sand er z aprox. normeret normalfordelt E 2013 Basal Statistik - Kategoriske data 18 0
19 Eksempel, test I 39 ud af 215 familier forekom astma Er det foreneligt med en prævalens med 15%? Hypotese: p = z = = 1.25 Opslag i normalfordelingstabel giver: 2*0.109=0.219 E 2013 Basal Statistik - Kategoriske data 19
20 Kontinuitetskorrektion Testsandsynligheden approximeres i normalfordelingen ved at tage sandsynligheden fra x og ud Bedre at tage sandsynligheden fra x-½ (eller x+½) E 2013 Basal Statistik - Kategoriske data 20
21 Kontinuitetskorrektion Den korrigerede teststørrelse bliver: x n p0 1 z = 2n p 1 p 0 ( ) n I astma eksemplet bliver den korrigerede teststørrelse: z = = 1.19, p = E 2013 Basal Statistik - Kategoriske data 21
22 Binomialfordelingen Forudsætninger for at benytte binomialfordelingen Observationerne er uafhængige Dvs info om en patient indeholder ikke info om en anden patient Kan være et problem, hvis nogle af personerne er I familie Effekten af afhængighed n bliver overvurderet, dvs p bliver for lille E 2013 Basal Statistik - Kategoriske data 22
23 Binomialfordelingen Forudsætninger for at benytte binomialfordelingen Observationerne er repræsentative Personerne skal repræsentere den population man ønsker at udtale sig om Problem hvis udvælgelsen er associeret med udfaldet Effekten af manglende repræsentativt Afhænger af den konkrete situationen E 2013 Basal Statistik - Kategoriske data 23
24 Eksempel E 2011 Basal Statistik - Kategoriske data 24
25 Sammenligning af 2 sandsynligheder E 2013 Basal Statistik - Kategoriske data 25
26 Eksemplet E 2013 Basal Statistik - Kategoriske data 26
27 Eksemplet Forskellen mellem sandsynlighederne er andelen af patienter der har glæde af behandlingen: pˆ D pˆ = 67% 47% = 20% P ( 1 pˆ ) pˆ ( 1 pˆ ) pˆ..( ˆ ˆ ) D D P P s e pd pp = + = n n 95% CI : 20% ± % = (0%;40%) D P 0.11 E 2013 Basal Statistik - Kategoriske data 27
28 Eksemplet i SAS data a; input resp $ grp $; datalines; B Dal... B Dal W Dal... W Dal B Pl... B Pl W Pl... W Pl ; run; proc freq data=a; tables grp*resp / measures nopercent nocol; run; E 2013 Basal Statistik - Kategoriske data 28
29 Eksemplet i SAS data b; input resp $ grp $ antal ; datalines; B Dal 29 W Dal 14 B Pl 20 W Pl 22 ; run; proc freq data=b; weight antal; tables grp*resp/measures nopercent nocol; run; E 2013 Basal Statistik - Kategoriske data 29
30 Eksemplet Output i SAS: E 2013 Basal Statistik - Kategoriske data 30
31 Sandsynligheder og odds Formelt defineres odds: Sansynligheden(A) Odds(A) = = Sansynligheden(A ikke sker) Sansynligheden(A) 1- Sansynligheden(A) Man kan regne baglæns sandsynligheden(a) = Odds(A) 1+ Odds(A) E 2013 Basal Statistik - Kategoriske data 31
32 Sandsynligheder og odds På travbanen: odds for at hesten taber Eksempel Odds=4 Sansynligheden(hesten taber) Odds(heste n taber) = = Sansynligheden(hesten vinder) 4 Formlen giver at sandsynligheden for at hesten taber er 4 = 0, E 2013 Basal Statistik - Kategoriske data 32
33 Sandsynligheder og odds E 2013 Basal Statistik - Kategoriske data 33
34 Egenskaber ved odds Odds ligger mellem 0 og uendelig Når sandsynligheden er 0,5 så er odds 1 Odds er større end sandsynligheden VIGTIGT: Hvis sandsynligheden er lille (<0,1) så er odds og sandsynligheden næsten den samme E 2013 Basal Statistik - Kategoriske data 34
35 E 2013 Basal Statistik - Kategoriske data 35 Odds ratio Odds ratio er forholdet mellem odds i to grupper OR p p p p = bc ad d c b a d c d d c c b a b b a a = = OR =
36 Odds ratio Spredningen skal udregnes for den naturlige logaritme: s.e.(log(o R)) = a b c d Konfidensinterval skal udregnes for den naturlige logaritme og transformeres tilbage: log(or) ± 1.96 s.e.(log(or)) OR exp ( s.e. ( log(or) )) error factor E 2013 Basal Statistik - Kategoriske data 36
37 Relativ risiko Estimeret RR: p RR = 1 p 2 a c RR = a + b c + d Spredningen skal udregnes på den naturlige logaritme: s.e.(log(rr)) = + a a + b c c + d E 2013 Basal Statistik - Kategoriske data 37
38 Egenskaber ved OR For sjældne outcome er RR og OR næsten ens OR er symmetrisk OR for en begivenhed er 1/OR for at begivenheden ikke sker RR er ikke symmetrisk RR for en begivenhed er ikke 1/RR for at begivenheden ikke sker E 2013 Basal Statistik - Kategoriske data 38
39 OR og RR i SAS E 2011 Basal Statistik - Kategoriske data 39
40 OR eller RR E 2009 E 2011 Basal Statistik - Kategoriske data 40
41 OR eller RR E 2009 E 2011 Basal Statistik - Kategoriske data 41
42 Test Hypotese: OR=1 eller RR=1 eller p = p χ = 2 (O - E) E Forudsætning: Alle forventede tal >5 E 2013 Basal Statistik - Kategoriske data 42
43 I SAS tilføjes optionen chisq Test i SAS tables grp*resp/chisq measures nopercent nocol; E 2013 Basal Statistik - Kategoriske data 43
44 Test i SAS Husk antagelsen om de forventede værdier I SAS tilføjes optionen expected tables grp*resp/expected chisq measures nopercent nocol norow; grp resp Frequency Expected B W Total Dal Pl Total E 2013 Basal Statistik - Kategoriske data 44
45 Tynde tabeller Hvis nogen forventede tal er under 5 E 2013 Basal Statistik - Kategoriske data 45
46 Fishers eksakte test Fasthold marginalerne P værdien er sandsynligheden for Den tabel vi har observeret samt Sandsynligheden for mere ekstreme tabeller E 2013 Basal Statistik - Kategoriske data 46
47 Fishers eksakte test E 2013 Basal Statistik - Kategoriske data 47
48 Fisher i SAS Kommer sammen med chi-i-anden testet E 2013 Basal Statistik - Kategoriske data 48
49 R x C tabeller E 2013 Basal Statistik - Kategoriske data 49
50 R x C tabeller Er fordelingen af koffein indtag det samme i civilstandsgrupperne Er civilstandsfordelingen den samme for de forskellige niveauer af koffein indtag Er der uafhængighed i tabellen Alle ovenstående spørgsmål er ens E 2013 Basal Statistik - Kategoriske data 50
51 R x C tabeller Spørgsmålene kan besvares ved at udføre et Chi-i-anden test 2 2 = (O - E) χ E Som følger en Chi-i-anden fordeling med (r-1)(c-1) frihedsgrader Hvis alle forventede værdier er større end 5 E 2013 Basal Statistik - Kategoriske data 51
52 R x C tabeller i SAS Test udføres helt analogt med 2 x 2 tabeller Eksakt test kan vælges i statistics (option=exact), men pas på det kan tage lang tid. E 2013 Basal Statistik - Kategoriske data 52
53 R x C tabeller Test for uafhængighed giver en p-værdi Hvis testet er signifikant Beskriv den fundne sammenhæng, p-værdien siger intet om hvordan sammenhængen ser ud Hvis testet ikke er signifikant At sammenhængen ikke er signifikant siger ikke nødvendigvis at uafhængigheden er fuldstændig Beskriv tabellen med procenter E 2013 Basal Statistik - Kategoriske data 53
54 R x C tabeller E 2013 Basal Statistik - Kategoriske data 54
55 Antal fra tabellen E 2013 Basal Statistik - Kategoriske data 55
56 Procenter fra tabellen E 2013 Basal Statistik - Kategoriske data 56
57 Antal fra tabellen i SAS proc gchart data=cm; vbar civ/ sumvar=antal subgroup=kaf; run; E 2013 Basal Statistik - Kategoriske data 57
58 Procenter fra tabellen i SAS proc freq data=cm; weight ANTAL; tables CIV*KAF / NOPERCENT NOROW OUT=UD OUTPCT; run; PROC PRINT data=ud; run; proc gchart data=ud; vbar civ/ sumvar=pct_row subgroup=kaf; run; E 2013 Basal Statistik - Kategoriske data 58
59 2 x k med ordnede kategorier Eksempel sammenhængen mellem skostørrelse og kejsersnit Det vil sige ingen sammenhæng E 2013 Basal Statistik - Kategoriske data 59
60 2 x k med ordnede kategorier Kejsersnit som funktion af skostørrelse E 2013 Basal Statistik - Kategoriske data 60
61 2 x k med ordnede kategorier Trend test Regression af ssh (p) for kejsersnit på skostørrelse (s): i s i Trend test er testet for β=0 I eksemplet bliver p = α + β 2 χ = med 1frihedsgrad; p = E 2013 Basal Statistik - Kategoriske data 61
62 Trend test i SAS Vi tilføjer optionen trend proc freq data=a; tables sko*cs / nopercent nocol trend; run; E 2013 Basal Statistik - Kategoriske data 62
63 Trend test i SAS Bemærk at: = E 2013 Basal Statistik - Kategoriske data 63
64 Trend test Det er en forudsætning at data ligger på en ret linie Dette kan og bør testes Chi-i-anden testet opdeles i test for linearitet og for test for trend Det samlede test overser en signifikant trend E 2013 Basal Statistik - Kategoriske data 64
65 Afhængige observationer Det er en vigtig forudsætning at observationerne er uafhængige Hvis flere observationer er på samme objekt er de enkelte observationer ikke uafhængige Parrede data Samme prøve undersøgt af to observatører Samme størrelse målt med forskellige apparater To personer fra samme matchede sæt E 2013 Basal Statistik - Kategoriske data 65
66 Parrede data To læger stiller samme positive/negative diagnose på de samme patienter Er der overensstemmelse mellem de to læger Er ssh for positiv diagnose den samme for de to læger E 2013 Basal Statistik - Kategoriske data 66
67 Parrede data Tabel over antal par af resultater (her patienter) Differens mellem andel af positive diagnoser: a + b a + c b c = N N N E 2013 Basal Statistik - Kategoriske data 67
68 McNemars test Hvis de to læger har samme sandsynlighed for positiv diagnose må c b McNemars test sammenligner c og b: ( b c) b + c 2 χ ~ 2 med 1frihedsgrad E 2013 Basal Statistik - Kategoriske data 68
69 McNemars test McNemars test med kontinuitetskorrektion: ( b c ) b + c ~ χ med 1frihedsgrad McNemars test afhænger således kun af de diskordante observationer McNemars test er et test for ens diagnosesandsynligheder IKKE test for overensstemmelse E 2013 Basal Statistik - Kategoriske data 69
70 McNemars test Estimation af differensen p pˆ ˆ1 2 ( pˆ pˆ ) 1 2 b c = N Konfidensinterval konstrueres ved hjælp af: s.e. = 1 b + c N ( b c) N 2 E 2013 Basal Statistik - Kategoriske data 70
71 Eksempel: parret data Spytprøver fra 50 tuberkulosepatienter dyrkes i substrat A og B. En positiv prøve vil sige at man får vækst af tuberkelbaciller Er substraterne lige effektive, dvs har de samme sporingssandsynlighed? E 2013 Basal Statistik - Kategoriske data 71
72 Eksempel: parret data E 2013 Basal Statistik - Kategoriske data 72
73 Eksempel: parret data Sporingssandsynlighed (med CI) for A: ˆ = = 0.64 CI : 0.64 ± 1.96 = p A Sporingssandsynlighed (med CI) for B: ˆ = = 0.44 CI : 0.44 ± 1.96 = p B ( 0.51;0.77 ) ( 0.30;0.58) Helt almindelige binomialsandsynligheder med de almindelige konfidensgrænser E 2013 Basal Statistik - Kategoriske data 73
74 Eksempel: parret data Differens mellem sporingssandsynligheder: pˆ A pˆ B = 0.20 McNemars test 2 χ ( 2 12) CI : 0.20 ± ( 2 12) ( 0.06;0.33) E 2013 Basal Statistik - Kategoriske data = = = 7.14 df = 1 p = = McNemars test med kontinuitetes-korektion: 2 χ ( ) 2 81 = = = 5.78 df = 1 p =
75 McNemar i SAS proc freq data=a; tables a*b / nopercent agree; run; E 2013 Basal Statistik - Kategoriske data 75
Kategoriske data. Basal Statistik for medicinske PhD-studerende October 2008
Kategoriske data Basal Statistik for medicinske PhD-studerende October 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet [email protected] www.biostat.ku.dk/~bxc
Postoperative komplikationer
Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.
Opgavebesvarelse, Basalkursus, uge 3
Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt
Opgavebesvarelse, Basalkursus, uge 3
Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt
Statistik II 1. Lektion. Analyse af kontingenstabeller
Statistik II 1. Lektion Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression
Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Løsning eksamen d. 15. december 2008
Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se
Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller
Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]
Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af
Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π
Tema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Konfidensintervaller og Hypotesetest
Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller
Statistik II 4. Lektion. Logistisk regression
Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:
Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller
Statistik II 1. Lektion Sandsynlighedsregning Analyse af kontingenstabeller Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller
9. Chi-i-anden test, case-control data, logistisk regression.
Biostatistik - Cand.Scient.San. 2. semester Karl Bang Christensen Biostatististisk afdeling, KU [email protected], 35327491 9. Chi-i-anden test, case-control data, logistisk regression. http://biostat.ku.dk/~kach/css2014/
Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008
Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet [email protected] www.biostat.ku.dk/~bxc
Eksamen i Statistik for biokemikere. Blok
Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)
Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Anvendt Statistik Lektion 8. Multipel Lineær Regression
Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke
Løsning til eksaminen d. 14. december 2009
DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,
Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,
Statistik noter Indhold Datatyper... 2 Middelværdi og standardafvigelse... 2 Normalfordelingen og en stikprøve... 2 prædiktionsinteval... 3 Beregne andel mellem 2 værdier, eller over og unden en værdi
Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression
Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder
Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives
Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter
Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: [email protected] I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede
Statistik kommandoer i Stata opdateret 22/ Erik Parner
Statistik kommandoer i Stata opdateret 22/4 2008 Erik Parner Indledning... 1 Simple beskrivelser... 1 Data manipulation... 1 Estimation af proportioner... 2 Estimation af rater... 2 Estimation af Relativ
Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]
Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination
1. februar Lungefunktions data fra tirsdags Gennemsnit l/min
Epidemiologi og biostatistik Uge, torsdag 3. februar 005 Morten Frydenberg, Afdeling for Biostatistik. og hoste estimation sikkerhedsintervaller antagelr Normalfordelingen Prædiktion Statistisk test (ud
Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)
Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: [email protected] Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse
Mikro-kursus i statistik 1. del. 24-11-2002 Mikrokursus i biostatistik 1
Mikro-kursus i statistik 1. del 24-11-2002 Mikrokursus i biostatistik 1 Hvad er statistik? Det systematiske studium af tilfældighedernes spil!dyrkes af biostatistikere Anvendes som redskab til vurdering
Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)
Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up
Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger
Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: [email protected] I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt
Løsning til eksamen d.27 Maj 2010
DTU informatic 02402 Introduktion til Statistik Løsning til eksamen d.27 Maj 2010 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th edition]. Opgave I.1
Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader
Stikprøver og stikprøve fordelinger Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader Statistik Statistisk Inferens: Prediktere og forekaste værdier af
Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.
Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder
Statistik viden eller tilfældighed
MATEMATIK i perspektiv Side 1 af 9 DNA-analyser 1 Sandsynligheden for at en uskyldig anklages Følgende histogram viser, hvordan fragmentlængden for et DNA-område varierer inden for befolkningen. Der indgår
1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
Løsning til opgave i logistisk regression
Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator
Løsning til eksaminen d. 29. maj 2009
DTU Informatik 02402 Introduktion til Statistik 20-2-01 LFF/lff Løsning til eksaminen d. 29. maj 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th
Produkt og marked - matematiske og statistiske metoder
Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet February 19, 2016 1/26 Kursusindhold: Sandsynlighedsregning og lagerstyring
Epidemiologi og Biostatistik
Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag
1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...
Indhold 1 Statistisk inferens: Hypotese og test 2 1.1 Nulhypotese - alternativ.................................. 2 1.2 Teststatistik........................................ 3 1.3 P-værdi..........................................
Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo
Kursusindhold: Produkt og marked - matematiske og statistiske metoder Rasmus Waagepetersen Institut for Matematiske Fag Aalborg Universitet Sandsynlighedsregning og lagerstyring Normalfordelingen og Monte
Anvendt Statistik Lektion 7. Simpel Lineær Regression
Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot
Vejledende besvarelse af eksamen i Statistik for biokemikere, blok
Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder
Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)
Formelsamlingen 1 Regneregler for middelværdier M(a + bx) a + bm X M(X+Y) M X +M Y Spredning varians og standardafvigelse VAR(X) 1 n n i1 ( X i - M x ) 2 Y a + bx VAR(Y) VAR(a+bX) b²var(x) 2 Kovariansen
Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05
Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ
Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j
Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!
Basal Statistik. Kategorisk outcome. Sandsynligheder. Bestemmelse af sandsynligheder. Faculty of Health Sciences
Faculty of Health Sciences Kategorisk outcome Basal Statistik Kategorisk outcome. Tabeller. Lene Theil Skovgaard 14. februar 2017 1 / 89 Sandsynligheder og odds Binomialfordelingen 2 2 tabeller, relativ
Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014
Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke
Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable
Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet [email protected] Sammenhæng
Kvantitative Metoder 1 - Efterår Dagens program
Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1
Morten Frydenberg 26. april 2004
Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik RESUME: 2 2. gang: 2002 Institut for Biostatistik, Århus Universitet MPH. studieår Specialmodul 4 Cand. San. uddannelsen.
Logistisk regression. Statistik Kandidatuddannelsen i Folkesundhedsvidenskab
Logistis regression Statisti Kandidatuddannelsen i Folesundhedsvidensab Multipel logistis regression Antagelser: Binære observationer (Y i, i=,.,n) f.es Ja/Nej Høj/Lav Død/Levende Kodet: / 0 Y i uafhængige
Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007
Rettevejledning til eksamen i Kvantitative metoder 1,. årsprøve. januar 007 I rettevejledningen henvises der til Berry and Lindgren "Statistics Theory and methods"(b&l) hvis ikke andet er nævnt. Opgave
Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse
Statistik 7. gang 9. HYPOTESE TEST Hypotesetest ved 6 trins raket! : Trin : Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse H eller H A : Alternativ
Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013
Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Mantel-Haenszel analyser
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Mantel-Haenszel analyser Mantel-Haenszel analyser Sidst lærte vi om stratificerede analyser. I dag kigger vi på et specialtilfælde: både exposure
Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau
Hvad skal vi lave? 1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ. Teststatistik P-værdi Signifikansniveau 2 t-test for middelværdi Tosidet t-test for middelværdi Ensidet t-test for middelværdi
Korrelation Pearson korrelationen
-9- Eidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Korrelation Kliniske målinger - Kliniske målinger og variationskilder - Estimation af størrelsen
Basal Statistik. Kategorisk outcome. Sandsynligheder. Bestemmelse af sandsynligheder. Faculty of Health Sciences
Faculty of Health Sciences Kategorisk outcome Basal Statistik Kategorisk outcome. Tabeller. Lene Theil Skovgaard 17. september 2018 1 / 93 Sandsynligheder og odds Binomialfordelingen 2 2 tabeller, relativ
Program. 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18
Program 1. Repetition 2. Fordeling af empirisk middelværdi og varians, t-fordeling, begreber vedr. estimation. 1/18 Fordeling af X Stikprøve X 1,X 2,...,X n stokastisk X stokastisk. Ex (normalfordelt stikprøve)
En Introduktion til SAS. Kapitel 5.
En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel
OR stiger eksponentielt med forskellen i BMI komplicet model svær at forstå og analysere simpel model
Epidemiologi og biostatistik. Uge 5, torsdag. marts 1 Morten Frydenberg, Institut for Biostatistik. 1 Analyse af overlevelsesdata (ventetidsdata) Censurering (højre + andet) Kaplan-Meyer kurver Det statistiske
Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner
Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner Indledning... 1 Hukommelse... 1 Simple beskrivelser... 1 Data manipulation... 2 Estimation af proportioner... 2 Estimation af rater... 2 Estimation
Opgavebesvarelse, logistisk regression
Opgavebesvarelse, logistisk regression Data ligger i rop.xls på kursushjemmesiden: http://staff.pubhealth.ku.dk/ jufo/courses/logistic/ Når du har gemt data på din computer, kan det indlæses i SAS med
Sandsynlighedsregning
Mogens Bladt www2.imm.dtu.dk/courses/02405 21. September, 2007 Lidt om binomialkoefficienter n størrelsen af en mængde/population. Vi ønsker at udtage en sub population af størrelse r. To sub populationer
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Uafhængighedstestet
Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Uafhængighedstestet Eksempel: Bissau data Data kommer fra Guinea-Bissau i Vestafrika: 5273 børn blev undersøgt da de var yngre end 7 mdr og blev
En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger
Institut for Økonomi Aarhus Universitet Statistik 1, Forår 2001 Allan Würtz 4. April, 2001 En oversigt over udvalgte kontinuerte sandsynlighedsfordelinger Uniform fordeling Benyttes som model for situationer,
3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Mantel-Haenszel analyser. Stratificerede epidemiologiske analyser
Mantel-Haensel analyser Stratificerede epidemiologiske analyser 1 Den epidemiologiske synsvinkel: 1) Oftest asymmetriske (kausale) sammenhænge (Eksposition Sygdom/død) 2) Risikoen vurderes bedst ved hjælp
Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)
Kursus 02402 Introduktion til Statistik Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske
Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts
Århus 27. februar 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts Epibasic er nu opdateret til version 2.02 (obs. der er ikke ændret ved arket C-risk) Start med
grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
Statistiske Modeller 1: Kontingenstabeller i SAS
Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.
