1 Sammenligning af 2 grupper Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver... 2

Relaterede dokumenter
Hvad skal vi lave? Responsvariabel og forklarende variabel Afhængige/uafhængige stikprøver

Oversigt over emner. Punktestimatorer: Centralitet(bias) og efficiens

1 Statistisk inferens: Hypotese og test Nulhypotese - alternativ Teststatistik P-værdi Signifikansniveau...

Hvad skal vi lave? Nulhypotese - alternativ. Teststatistik. Signifikansniveau

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Betinget fordeling Uafhængighed. Beregning af forventet tabel Chi-kvadrat teststatistik Chi-kvadrat test. Chi-kvadratfordelingen Agresti - Summary

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

1 Punkt- og intervalestimation Punktestimatorer: Centralitet(bias) og efficiens... 2

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Indhold. 2 Tosidet variansanalyse Additive virkninger Vekselvirkning... 9

Vejledende løsninger kapitel 8 opgaver

Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]

Konfidensintervaller og Hypotesetest

Vejledende besvarelser til opgaver i kapitel 14

C) Perspektiv jeres kommunes resultater vha. jeres svar på spørgsmål b1 og b2.

MPH specialmodul Epidemiologi og Biostatistik

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se

2 Logaritme- og eksponentialfunktion 6

1 Hb SS Hb Sβ Hb SC = , (s = )

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Ensidet eller tosidet alternativ. Hypoteser. tosidet alternativ. nul hypotese testes mod en alternativ hypotese

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

Krydstabeller Forventede under nulhypotesen Ki-kvadrat test Residualanalyse Eksakt test

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Postoperative komplikationer

Rettevejledning til eksamen i Kvantitative metoder 1, 2. årsprøve 2. januar 2007

Løsning eksamen d. 15. december 2008

Analyse af binære responsvariable

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Basal statistik Esben Budtz-Jørgensen 4. november Forsøgsplanlægning Stikprøvestørrelse

Eks. 1: Kontinuert variabel som i princippet kan måles med uendelig præcision. tid, vægt,

Hvad er danskernes gennemsnitshøjde? N = 10. X 1 = 169 cm. X 2 = 183 cm. X 3 = 171 cm. X 4 = 113 cm. X 5 = 174 cm

Løsning til eksaminen d. 14. december 2009

Stikprøver og stikprøve fordelinger. Stikprøver Estimatorer og estimater Stikprøve fordelinger Egenskaber ved estimatorer Frihedsgrader

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Forsøgsplanlægning Stikprøvestørrelse

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Vejledende besvarelse af eksamen i Statistik for biokemikere, blok

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Hvis α vælges meget lavt, bliver β meget stor. Typisk vælges α = 0.01 eller 0.05

Anvendt Statistik Lektion 2. Sandsynlighedsregning Sandsynlighedsfordelinger Normalfordelingen Stikprøvefordelinger

Note om Monte Carlo metoden

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Trin 1: Formuler hypotese Spørgsmål der ønskes testet vha. data H 0 : Nul hypotese Formuleres som en ligheds hændelse

Personlig stemmeafgivning

1. februar Lungefunktions data fra tirsdags Gennemsnit l/min

Kapitel 7 Forskelle mellem centraltendenser

Opgaver til kapitel 3

Kapitel 12 Variansanalyse

1 Multipel lineær regression

(studienummer) (underskrift) (bord nr)

Normalfordelingen og Stikprøvefordelinger

Regressionsanalyser. Hvad er det statistiske problem? Primære og sekundære problemer. Metodeproblemer.

1 Multipel lineær regression

1 Sandsynlighed Sandsynlighedsbegrebet Definitioner Diskret fordeling Betinget sandsynlighed og uafhængighed...

University of Copenhagen. Notat om statistisk inferens Larsen, Martin Vinæs. Publication date: Document Version Peer-review version

Hvad skal vi lave? Model med hovedvirkninger Model med vekselvirkning F-test for ingen vekselvirkning. 1 Kovariansanalyse. 2 Sammenligning af modeller

Lineær og logistisk regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Module 4: Ensidig variansanalyse

Forsøgsplanlægning Stikprøvestørrelse

Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Program. 1. ensidet variansanalyse. 2. forsøgsplanlægning: blocking. 1/12

Nanostatistik: Konfidensinterval

Økonometri 1. Inferens i den lineære regressionsmodel 25. september Økonometri 1: F6 1

Nanostatistik: Opgavebesvarelser

Opgavebesvarelse, Basalkursus, uge 3

Kapitel 12 Variansanalyse

Note til styrkefunktionen

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 4: 2. marts

Opgave 10.1, side 282 (for 6. og 7. ed. af lærerbogen se/løs opgave 9.1)

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

Kapitel 4 Sandsynlighed og statistiske modeller

Kapitel 8 Chi-i-anden (χ 2 ) prøven

Opgavebesvarelse, Basalkursus, uge 3

Muligheder: NB: test for µ 1 = µ 2 i model med blocking ækvivalent med parret t-test! Ide: anskue β j som stikprøve fra normalfordeling.

Eksamen i Statistik for biokemikere. Blok

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Statistik II 1. Lektion. Analyse af kontingenstabeller

Vejledende eksamensopgaver vedr. hypotesetest (stx B og stx A)

Reeksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Statistik og Sandsynlighedsregning 2

Forelæsning 9: Inferens for andele (kapitel 10)

Eksamen Bacheloruddannelsen i Medicin med industriel specialisering. Eksamensdato: Tid: kl

Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0

I dag. Statistisk analyse af en enkelt stikprøve: LR test og t-test, modelkontrol, R Sandsynlighedsregning og Statistik (SaSt)

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Transkript:

Indhold 1 Sammenligning af 2 grupper 2 1.1 Responsvariabel og forklarende variabel......................... 2 1.2 Afhængige/uafhængige stikprøver............................ 2 2 Sammenligning af 2 middelværdier 2 2.1 Uafhængige stikprøver.................................. 3 2.2 Uafhængige stikprøver - konfidensinterval........................ 5 2.3 Afhængige stikprøver................................... 6 3 Sammenligning af 2 andele 7 3.1 Uafhængige stikprøver.................................. 8 3.2 Uafhængige stikprøver - approksimativt test...................... 8 3.3 Fishers eksakte test.................................... 10 4 Agresti: Oversigt over test for middelværdi og andel 10 1

1 Sammenligning af 2 grupper 1.1 Responsvariabel og forklarende variabel Responsvariabel og forklarende variabel Vi gennemfører et studie, hvor vi tilfældigt udvælger 50 IT-virksomheder og 50 servicevirksomheder og måler deres overskudsgrad. Er der sammenhæng mellem virksomhedstype og overskudsgrad? Vi skal mao sammenligne stikprøver fra 2 forskellige populationer. For hver virksomhed registreres: Den binære variabel Virsomhedstype, som kaldes den forklarende variabel, inddeler data i 2 grupper. Den kvantitative variabel Overskudsgrad, som kaldes responsvariablen. 1.2 Afhængige/uafhængige stikprøver Afhængige/uafhængige stikprøver Vi gennemfører et studie, hvor vi tilfældigt udvælger 50 IT-virksomheder og 50 servicevirksomheder og måler deres overskudsgrad. Er der sammenhæng mellem virksomhedstype og overskudsgrad? I dette eksempel er der tale om uafhængige stikprøver, idet den samme virksomhed ikke kan indgå i begge grupper. Vi gennemfører et studie, hvor vi tilfældigt udvælger 50 IT-virksomheder og måler deres overskudsgrad i 2009 og 2010. Er der sammenhæng mellem driftsår og overskudsgrad? I dette eksempel er der tale om afhængige stikprøver, idet den samme virksomhed indgår i begge grupper. 2 Sammenligning af 2 middelværdier Sammenligning af middelværdier Vi betragter situationen, hvor vi har to kvantitative stikprøver: 2

Population 1 har middelværdi µ 1, som estimeres af ˆµ 1 = ȳ 1 ud fra en stikprøve af størrelse n 1. Population 2 har middelværdi µ 2, som estimeres af ˆµ 2 = ȳ 2 ud fra en stikprøve af størrelse n 2. Vi er interesseret i forskellen µ 2 µ 1, som estimeres ved d = ȳ 2 ȳ 1. Antag at vi kan finde den estimerede standardfejl se d på differensen og at denne har frihedsgrader df. Vi kan da angive Konfidensinterval: (ȳ 2 ȳ 1 ) ± tse d, hvor t-scoren bestemmer konfidensniveauet. Signifikanstest for H 0 : µ 2 µ 1 = 0. Teststatistik: t = ȳ2 ȳ 1 se d, som skal vurderes i en t-fordeling med df frihedsgrader. 2.1 Uafhængige stikprøver Uafhængige stikprøver I situationen med uafhængige stikprøver kan det vises at se d = se 2 1 + se 2 2 hvor se 1 og se 2 er estimerede standardfejl for stikprøvemiddelværdier i hhv population 1 og 2. Vi husker, at der for sådanne gælder se = s n, dvs se d = s 2 1 n 1 + s2 2 n 2 hvor s 1 og s 2 er estimerede standardafvigelser i hhv population 1 og 2. Frihedsgradstallet df for se d kan estimeres via en kompliceret formel, som vi ikke skal se. Ift konfidensinterval og signifikanstest bemærkes: Hvis både n 1 og n 2 er over 30, så kan vi bruge z-score i stedet for t-score. Hvis n 1 eller n 2 er under 30, så lader vi Rcmdr beregne frihedsgradstal og p-værdi/konfidensinterval. 3

Eksempel Vi vender tilbage til Chile datasættet fra car pakken, hvor vi studerer sammenhængen mellem variablene sex og statusquo: Scale of support for the status-quo. Vi kigger først på Statistics/Summaries/numerical summaries... med option Summarize by group... sat til sex. Vi kan konstatere at Der mangler(na) måling på 11 kvinder(f) og 6 mænd(m). Det ser ud til at kvinder har en højere middelværdi(mean) for status quo end mænd. Men er der reelt en signifikant forskel? Eksempel Differens: d = 0.0657 ( 0.0684) = 0.1341. Estimeret standardafvigelse kvinder: s 1 = 1.003 og mænd s 2 = 0.993. Med samplestørrelser n 1 = 1368 og n 2 = 1315. s Estimeret standardfejl på differens: se = 2 1 n 1 + s2 2 1.003 n 2 = 2 + 0.9932 = 0.0385. 1368 1315 t-score for H 0 : µ 1 µ 2 = 0: t obs = d 0 se = 0.1341 0.0385 = 3.48 4

Da begge samplestørrelser er meget store (> 60),behøver vi ikke bruge t-score, men kan bruge z-score, dvs vurdering i standardnormalfordelingen. P-værdi: 2 0.00025 = 0.0005, dvs vi forkaster nulhypotesen. Eksempel Statistics/Means/Independent samples t-test... Vi kan overlade alle beregninger til Rcmdr. Vi genkender t-scoren 3.48 og p-værdien 0.0005. Det estimerede frihedsgradstal df = 2679 er så højt at der ikke er forskel på z-score og t-score. 2.2 Uafhængige stikprøver - konfidensinterval Konfidensinterval Vi har allerede udviklet alle ingredienser til at konstruere et konfidensinterval for µ 2 µ 1 : d = ȳ 2 ȳ 1 estimerer µ 2 µ 1. 5

s se d = 2 1 n 1 + s2 2 n 2 estimerer standardfejlen på d. Dermed er d ± tse d et konfidensinterval for µ 2 µ 1. t-scoren vælges så vi opnår den ønskede konfidensgrad. Hvis n 1 og n 2 begge er større end 30, så vil t = 2 give en konfidensgrad på ca. 95%. 2.3 Afhængige stikprøver Parret t-test I udvælger tilfældigt 10 Netto-butikker, hvor I over en periode måler den gennemsnitlige ekspeditionstid ved kasserne. Der installeres nye kasseterminaler i de 10 butikker, og I gentager eksperimentet. Det er interessant om de nye terminaler har ændret ekspeditionstiden. Vi har således 2 stikprøver svarende til gammel/ny teknologi. I dette tilfælde er der tale om afhængige stikprøver, idet vi har 2 målinger på hver butik. Dette giver anledning til følgende analysestrategi. Beregn for hver butik ændringen i gennemsnitlig ekspeditionstid når vi går fra gammel til ny teknologi. betragtes nu som EN stikprøve fra en population med mid- Ændringerne d 1, d 2,..., d 10 delværdi µ. Test hypotesen H 0 : µ = 0 på sædvanlig vis. Eksempel 6

Date er organiseret i en dataramme med 2 variable: before og after, som angiver gennemsnitlig ekspeditionstid før hhv efter installation af ny teknologi. Statistics/ Means/ Paired t-test... 3 Sammenligning af 2 andele Sammenligning af andele Vi betragter situationen, hvor vi har to kvalitative stikprøver, hvor vi undersøger om en given egenskab er til stede eller ej: Andelen af population 1 som har egenskaben er π 1, som estimeres af ˆπ 1 ud fra en stikprøve af størrelse n 1. Andelen af population 2 som har egenskaben er π 2, som estimeres af ˆπ 2 ud fra en stikprøve af størrelse n 2. Vi er interesseret i forskellen π 2 π 1, som estimeres ved d = ˆπ 2 ˆπ 1. Antag at vi kan finde den estimerede standardfejl se d på differensen. Vi kan da approksimativt angive 7

Konfidensinterval: (ˆπ 2 ˆπ 1 ) ± zse d, hvor z-scoren bestemmer konfidensniveauet. 3.1 Uafhængige stikprøver Uafhængige stikprøver I situationen med uafhængige stikprøver kan det som bekendt vises at se d = se 2 1 + se 2 2 hvor se 1 og se 2 er estimerede standardfejl for stikprøveandelen i hhv population 1 og 2. ˆπ(1 ˆπ) Vi husker, at der for sådanne gælder se =, dvs n ˆπ se d = 1 (1 ˆπ 1 ) n 1 + ˆπ 2(1 ˆπ 2 ) n 2 Ift konfidensinterval opnår vi den sædvanlige konstruktion: Approksimativt konfidensinterval for π 2 π 1 : (π 2 π 1 ) ± zse d. 3.2 Uafhængige stikprøver - approksimativt test Approksimativt test Nulhypotese: H 0 π 1 = π 2. Antag H 0 og kald den fælles andel for π, som estimeres ved ˆπ = n 1ˆπ 1 +n 2ˆπ 2 n 1 +n 2, dvs vi slår populationerne sammen og beregner den relative frekvens af egenskaben. Når H 0 er sand bliver standardfejl og z-score: se 0 = ˆπ(1 ˆπ)( 1 n 1 + 1 n 2 ) z = ˆπ 2 ˆπ 1 se 0, som vurderes i standardnormalfordelingen. P-værdi beregnes på sædvanlig vis - afhængigt af alternativ. WARNING: Approksimationen er kun god, når n 1ˆπ, n 1 (1 ˆπ), n 2ˆπ, n 2 (1 ˆπ) alle er større end 5. 8

Eksempel Vi vender tilbage til Chile datasættet fra car pakken. Vi beregner via Data/Manage variables in active dataset/compute new variable... en ny binær faktor voteno. Vi studerer sammenhængen mellem variablene sex og voteno. Vi kigger først på tabellen fra Statistics/Proportions/ Two-sample proportion test... Eksempel Andele som ikke stemmer nej er ˆπ 1 = 0.723, ˆπ 2 = 0.570, hvoraf ˆπ = 1309 0.723+1223 0.57 1309+1223 = 0.649. Estimeret forskel d = ˆπ 2 ˆπ 1 = 0.570 0.723 = 0.153 Standardfejl på forskel se d = ˆπ 1 (1 ˆπ 1 ) n 1 + ˆπ 2(1 ˆπ 2 ) n 2 = 0.723(1 0.723) 1309 + 0.57(1 0.57) 1223 = 0.0188 9

Approksimativt 95% konfidensinterval for forskel d ± 1.96se d = ( 0.190; 0.116) Standardfejl på forskel når H 0 : π 1 = π 2 er opfyldt se 0 = ˆπ(1 ˆπ)( 1 n 1 + 1 n 2 ) = 0.0190 z = d se 0 = 8.06. Testet for H 0 mod H a : π 1 π 2 giver en p-værdi på nul, dvs klar forskel. 3.3 Fishers eksakte test Fishers eksakte test Hvis ikke n 1ˆπ, n 1 (1 ˆπ), n 2ˆπ, n 2 (1 ˆπ) alle er større end 5, så er det approksimative test upålideligt. I stedet kan man anvende Fishers eksakte test. Statistics/Contingency tables/two-way table... 4 Agresti: Oversigt over test for middelværdi og andel Agresti:Oversigt 10

11