Program. Forsøgsplanlægning og tosidet variansanalyse. Eksempel: fuldstændigt randomiseret forsøg. Forsøgstyper
|
|
|
- Knud Jakobsen
- 10 år siden
- Visninger:
Transkript
1 Program Forsøgsplanlægning og tosidet variansanalyse Helle Sørensen I formiddag: Forsøgstyper og forsøgsplanlægning Analyse af data fra fuldstændigt randomiseret blokforsøg: tosidet variansanalyse uden vekselvirkning. Eksempel 12.7 side 332. Analyse af data fra tofaktorforsøg: tosidet variansanalyse med vekselvirkning. Eksempel 12.8 side 336. I eftermiddag: Det vi ikke når i formiddag... Eksempel om sojabønner Forhåbentlig lidt om modelkontrol og residualplot StatBK (Uge 47, torsdag) Tosidet ANOVA 1 / 29 StatBK (Uge 47, torsdag) Tosidet ANOVA 2 / 29 Forsøgstyper Eksempel: fuldstændigt randomiseret forsøg Skelner ofte mellem observationelle studier og designede eksperimenter. Observationelle studier (surveys): stikprøve udtages tilfældigt fra en population registrerer diverse variable fra stikprøven information om sammenhængen mellem disse variable i populationen ingen intervention Designede eksperimenter Formålet er som regel at sammenligne grupper: forskellige behandlinger, celletyper, køn, alder, osv. Behandlinger allokeres tilfældigt til forsøgsenheder Flere faktorer kan foretages i samme eksperiment Forsøgsenhederne skal være repræsentative. Ekstrapolation. Data fra Sommer , opgave 2: kvælstofindhold i protein fra hønseæg fem foderblandinger observationer fra i alt 37 høns, allokeret tilfældigt til de fem grupper 7 9 høns per gruppe Formålet er at undersøge om kvælstofindholdet varierer med foderblandingerne. Hvilken type analyse ville du bruge? StatBK (Uge 47, torsdag) Tosidet ANOVA 3 / 29 StatBK (Uge 47, torsdag) Tosidet ANOVA 4 / 29
2 Fuldstændigt randomiseret forsøg Eksempel: fuldstændigt randomiseret blokforsøg Engelsk: Completely randomized design. n forsøgsenheder til rådighed (personer, celleprøver, planter,...) r forskellige behandlinger Forsøgsenhederne allokeres tilfældigt til behandl. lodtrækning Evt. balanceret: lige mange forsøgsenheder per behandling Randomiseringen skal sikre imod selection bias, fx. ulige aldersfordeling i hjertestudie, kønseffekter effekter af andre variable, også ikke-observerede variable Sammenligning af populationer: Eksempel: Blok , opgave 2 (bindingsprocenter i antibiotika) Grupper svarer til delpopulationer, ikke behandlinger. Ingen intervention. Data fra eksempel 12.7 side 332. Formål: Vægttab i løbet af 6 måneder for 30 kvinder Tre behandlinger/programmer: diæt, motion, diæt og motion To arbejdssteder: kontor og fabrik 15 kvinder fra hhv. kontor og fabrik inddeles tilfældigt i tre grupper svarende til programmerne. Taber kvinder sig mere på nogle programmer end på andre? Ikke specielt interesseret i forskellen mellem arbejdsstederne (men kunne være det) StatBK (Uge 47, torsdag) Tosidet ANOVA 5 / 29 StatBK (Uge 47, torsdag) Tosidet ANOVA 6 / 29 Blokforsøg Fuldstændigt randomiseret blokforsøg Forsøgsenhederne samles i blokke således at forsøgsenheder fra samme blok formodes at ligne hinanden mere end forsøgsenheder fra forskellige blokke. Typiske blokvariable: laboratorium, hospital, mark, kuld,... Afprøver de forskellige behandlinger i alle blokke. Ofte vil nogle blokke generelt ligge højt, andre lavt. Skal tage hensyn til blokvariablen i analysen også selvom vi ikke er specielt interesseret i en eventuel blokeffekt. Hvis vi ikke tager højde for det i analysen vil behandlingsforskellene ofte blive sløret af eventuelle blokforskelle. Engelsk: Completely randomized block design Balanceret, med m gentagelser. r forskellige behandlinger c blokke hver med plads til k r forsøgsenheder i hver blok allokeres de r behandlinger tilfældigt til forsøgsenhederne således at alle behandlinger bruges m gange per blok. m = 1: uden gentagelser, hver behandling afprøves een gang per blok. Ubalanceret: alle behandlinger optræder ikke lige mange gange i hver blok: ikke plads til alle behandlinger i hver blok, andre praktiske hensyn Manglende observationer, fx. pga. dødsfald eller tekniske fejl StatBK (Uge 47, torsdag) Tosidet ANOVA 7 / 29 StatBK (Uge 47, torsdag) Tosidet ANOVA 8 / 29
3 Eksempel: flerfaktorforsøg Vægttab: notation og model Data fra Eksempel 12.8 side 336. Formål: Forbedring af testresultat efter fire ugers undervisning 36 studerende inddelt i 6 grupper, 6 studerende per gruppe Tre lærebøger (1, 2, 3) To undervisningsmetoder (forelæsning, diskussion) Grupper svarer til kombination af lærebog og uv-metode. giver lærebøgerne forskelligt udbytte for de studerende? giver uv-metoderne forskelligt udbytte for de studerende? Er forskellen mellem undervisningsmetoderne den samme for alle tre lærebøger eller er der vekselvirkning? Kan undersøge effekten af flere faktorer og deres indbyrdes virkning i samme forsøg. Notation: y ijk : observation k i behandlingsgruppe i, blok j. Statistisk model: y ijk = µ + α i + β j + ε ijk hvor ε ijk er normalfordelt med middelværdi 0 og spredning σ (fælles). Dvs. y ijk er normalfordelt med middelværdi µ + α i + β j og spredning σ. ε ijk beskriver afvigelsen fra den forventede værdi (middelværdien). Parametre: µ beskriver niveauet af y (på passende måde) α 1,...,α r beskriver forskelle mellem behandlinger β 1,...,β c beskriver forskelle mellem blokke σ er spredningen indenfor kombination af behandling og blok StatBK (Uge 47, torsdag) Tosidet ANOVA 9 / 29 StatBK (Uge 47, torsdag) Tosidet ANOVA 10 / 29 Vægttab: notation mm. Opdeling af total variation Notationen for eksempel 12.7: Hvad er r? Hvad er c? Hvad er m? Hvad er n? Hvad er middelværdien for vægttabet for en kvinde der kun er på diæt og arbejder på kontoret, udtrykt ved µ, α, β? Hvad er middelværdien for vægttabet for en kvinde både er på diæt og motion og som arbejder på fabrikken, udtrykt ved µ, α, β? Hvad er forskellen i middelværdien mellem to kvinder der begge arbejder på fabrikken men får både diæt og motion hhv. kun motion? Hvad er forskellen i middelværdien mellem to kvinder der begge arbejder på fabrikken men får både diæt og motion hhv. kun motion? Hvad er den interessante hypotese? Som i ensidet variansanalyse opdeles den totale variation efter de forskellige variationskilder: SST = SSR + SSC + SSW hvor SST: total variation (y ijk ȳ...) SSR: variation mellem behandlinger eller rows (ȳ i.. ȳ...) SSR: variation mellem blokke eller columns (ȳ. j. ȳ...) SSW: resten, variationen indenfor kombination af behandling of blok Frihedsgrader, SS, MS samles i variananalyseskema, side 335. StatBK (Uge 47, torsdag) Tosidet ANOVA 11 / 29 StatBK (Uge 47, torsdag) Tosidet ANOVA 12 / 29
4 Test af behandlingseffekt Vægttab: behandlingsforskelle Hypotesen om ingen forskel på behandlingerne, H 0 : α 1 = α 2 = = α r Som i ensidet variansanalyse måler vi hvor meget af variationen der skyldes behandlingen i forhold til restvariationen, F = MSR MSW F r 1,n r c+1 Hypotesen forkastes for store værdier af F. Eksemplet: F = 137.4/18.3 = 7.51 der skal vurderes i F 2,26. Dette giver en p-værdi på Hypotesen forkastes: vi har med stor sikkerhed påvist en forskel på behandlingerne (p = 0.003). Vi har altså påvist en forskel på behandlingerne. Men hvad består forskellen i? Interesseret i estimater og konfidensintervaller for forskelle mellem α er. Tukey-korrigerede konfidensintervaller: motion vs. diæt : ˆα 2 ˆα 1 = 4.1 ( 8.85,0.65) begge vs. diæt : ˆα 3 ˆα 1 = 3.3 ( 1.45,8.05) beggevs. motion : ˆα 3 ˆα 2 = 7.4 (2.66,12.15) Hovedkonklusion: kombination af diæt og motion virker bedre end motion alene. Kunne i princippet også teste for en forskel mellem fabrik og kontor, men knapt så interessant som testet for en behandlingseffekt. StatBK (Uge 47, torsdag) Tosidet ANOVA 13 / 29 StatBK (Uge 47, torsdag) Tosidet ANOVA 14 / 29 Vægttab: SAS Effekt af lærebog og uv-metode: model proc glm data=eks12_7; class program site; model weight = site program / solution; means program / tukey cldiff; solution giver parameterestimater SAS vælger en gruppe site=2 (fabrik) og program=1 (diæt) som referencegruppe. Estimater for site og program angiver så forskelle til referencegruppen. proc glm giver som default både Type I vs. type III test: Ens når data er balancerede Ikke ens når data er ubalancerede mere om det senere Notation: y ijk : obs. k for lærebog i og uv-metode j. r = 3 lærebøger (rows), c = 2 uv-metoder (columns), m = 6 observationer per kombination af lærebog og uv-metode. n = rcm = 36 observationer i alt Additiv model: y ijk = µ + α i + β j + ε ijk hvor ε ijk er normalfordelt med middelværdi 0 og spredning σ (fælles). Med den additive model antages det at (ækvivalente udsagn): forskellen mellem uv-metoderne er den samme for alle tre lærebøger forskel mellem lærebøger er den samme for begge uv-metoder Men dette behøver jo ikke at være tilfældet! Der kan være vekselvirkning. Se figur 12.3 side 339. StatBK (Uge 47, torsdag) Tosidet ANOVA 15 / 29 StatBK (Uge 47, torsdag) Tosidet ANOVA 16 / 29
5 Effekt af lærebog og uv-metode: test for vekselv. Effekt af lærebog og uv-metode: flere test Model med vekselvirkning: y ijk = µ + α i + β j + γ ij + ε ijk NB: I bogen kaldes γ ij for αβ ij (uheldig notation!?) Denne model svarer til en ensidet variansanalyse med seks grupper. Opdeler den totale variation i variation mellem lærebæger, mellem uv-metoder, mellem grupper (de seks kombinationer), og indenfor grupper. Variansanalyseskema side 338. Starter med at teste for om vekselvirkningen er signifikant, dvs. H 0 : alle γ ij = 0 Ny model er den additive: Mulige hypoteser: y ijk = µ + α i + β j + ε ijk Ingen forskel på lærebøger, dvs. H 0 : α 1 = α 2 = α 3 Ingen forskel på uv-metoder, dvs. H 0 : β 1 = β 2. Testene giver: lærebøger: F = 1.75, F 2,32, p = Konklusion? uv-metoder: F = 9.29, F 1,32, p = Konklusion? F = 0.17 der skal vurderes i F 2,30 -fordelingen. Dette giver p = 0.84 altså ingen tegn på vekselvirkning. StatBK (Uge 47, torsdag) Tosidet ANOVA 17 / 29 StatBK (Uge 47, torsdag) Tosidet ANOVA 18 / 29 Effekt af lærebog og uv-metode: konklusion Effekt af lærebog og uv-metode: SAS Fitter derfor også modellen kun med effekt af uv-metode: Hvilken model er dette? y ijk = µ + β j + ε ijk Hypotese om igen effekt af uv-metoder, H 0 : β 1 = β 2. Test: F = 8.90, F 1,34, p = tæt på værdierne fra før. Altså: vi har med stor sikkerhed påvist en forskel på uv-metoderne. Den forventede forskel mellem diskussion og lecture er 10.1 med 95% konfidensinterval (3.2, 16.9). Så hvad laver vi egentlig her... Startmodel: proc glm data=ex12_8; class instruct text; model test = instruct text instruct*text; Slutmodel og estimater: proc glm data=ex12_8; class instruct text; model test = instruct / solution; means instruct / tukey cldiff; StatBK (Uge 47, torsdag) Tosidet ANOVA 19 / 29 StatBK (Uge 47, torsdag) Tosidet ANOVA 20 / 29
6 Effekt af lærebog og uv-metode: opsummering Opsummering af procedure Hvad var det vi gjorde? Fittede model med vekselvirkning, og testede for vekselvirkning Fittede additiv model (uden vekselvirkning), testede for hovedeffekter Fjernede en ikke-signifikant hovedeffekt, fittede modellen igen Testede for den anden hovedeffekt Angav estimater og konfidensintervaller i slutmodellen Overalt brugte vi type III test! Fordi data er balancerede kunne vi også have benyttet type I test fra modellen med vekselvirkning. Men dette gælder kun når data er balancerede! SAS kan sagtens finde ud af ubalancerede data skal bare bruge udskrifterne rigtigt! Lidt mere generelt: Fjern en ikke-signifikant effekt fra modellen af gangen; brug type III. Fit modellen uden denne effekt Gentag indtil alle effekter er signifikante. Bemærk: kan ikke teste for hovedeffekter hvis vekselvirkningen er signifikant. Vi har ikke lavet modelkontrol. Det er ellers vigtigt! Bartlett s test i modellen med vekselvirkning: sammenligning af de seks gruppespredninger Residualplot StatBK (Uge 47, torsdag) Tosidet ANOVA 21 / 29 StatBK (Uge 47, torsdag) Tosidet ANOVA 22 / 29 Type I og type III test Type I: Type III: Sekventielle test I hver linie: har den givne variabel signifikant effekt når variablene nedenunder er taget ud af modellen? Læses derfor nedefra Generel anbefaling: Læs nedefra og kun indtil der kommer signifikans Når data er balancerede kan vi bruge nogle af testene selvom der optræder signifikante effekter nedenunder. Parallelle test I hver linie: har den givne variabel signifikant effekt når alle variable bibeholdes i modellen? Fjern en ikke-signifikant effekt fra modellen, og kør analysen uden denne variabel. Gentag dette indtil alle effekter er signifikante. Modelkontrol: residualplot Tosidet variansanalyse med vekselvirkning: y ijk = µ + α i + β j + γ ij + ε ijk Antagelser: ε ijk er normalfordelte med middelværdi 0 og samme spredning σ alle y ijk er uafhængige Antagelsen om fælles spredning kontrolleres vha. et residualplot. Estimater for parametre: ˆµ, ˆα i, ˆβ j, ˆγ ij. Estimater for middelværdier/forventede værdier: ŷ ijk = ˆµ + ˆα i + ˆβ j + ˆγ ij Residualer er estimater for restleddene ε ijk : r i = y ijk ŷ ijk StatBK (Uge 47, torsdag) Tosidet ANOVA 23 / 29 StatBK (Uge 47, torsdag) Tosidet ANOVA 24 / 29
7 Modelkontrol: residualplot Residualplot: SAS Standardiserede residualer r i = r i sd(r i ) Hvis antagelserne er korrekte vil alle r i have middelværdi 0 og spredning 1. Kontrollerer derfor om det er tilfældet! Residualplot: tegn standardiserede residualer mod de forventede værdier, dvs. (ŷ i, r i ). Punkterne danner en punktsky omkring x-aksen. Der må ikke være noget systematisk mønster i den lodrette variation i punktskyen. Numerisk store residualer er tegn på outliers, dvs. ekstreme observationer proc glm data=ex12_8; class instruct text; model test = instruct text instruct*text; output out = uddata predicted=forventet student=stdres; proc print; proc gplot data = uddata; plot stdres*forventet; StatBK (Uge 47, torsdag) Tosidet ANOVA 25 / 29 StatBK (Uge 47, torsdag) Tosidet ANOVA 26 / 29 Eksempel: vækst af sojabønner Eksempel: vækst af sojabønner Plantefysiologisk eksperiment: 52 sojabønneplanter inddelt i fire grupper, 13 i hver To grupper blev rystet 20 minutter dagligt, to grupper blev ikke rystet To grupper af planter fik moderat lys, to grupper fik lidt lys De fire grupper svarer til kombinationer af lys og rystning Bladareal målt efter 16 dages vækst for alle 52 planter Påvirkes vækst af sojabønneplanter af stress og lys? Data taget fra Samuels and Witmer, Statistics for the Life Sciences. Spørgsmål ifm. analysen: Hvilken type model skal vi bruge? Er modelantagelserne rimelige for disse data? Påvirkes væksten af lys og stress? Hvis ja, hvordan og hvor meget? StatBK (Uge 47, torsdag) Tosidet ANOVA 27 / 29 StatBK (Uge 47, torsdag) Tosidet ANOVA 28 / 29
8 Resumé Forsøgstyper: fuldstændigt randomiserede forsøg fuldstændigt randomiserede blokforsøg tofaktorforsøg (flerfaktorforsøg) Modeller: tosidet variansanalyse med og uden vekselvirkning Trin i den statistiske analyse: modelkontrol residualplot test for vekselvirkning og hovedeffekter afrapportering af estimater og konfidensintervaller På mandag: forsøg med mere end to faktorer, hierarkiske modeller. StatBK (Uge 47, torsdag) Tosidet ANOVA 29 / 29
Program. Tosidet variansanalyse og forsøgsplanlægning. Repetition: ensidet variansanalyse. Eksempel: data fra Collinge et al
Program Tosidet variansanalyse og forsøgsplanlægning Helle Sørensen E-mail: [email protected] I formiddag: Ensidet ANOVA: repetition og Collinge eksempel. Additiv tosidet ANOVA (blokforsøg) Tosidet ANOVA
Program. Residualanalyse Flersidet variansanalyse. Opgave BK.15. Modelkontrol: residualplot
Program Residualanalyse Flersidet variansanalyse Helle Sørensen Modelkontrol (residualanalyse) i tosidet ANOVA med vekselvirkning. Test og konklusion i tosidet ANOVA (repetition) Tresidet ANOVA: the works
Modelkontrol i Faktor Modeller
Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk
Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration
Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: [email protected] Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 / 43 Indledning Sammenligning af middelværdien i to grupper indenfor en stikprøve kan
Kapitel 12 Variansanalyse
Kapitel 12 Variansanalyse Peter Tibert Stoltze stat@peterstoltzedk Elementær statistik F2011 Version 7 april 2011 1 Indledning 2 Ensidet variansanalyse 3 Blokforsøg 4 Vekselvirkning 1 Indledning 2 Ensidet
Program. Ensidet variansanalyse Sammenligning af grupper. Statistisk model og hypotese. Eksempel: Aldersfordeling i hjertestudie
Program Ensidet variansanalyse Sammenligning af grupper Helle Sørensen E-mail: [email protected] I dag: Sammenligning af middelværdier Sammenligning af spredninger Parvise sammenligninger To eksempler:
Ensidet variansanalyse
Ensidet variansanalyse Sammenligning af grupper Helle Sørensen E-mail: [email protected] StatBK (Uge 47, mandag) Ensidet ANOVA 1 / 18 Program I dag: Sammenligning af middelværdier Sammenligning af spredninger
Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ
Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet
Program. Flersidet variansanalyse og hierarkiske modeller. Eksempel: iltoptag for krabber. Eksempel: iltoptag for krabber.
Program Flersidet variansanalyse og hierarkiske modeller Helle Sørensen E-mail: [email protected] StatBK (Uge 50, mandag) Flersidet ANOVA 1 / 19 StatBK (Uge 50, mandag) Flersidet ANOVA 2 / 19 Eksempel:
Reeksamen i Statistik for Biokemikere 6. april 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på
To-sidet varians analyse
To-sidet varians analyse Repetition En-sidet ANOVA Parvise sammenligninger, Tukey s test Model begrebet To-sidet ANOVA Tre-sidet ANOVA Blok design SPSS ANOVA - definition ANOVA (ANalysis Of VAriance),
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Eksamen i Statistik for biokemikere. Blok
Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)
Module 4: Ensidig variansanalyse
Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2
Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter
Program Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve Helle Sørensen E-mail: [email protected] I formiddag: Øvelse: effekt af diæter. Repetition fra sidst... Parrede og ikke-parrede
Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)
Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:
Program. Sammenligning af grupper Ensidet ANOVA. Case 3, del II: Fiskesmag i lammekød. Case 3, del I: A-vitamin i leveren
Faculty of Life Sciences Program Sammenligning af grupper Ensidet ANOVA Claus Ekstrøm E-mail: [email protected] Sammenligning af to grupper: tre eksempler Sammenligning af mere end to grupper: ensidet
Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17
nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19
Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større
Modul 11: Simpel lineær regression
Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................
Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger
Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: [email protected] I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt
1 Hb SS Hb Sβ Hb SC = , (s = )
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.
To-sidet variansanalyse
Program 1. To-sidet variansanalyse 2. Hierarkisk princip 3. Tre (og flere) sidet variansanalyse 4. Variansanalyse med blocking 5. Flersidet variansanalyse med tilfældige faktorer 6. En oversigtsslide til
Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)
Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up
Lineær regression. Simpel regression. Model. ofte bruges følgende notation:
Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til
Module 12: Mere om variansanalyse
Module 12: Mere om variansanalyse 12.1 Parreded observationer.................. 1 12.2 Faktor med 2 niveauer (0-1 variabel)......... 3 12.3 Tosidig variansanalyse med tilfældig virkning..... 9 12.3.1 Uafhængighedsbetragtninger..........
1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.
Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller
Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.
Multiple choice opgaver Der gøres opmærksom på, at ideen med opgaverne er, at der er ét og kun ét rigtigt svar på de enkelte spørgsmål. Endvidere er det ikke givet, at alle de anførte alternative svarmuligheder
Statistik for Biokemikere Projekt
Statistik for Biokemikere Projekt Institut for Matematiske Fag Inge Henningsen og Helle Sørensen Københavns Universitet November 2008 Formalia Dette projekt udgør en del af evalueringen i kurset Statistik
Konfidensintervaller og Hypotesetest
Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller
men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller
Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =
Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12
Program 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12 Dæktyper og brændstofforbrug Data fra opgave 10.43, side 360: cars 1 2 3 4 5... radial 4.2 4.7 6.6 7.0 6.7... belt
Eksamen i Statistik for Biokemikere, Blok januar 2009
Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for Biokemikere, Blok 2 2008 09 19. januar 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet
Anvendt Statistik Lektion 6. Kontingenstabeller χ 2- test [ki-i-anden-test]
Anvendt Statistik Lektion 6 Kontingenstabeller χ 2- test [ki-i-anden-test] Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination af
Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data
Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: [email protected] Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration
Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og
Model M 0 : X hi N(α h + β h t hi,σ 2 h ), h = 1,...,m, i = 1,...,n h. m separate regressionslinjer. Behandles som i afsnit 3.3. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister)
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ
Indhold 1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) 2 1.1 Variation indenfor og mellem grupper.......................... 2 1.2 F-test for ingen
grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Multipel Lineær Regression
Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer
Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser
Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier
Module 3: Statistiske modeller
Department of Statistics ST502: Statistisk modellering Pia Veldt Larsen Module 3: Statistiske modeller 31 ANOVA 1 32 Variabelselektion 4 321 Multipel determinationskoefficient 5 322 Variabelselektion med
3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.
PhD-kursus i Basal Biostatistik, efterår 2006 Dag 1, onsdag den 6. september 2006 Eksempel: Sammenhæng mellem moderens alder og fødselsvægt I dag: Introduktion til statistik gennem analyse af en stikprøve
Kursus Introduktion til Statistik. Forelæsning 12: Variansanalyse. Per Bruun Brockhoff
Kursus 02402 Introduktion til Statistik Forelæsning 12: Variansanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800 Lyngby Danmark e-mail:
Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner
Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner I modsætning til envejs-anova kan flervejs-anova udføres selv om der er kun én
Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele
Anvendt Statistik Lektion 5 Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele Motiverende eksempel Antal minutter brugt på rengøring/madlavning: Rengøring/Madlavning
Module 12: Mere om variansanalyse
Mathematical Statistics ST06: Linear Models Bent Jørgensen og Pia Larsen Module 2: Mere om variansanalyse 2. Parreded observationer................................ 2.2 Faktor med 2 niveauer (0- variabel)........................
Tema. Dagens tema: Indfør centrale statistiske begreber.
Tema Dagens tema: Indfør centrale statistiske begreber. Model og modelkontrol Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse. konfidensintervaller Vi tager udgangspunkt i Ex. 3.1 i
Statistik Lektion 1. Introduktion Grundlæggende statistiske begreber Deskriptiv statistik
Statistik Lektion 1 Introduktion Grundlæggende statistiske begreber Deskriptiv statistik Introduktion Kursusholder: Kasper K. Berthelsen Opbygning: Kurset består af 5 blokke En blok består af: To normale
To samhørende variable
To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen
Oversigt. 1 Intro: Regneeksempel og TV-data fra B&O. 2 Model. 3 Beregning - variationsopspaltning og ANOVA tabellen. 4 Hypotesetest (F-test)
Kursus 02402/02323 Introducerende Statistik Forelæsning 11: Tovejs variansanalyse, ANOVA Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800
Normalfordelingen og Stikprøvefordelinger
Normalfordelingen og Stikprøvefordelinger Normalfordelingen Standard Normal Fordelingen Sandsynligheder for Normalfordelingen Transformation af Normalfordelte Stok.Var. Stikprøver og Stikprøvefordelinger
Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]
Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination
Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: Two-factor ANOVA (Analysis of variance) Two-factor ANOVA med interaktion
VARIANSANALYSE 2 Sidste gang: One-way(ensidet)/one-factor ANOVA I dag: (Analysis of variance) med interaktion Problem: Hvordan håndterer vi forsøg, hvor effekten er forårsaget af to faktorer og en evt.
Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression
Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives
Lineær regression i SAS. Lineær regression i SAS p.1/20
Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression
Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable
Statistik II Lektion 3 Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable Setup: To binære variable X og Y. Statistisk model: Konsekvens: Logistisk regression: 2 binære var. e e X Y P
Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge
Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange
Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test
Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,
Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).
Program 1. multipel regression 2. polynomiel regression (og andre kurver) 3. kategoriske variable 4. Determinationkoefficient og justeret determinationskoefficient 5. ANOVA-tabel 1/13 Multipel regression
Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??
Dagens Temaer k normalfordelte obs. rækker i proc glm. Test for lineær regression Test for lineær regression - via proc glm p. 1/?? Proc glm Vi indlæser data i datasættet stress, der har to variable: areal,
Besvarelse af vitcap -opgaven
Besvarelse af -opgaven Spørgsmål 1 Indlæs data Dette gøres fra Analyst med File/Open, som sædvanlig. Spørgsmål 2 Beskriv fordelingen af vital capacity og i de 3 grupper ved hjælp af summary statistics.
Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1
Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen
Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j
Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!
Vejledende besvarelse af eksamen i Statistik for biokemikere, blok
Opgave 1 Vejledende besvarelse af eksamen i Statistik for biokemikere, blok 2 2006 Inge Henningsen og Niels Richard Hansen Analysevariablen i denne opgave er variablen forskel, der for hver af 10 kvinder
Resumé: En statistisk analyse resulterer ofte i : Et estimat θˆmed en tilhørende se
Epidemiologi og biostatistik. Uge, torsdag 5. februar 00 Morten Frydenberg, Institut for Biostatistik. Type og type fejl Statistisk styrke Nogle speciale metoder: Normalfordelte data : t-test eksakte sikkerhedsintervaller
Opgave I II III IV V VI Spørgsmål (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Svar 5 4 4 2 3 1 1 5 4 1
Danmarks Tekniske Universitet Side 1 af 18 sider. Skriftlig prøve: 1. juni 2005 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle sædvanlige Dette sæt er besvaret af (navn)
Regressionsanalyse i SAS
Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse
Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.
Tema Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. (Fx. x. µ) Hypotese og test. Teststørrelse. (Fx. H 0 : µ = µ 0 ) konfidensintervaller
1 Multipel lineær regression
Indhold 1 Multipel lineær regression 2 1.1 Regression med 2 eksponeringsvariable......................... 2 1.2 Fortolkning og estimation................................ 3 1.3 AnovaTabel og multipel R
Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller
Opsamling Modeltyper: Tabelanalyse Logistisk regression Binær respons og kategorisk eller kontinuerte forklarende variable. Generaliserede lineære modeller Normalfordelt respons og kategoriske forklarende
Anvendt Statistik Lektion 4. Hypotesetest generelt Test for middelværdi Test for andele
Anvendt Statistik Lektion 4 Hypotesetest generelt Test for middelværdi Test for andele Hypoteser og Test Hypotese I statistik er en hypotese en påstand om en populationsparameter. Typisk en påstand om
1 Multipel lineær regression
1 Multipel lineær regression Regression med 2 eksponeringsvariable Fortolkning og estimation AnovaTabel og multipel R 2 Ensidet variansanalyse: Dummy kodning Kovariansanalyse og effektmodifikation Tosidet
Kvantitative Metoder 1 - Forår 2007. Dagens program
Dagens program Hypoteser: kap: 10.1-10.2 Eksempler på Maximum likelihood analyser kap 9.10 Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1 Estimationsmetoder Kvantitative
Hypotesetest. Altså vores formodning eller påstand om tingens tilstand. Alternativ hypotese (hvis vores påstand er forkert) H a : 0
Hypotesetest Hypotesetest generelt Ingredienserne i en hypotesetest: Statistisk model, f.eks. X 1,,X n uafhængige fra bestemt fordeling. Parameter med estimat. Nulhypotese, f.eks. at antager en bestemt
Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22
Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som
Kvantitative Metoder 1 - Efterår Dagens program
Dagens program Estimation: Kapitel 9.7-9.10 Estimationsmetoder kap 9.10 Momentestimation Maximum likelihood estimation Test Hypoteser kap. 10.1 Testprocedure kap 10.2 Teststørrelsen Testsandsynlighed 1
Modul 6: Regression og kalibrering
Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................
Simpel Lineær Regression
Simpel Lineær Regression Mål: Forklare variablen y vha. variablen x. Fx forklare Salg (y) vha. Reklamebudget (x). Vi antager at sammenhængen mellem y og x er beskrevet ved y = β 0 + β 1 x + u. y: Afhængige
MPH specialmodul Epidemiologi og Biostatistik
MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:
