Program Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering Helle Sørensen E-mail: helle@math.ku.dk I formiddag: Analyse af ikke-parrede stikprøver: repetition of rettelse af fejl! Lidt om parrede vs. ikke-parrede stikprøver Test af ens spredninger: Reeksamen blok 2 2007 08, opgave 2(c) Sign test for parrede stikprøver Wilcoxon rank sum test for uparrede stikprøver I eftermiddag: Forsøg på at skabe lidt overblik... Eksempler på parrede og uparrede data Eksempel: lav-glycogen Parametriske vs. ikke-parametriske metoder Lidt om projektet StatBK (Uge 3, torsdag) To stikprøver 1 / 20 StatBK (Uge 3, torsdag) To stikprøver 2 / 20 Repetition fra tirsdag: ikke-parrede stikprøver Test for ens spredninger Data: x 11,...,x 1n1 og x 21,...,x 2n2 fra to grupper. Statistisk model: alle x er uafhængige, alle x 1i N(µ 1,σ 1 ), alle x 2i N(µ 2,σ 2 ). Interesseret i µ 1 µ 2. Estimat: ˆµ 1 ˆµ 2 = x 1 x 2. To situationer: med eller uden antagelsen σ 1 = σ 2. I begge tilfælde er 95% konfidensinterval på formen x 1 x 2 ± t 0.975,df SE( x 1 x 2 ) Teststørrelse for H 0 : µ! = µ 2 på formen T = x 1 x 2 SE( x 1 x 2 ) Men udtrykket for SE( x 1 x 2 ) og antal frihedsgrader (df) er forskellige! Den nyeste version af SAS laver begge konfidensintervaller! Min gamle version lavede kun KI svarende til ens spredninger. Data: x 11,...,x 1n1 fra gruppe 1, N(µ 1,σ 1 ), uafh. Stikprøvespredning s 1. x 21,...,x 2n2 fra gruppe 2, N(µ 2,σ 2 ), uafh. Stikprøvespredning s 2. Hypotese: H 0 : σ 1 = σ 2 testes mod H A : σ 1 σ 2. Teststørrelse og p-værdi: F obs = max(s2 1,s2 2 ) min(s 2 1,s2 2 ), p = 2 P(F F obs) Viser sig at F obs skal vurderes i en F -fordeling med (df 1,df 2 ) frihedsgrader hvor { (n1 1,n (df 1,df 2 ) = 2 1) hvis s 1 > s 2 (n 2 1,n 1 1) hvis s 2 < s 1 F -tabeller i FLH tabel B11 side 474 476. StatBK (Uge 3, torsdag) To stikprøver 3 / 20 StatBK (Uge 3, torsdag) To stikprøver 4 / 20
Reeksamen blok 2 2007 08, opgave 2(c) Parrede vs. ikke-parrede stikprøver Transmittere: n 1 = 49, s 1 = 19.3 Ikke-transmittere: n 2 = 47, s 2 = 18.3. Hypotese: H 0 : σ 1 = σ 2 testes mod H A : σ 1 σ 2. Teststørrelse: F obs = max(s2 1,s2 2 ) min(s 2 1,s2 2 ) = s2 1 s 2 2 = 19.32 18.3 2 = 1.11 Er dette signifikant større end 1? Skal vurderes i F -fordeling med (48,46) frihedsgrader, tosidet. Tabel B11 i FLH side 474: 90%-fraktil i F (48,46)-ford. er cirka 1.44. Så: p = 2 P(F 1.11) 2 0.10 = 0.2 Altså ikke tegn på forskellige spredninger. Ikke-parrede eller uafhængige stikprøver: x 11,...,x 1n1 henholdsvis x 21,...,x 2n2 x 1i og x 2i ikke har noget med hinanden at gøre. n 1 og n 2 kan være forskellige Under N-antagelser: T -test baseret på x 1 x 2. To versioner: med eller uden antagelsen σ 1 = σ 2. Test evt. hypotesen σ 1 = σ 2 først. Uden N-antagelse: Wilcoxon rank sum test (eller Kruskal-Wallis) Parrede stikprøver: (x 11,x 21 ),...,(x 21,x 2n ). Observationerne hører sammen i par samme antal af hver slags. Under N-antagelse: analyse af differenser, d i = x 1i x 2i. Uden N-antagelse: Sign test eller (Wilcoxon Signed Rank test). StatBK (Uge 3, torsdag) To stikprøver 5 / 20 StatBK (Uge 3, torsdag) To stikprøver 6 / 20 Sammenligning af diæter Sammenligning af diæter: sign test Husk eksemplet side 222 med sammenligning af to diæter. 20 par af personer. Parret så personerne i et par har samme køn, (cirka) samme vægt, samme motionsniveau, samme... De to personer i et par sat på hver sin diæt: diæt 1 og 2. Vægttab efter diæt registreret for alle 40 personer. Sidste uge: Kiggede på differenserne d i = x 1i x 2i Statistisk model: d i N(µ,σ). Test for hypotese H 0 : µ = 0. Hvis vi ikke er villige til at bruge normalfordelingsantagelsen, så kan vi i stedet udføre et sign test (fortegnstest). Det var faktisk det der blev gjort i FLH, afsnit 8.1.4. Hvis der ikke er forskel på diæterne vil vi forvente at der er (cirka) lige mange par hvor personen på diæt 2 taber sig mere end personen på diæt 1 og omvendt. Det svarer til at sandsynligheden for at personen på diæt 1 taber sig mere end personen på diæt 2 i et tilfældigt par er π = 0.5. Observation, x: antal par hvor personen på diæt 1 har tabt sig mere end personen på diæt 2. Viser sig at være 13. Hypotese: π = 0.5. p-værdi: Hvis H 0 er sand, hvor sandsynligt er det så at få data der passer mindst lige så dårligt med hypotesen som x = 13? StatBK (Uge 3, torsdag) To stikprøver 7 / 20 StatBK (Uge 3, torsdag) To stikprøver 8 / 20
Sammenligning af diæter: sign test Eksempel: kalorieindtag Hvilke værdier af x passer mindst lige så dårligt med hypotesen som x = 13? Under hypotesen er x binomialfordelt med antalsparameter 20 og sandsynlighedsparameter 0.5. Brug tabel B2 side 454 457. Hvad er konklusionen? Parametrisk vs. ikke-parametrisk Færre antagelser mere robust Bruger ikke værdierne, kun fortegnet på differenserne Mindre styrke forskelle skal typisk være større før hypotesen bliver forkastet. Eksempel 9.1, side 250 i FLH: Kalorieindtag for 33 drenge, to dage. Reversion towards the mean? Følges et (meget) stort/lille indtag på dag 1 typisk af det modsatte på dag 2? Sign test: Ser på de laveste 7 og højeste 7 på dag 1. Hvorfor netop 7... obs.: antal drenge blandt de 14 der bevæger sig towards the mean, dvs. mod noget mindre ekstremt. Hvor mange? Hvad ville vi forvente hvis der ikke var reversion towards the mean? p-værdi for hypotesen om ingen reversion towards the mean effekt? Hvad er konklusionen? Kunne vi teste hypotesen med et parametrisk test? Hvordan? Under hvilke forudsætninger? StatBK (Uge 3, torsdag) To stikprøver 9 / 20 StatBK (Uge 3, torsdag) To stikprøver 10 / 20 Wilcoxons rank sum test Lille dataeksempel To uparrede stikprøver: x 11,...,x 1n1 og x 21,...,x 2n2. Antag n 1 n 2. Ordn alle observationer efter størrelse og tildel mindste obs. rang 1, næstmindste obs. rang 2, osv. Hvad er summen af alle rangene? Afhænger summen af data? Læg rangene sammen for gruppe 1 (den mindste): R WRS. Hvilken værdi ville vi forvente hvis der ikke er forskel på grupperne? Hvilke værdier passer godt med hypotesen? Hvilke værdier passer dårligt med hypotesen? Hvis hypotesen er sand, så er alle mulige kombinationer af range lige sandsynlige. p-værdi: andelen af kombinationer der passer mindst lige så dårligt med hypotesen som den observerede størrelse. Eksempel (simulerede data): Gruppe 1: 12.2 11.3 9.6 11.7 Gruppe 2: 11.4 9.8 10.1 10.3 Wilcoxon rank sum test: Tildel range Beregn R WRS. Mulige kombinationer af range i gruppe 1? Se Tabel 9.6. Fordeling af R WRS under hypotesen: Se Tabel 9.7. Bestemmelse af p-værdi og kritisk område (værdier af R WRS der fører til afvisning). Se også Tabel B10. (NB. N 1 N 2 ). StatBK (Uge 3, torsdag) To stikprøver 11 / 20 StatBK (Uge 3, torsdag) To stikprøver 12 / 20
I praksis Eksempel: Fedtindtag i to aldersgrupper FLH eksempel 7.6, side 190. Hvis n 1 og n 2 er store nok, bruges en normalfordelingsapproksimation til fordelingen af R WRS. Hvis hypotesen er sand gælder middelværdien af R WRS er n 1 (n + 1)/2 variansen af R WRS er n 1 n 2 (n + 1)/12 R WRS er approksimativt N ( n 1 (n + 1)/2,n 1 n 2 (n + 1)/12 ) Denne approksimation benyttes også af SAS! I mandags: Sammenligning med ens spredninger gav T = 0.72, p = 0.48. Wilcoxon: Tildeling af range: se Tabel 9.5. Teststørrelse R WRS = 224.5 (sum af range i lille gruppe). NB: Ties Forventet antal under hypotesen: 14 34/2 = 238 Spredning under hypotese: 14 19 34/12 = 27.453. Normeret teststørrelse, korrigeret for kontinuitet: z = 224.5 238 0.5 27.453 = 0.4735 p-værdi: p = 2 P(Z 0.4735) = 0.64 Samme konklusion i de to test. StatBK (Uge 3, torsdag) To stikprøver 13 / 20 StatBK (Uge 3, torsdag) To stikprøver 14 / 20 SAS (redigeret) Resume: overblik over ikke-parametriske test proc npar1way wilcoxon data=fat; class group; var fatpct; run; Sum of Expected Std Dev Mean group N Scores Under H0 Under H0 Score 0 19 336.50 323.0 27.450696 17.710526 1 14 224.50 238.0 27.450696 16.035714 Statistic 224.5000 Normal Approximation Z -0.4736 One-Sided Pr < Z 0.3179 Two-Sided Pr > Z 0.6358 Parrede data: Sign test som vi har set det Wilcoxon signed rank test læs selv afsnit 9.2 Friedman test: også til sammenligning af mere end to grupper med afhængige data. Ikke pensum. Uparrede data: Wilcoxon rank sum test som vi har set det Kruskal-Wallis: generalisering af Wilcoxon rank sum test til mere end to grupper. Læs selv afsnit 9.5. Z includes a continuity correction of 0.5. StatBK (Uge 3, torsdag) To stikprøver 15 / 20 StatBK (Uge 3, torsdag) To stikprøver 16 / 20
Parametriske vs. ikke-parametriske metoder Parrede vs. uparrede data Hvornår og hvorfor skal vi bruge ikke-parametriske metoder? Når der kan sås tvivl om normalfordelingsantagelsen Robusthed: færre antagelser der kan være forkerte Hvornår og hvorfor skal vi bruge parametriske metoder? Når der ikke kan sås tvivl om normalfordelingsantagelsen Bruger mere information fra data: selve værdierne snarere end blot fortegn eller range Større styrke. Afvigelser fra hypotesen opdages lettere med parametriske metoder. Eksempel 1: symmetrien af gangen hos 10 heste måles, dels i almindelig tilstand, dels efter induceret halthed. Parret eller uparret? Kunne vi have lavet eksperimentet anderledes? Hvad er pointen ved at lave designet som beskrevet? Eksempel 2: Et giftstof tilsættes til kosten hos 20 rotter. De slagtes og størrelsen af leveren registreres. Tilsvarende for 20 rotter der ikke får gift. Parret eller uparret? Kunne vi have lavet eksperimentet anderledes? StatBK (Uge 3, torsdag) To stikprøver 17 / 20 StatBK (Uge 3, torsdag) To stikprøver 18 / 20 Analyser Eksempel Parrede stikprøver: (x 11,x 21 ),...,(x 21,x 2n ). Parametrisk: analyse af differenser Ikke-parametrisk: sign test eller Wilcoxon signed rank test Ikke-parrede eller uafhængige stikprøver: x 11,...,x 1n1 henholdsvis x 21,...,x 2n2. n 1 og n 2 kan være forskellige x 1i og x 2i ikke har noget med hinanden at gøre. Parametrisk: forskellige analyser afhængig af om vi antager σ 1 = σ 2 eller ej! Kan teste hypotesen σ 1 = σ 2. Ikke-parametrisk: Wilcoxon rank sum test Eksempel fra Introduktion til SAS (hentet fra artikel af Collinge et al). Analyse: To CJD-varianter. 6 hhv. 18 observationer for de to typer. Respons: procentdel lower-molecular-mass glycoforms i PrP Spørgsmål: er procentdelen den samme i de to grupper. Tyder boxplot på at der er en forskel? Er der grund til at betvivle normalfordelingsantagelsen? Er der grund til at tro at spredningerne er forskellige? Er der grund til at der er forskel på procentdelen af lower-molecular mass glycoform for de to CJD varianter? Estimat og konfidensinterval for forskel? Sammenlign med ikke-parametrisk analyse. StatBK (Uge 3, torsdag) To stikprøver 19 / 20 StatBK (Uge 3, torsdag) To stikprøver 20 / 20