Statistik II 1. Lektion. Sandsynlighedsregning Analyse af kontingenstabeller

Transkript

1 Statistik II 1. Lektion Sandsynlighedsregning Analyse af kontingenstabeller

2 Kursusbeskrivelse Omfang 5 kursusgange (forelæsning + opgaveregning) 5 kursusgange (mini-projekt) Emner Analyse af kontingenstabeller Logistisk regression Generelle lineære modeller Software: Masser af SPSS Eksamen Mundtlig, individuel, med udgangspunkt i mini-projekt Dato: Det skal vi have aftalt mind mig lige om det!!

3 Sandsynlighedsregning Defintion: Hændelse, resultat af et eksperiment Fx hændelsen at det regner i morgen Defintion: Sandsynlighed, andelen af gange hændelsen indtræffer når vi udfører eksperimentet maaaaange gange. Fx. Kast med en mønt. Sandsynligheden for plat er 50%, da andelen af plat er 50% i det lange løb. Notation: Lad A være en hændelse. P(A) betegner sandsynligheden for hændelsen A.

4 Regneregler for sandsynligheder Lad A være en hændelse P(ikke A) = 1- P(A) Hvis A og B er hændelser, der ikke kan indtræffe samtidigt: P(A eller B) = P(A) + P(B) Fx. sandsyligheden for at yngste persons navn begynder med A eller B To hændelser er (statistisk) uafhængige hvis og kun hvis P(A og B) = P(A)P(B) Fx sandsynligheden for to 6 ere i et terningkast

5 Sandsynlighedsfordeling: Diskret variabel Defintion: Diskret variabel En variabel er diskret, hvis den kan tage højst tælleligt mange værdier. Fx. Antal børn i en familie. Antal terning kast inden 6 er. Defintion: Sandsynlighedesfunktion Sandsynligheds fordelingen for en diskret variabel er beskrevet ved en sandsynligheds funktion P(y), så 0 P(y) 1 og Σ alle y P(y) = 1 hvor y er et enkelt udfald af vores eksperiment.

6 Eksempel Spørgsmål: Hvad mener du er det ideelle antal børn? y er antal børn angivet af en tilfældigt udvalgt amerikaner. P(2) er altså sandsynligheden for at en tilfældig udvalg person svarer at det ideelle antal børn er 2 y P(y) Total 1.00

7 Sandsynlighedsfordeling: Kont. variabel Defintion: Kontinuert variabel En variabel er kontinuert, hvis den kan tage alle værdier i et interval. Fx. Højden eller indkomst for en BEM studerende. Defintion: Tæthedshedesfunktion Sandsynligheds fordelingen for en kontinuert variabel er beskrevet ved en tæthedsfunktion f(y), så 0 f(y) og f ( y) dy =1. hvor y er et enkelt udfald af vores eksperiment.

8 Eksempel Ventetid på at komme igennem til help-line: Lad T være den (tilfældige) ventetid. Sandsynligheden for at vente mere en 15 minutter: P( T 15 > 15) = f ( t) dt = %

9 Normalfordelingen Normal fordelingen har tæthedsfunktionen f ( x) hvor µ er middelværdien og σ er standardafvigelsen 1 exp ( x µ ) = πσ σ 2 2.5% 95% 2.5% µ 1.96σ µ µ+1.96σ

10 Stikprøvefordeling: Motivation Påstand: Andelen af vælgere der ville stemme på Schwarzenegger er 50%. Stikprøve: Vi spørger 508 tilfældigt udvalgte stemmeberettigede. 284 siger svarer ja. Spørgsmål 1: Hvis påstanden er korrekt, hvor mange Schwarzenegger stemmer ville vi have forventet? Spørgsmål 2: Hvad er umiddelbart det bedste bud på, hvad den sande andel af Schwarzenegger stemmer er? Spørgsmål 3: Er denne afvigelse, så stor at vi kan afvise vores påstand?

11 Simuleret svar på spørgsmål 3 Spørgsmål: Hvis påstand om 50% opbakning er korrekt, hvor ekstrem er vores rundspørge? Ide: Få en computer til at simulere 1000 kunstige rundspørger, hvor påstanden er korrekt. Konkret: Computeren kaster en mønt 508 gange og udregner andelen af plat. Gentages 1000 gange. Resultat: Andel ekstreme simulationer : 18,6%

12 Formaliseret svar Setup: Sande andel betegnes π Hypoteser: Arbejds-hypotese (H 0 ): π = 0.5 Alternativ-hypotese (H 1 ): π 0.5 Observerede andel: ˆ π = 269 / 508 = 0.53 Normal-approksimation til stikprøvefordelingen Sandsynlighed for ekstrem andel: 18,3% (p-værdi)

13 Konfidensinterval Defintion: Konfidensinterval Et 95% konfidensinterval indeholder den sande parameterværdi med 95% sikkerhed. Eksempel: Antag p er den estimerede andel baseret på n svar. Da er et 95% konfidensinterval givet ved ˆ π ± ˆ π ( 1 ˆ π ) n I Schwarzenegger eksempel 0.56 ± = 0.56 ± 0. ( ) 02 Dvs. vi 95% sikre på at den sande andel af ja er blandt vælgerne er mellem 0.54 og 0.58.

14 Variabeltyper Spørgeskemaundersøgelse (Survey) Diskrete svartyperne er Kategoriske der er et antal svarmuligheder Ordinale kategorisk, dvs. ordnede kategorier Fx. Indkomstgruppe: Lav, Mellem eller Høj Nominale kategoriske, dvs. kategorier uden ordning. Fx. Favorit M&M: Rød, Grøn eller Blå.

15 Dikotome variable Dikotom variabel: Kategorisk variabel med kun to kategorier. Fx Ja/Nej, Mand/Kvinde, Sort/Hvid. Hvis de to kategori er hhv 0 og 1kaldes variablen binær. I SPSS omkoder dikotome variable til binære hold øje med hvad omkodes til hvad.

16 Generel kontingenstabel I en kontingenstabel indeholder hver celle det antal observationer, der falder inden for den givne kombination af kategorier. Farve på foretrukne M&M Rød Grøn Blå Køn Mand % % % 60 Kvinde % % % 64 Total % % % 124 Celle: Antal personer, der er kvinde og som foretrækker rød Spørgsmål: Er der sammenhæng mellem farvevalg og køn?

17 Spørgsmålet på hovedet Spørgsmål: Er der sammenhæng mellem farvevalg og køn? Vi vender spørgsmålet på hovedet: Spørgsmål: Kan vi afvise at der ingen sammenhæng er mellem køn og farvevalg? Antag at der ingen sammenhæng er mellem køn og farvevalg. Hvilket antal observationer ville vi så forvente i hver celle i vores kontingenstabel? Vi antager at de marginale antal ligger fast, dvs. det totale antal mænd, kvinder, røde, grønne og blå.

18 Forventede antal Hvis der ingen sammenhæng er mellem køn og farvevalg, så bør procentfordelingen være den samme blandt mænd og kvinder. Farve på foretrukne M&M Rød Grøn Blå Køn Mand 60 Kvinde 64 Total % % % 124 Andel røde: 55/124 = 44.4% Forventede røde blandt mænd: 44.4% af 64 = 64*55/124 = 28.4

19 Generel formel for det forventede I hver celle har vi X ij : observerede antal i celle (i,j) E ij : forventede antal i celle (i,j) Desuden har vi N: Totale antal observationer C i : Antal observationer i te kolonne R j : Antal observationer er j te række Forventede antal for celle ( i,j ) er E ij = C i R j / N

20 Ombytning uden betydning Vi kan bytte rundt på farve og køn uden at det gør en forskel: Andelen af mænd: 60/124 = 48.4% Forventede antal mænd blandt røde: 48.4% af 55 = 55*60/124 = 28.4

21 Så langt så godt Vi har Vi har arbejdshypotesen at der ikke er sammenhæng mellem køn og farvevalg Vi har fundet de forventede antal, hvis arbejdshypotesen er sand. Vi mangler Vi mangler et mål for hvor meget de forventede antal afviger fra de forventede. Vi mangler en måde at afgøre, hvornår afvigelsen er så stor, at vi ikke længere kan acceptere arbejdshypotesen.

22 Mål for afvigelsen Vi bruger følgende mål 2 χ ( X E ) = ij E i j ij Vi kalder χ 2 ( ki-i-anden ) en teststørrelse. χ 2 bruges til at teste arbejdshypotesen. ij 2 Bemærk: χ 2 0 χ 2 = 0 perfekt match Jo større χ 2, jo mindre tror vi på arbejdshypotesen

23 χ 2 teststørrelse for eksemplet I en kontingenstabel indeholder hver celle det antal observationer, der falder inden for den givne kombination af kategorier. Køn Mand Kvinde Farve på foretrukne M&M Rød Grøn Blå χ = = Spørgsmål: 4.9 er ikke nul! Men er det så langt fra nul, at vi ikke kan acceptere arbejdshypotesen om ingen sammenhæng? Total ( ) ( ) ( ) ( )

24 Lidt mere teoretisk tilgang Vi har en teoretisk fordeling: En såkaldt χ 2 -fordeling med 2 frihedsgrader. Det røde areal svarer til sandsynligheden for at observere en mere ekstrem χ 2 -værdi. Her er arealet 8.49%. Denne værdi kaldes også p-værdien. I en general tabel med r rækker og c kolonner, vil histogrammet svare til en χ 2 -fordeling med (r-1)(c-1).

25 Beslutningen! Jo mere ekstrem χ 2 -værdi, jo mindre tror vi på arbejdshypotesen. Jo mere ekstrem χ 2 -værdi, jo mindre p-værdi. Hvis p-værdien er mindre end 5% så afviser vi arbejdshypotesen. Vi siger at testen (af arbejdshypotesen) er signifikant. Grænsen på de 5% kaldes signifikans-niveauet, og betegnes α. Signifikans-niveauet kan vælges frit, mer er typisk 10%, 5% eller 1%. Signifikans-niveauet vælges før teststørrelsen udregnes! I eksemplet kan vi ikke afvise arbejdshypotesen. Vi kan altså ikke afvise af der ingen sammenhæng er mellem køn og farvevalg.

26 Signifikanstest generelt 1) Opstil statistisk model / statistiske antagelser 1) Fx. at stikprøven er tilfældigt udvalgt. 2) Opstil arbejds-hypotese 1) Betegnes H 0, nul-hypotesen 2) Fx. uafhængighed mellem køn og farvevalg 3) Opstil alternativ-hypotese 1) Den modsatte hypotese af H 0 2) Betegnes H 1 Bemærk: Arbejdshypotesen er ikke nødvendigvis den hypotese vi tror på eller gerne vil bevise. Arbejdshypotesen er generelt valgt, så den er mere præcis end alternativ-hypotesen. Uafhængighed (ingen sammenhæng) er præcist, mens alternativet, afhængighed, kan være mange ting.

27 Signifikanstest generelt forts. 1) Vælg signifikans niveau α 1) Typisk 5%. 2) Konstruer en test-størrelse 1) Hvilke værdier er ekstreme for H 0? 2) Beregn teststørrelsen 3) Beregning af test-størrelse ordnes af SPSS 3) Beregn p-værdien 1) p-værdien er sandsynligheden for at observere en mere ekstrem test-størrelse næste gang, under antagelse af at H 0 er sand, og at modellen og dens antagelser er korrekte. 4) Hvis p-værdien < α, så kan vi ikke afvise H 0. 5) Hvis p-værdien > α, så afviser vi H 0 og accepterer H 1 hypotesen. 6) Fortolk resultatet.

28 Man begår fejl Når vi udfører en signifikanstest kan vi begå en af to fejl Type 1 fejl: Vi afviser H 0 selvom den er sand Type 2 fejl: Vi accepterer H 0 selvom den er falsk Antag modellen er korrekt, H 0 er sand og at vi har valg et signifikansniveau α. Hvad er da sandsynligheden for at begå en Type 1 fejl?

29 Lidt gode råd p-værdien er ikke sandsynligheden for at H 0 er sand. p-værdien er ikke er udtryk for styrken af sammenhængen mellem to variable. p-værdien kan fortolkes som et udtryk for hvor meget vi tror på H 0 hypotesen. HVER GANG i ser en p-værdi i SPSS ( sig. ), så gør jer hver gang klart, hvilken H 0 hypotese den passer sammen med!!! Det er nemt nu, men det bliver mere indviklet senere

30 Eksempel i SPSS Analyze Descriptive Statistics Crosstabs

31 SPSS output Opstiller hypoteser: H 0 : Uafhængighed mellem arbejdsløs og vold/trusler H 0 : Afhængighed Sig. niv. α = 5% χ 2 -teststørrelse p-værdi Da p-værdien < 0.05 afviser vi at arbejdsløshed og vold/trusler er uafhængige.

32 Mere SPSS output

33 Mere end to variable Indtil nu: Afgøre om der er en (statistisk signifikant) sammenhæng mellem to kategoriske variable. Det næste: Kan andre katogoriske kontrolvariable hjælpe med at forstå sammenhængen? Ideen er at inddele det indsamlede data efter hvert svar i kontrolvariablen. Og derefter gentage tabelanalysen for hver delmængde af data. Vi siger vi stratificerer efter kontrolvariablen. Lad os se på nogle eksempler

34 Sammenhæng mellem race og dom Morder Sort % Dom Dødsdom Anden dom Total Hvid % Total % % % % Test: H 0 : Ingen sammenhæng ml. race og dom. Teststørrelse: χ 2 = 3.1, df = 1, p = ( > 0.05 ), γ = Konklusion: Vi kan ikke afvise H 0. Dvs., vi kan ikke afvise, at der er uafhængighed mellem morders race og afsagt dom. (Simpelt: Ingen sammenhæng)

35 Kontrolvariabel: Offers race Dom Offer Dødsdom Anden dom Total Sort Morder Sort % % Hvid 111 Total % Hvid Morder Sort % Hvid % Total % % % % % Χ 2 = 0.55 df = 1 p = 0.59 γ = 1.00 Χ 2 = 96.5 df = 1 p = γ = 0.71

36 Opsummering Sammenhængen mellem race og dom var skjult Ikke-stratificeret analyse: Ikke-signifikant sammenhæng Stratificeret analyse: Signifikant sammenhæng Sammenhængen er muligvis lokal Kun signifikant sammenhæng når offer er hvid Simpsons paradoks sammenhængen er vendt Ikke-stratificeret analyse: Hvide straffes hårdest! Stratificeret analyse: Sorte straffes hårdest uanset offers race.

37 Stratificering i SPSS Stratificering efter offers race.

38

39 Elaborering: Arbejde og boligforhold Bolig God Dårlig Total Tilknytning til arbjedsmarkedet Fuldtid % Deltid % % % Pensioneret % % 892 Ingen % % 217 Total % % 1318 Test: H 0 : Ingen sammenhæng mellem arbejde og boligforhold. Teststørrelse: Χ 2 = 12.9, df = 3, p = Konklusion: Signifikant sammenhæng

40 Bemærkninger Tabellen viser sammenhængen mellem arbejde og boligforhold blandt 70-årige i 1967 og Hvad mon forklarer denne sammenhæng? Lad os stratificere efter år, dvs. separate tabeller for 1967 og 1984.

41 Elaborering: Job-status og boligstandard Bolig God Dårlig Total 1967 Tilknytning til arbjedsmarkedet Fuldtid % Deltid % % % Pensioneret % % 892 Ingen % % 217 Total % % 1318 Test: H 0 : Ingen sammenhæng ml. job-status og boligstandard. Teststørrelse: Χ 2 = 0.0, df = 3, p = Konklusion: Vi kan ikke afvise H 0 : Ingen signif. sammenhæng.

42 Elaborering: Job-status og boligstandard Bolig God Dårlig Total 1984 Tilknytning til arbjedsmarkedet Fuldtid % Deltid % % 2 4.2% Pensioneret % % 575 Ingen % 6 6.6% 91 Total % % 1318 Test: H 0 : Ingen sammenhæng ml. job-status og boligstandard. Teststørrelse: Χ 2 = 1.3, df = 3, p = Konklusion: Vi kan ikke afvise H 0 : Ingen signif. sammenhæng.

43 Konklusioner Sammenhængen mellem arbejde og boligforhold forsvinder når vi stratificerer efter kohordeår. Vi siger at kohordeåret forklarer sammenhængen mellem arbejde og boligforhold. Statistiker: Betinget uafhængighed.