Kommentarer til øvelser i basalkursus, 2. uge Opgave 2. Vi betragter målinger af hjertevægt (i g) og total kropsvægt (målt i kg) for 10 normale mænd og 11 mænd med hjertesvigt. Målingerne er taget ved obduktion. 1. Data ligger i tekstfilen T:\hjerte.tal (eller T:\hjerte.txt), med 2 kolonner af tal, først hjerte og så total, og med variabelnavne angivet i første linie. 2. Data indlæses i Analyst ved at vælge File/Open og svare på de relevante spørgsmål. Da filen her er sat op på defaultmåden, skal der bare klikkes OK, idet Delimiter er Space First row of data er 2 OK at Get variable names from first row Herefter gemmes filen i sasuser ved at vælge File/Save as by SAS name, klikke sasuser, skrive hjerte og klikke OK. Først herefter kan man komme i Edit Mode ved at klikke Edit/Mode/Edit og vi kan nu gøre klar til at definere en ekstra variabel ved at klikke Edit/Insert Columns/Numeric. Herved fås en kolonne med navnet New0001, der kan omdøbes (f.eks. til syg) ved at højreklikke på variabelnavnet og vælge Properties og herefter rette navnet. Værdierne fyldes nu ind, nemlig 1 for de første 11 observationer (de syge) og 0 for resten. 3. En grafisk sammenligning af de to grupper udføres for hver variabel (hjerte og total) for sig. Det mest overskuelige 1
er Box plots. Vælg Graphs/Box Plot og udfyld felterne hjerte Analysis syg Class klik herefter Display og skift fra Skeletal til Schematic (for at få de Box plots, der er blevet gennemgået ved forelæsningerne) og måske også fra blåt til gult for at kunne se de sorte streger og krydser i box plottene. Vi finder herved plottet hvoraf det tydeligt fremgår, at de syge har væsentligt større hjertevægt end de normale, og også en væsentlig større spredning. Bemærk, at syg også kunne være placeret i feltet BY Group, som findes ved i opsætningen af Box plottet at klikke på 2
Variables. Dette bevirker, at de to Box plots tegnes på hver sin figur, hvilket er knap så relevant, når vi ønsker en direkte sammenligning af de to grupper. Skift nu hjerte ud med total i Analysis og kør det igen, så vi får Box plots over totalvægten for de to grupper. Her ses ikke de store forskelle. Numeriske sammenligninger foretages lettest med Statistics/Descriptive/Summary Statistics, hvorefter man klikker hjerte Analysis total Analysis 3
syg Class og der klikkes Statistics, hvor der tilføjes median og Standard error. Herved får vi outputtet The MEANS Procedure N syg Obs Variable Mean Std Dev Std Error --------------------------------------------------------------- 0 10 hjerte 317.0000000 47.0932880 14.8922053 total 56.2300000 11.5383467 3.6487456 1 11 hjerte 450.0000000 139.3377192 42.0119031 total 55.6090909 11.5516626 3.4829573 --------------------------------------------------------------- N syg Obs Variable Minimum Maximum Median --------------------------------------------------------------- 0 10 hjerte 245.0000000 405.0000000 305.0000000 total 40.5000000 74.9000000 56.1500000 1 11 hjerte 285.0000000 760.0000000 450.0000000 total 41.1000000 75.3000000 54.6000000 --------------------------------------------------------------- Vi ser igen, at der fortotal ikke er de store forskelle mellem grupperne, men at patienternes hjertevægt er væsentligt større end de normales, og meget mere varierende. Bemærk, at man også her i Summary Statistics kan få tegnes Box plots ved at klikke Plots og afkrydse Box-&- Whisker plot. 4
4. For at tegne hjertevægt op mod kropsvægt for hver af de to grupper, benyttes Graphs/Scatter Plot/Two-Dimensional, og man klikker total X hjerte Y syg Class hvorved man får et billede med forskellige symboler for de to grupper. Hvis man hellere vil have de to figurer hver for sig, anbringes syg i Variables/BY Group i stedet for i Class, hvorved vi får nedenstående figurer. 5
Vi bemærker, at der for raske mænd ser ud til at være en 6
positiv sammenhæng mellem de to vægte, medens der for syge ikke er nogen særlig sammenhæng at spore. 5. I de følgende skal vi kun se på de normale mænd, og vi laver derfor en filtrering ved at klikke Data/Filter/Subset Data og derefter klikke syg, vælge IN-operatoren, klikke <LOOKUP distinct values>, klikke 0 og derefter OK/OK. Over data fremkommer nu Where syg IN ( 0 ), der angiver, at vi nu kun beskæftiger os med normale mænd. Vi kan nu lave et histogram ved at klikke Graphs/Histogram og klikke hjerte Analysis evt. klikke Display og vælge Midpoints, samt måske skifte skala fra Percent til Count i Scale of vertical axis. Klik også Fit og afkryds Normal Parameters for at få overlejret histogrammet med en tilpasset normalfordeligstæthed. Vi får billedet For at bestemme et normalområde, benytter vi nu nogle 7
størrelser fra tabellen ovenfor, nærmere betegnet gennemsnittet 317.00g og spredningen (Std Dev) 47.09g. Herved finder vi, idet 97.5% fraktilen i en t-fordeling med 9 frihedsgrader slås op til 2.262 Normalområde: 317.00 ± 2.262 47.09 = (210.5, 423.5) 6. Hvis vi i stedet vil bestemme et konfidensinterval for middelværdien, skal vi i stedet for spredningen bruge standard error of the mean (Std Error), som fra tabellen ses at være 14.89g, hvorved vi finder Konfidensinterval for middelværdi: 317.00 ± 2.262 14.89 = (283.3, 350.7) Opgave 3. Vedlagt var to tabeller vedrørende kønsfordelingen blandt børnene i norske familier, opdelt efter familiestørrelse. 1. Bemærk, at familierne godt kan indgå flere steder i tabellerne, således at forstå, at familier med 3 børn figurerer både som 1-barns familie (med det ældste barn), 2-barns familie (med de to ældste børn) og 3-barns familie (med alle børn). 2. I lyset af de forskellige mekanismer, der gør sig gældende i folks valg af, hvor mange børn, de får, formodes det, at det bedste estimat for sandsynligheden for at en nyfødt i Norge er af hankøn fås ud fra tabellen over kønnet blandt førstefødte. Estimatet bliver altså 317528 617519 = 0.514 8
eller 51.4%, som det også er anført i tabel 1. Om dette er udtryk for en overhyppighed af drengefødsler eller ej, skulle nu afgøres ved at vurdere 317528 i en binomialfordeling Bin(617519, 1 2 ) hvilket helt klart ikke er nogen rar opgave for en lommeregner (eller en computer for den sags skyld). Man behøver her en normalfordelingsapproksimation til binomialfordelingen. 3. Baseret på ovenstående skøn (51.4%=0.514 for sandsynligheden for en drengefødsel) og binomialfordelingen, kan vi udregne sandsynligheden for x drenge (hhv. 0,1,2,3 og 4) i en 4-barns familie som P(X = x) = ( 4 x ) 0.514 x 0.486 4 x og vi finder disse til x P(X=x) i % 0 0.05578855 5.6 1 0.23601082 23.6 2 0.37441223 37.4 3 0.26398887 26.4 4 0.06979953 7.0 4. Ved at gange med det totale antal 4-barnsfamilier, kan vi sammenligne denne forventede fordeling med den observerede fordeling af antal drenge i 4-barnsfamilier. 9
x obs. antal forv. antal obs.-forv. 0 3969 3271 +698 1 13901 13836 +65 2 20806 21950-1144 3 15251 15477-226 4 4699 4092 +607 Man bemærker, at der er for mange familier med 4 enskønnede børn og for få med 2 af hver. Modellen passer nogenlunde for familier med en af den ene slags og 3 af den anden slags. Sammenholdt med tabel 1, hvoraf man ser at sandsynligheden for en drengefødsel afhænger af hvor mange drenge, man har i forvejen, må vi konkludere Det ser ud til, at nogle kvinder har tendens til at føde drenge og andre til at føde piger. Ser vi desuden (i tabel 2) på sandsynligheden for at få et barn mere, ser vi, at denne også afhænger af kønsfordelingen blandt de børn, man har i forvejen, således at kvinder med enskønnede børn har større tendens til at få et barn mere. Men så får de jo (groft sagt) bare en til af dem de allerede har i forvejen, og så forstærker det den ovenfor fundne effekt. Altså: Der er selektion: De kvinder, der har tendens til at få samme slags børn hver gang, får generelt flere børn. En del af den fundne overhyppighed af enskønnede søskende kan dog også skyldes forekomst af flerfoldsfødsler... 10