Kommentarer til øvelser i basalkursus, 2. uge

Relaterede dokumenter
Øvelser til basalkursus, 2. uge

Vi ønsker at konstruere normalområder for stofskiftet, som funktion af kropsvægten.

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Besvarelse af vitcap -opgaven

Basal statistik for sundhedsvidenskabelige forskere, efterår 2014 Udleveret 30. september, afleveres senest ved øvelserne i uge 44 (

Basal statistik. 30. januar 2007

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Basal Statistik - SPSS

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

Opgavebesvarelse, brain weight

Basal Statistik - SPSS

Statistik viden eller tilfældighed

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Program. Konfidensinterval og hypotesetest, del 2 en enkelt normalfordelt stikprøve I SAS. Øvelse: effekt af diæter

2 -test. Fordelingen er særdeles kompleks at beskrive med matematiske formler. 2 -test blev opfundet af Pearson omkring år 1900.

Løsning til eksamen d.27 Maj 2010

Opgavebesvarelse, Basalkursus, uge 3

Hjemmeopgave, efterår 2009

En Introduktion til SAS. Kapitel 5.

Opgavebesvarelse, Basalkursus, uge 3

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Skriftlig eksamen Science statistik- ST501

Statistiske Modeller 1: Kontingenstabeller i SAS

Binomial fordeling. n f (x) = p x (1 p) n x. x = 0, 1, 2,...,n = x. x x!(n x)! Eksempler. Middelværdi np og varians np(1 p). 2/

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

Opgavebesvarelse, Basalkursus, uge 3

Phd-kursus i Basal Statistik, Opgaver til 1. uge

Phd-kursus i Basal Statistik, Opgaver til 1. uge Opgave 1: Sundby

Basal statistik. 29. januar 2008

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. marts, afleveres senest ved øvelserne i uge 14 (2.-4.

Basal Statistik - SPSS

χ 2 -test i GeoGebra Jens Sveistrup, Gammel Hellerup Gymnasium

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (

Basal statistik for lægevidenskabelige forskere, forår 2012 Udleveret 6.marts, afleveres senest ved øvelserne i uge 15 (

Opgavebesvarelse, brain weight

Phd-kursus i Basal Statistik, Opgaver til 1. uge

Ovenstående figur viser et (lidt formindsket billede) af 25 svampekolonier på en petriskål i et afgrænset felt på 10x10 cm.

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Basal Statistik - SPSS

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

6. SEMESTER Epidemiologi og Biostatistik Opgaver til Uge 1 (fredag)

KURSUS I ANALYSEPORTALEN (AP) DANSK PALLIATIV DATABASE 3 1. ÅBNING AF ANALYSEPORTALEN 3 2. OPRETTELSE AF EN RAPPORT DVS. START AF DATAANALYSE 4

Statistik (deskriptiv)

9. Chi-i-anden test, case-control data, logistisk regression.

Reeksamen i Statistik for Biokemikere 6. april 2009

Anvendt Statistik Lektion 5. Sammenligning af to grupper * Sammenligning af middelværdier * Sammenligning af andele

Basal Statistik - SPSS

Phd-kursus i Basal Statistik, Opgaver til 1. uge

Statistik i GeoGebra

Basal Statistik - SPSS

Postoperative komplikationer

Introduktion til SPSS

Basal statistik. 2. september 2008

Easy Guide i GallupPC

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Løsning eksamen d. 15. december 2008

Løsning til øvelsesopgaver dag 4 spg 5-9

Besvarelse af juul2 -opgaven

Program. Sammenligning af to stikprøver Ikke-parametriske metoder Opsummering. Test for ens spredninger

Ex µ = 3,σ 2 = 1 og µ = 1,σ 2 = 4. hvor. Vha. R: Vha. tabel:

Klasseøvelser dag 2 Opgave 1

HOFTEALLOPLASTIK - DATAUDTRÆK OG IMPORT TIL EXCEL

Basal Statistik - SPSS

Reeksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for Biokemikere, Blok januar 2009

Statistik FSV 4. semester 2014 Øvelser Uge 2: 11. februar

ØVELSE 2B. Formål Det primære formål med denne øvelse er at prøve nogle vigtige procedurer til statistisk og grafisk analyse.

Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november)

Sådan opretter du en elektronisk aflevering

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen

Kort intro til SAS. Efterår Janne Petersen Judith L Jacobsen Lene Theil Skovgaard

Basal statistik for lægevidenskabelige forskere, forår Udleveret 12. februar, afleveres senest ved øvelserne i uge 10 (6.-9.

MPH specialmodul Epidemiologi og Biostatistik

2 Gennemsnitligt indhold af aktivt stof i en tablet fra et glas med 200 tabletter

3.600 kg og den gennemsnitlige fødselsvægt kg i stikprøven.

Oprettelse af Titelblok i Capture og Capture CIS

Kønsproportion og familiemønstre.

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Faculty of Health Sciences. Basal Statistik. Logistisk regression mm. Lene Theil Skovgaard. 5. marts 2018

5.11 Middelværdi og varians Kugler Ydelse for byg [Obligatorisk opgave 2, 2005]... 14

Hvorfor SAS Kort intro til SAS

Program: 1. Repetition: fordeling af observatorer X, S 2 og t. 2. Konfidens-intervaller, hypotese test, type I og type II fejl, styrke.

Lineær regression i SAS. Lineær regression i SAS p.1/20

For nemheds skyld: m = 2, dvs. interesseret i fordeling af X 1 og X 2. Nemt at generalisere til vilkårligt m.

Institut for Matematiske Fag Matematisk Modellering 1 UGESEDDEL 6

Løsning til eksaminen d. 14. december 2009

Kvantitative Metoder 1 - Forår Dagens program

Øvelser i epidemiologi og biostatistik, 6. april 2010 Baseline-informationer fra Ebeltoft datasættet Eksempel på besvarelse

Statistiske modeller

Nanostatistik: Opgavebesvarelser

Følgende tabel (fra Fisher) giver forøgelsen af sovetiden i timer fra et eksperiment med 10 patienter vedrørende 2 sovemidler A og B.

Vejledning i LPR-Avanceret (LPR-kuben)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Transkript:

Kommentarer til øvelser i basalkursus, 2. uge Opgave 2. Vi betragter målinger af hjertevægt (i g) og total kropsvægt (målt i kg) for 10 normale mænd og 11 mænd med hjertesvigt. Målingerne er taget ved obduktion. 1. Data ligger i tekstfilen T:\hjerte.tal (eller T:\hjerte.txt), med 2 kolonner af tal, først hjerte og så total, og med variabelnavne angivet i første linie. 2. Data indlæses i Analyst ved at vælge File/Open og svare på de relevante spørgsmål. Da filen her er sat op på defaultmåden, skal der bare klikkes OK, idet Delimiter er Space First row of data er 2 OK at Get variable names from first row Herefter gemmes filen i sasuser ved at vælge File/Save as by SAS name, klikke sasuser, skrive hjerte og klikke OK. Først herefter kan man komme i Edit Mode ved at klikke Edit/Mode/Edit og vi kan nu gøre klar til at definere en ekstra variabel ved at klikke Edit/Insert Columns/Numeric. Herved fås en kolonne med navnet New0001, der kan omdøbes (f.eks. til syg) ved at højreklikke på variabelnavnet og vælge Properties og herefter rette navnet. Værdierne fyldes nu ind, nemlig 1 for de første 11 observationer (de syge) og 0 for resten. 3. En grafisk sammenligning af de to grupper udføres for hver variabel (hjerte og total) for sig. Det mest overskuelige 1

er Box plots. Vælg Graphs/Box Plot og udfyld felterne hjerte Analysis syg Class klik herefter Display og skift fra Skeletal til Schematic (for at få de Box plots, der er blevet gennemgået ved forelæsningerne) og måske også fra blåt til gult for at kunne se de sorte streger og krydser i box plottene. Vi finder herved plottet hvoraf det tydeligt fremgår, at de syge har væsentligt større hjertevægt end de normale, og også en væsentlig større spredning. Bemærk, at syg også kunne være placeret i feltet BY Group, som findes ved i opsætningen af Box plottet at klikke på 2

Variables. Dette bevirker, at de to Box plots tegnes på hver sin figur, hvilket er knap så relevant, når vi ønsker en direkte sammenligning af de to grupper. Skift nu hjerte ud med total i Analysis og kør det igen, så vi får Box plots over totalvægten for de to grupper. Her ses ikke de store forskelle. Numeriske sammenligninger foretages lettest med Statistics/Descriptive/Summary Statistics, hvorefter man klikker hjerte Analysis total Analysis 3

syg Class og der klikkes Statistics, hvor der tilføjes median og Standard error. Herved får vi outputtet The MEANS Procedure N syg Obs Variable Mean Std Dev Std Error --------------------------------------------------------------- 0 10 hjerte 317.0000000 47.0932880 14.8922053 total 56.2300000 11.5383467 3.6487456 1 11 hjerte 450.0000000 139.3377192 42.0119031 total 55.6090909 11.5516626 3.4829573 --------------------------------------------------------------- N syg Obs Variable Minimum Maximum Median --------------------------------------------------------------- 0 10 hjerte 245.0000000 405.0000000 305.0000000 total 40.5000000 74.9000000 56.1500000 1 11 hjerte 285.0000000 760.0000000 450.0000000 total 41.1000000 75.3000000 54.6000000 --------------------------------------------------------------- Vi ser igen, at der fortotal ikke er de store forskelle mellem grupperne, men at patienternes hjertevægt er væsentligt større end de normales, og meget mere varierende. Bemærk, at man også her i Summary Statistics kan få tegnes Box plots ved at klikke Plots og afkrydse Box-&- Whisker plot. 4

4. For at tegne hjertevægt op mod kropsvægt for hver af de to grupper, benyttes Graphs/Scatter Plot/Two-Dimensional, og man klikker total X hjerte Y syg Class hvorved man får et billede med forskellige symboler for de to grupper. Hvis man hellere vil have de to figurer hver for sig, anbringes syg i Variables/BY Group i stedet for i Class, hvorved vi får nedenstående figurer. 5

Vi bemærker, at der for raske mænd ser ud til at være en 6

positiv sammenhæng mellem de to vægte, medens der for syge ikke er nogen særlig sammenhæng at spore. 5. I de følgende skal vi kun se på de normale mænd, og vi laver derfor en filtrering ved at klikke Data/Filter/Subset Data og derefter klikke syg, vælge IN-operatoren, klikke <LOOKUP distinct values>, klikke 0 og derefter OK/OK. Over data fremkommer nu Where syg IN ( 0 ), der angiver, at vi nu kun beskæftiger os med normale mænd. Vi kan nu lave et histogram ved at klikke Graphs/Histogram og klikke hjerte Analysis evt. klikke Display og vælge Midpoints, samt måske skifte skala fra Percent til Count i Scale of vertical axis. Klik også Fit og afkryds Normal Parameters for at få overlejret histogrammet med en tilpasset normalfordeligstæthed. Vi får billedet For at bestemme et normalområde, benytter vi nu nogle 7

størrelser fra tabellen ovenfor, nærmere betegnet gennemsnittet 317.00g og spredningen (Std Dev) 47.09g. Herved finder vi, idet 97.5% fraktilen i en t-fordeling med 9 frihedsgrader slås op til 2.262 Normalområde: 317.00 ± 2.262 47.09 = (210.5, 423.5) 6. Hvis vi i stedet vil bestemme et konfidensinterval for middelværdien, skal vi i stedet for spredningen bruge standard error of the mean (Std Error), som fra tabellen ses at være 14.89g, hvorved vi finder Konfidensinterval for middelværdi: 317.00 ± 2.262 14.89 = (283.3, 350.7) Opgave 3. Vedlagt var to tabeller vedrørende kønsfordelingen blandt børnene i norske familier, opdelt efter familiestørrelse. 1. Bemærk, at familierne godt kan indgå flere steder i tabellerne, således at forstå, at familier med 3 børn figurerer både som 1-barns familie (med det ældste barn), 2-barns familie (med de to ældste børn) og 3-barns familie (med alle børn). 2. I lyset af de forskellige mekanismer, der gør sig gældende i folks valg af, hvor mange børn, de får, formodes det, at det bedste estimat for sandsynligheden for at en nyfødt i Norge er af hankøn fås ud fra tabellen over kønnet blandt førstefødte. Estimatet bliver altså 317528 617519 = 0.514 8

eller 51.4%, som det også er anført i tabel 1. Om dette er udtryk for en overhyppighed af drengefødsler eller ej, skulle nu afgøres ved at vurdere 317528 i en binomialfordeling Bin(617519, 1 2 ) hvilket helt klart ikke er nogen rar opgave for en lommeregner (eller en computer for den sags skyld). Man behøver her en normalfordelingsapproksimation til binomialfordelingen. 3. Baseret på ovenstående skøn (51.4%=0.514 for sandsynligheden for en drengefødsel) og binomialfordelingen, kan vi udregne sandsynligheden for x drenge (hhv. 0,1,2,3 og 4) i en 4-barns familie som P(X = x) = ( 4 x ) 0.514 x 0.486 4 x og vi finder disse til x P(X=x) i % 0 0.05578855 5.6 1 0.23601082 23.6 2 0.37441223 37.4 3 0.26398887 26.4 4 0.06979953 7.0 4. Ved at gange med det totale antal 4-barnsfamilier, kan vi sammenligne denne forventede fordeling med den observerede fordeling af antal drenge i 4-barnsfamilier. 9

x obs. antal forv. antal obs.-forv. 0 3969 3271 +698 1 13901 13836 +65 2 20806 21950-1144 3 15251 15477-226 4 4699 4092 +607 Man bemærker, at der er for mange familier med 4 enskønnede børn og for få med 2 af hver. Modellen passer nogenlunde for familier med en af den ene slags og 3 af den anden slags. Sammenholdt med tabel 1, hvoraf man ser at sandsynligheden for en drengefødsel afhænger af hvor mange drenge, man har i forvejen, må vi konkludere Det ser ud til, at nogle kvinder har tendens til at føde drenge og andre til at føde piger. Ser vi desuden (i tabel 2) på sandsynligheden for at få et barn mere, ser vi, at denne også afhænger af kønsfordelingen blandt de børn, man har i forvejen, således at kvinder med enskønnede børn har større tendens til at få et barn mere. Men så får de jo (groft sagt) bare en til af dem de allerede har i forvejen, og så forstærker det den ovenfor fundne effekt. Altså: Der er selektion: De kvinder, der har tendens til at få samme slags børn hver gang, får generelt flere børn. En del af den fundne overhyppighed af enskønnede søskende kan dog også skyldes forekomst af flerfoldsfødsler... 10