Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Save this PDF as:
 WORD  PNG  TXT  JPG

Størrelse: px
Starte visningen fra side:

Download "Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013"

Transkript

1 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation. Herefter blev der udtaget et eller flere æg samt (i princippet) to ægblærevæsker, en fra hver æggestok. Kvaliteten af de udtagne æg blev vurderet, og et antal hormoner blev målt i ægblærevæskerne, heriblandt testosteron (nmol/l) og InhibinB (ng/ml). For 4 kvinder lykkedes det ikke at opnå nogle æg eller ægblærer, og for visse af de 96 resterende var det (af forskellige årsager) ikke muligt at foretage alle hormonbestemmelserne. På hjemmesiden ligger oplysninger på 96 kvinder, dels af den anvendte stimulationsmetode (treat) og dels af de 4 hormonkoncentrationer (to hormoner, på såvel højre som venstre side). Datasættet indeholder ikke individuelle registreringer af kvaliteten af de udtagne æg, men nedenfor ses en opgørelse over fordelingen af lav resp. høj kvalitet af disse, sammenholdt med stimulationsmetoden Ægkvalitet dårlig god Total Treat= Treat= Total I de første 4 spørgsmål fokuserer vi udelukkende på målingerne på venstre side 1. Lav en figur til illustration af forskellene på de to behandlingsgrupper forsåvidt angår testosteron? Udfør på baggrund af denne tegning en sammenligning af de to grupper på passende skala og kvantificer forskellen med konfidensinterval. 1

2 Vi starter med et simpelt scatter plot proc gplot data=a1; plot testo_left*treat; som dog er gjort lidt pænere ved at skrive title spm 1 ; proc gplot data=a1; plot testo_left*treat / frame haxis=axis1 vaxis=axis2; axis1 offset=(8,8) value=(h=3) minor=none label=(h=3); axis2 value=(h=3) minor=none label=(a=90 R=0 H=3); symbol1 v=circle i=none c=blue h=3; Man bemærker her, at fordelingen i begge grupper er en anelse skæv, med en hale mod de høje værdier. Da vi er på vej mod en sammenligning af grupperne med et T-test, forsøger vi at transformere med 2

3 logaritmen for at opnå symmetriske fordelinger (helst normalfordelinger). Her er anvnedt 10-tals logaritmer, men det spiller ingen rolle. Ud fra denne figur ser det fornuftigt ud at foretage et uparret T-test, idet Observationerne antages uafhængige (forskellige kvinder) Der synes at være nogenlunde samme variation i begge grupper Fordelingerne ser rimeligt symmetriske/normalfordelte ud Man kan selvfølgelig supplere med fraktildiagrammer, men det skønnes ikke at være nødvendigt her, ikke mindst fordi fordelingsantagelsen ikke er voldsomt kritisk, hvis vi blot skal sammenligne middelværdier og ikke udtale os om enkeltindivider. Vi udfører så det uparrede T-test: proc ttest data=a1; class treat; var log_testo_left; og får outputtet 3

4 The TTEST Procedure Variable: log_testo_left treat N Mean Std Dev Std Err Minimum Maximum Diff (1-2) treat Method Mean 95% CL Mean Std Dev Diff (1-2) Pooled Diff (1-2) Satterthwaite Method Variances DF t Value Pr > t Pooled Equal Satterthwaite Unequal Equality of Variances Method Num DF Den DF F Value Pr > F Folded F Her ser vi Der indgår i alt 90 personer i vores sammenligning, idet nogle kvinder har manglende værdier for testosteron på venstre side. Spredningerne i de to grupper er meget ens ( hhv , P-værdi for test af identitet af disse er Middelværdierne i de to grupper er ikke signifikant forskellige (P=0.13). Den estimerede forskel på de to behandlinger er (på logaritmisk skala) , med et konfidensinterval på ( , ). Tilbagetransformeres dette, fås et ratio-estimat på = 1.135, altså at treat=1 ligger 13.5% højere end treat=2, med et konfidensinterval på (0.96, 1.34), dvs. svarende til fra 4% under til 24% over. 2. Lav en figur til at illustrere sammenhængen mellem inhibinb og testosteron, begge målt på venstre side (benyt evt. symboler svarende til de to forskellige stimulationer). Udfør på denne baggrund en lineær regressionsanalyse (igen på passende skala), med inhibin (venstre side) som outcome og testosteron (venstre side) som forklarende variabel. Angiv estimater for intercept og hældning med konfidensintervaller samt 4

5 spredning omkring regressionslinien. Giv også, så vidt muligt, fortolkninger af disse. Her er det naturligt at starte med et scatterplot, hvor outcome (inhibin på venstre side) sættes på Y-aksen, medens kovariaten (testosteron på venstre side) sættes på X-aksen. Nedenfor er tilføjet regressionslinier som støtte for vurderingen af rimeligheden af forudsætningerne for at foretage regressionsanalysen. Denne figur viser, at residualerne fra en regressionsanalyse på disse utransformerede data ville have to problemer Residualerne har ikke samme spredning for alle niveuer af outcome, men har derimod en tendens til at være større (numerisk, dvs. både store neagtive og store positive værdier) for de høje (forventede) værdier af outcome. Dette illustreres også ved det trompetagtige udseende af plottet af residualer mod forventede værdier for denne regressionsanalyse på utransformeret skala 5

6 Residualerne er ikke normalfordelte, men har en hale mod de store værdier. Dette illustreres bedst ved et fraktildiagram, der klart har hængekøjefacon I lyset af disse problemer, vil vi transformere vores outcome med en logaritme, og vi holder os til 10-tals logaritmen. Der er ikke noget i de ovenstående problemer, der indikerer, at vi skal transformere vores kovariat. I så fald skulle der fremkomme buer på et plot af residualer mod kovariaten, men da dette fuldstændig vil ligne ovenstående plot mod de forventede værdier (bortset fra en 6

7 spejling), kan vi allerede ud fra det ovenstående se, at der næppe er nogen problemer med lineariteten. Alligevel kan det rent fortolkningsmæssigt være rimeligt at transformere kovariaten også, da der i begge tilfælde er tale om koncentrationer. Vi vil derfor her vise begge muligheder, og de forskellige fortolkninger, de fører til. Først situationen, hvor kovariaten (testosteron, venstre side) ikke er logaritmeret: med den tilhørende regressionsanalyse: proc glm data=a1; model log_inhibin_left = testo_left / solution clparm; The GLM Procedure Number of Observations Read 96 Number of Observations Used 89 The GLM Procedure 7

8 Dependent Variable: log_inhibin_left Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE log_inhibin_left Mean Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 testo_left <.0001 Parameter 95% Confidence Limits Intercept testo_left Vi er nu nede på 89 observationer i analysen, idet der yderligere er røget en ud på grund af manglende værdier for inhibin på venstre side. Estimatet for interceptet ses at være med tilhørende konfidensinterval (1.750, 2.067), men dette er helt meningsløst, da det refererer til en testosteronværdi på 0. Estimatet for hældningen er , med et konfidensinterval på ( , ) og dette viser tydeligt den negative association mellem de to hormonværdier. Hvis vi omsætter relationen til den oprindelige skala, har vi inhibin = 10 ( testosteron) = testosteron Fortolkningen af den tilbagetransformerede hældning = 0.97 er altså, at hver gang testosteron øges med 1 enhed, så falder inhibin med 3%. Hvis testosteron øges med 10 enheder, bliver den tilsvarende faktor = = 0.73, altså et fald på 27%. Estimatet for spredningen omkring regressionslinien er , og dette skal bruges til konstruktion af normalområder. Man kan godt tilbagetransformere denne spredning, men så bliver det hele meget sværere. Det er bedst (lettest) at udregne normalområder på logaritmisk skala og så tilbagetransformere endepunkterne. Dette skal vi gøre i spørgsmål 3 nedenfor. 8

9 Hvis vi også logaritmetransformerer kovariaten testosteron: og dernæst laver regressionsanalysen proc glm data=a1; model log_inhibin_left = log_testo_left / solution clparm; finder vi outputtet The GLM Procedure Number of Observations Read 96 Number of Observations Used 89 The GLM Procedure Dependent Variable: log_inhibin_left Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE log_inhibin_left Mean

10 Standard Parameter Estimate Error t Value Pr > t log-inhibin for testo <.0001 Parameter 95% Confidence Limits log-inhibin for testo Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 log_testo_left <.0001 Parameter 95% Confidence Limits Intercept log_testo_left Estimatet for interceptet ses at være med tilhørende konfidensinterval (2.350, 3.410), men dette er næsten ligeså meningsløst som ovenfor, idet det refererer til en testosteronværdi på 1 (fordi logaritmen til 1 er 0). Estimatet for hældningen er , med et konfidensinterval på ( 1.341, 0.587), som igen viser den negative association mellem de to hormonværdier. Hvis vi omsætter relationen til den oprindelige skala, har vi denne gang inhibin = 10 ( log10(testosteron)) = testosteron altså meget tæt på en omvendt proportionalitet. I dette tilfælde er det således ikke strengt nødvendigt at tilbagetransformere hældningen. Gør man det alligevel, får man effekten af at 10-doble testosteronværdien, = 0.11, altså at inhibin falder med 89% eller til 11% af hvad den var før. Interessant er det, at når begge variable (outcome såvel som kovariat) logaritmetransformeres, så får man samme hældning uanset hvilken logaritme, man benytter (blot man selvfølgelig benytter samme logaritme på begge). Det betyder, at man også direkte kan se effekten af en fordobling af testosteronværdien, nemlig en faktor = 0.51, på inhibin-værdien, altså et fald til ca. halvdelen, netop svarende til den omvendte proportionalitet. Estimatet for spredningen omkring regressionslinien er , næsten fuldstændigt det samme som ovenfor (0.3026), så det er svært på denne 10

11 baggrund at sige, hvilken model, der er bedst. Vi kan lige med et par residualplots (svarende til dem ovenfor for den utransformerede outcome variable) sikre os, at vores model ser fornuftig ud. Det ses, at forudsætningerne ser fornuftige ud, idet residualerne har nogenlunde samme spredning uanset niveauet af outcome variablen, og at de er nogenlunde normalfordelte. Samme konklusion fås fra modelkontrol i tilfælde af, at kovariaten ikke er logaritmetransformeret. 11

12 3. Hvad er den forventede værdi af inhibinb for en kvinde med en testosteron på 30? Og hvad er normalområdet for sådanne kvinder? Er det usædvanligt at se en kvinde med en inhibinb-værdi på 100 og en testosteron-værdi på 30? I modellen, hvor kovariaten testosteron er utransformeret, finder vi den ønskede predikterede værdi ved hjælp af en estimate-sætning: proc glm data=a1; model log_inhibin_left = testo_left / solution clparm; estimate log-inhibin for testo 30 intercept 1 testo_left 30; som giver de ekstra linier Standard Parameter Estimate Error t Value Pr > t log-inhibin for testo <.0001 Parameter 95% Confidence Limits log-inhibin for testo Den predikterede inhibin værdi er således = 31.0, og normalområdet på logaritmisk skala er ± = (0.886, 2.097) Da dette indeholder 2 = log 10 (100) er kombinationen ikke usædvanlig. Vi kan også tilbagetransformere normalområdet til 10 (0.886,2.097) = (7.69, ), som jo indeholder 100. I modellen hvor testosteron også er logaritmetransformeret, skal vi lige huske at benytte den transformerede værdi i estimate-sætningen, altså log10(30)=1.477 proc glm data=a1; model log_inhibin_left = log_testo_left / solution clparm; estimate log-inhibin for testo 30 intercept 1 log_testo_left 1.477; 12

13 hvorved vi finder Standard Parameter Estimate Error t Value Pr > t log-inhibin for testo <.0001 Parameter 95% Confidence Limits log-inhibin for testo Den predikterede inhibin værdi er her = 28.5, og normalområdet på logaritmisk skala er ± = (0.849, 2.062). Da dette indeholder 2 = log 10 (100) er kombinationen ikke usædvanlig. Vi kan også tilbagetransformere normalområdet til 10 (0.849,2.062) = (7.06, ), som jo indeholder 100. Hvis man havde gennemført disse beregninger i en model, hvor inhibin ikke var logaritmetransformeret, ville man have fået et normalområde, der indeholdt negative værdier. Dette bør altid lede til eftertanke om, hvad der er galt med modellen!! Bemærk i øvrigt, at det i dette spørgsmål er vigtigt om normalfordelingen og den konstante varians (spredning) holder, idet vi udtaler os om enkeltobservationer. I de to næste spørgsmål fokuserer vi på prediktion af inhibin målinger på venstre side. I spørgsmål 2 ovenfor predikterede vi denne ud fra testosteron på venstre side, men nu inddrager vi også hormoner målt på højre side som forklarende variable. 4. Er testosteron værdien på højre side ligeså god til at prediktere som testosteron på venstre side var (i spørgsmål 2)? Vi springer over scatterplot, modelkontrol osv., da dette helt følger overvejelserne fra forrige spørgsmål. Endvidere ser vi kun på situationen, hvor kovariaten også er logaritmetransformeret. 13

14 proc glm data=a1; model log_inhibin_left = log_testo_right / solution clparm; estimate log-inhibin for testo 30 intercept 1 log_testo_right 1.477; som giver outputtet The GLM Procedure Number of Observations Read 96 Number of Observations Used 84 The GLM Procedure Dependent Variable: log_inhibin_left Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected Total R-Square Coeff Var Root MSE log_inhibin_left Mean Standard Parameter Estimate Error t Value Pr > t log-inhibin for testo <.0001 Parameter 95% Confidence Limits log-inhibin for testo Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 log_testo_right Parameter 95% Confidence Limits Intercept log_testo_right Med højre sides testosteronværdi som kovariat bliver spredningen omkring regressionslinien estimeret til , altså noget større end før (hvor vi fik ). Det lyder umiddelbart meget rimeligt, at venstresiden er bedre til at prediktere venstresiden af inhibin. Bemærk dog lige, at vores sammenligning strengt taget ikke er helt fair, idet vi i denne sidste analyse er helt nede på 84 observationer i 14

15 alt. Det skyldes formentlig, at analysen nu involverer målinger fra såvel højre som venstre side, med deraf følgende større risiko for manglende værdier. Vi kan også prøve at lade begge værdier indgå som kovariater på samme tid: proc glm data=a1; model log_inhibin_left = log_testo_left log_testo_right / solution clparm; og finder så: The GLM Procedure Number of Observations Read 96 Number of Observations Used 84 Dependent Variable: log_inhibin_left Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE log_inhibin_left Mean Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 log_testo_left log_testo_right Parameter 95% Confidence Limits Intercept log_testo_left log_testo_right altså en virkelig klar indikation af, hvilken prediktor, der er bedst, da venstreside målingerne er en stærkt signifiknat prediktor, medens højreside målingerne ikke tilføjer noget signifikant til prediktionsevnen, når man allerede kender venstreside målingerne. 15

16 5. Hvis vi også udnytter information om inhibin niveauet på højre side som forklarende variabel, har vi da nogen glæde af at kende de to testosteron målinger? Ovenfor så vi, at venstre sides testosteron målinger predikterede bedre end højre sides, men det virker endnu mere oplagt, at inhibin målingerne på modsatte side skulle prediktere bedst. Vi afprøver dette ved at inddrage alle tre mulige kovariater i en regressionsmodel: proc glm data=a1; model log_inhibin_left = log_inhibin_right log_testo_left log_testo_right / solution clparm; og finder derved outputtet The GLM Procedure Number of Observations Read 96 Number of Observations Used 84 Dependent Variable: log_inhibin_left Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE log_inhibin_left Mean Standard Parameter Estimate Error t Value Pr > t Intercept log_inhibin_right <.0001 log_testo_left log_testo_right Parameter 95% Confidence Limits Intercept log_inhibin_right log_testo_left log_testo_right

17 Som vi kan se, har vi i hvert fald ikke meget glæde af at kende testosteronværdien på højre side, så denne udelader vi, hvorved vi får The GLM Procedure Dependent Variable: log_inhibin_left Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE log_inhibin_left Mean Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 log_inhibin_right <.0001 log_testo_left Parameter 95% Confidence Limits Intercept log_inhibin_right log_testo_left Vi ser, at der stadig ligger noget information i at kende testosteron værdien på venstre side. I denne model er residualspredningen , altså en del lavere end modellen uden inhibin højre side som kovariat. Bemærk, at man ikke bør sammenligne R 2 -værdierne for modeller, der ikke har det samme antal kovariater, da denne altid vil være mindre, når der er flere kovariater med. Til sammenligning får vi en residualspredning på , hvis vi udelukkende medtager højresidige inhibin målinger som kovariat, se nedenfor: proc glm data=a1; model log_inhibin_left = log_inhibin_right / solution clparm; 17

18 The GLM Procedure Dependent Variable: log_inhibin_left Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE log_inhibin_left Mean Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 log_inhibin_right <.0001 Parameter 95% Confidence Limits Intercept log_inhibin_right For en ordens skyld skal vi lige overbevise os selv om, at den multiple regressionsmodel overhovedet var rimelig, dvs. vi skal udføre de sædvanlige modelkontroltegninger. Det drejer sig om residualer plottet mod hver af kovariaterne (her kun vist for de to vigtigste), residualer plottet mod forventede værdier af outcome samt fraktildiagram over residualerne. I de to næste spørgsmål fokuserer vi på sideforskelle for testosteron 6. Beskriv den naturligt forekommende variation i testosteron mellem en kvindes to æggestokke, evt opdelt efter behandlingsgruppe, hvis dette skønnes relevant. Kvantificer ved hjælp af limits of agreement på den relevante skala. Når vi skal beskrive variationen mellem hormon niveauerne på højre og venstre side, er det oplagt at tage udgangspunkt i forskellene på de to sider og kvantificere størrelsen af disse. Først skal man først sikre sig, at det er fornuftigt at se på differenser, dvs. om størrelsen af disse er nogenlunde uafhængigt at hormon niveauet. Dette gør vi ved hjælp af et Bland-Altman plot, som blot er et scatter plot af differenserne mellem højre og venstre, plottet mod gennemsnittet af de selvsamme værdier: 18

19 data a1; set a1; dif_testo=testo_right-testo_left; snit_testo=(testo_left+testo_right)/2; dif_log_testo=log_testo_right-log_testo_left; snit_log_testo=(log_testo_left+log_testo_right)/2; proc gplot data=a1; plot dif_testo*snit_testo=treat / vref=0 lv=33 nolegend frame haxis=axis1 vaxis=axis2; axis1 offset=(8,8) value=(h=3) minor=none label=(h=3); axis2 value=(h=3) minor=none label=(a=90 R=0 H=3); symbol1 v=circle i=none c=blue h=3 w=3 l=1 r=1; symbol2 v=star i=none c=red h=3 w=3 l=1 r=2; 19

20 som giver plottet Her ses en klar trompetfacon, svarende til, at differenserne klart bliver (numerisk) større ved de højere koncentrationer. Forskellen mellem højre og venstre er derfor bedre udtrykt i relative termer, altså som procentvise forskelle, så også her skal vi se på logaritmetransformerede data: Her ser det pænere ud, pånær en enkelt outlier, så på denne skala vil 20

21 vi kvantificere differenserne, enten for hver behandling for sig (det gør vi ikke her), eller fælles for begge behandlinger. Bemærk, at forudsætningerne om de ens spredninger (Bland-Altman plottet) og normalfordelingsantagelsen (fraktildiagrammet nedenfor) her er meget vigtigere end i de tidligere spørgsmål (med undtagelse af spørgsmål 3), idet vi her vil udtale os om enkeltindivider og ikke blot gruppegennemsnit. For at kvantificere differenserne, udregner vi de relevante summary statistics: proc means N Nmiss mean std data=a1; var dif_log_testo; og får outputtet The MEANS Procedure Analysis Variable : dif_log_testo N N Miss Mean Std Dev

22 Ud fra gennemsnit og spredning af differenserne på logaritmsik skala, udregner vi limits of agreement: ± = ( , ), som tilbagetransformeret giver estimatet = 1.02 for ratio mellem siderne, med tilhørende limits of agreement 10 ( , ) = (0.58, 1.80) Vi kan således konkludere, at 95% af forskellene højre/venstre ligger mellem ratioerne 0.58 og 1.80, svarende til at højre æggestok ligger mellem 42% under til 80% over venstre æggestok. Da der næsten ikke er nogen systematisk forskel (højre æggestok ligger i gennemsnit kun 2% højere end venstre æggestok), ville vi finde ganske det tilsvarende, hvis vi var startet med at se på forskelle den anden vej, altså venstre-højre. Dette virker måske sært pga de tilsyneladende asymmetriske grænser, men man skal tænke på, at hvis højre side ligger 80% over venstre side (svarende til f.eks. 20 og 36), så ligger venstre side 16/ = 44.4% under højre side. 7. Er der systematisk forskel på testosteronværdierne på højre og venstre side? Kvantificer på passende skala, med konfidensinterval, og giv en fortolkning. Dette spørgsmål besvares ved at udføre et T-test. Dette kan gøres ved hjælp af proc means, og hvis man bruger option clm, får man også konfidensintervallet med. proc means N Nmiss mean stderr clm probt; var dif_log_testo; med outputtet The MEANS Procedure Analysis Variable : dif_log_testo 22

23 N Lower 95% Upper 95% N Miss Mean Std Error CL for Mean CL for Mean Pr > t Vi finder ingen signifikant forskel (P=0.46). For at se, om vi burde behandle de to grupper hver for sig, kunne vi se på et scatter plot af de to sæt differenser: eller måske endda et uparret T-test af de to (idet forudsætningerne for et sådant ses at være rimelige udfra ovenstående plot): proc ttest data=a1; class treat; var dif_log_testo; The TTEST Procedure Variable: dif_log_testo 23

24 treat N Mean Std Dev Std Err Minimum Maximum Diff (1-2) treat Method Mean 95% CL Mean Std Dev Diff (1-2) Pooled Diff (1-2) Satterthwaite Method Variances DF t Value Pr > t Pooled Equal Satterthwaite Unequal Equality of Variances Method Num DF Den DF F Value Pr > F Folded F som viser, at det ikke er særligt påkrævet at opdele (P = 0.14 for identitet af middelværdier for de to sæt differenser, P = 0.14 for identitet af de tilsvarende varianser). Testet for ingen forskel mellem højre og venstre kan naturligvis også udføres som et T-test, men nu er der tale om et parret T-test. Dette kan udføres enten som et one-sample T-test på differenserne (på logaritmisk skala), eller som et parret T-test på de to sider (igen logaritmetransformeret): proc ttest; var dif_log_testo; proc ttest data=a1; paired log_testo_left*log_testo_right; og som output fås nedenstående The TTEST Procedure Variable: dif_log_testo 24

25 N Mean Std Dev Std Err Minimum Maximum Mean 95% CL Mean Std Dev 95% CL Std Dev DF t Value Pr > t The TTEST Procedure Difference: log_testo_left - log_testo_right N Mean Std Dev Std Err Minimum Maximum Mean 95% CL Mean Std Dev 95% CL Std Dev DF t Value Pr > t Vi finder (selvfølgelig ganske som ovenfor) ingen signifikant forskel (P=0.46). Den estimerede forskel (højre minus venstre) er (på logaritmisk skala) , med et konfidensinterval på ( , ). Tilbagetransformeres dette, fås som før ratio-estimatet på 1.02, nu med 95% konfidensinterval på (0.96, 1.09). Det betyder, at værdierne på højre side i gennemsnit ligger 2% over de tilsvarende i venstre side, men usikkerheden på dette estimat viser, at det ligeså godt kunne dreje sig om 9% over, eller 4% under. I de to sidste spørgsmål ser vi på ægkvaliteten, som givet i to gange to tabellen på forsiden. 8. Giv et estimat for sandsynligheden for høj ægkvalitet, for hver af de to stimulationsmetoder hver for sig. Ser de to estimater forskellige ud? Først skal vi indlæse disse ekstra data i en to gange to tabel, og udregne de relevante procenter. Vi sætter tabellen op, så behandlingerne (treat) er rækkerne, og udfaldene (hhv. god(1) og dårlig(0) ægkvalitet) er kolonnerne. De relevante procenter er således rækkeprocenter, og vi undertrykker derfor de øvrige: 25

26 data a1; input treat kvalitet antal; cards; ; title spm 8 ; proc freq data=a1; tables treat*kvalitet / nopercent nocol; weight antal; Dette giver os output i form af tabellen The FREQ Procedure Table of treat by kvalitet treat kvalitet Frequency Row Pct 0 1 Total Total hvoraf vi aflæser, at treatment 1 har en estimeret sandsynlighed for god ægkvalitet på 58.82%, hvorimod treatment 2 ligger helt oppe på 68.89%, altså noget højere. 9. Lav et test for om kvaliteten af de udtagne æg afhænger af stimulationsmetoden. Kvantificere forskellen, dels som en forskel på de to sandsynligheder fundet ovenfor og dels som en odds ratio. Husk i begge tilfælde 26

27 at supplere med et konfidensinterval. Kan vi udelukke, at der er dobbelt så stor sandsynlighed (eller odds) for at have god ægkvalitet i den ene gruppe i forhold til den anden? Vi udvider vores analyse af to gange to tabellen med et par ekstra options: expected: De forventede counts i hver celle, under hypotesen om ingen forskel på behandlingerne. dem skal vi bruge til at vurdere om Chi-i-anden testet er tilladeligt at udføre chisq: Chi-i-anden testet skal udskrives riskdiff: Estimater for forskellen mellem sandsynlighederne for god ægkvalitet skal udskrives relrisk: Estimat for den relative risiko skal udskrives title spm 8 ; proc freq data=a1; tables treat*kvalitet / nopercent nocol expected chisq riskdiff relrisk; weight antal; som giver outputtet The FREQ Procedure Table of treat by kvalitet treat kvalitet Frequency Expected Row Pct 0 1 Total Total

28 Statistics for Table of treat by kvalitet Statistic DF Value Prob Chi-Square Likelihood Ratio Chi-Square Continuity Adj. Chi-Square Mantel-Haenszel Chi-Square Phi Coefficient Contingency Coefficient Cramer s V Fisher s Exact Test Cell (1,1) Frequency (F) 21 Left-sided Pr <= F Right-sided Pr >= F Table Probability (P) Two-sided Pr <= P Column 1 Risk Estimates (Asymptotic) 95% (Exact) 95% Risk ASE Confidence Limits Confidence Limits Row Row Total Difference Difference is (Row 1 - Row 2) The FREQ Procedure Statistics for Table of treat by kvalitet Column 2 Risk Estimates (Asymptotic) 95% (Exact) 95% Risk ASE Confidence Limits Confidence Limits Row Row Total Difference Difference is (Row 1 - Row 2) Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits Case-Control (Odds Ratio) Cohort (Col1 Risk) Cohort (Col2 Risk)

29 Sample Size = 96 Vi ser af såvel χ 2 -test og Fishers eksakte test, at der ikke er signifikant forskel på ægkvaliteten for de to behandlinger (P=0.31 hhv. 0.40). De forventede antal er alle et pænt stykke over de krævede 5 (minimum 16.4), så det er ikke nødvendigt at lave Fishers eksakte test, da chi-ianden approksimationen er god nok. Den estimerede forskel på de to sandsynligheder for god ægkvalitet (Column 2 risk) er (= ), altså 10 procentpoint, med konfidensgrænser (-0.09,0.29). Der kan altså med rimelighed være op til 29% større sandsynlighed for god ægkvalitet for treatment 2. Odds ratio estimeres til med konfidensinterval (0.667, 3.598), og dette indeholder et 2-tal. Det samme er tilfældet for den relative risiko for dårlig ægkvalitet (Col1 Risk), men ikke for god ægkvalitet (Col2 Risk). Man kan derfor ikke sige, at sandsynligheden for god ægkvalitet kan være dobbelt så stor i den ene gruppe i forhold til den anden, men man kan sige, at den ene gruppe (gruppe 2) kan have dobbelt så store odds for god ægkvalitet. 29

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke

Læs mere

Postoperative komplikationer

Postoperative komplikationer Løsninger til øvelser i kategoriske data, oktober 2008 1 Postoperative komplikationer Udgangspunktet for vurdering af den ny metode må være en nulhypotese om at der er samme komplikationshyppighed, 20%.

Læs mere

Vejledende besvarelse af hjemmeopgave

Vejledende besvarelse af hjemmeopgave Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2013 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) I forbindelse med en undersøgelse af vitamin

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2016

Vejledende besvarelse af hjemmeopgave, forår 2016 Vejledende besvarelse af hjemmeopgave, forår 2016 Udleveret 1. marts, afleveres senest ved øvelserne i uge 13 (29. marts-1. april) Denne opgave fokuserer på at beskrive niveauet af hormonet AMH (højt niveau

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2015

Vejledende besvarelse af hjemmeopgave, forår 2015 Vejledende besvarelse af hjemmeopgave, forår 2015 En stikprøve bestående af 65 mænd og 65 kvinder er blevet undersøgt med henblik på at se på en evt. sammenhæng mellem kropstemperatur og puls. På hjemmesiden

Læs mere

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger Øvelser til basalkursus, 5. uge Opgavebesvarelse: Knogledensitet hos unge piger I alt 112 piger har fået målt knogledensitet (bone mineral density, bmd) i 11-års alderen (baseline værdi). Pigerne er herefter

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Phd-kursus i Basal Statistik, Opgaver til 2. uge Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.txt på hjemmesiden indeholder datamateriale til belysning af forskellen i sædkvalitet mellem SAS-ansatte og mænd, der lever

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges

Læs mere

Regressionsanalyse i SAS

Regressionsanalyse i SAS Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2016

Vejledende besvarelse af hjemmeopgave, efterår 2016 Vejledende besvarelse af hjemmeopgave, efterår 2016 Udleveret 4. oktober, afleveres senest ved øvelserne i uge 44 (1.-4. november) Normal aktivitet af enzymet plasma kolinesterase er en forudsætning for

Læs mere

CLASS temp medie; MODEL rate=temp medie/solution; RUN;

CLASS temp medie; MODEL rate=temp medie/solution; RUN; Ugeopgave 2.1 Bakterieprøver fra patienter transporteres ofte til laboratoriet ved stuetemperatur samt mere eller mindre udsat for luftens ilt. Dette er især uheldigt for prøver som indeholder anaerobe

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2006. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 6 sider.

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineær regression i SAS. Lineær regression i SAS p.1/20 Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 Parret sammenligning, målemetoder med logaritmer Tosidet variansanalyse

Læs mere

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015 Faculty of Health Sciences Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 1 / 84 Logaritmer og kovariansanalyse Parret sammenligning, målemetoder med logaritmer Tosidet

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

Besvarelse af opgave om Vital Capacity

Besvarelse af opgave om Vital Capacity Besvarelse af opgave om Vital Capacity hentet fra P. Armitage & G. Berry: Statistical methods in medical research. 2nd ed. Blackwell, 1987. Spørgsmål 1: Indlæs data og konstruer en faktor (klassevariabel)

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Reeksamen i Statistik for biokemikere. Blok 3 2007.

Reeksamen i Statistik for biokemikere. Blok 3 2007. Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 1 Ensidet variansanalyse Bartlett s test Tukey s test PROC

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen Opgavebesvarelse, Resting metabolic rate I filen T:\Basalstatistik\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2007. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 8 sider.

Læs mere

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1 (a) Denne opgave bygger på resultaterne fra 2 forsøg med epo-behandling af for tidligt fødte børn, idet gruppe 1 og 3 stammer fra første forsøg, mens gruppe 2 og 4 stammer fra det andet. Det må antages,

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE

Køn. Holdning Mænd Kvinder Ialt JA NEJ VED IKKE Økonomisk Kandidateksamen Teoretisk Statistik Eksamenstermin: Sommer 2004, dato: 3. juni 4 timers prøve med alle hjælpemidler, besvarelse på Dansk Opgave En simpel tilfældig stikprøve på 500 udtrukket

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Basal statistik. 21. oktober 2008

Basal statistik. 21. oktober 2008 Basal statistik 21. oktober 2008 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Parametriseringer Kovariansanalyse Esben Budtz-Jørgensen, Biostatistisk Afdeling

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 21. februar 2017 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Løsning til opgave i logistisk regression

Løsning til opgave i logistisk regression Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger. Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer, Repetition, Kovariansanalyse, Interaktion Lene Theil Skovgaard 4. oktober 2016 Parret sammenligning, målemetoder med

Læs mere

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Opgavebesvarelse, Basalkursus, uge 3

Opgavebesvarelse, Basalkursus, uge 3 Opgavebesvarelse, Basalkursus, uge 3 Opgave 1: Udskrivning af astma patienter (DGA s. 273) I en randomiseret undersøgelse foretaget af Storr et. al. (Lancet, i, 1987) sammenlignes effekten af en enkelt

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

En Introduktion til SAS. Kapitel 6.

En Introduktion til SAS. Kapitel 6. En Introduktion til SAS. Kapitel 6. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 6 Regressionsanalyse i SAS 6.1 Indledning Dette kapitel

Læs mere

2. januar 2015 Proj.nr. 2001474 Version 1 LRK/EHBR/EVO/CCM/MT. Rapport

2. januar 2015 Proj.nr. 2001474 Version 1 LRK/EHBR/EVO/CCM/MT. Rapport Rapport Projekt: Fedtkvalitet i moderne svineproduktion Betdning af jodtal for udbtter af kogeskinker Lars Kristensen, Eva Honnens de Lichtenberg Broge, Eli Vibeke Olsen, Chris Claudi- Magnussen 2. januar

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Basal statistik. 30. januar 2007

Basal statistik. 30. januar 2007 Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere. Overlevelse efter AMI Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Diabetes VF (Venticular fibrillation) WMI (Wall motion index) CHF (Cardiac Heart Failure) Køn og alder betragtes

Læs mere

Introduktion til SAS. Faculty of Health Sciences

Introduktion til SAS. Faculty of Health Sciences Faculty of Health Sciences Introduktion til SAS Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Eksempel: Blodtryk og fedme OBESE: vægt/idealvægt,

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner I modsætning til envejs-anova kan flervejs-anova udføres selv om der er kun én

Læs mere

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences Faculty of Health Sciences Sammenligning af grupper Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 7. februar 2017 Sammenligning af to grupper: T-test Dimensionering af undersøgelser

Læs mere

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017 Faculty of Health Sciences Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 7. februar 2017 1 / 96 Sammenligning af grupper Sammenligning af to grupper: T-test Dimensionering

Læs mere

Kommentarer til øvelser i basalkursus, 2. uge

Kommentarer til øvelser i basalkursus, 2. uge Kommentarer til øvelser i basalkursus, 2. uge Opgave 2. Vi betragter målinger af hjertevægt (i g) og total kropsvægt (målt i kg) for 10 normale mænd og 11 mænd med hjertesvigt. Målingerne er taget ved

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Klasseøvelser dag 2 Opgave 1

Klasseøvelser dag 2 Opgave 1 Klasseøvelser dag 2 Opgave 1 1.1. Vi sætter først working directory og data indlæses: library( foreign ) d

Læs mere

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016 Faculty of Health Sciences Basal Statistik Begreber. Parrede sammenligninger. Lene Theil Skovgaard 6. september 2016 1 / 88 APPENDIX Programbidder svarende til diverse slides: Indlæsning af vitamin D datasæt,

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Modul 5: Test for én stikprøve

Modul 5: Test for én stikprøve Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 5: Test for én stikprøve 5.1 Test for middelværdi................................. 1 5.1.1 t-fordelingen.................................

Læs mere

Faculty of Health Sciences. Basal statistik. Lille SAS Manual. Lene Theil Skovgaard. 31. januar 2017

Faculty of Health Sciences. Basal statistik. Lille SAS Manual. Lene Theil Skovgaard. 31. januar 2017 Faculty of Health Sciences Basal statistik Lille SAS Manual Lene Theil Skovgaard 31. januar 2017 1 / 42 Selve sproget Siderne 9-18 Indlæsning (9-12) Definition af nye variable (13) Missing values / Manglende

Læs mere

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/?? Dagens Temaer k normalfordelte obs. rækker i proc glm. Test for lineær regression Test for lineær regression - via proc glm p. 1/?? Proc glm Vi indlæser data i datasættet stress, der har to variable: areal,

Læs mere

Basal statistik. Selve sproget. Grafik. Basale procedurer. Faculty of Health Sciences. Lille SAS Manual

Basal statistik. Selve sproget. Grafik. Basale procedurer. Faculty of Health Sciences. Lille SAS Manual Faculty of Health Sciences Selve sproget Basal statistik Lille SAS Manual Lene Theil Skovgaard 5. september 2017 Siderne 9-18 Indlæsning (9-12) Definition af nye variable (13) Missing values / Manglende

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

Overlevelsesanalyse. Faculty of Health Sciences

Overlevelsesanalyse. Faculty of Health Sciences Faculty of Health Sciences Overlevelsesanalyse Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Program Overlevelsesdata Kaplan-Meier estimatoren

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse Øvelser i epidemiologi og biostatistik, 12. april 21 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse 1. Belys ud fra data ved 5 års follow-up den fordom, at der er flere

Læs mere

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og Model M 0 : X hi N(α h + β h t hi,σ 2 h ), h = 1,...,m, i = 1,...,n h. m separate regressionslinjer. Behandles som i afsnit 3.3. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister)

Læs mere

Skriftlig eksamen Science statistik- ST501

Skriftlig eksamen Science statistik- ST501 SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017 Faculty of Health Sciences Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 26. september 2017 1 / 85 Simpel lineær regression Regression og korrelation Simpel lineær regression Todimensionale

Læs mere

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30.

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. oktober) En undersøgelse blandt fødende kvinder

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2017

Vejledende besvarelse af hjemmeopgave, forår 2017 Vejledende besvarelse af hjemmeopgave, forår 2017 På hjemmesiden http://publicifsv.sund.ku.dk/~lts/basal17_1/hjemmeopgave/hjemmeopgave.txt ligger data fra 400 fødende kvinder. Der er tale om et uddrag

Læs mere

Note til styrkefunktionen

Note til styrkefunktionen Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Restsaltmængdernes afhængighed af trafikken,

Restsaltmængdernes afhængighed af trafikken, Restsaltmængdernes afhængighed af trafikken, Thomas Glue, marts 2. Trafikintensitet...2 Indledende definitioner...2 Regressionsanalyser på trafikintensiteten...6 Justering af restsaltmængder i henhold

Læs mere

Hjemmeopgave, efterår 2009

Hjemmeopgave, efterår 2009 Hjemmeopgave, efterår 2009 Basal statistik for sundhedsvidenskabelige forskere Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-29. oktober) I alt 112 piger har fået målt bone mineral

Læs mere

9. Chi-i-anden test, case-control data, logistisk regression.

9. Chi-i-anden test, case-control data, logistisk regression. Biostatistik - Cand.Scient.San. 2. semester Karl Bang Christensen Biostatististisk afdeling, KU kach@biostat.ku.dk, 35327491 9. Chi-i-anden test, case-control data, logistisk regression. http://biostat.ku.dk/~kach/css2014/

Læs mere

Basal statistik. 16. september 2008

Basal statistik. 16. september 2008 Basal statistik 16. september 2008 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation sammenligning af to grupper uparret t-test

Læs mere

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25. Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.-27 marts) Garvey et al. interesserer sig for sammenhængen mellem

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences Faculty of Health Sciences Sammenligning af grupper Basal Statistik Sammenligning af grupper, Variansanalyse Sammenligning af to grupper: T-test Dimensionering af undersøgelser Sammenligning af flere end

Læs mere

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 12. september / 116

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 12. september / 116 Faculty of Health Sciences Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 12. september 2017 1 / 116 Sammenligning af grupper Sammenligning af to grupper: T-test Dimensionering

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller Chi-i-anden Test Repetition Goodness of Fit Uafhængighed i Kontingenstabeller Chi-i-anden Test Chi-i-anden test omhandler data, der har form af antal eller frekvenser. Antag, at n observationer kan inddeles

Læs mere

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Statistik Lektion 20 Ikke-parametriske metoder. Repetition Kruskal-Wallis Test Friedman Test Chi-i-anden Test Statistik Lektion 0 Ikkeparametriske metoder Repetition KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere