Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Størrelse: px
Starte visningen fra side:

Download "Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013"

Transkript

1 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation. Herefter blev der udtaget et eller flere æg samt (i princippet) to ægblærevæsker, en fra hver æggestok. Kvaliteten af de udtagne æg blev vurderet, og et antal hormoner blev målt i ægblærevæskerne, heriblandt testosteron (nmol/l) og InhibinB (ng/ml). For 4 kvinder lykkedes det ikke at opnå nogle æg eller ægblærer, og for visse af de 96 resterende var det (af forskellige årsager) ikke muligt at foretage alle hormonbestemmelserne. På hjemmesiden ligger oplysninger på 96 kvinder, dels af den anvendte stimulationsmetode (treat) og dels af de 4 hormonkoncentrationer (to hormoner, på såvel højre som venstre side). Datasættet indeholder ikke individuelle registreringer af kvaliteten af de udtagne æg, men nedenfor ses en opgørelse over fordelingen af lav resp. høj kvalitet af disse, sammenholdt med stimulationsmetoden Ægkvalitet dårlig god Total Treat= Treat= Total I de første 4 spørgsmål fokuserer vi udelukkende på målingerne på venstre side 1. Lav en figur til illustration af forskellene på de to behandlingsgrupper forsåvidt angår testosteron? Udfør på baggrund af denne tegning en sammenligning af de to grupper på passende skala og kvantificer forskellen med konfidensinterval. 1

2 Vi starter med et simpelt scatter plot proc gplot data=a1; plot testo_left*treat; som dog er gjort lidt pænere ved at skrive title spm 1 ; proc gplot data=a1; plot testo_left*treat / frame haxis=axis1 vaxis=axis2; axis1 offset=(8,8) value=(h=3) minor=none label=(h=3); axis2 value=(h=3) minor=none label=(a=90 R=0 H=3); symbol1 v=circle i=none c=blue h=3; Man bemærker her, at fordelingen i begge grupper er en anelse skæv, med en hale mod de høje værdier. Da vi er på vej mod en sammenligning af grupperne med et T-test, forsøger vi at transformere med 2

3 logaritmen for at opnå symmetriske fordelinger (helst normalfordelinger). Her er anvnedt 10-tals logaritmer, men det spiller ingen rolle. Ud fra denne figur ser det fornuftigt ud at foretage et uparret T-test, idet Observationerne antages uafhængige (forskellige kvinder) Der synes at være nogenlunde samme variation i begge grupper Fordelingerne ser rimeligt symmetriske/normalfordelte ud Man kan selvfølgelig supplere med fraktildiagrammer, men det skønnes ikke at være nødvendigt her, ikke mindst fordi fordelingsantagelsen ikke er voldsomt kritisk, hvis vi blot skal sammenligne middelværdier og ikke udtale os om enkeltindivider. Vi udfører så det uparrede T-test: proc ttest data=a1; class treat; var log_testo_left; og får outputtet 3

4 The TTEST Procedure Variable: log_testo_left treat N Mean Std Dev Std Err Minimum Maximum Diff (1-2) treat Method Mean 95% CL Mean Std Dev Diff (1-2) Pooled Diff (1-2) Satterthwaite Method Variances DF t Value Pr > t Pooled Equal Satterthwaite Unequal Equality of Variances Method Num DF Den DF F Value Pr > F Folded F Her ser vi Der indgår i alt 90 personer i vores sammenligning, idet nogle kvinder har manglende værdier for testosteron på venstre side. Spredningerne i de to grupper er meget ens ( hhv , P-værdi for test af identitet af disse er Middelværdierne i de to grupper er ikke signifikant forskellige (P=0.13). Den estimerede forskel på de to behandlinger er (på logaritmisk skala) , med et konfidensinterval på ( , ). Tilbagetransformeres dette, fås et ratio-estimat på = 1.135, altså at treat=1 ligger 13.5% højere end treat=2, med et konfidensinterval på (0.96, 1.34), dvs. svarende til fra 4% under til 24% over. 2. Lav en figur til at illustrere sammenhængen mellem inhibinb og testosteron, begge målt på venstre side (benyt evt. symboler svarende til de to forskellige stimulationer). Udfør på denne baggrund en lineær regressionsanalyse (igen på passende skala), med inhibin (venstre side) som outcome og testosteron (venstre side) som forklarende variabel. Angiv estimater for intercept og hældning med konfidensintervaller samt 4

5 spredning omkring regressionslinien. Giv også, så vidt muligt, fortolkninger af disse. Her er det naturligt at starte med et scatterplot, hvor outcome (inhibin på venstre side) sættes på Y-aksen, medens kovariaten (testosteron på venstre side) sættes på X-aksen. Nedenfor er tilføjet regressionslinier som støtte for vurderingen af rimeligheden af forudsætningerne for at foretage regressionsanalysen. Denne figur viser, at residualerne fra en regressionsanalyse på disse utransformerede data ville have to problemer Residualerne har ikke samme spredning for alle niveuer af outcome, men har derimod en tendens til at være større (numerisk, dvs. både store neagtive og store positive værdier) for de høje (forventede) værdier af outcome. Dette illustreres også ved det trompetagtige udseende af plottet af residualer mod forventede værdier for denne regressionsanalyse på utransformeret skala 5

6 Residualerne er ikke normalfordelte, men har en hale mod de store værdier. Dette illustreres bedst ved et fraktildiagram, der klart har hængekøjefacon I lyset af disse problemer, vil vi transformere vores outcome med en logaritme, og vi holder os til 10-tals logaritmen. Der er ikke noget i de ovenstående problemer, der indikerer, at vi skal transformere vores kovariat. I så fald skulle der fremkomme buer på et plot af residualer mod kovariaten, men da dette fuldstændig vil ligne ovenstående plot mod de forventede værdier (bortset fra en 6

7 spejling), kan vi allerede ud fra det ovenstående se, at der næppe er nogen problemer med lineariteten. Alligevel kan det rent fortolkningsmæssigt være rimeligt at transformere kovariaten også, da der i begge tilfælde er tale om koncentrationer. Vi vil derfor her vise begge muligheder, og de forskellige fortolkninger, de fører til. Først situationen, hvor kovariaten (testosteron, venstre side) ikke er logaritmeret: med den tilhørende regressionsanalyse: proc glm data=a1; model log_inhibin_left = testo_left / solution clparm; The GLM Procedure Number of Observations Read 96 Number of Observations Used 89 The GLM Procedure 7

8 Dependent Variable: log_inhibin_left Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE log_inhibin_left Mean Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 testo_left <.0001 Parameter 95% Confidence Limits Intercept testo_left Vi er nu nede på 89 observationer i analysen, idet der yderligere er røget en ud på grund af manglende værdier for inhibin på venstre side. Estimatet for interceptet ses at være med tilhørende konfidensinterval (1.750, 2.067), men dette er helt meningsløst, da det refererer til en testosteronværdi på 0. Estimatet for hældningen er , med et konfidensinterval på ( , ) og dette viser tydeligt den negative association mellem de to hormonværdier. Hvis vi omsætter relationen til den oprindelige skala, har vi inhibin = 10 ( testosteron) = testosteron Fortolkningen af den tilbagetransformerede hældning = 0.97 er altså, at hver gang testosteron øges med 1 enhed, så falder inhibin med 3%. Hvis testosteron øges med 10 enheder, bliver den tilsvarende faktor = = 0.73, altså et fald på 27%. Estimatet for spredningen omkring regressionslinien er , og dette skal bruges til konstruktion af normalområder. Man kan godt tilbagetransformere denne spredning, men så bliver det hele meget sværere. Det er bedst (lettest) at udregne normalområder på logaritmisk skala og så tilbagetransformere endepunkterne. Dette skal vi gøre i spørgsmål 3 nedenfor. 8

9 Hvis vi også logaritmetransformerer kovariaten testosteron: og dernæst laver regressionsanalysen proc glm data=a1; model log_inhibin_left = log_testo_left / solution clparm; finder vi outputtet The GLM Procedure Number of Observations Read 96 Number of Observations Used 89 The GLM Procedure Dependent Variable: log_inhibin_left Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE log_inhibin_left Mean

10 Standard Parameter Estimate Error t Value Pr > t log-inhibin for testo <.0001 Parameter 95% Confidence Limits log-inhibin for testo Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 log_testo_left <.0001 Parameter 95% Confidence Limits Intercept log_testo_left Estimatet for interceptet ses at være med tilhørende konfidensinterval (2.350, 3.410), men dette er næsten ligeså meningsløst som ovenfor, idet det refererer til en testosteronværdi på 1 (fordi logaritmen til 1 er 0). Estimatet for hældningen er , med et konfidensinterval på ( 1.341, 0.587), som igen viser den negative association mellem de to hormonværdier. Hvis vi omsætter relationen til den oprindelige skala, har vi denne gang inhibin = 10 ( log10(testosteron)) = testosteron altså meget tæt på en omvendt proportionalitet. I dette tilfælde er det således ikke strengt nødvendigt at tilbagetransformere hældningen. Gør man det alligevel, får man effekten af at 10-doble testosteronværdien, = 0.11, altså at inhibin falder med 89% eller til 11% af hvad den var før. Interessant er det, at når begge variable (outcome såvel som kovariat) logaritmetransformeres, så får man samme hældning uanset hvilken logaritme, man benytter (blot man selvfølgelig benytter samme logaritme på begge). Det betyder, at man også direkte kan se effekten af en fordobling af testosteronværdien, nemlig en faktor = 0.51, på inhibin-værdien, altså et fald til ca. halvdelen, netop svarende til den omvendte proportionalitet. Estimatet for spredningen omkring regressionslinien er , næsten fuldstændigt det samme som ovenfor (0.3026), så det er svært på denne 10

11 baggrund at sige, hvilken model, der er bedst. Vi kan lige med et par residualplots (svarende til dem ovenfor for den utransformerede outcome variable) sikre os, at vores model ser fornuftig ud. Det ses, at forudsætningerne ser fornuftige ud, idet residualerne har nogenlunde samme spredning uanset niveauet af outcome variablen, og at de er nogenlunde normalfordelte. Samme konklusion fås fra modelkontrol i tilfælde af, at kovariaten ikke er logaritmetransformeret. 11

12 3. Hvad er den forventede værdi af inhibinb for en kvinde med en testosteron på 30? Og hvad er normalområdet for sådanne kvinder? Er det usædvanligt at se en kvinde med en inhibinb-værdi på 100 og en testosteron-værdi på 30? I modellen, hvor kovariaten testosteron er utransformeret, finder vi den ønskede predikterede værdi ved hjælp af en estimate-sætning: proc glm data=a1; model log_inhibin_left = testo_left / solution clparm; estimate log-inhibin for testo 30 intercept 1 testo_left 30; som giver de ekstra linier Standard Parameter Estimate Error t Value Pr > t log-inhibin for testo <.0001 Parameter 95% Confidence Limits log-inhibin for testo Den predikterede inhibin værdi er således = 31.0, og normalområdet på logaritmisk skala er ± = (0.886, 2.097) Da dette indeholder 2 = log 10 (100) er kombinationen ikke usædvanlig. Vi kan også tilbagetransformere normalområdet til 10 (0.886,2.097) = (7.69, ), som jo indeholder 100. I modellen hvor testosteron også er logaritmetransformeret, skal vi lige huske at benytte den transformerede værdi i estimate-sætningen, altså log10(30)=1.477 proc glm data=a1; model log_inhibin_left = log_testo_left / solution clparm; estimate log-inhibin for testo 30 intercept 1 log_testo_left 1.477; 12

13 hvorved vi finder Standard Parameter Estimate Error t Value Pr > t log-inhibin for testo <.0001 Parameter 95% Confidence Limits log-inhibin for testo Den predikterede inhibin værdi er her = 28.5, og normalområdet på logaritmisk skala er ± = (0.849, 2.062). Da dette indeholder 2 = log 10 (100) er kombinationen ikke usædvanlig. Vi kan også tilbagetransformere normalområdet til 10 (0.849,2.062) = (7.06, ), som jo indeholder 100. Hvis man havde gennemført disse beregninger i en model, hvor inhibin ikke var logaritmetransformeret, ville man have fået et normalområde, der indeholdt negative værdier. Dette bør altid lede til eftertanke om, hvad der er galt med modellen!! Bemærk i øvrigt, at det i dette spørgsmål er vigtigt om normalfordelingen og den konstante varians (spredning) holder, idet vi udtaler os om enkeltobservationer. I de to næste spørgsmål fokuserer vi på prediktion af inhibin målinger på venstre side. I spørgsmål 2 ovenfor predikterede vi denne ud fra testosteron på venstre side, men nu inddrager vi også hormoner målt på højre side som forklarende variable. 4. Er testosteron værdien på højre side ligeså god til at prediktere som testosteron på venstre side var (i spørgsmål 2)? Vi springer over scatterplot, modelkontrol osv., da dette helt følger overvejelserne fra forrige spørgsmål. Endvidere ser vi kun på situationen, hvor kovariaten også er logaritmetransformeret. 13

14 proc glm data=a1; model log_inhibin_left = log_testo_right / solution clparm; estimate log-inhibin for testo 30 intercept 1 log_testo_right 1.477; som giver outputtet The GLM Procedure Number of Observations Read 96 Number of Observations Used 84 The GLM Procedure Dependent Variable: log_inhibin_left Sum of Source DF Squares Mean Square F Value Pr > F Model Error Corrected Total R-Square Coeff Var Root MSE log_inhibin_left Mean Standard Parameter Estimate Error t Value Pr > t log-inhibin for testo <.0001 Parameter 95% Confidence Limits log-inhibin for testo Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 log_testo_right Parameter 95% Confidence Limits Intercept log_testo_right Med højre sides testosteronværdi som kovariat bliver spredningen omkring regressionslinien estimeret til , altså noget større end før (hvor vi fik ). Det lyder umiddelbart meget rimeligt, at venstresiden er bedre til at prediktere venstresiden af inhibin. Bemærk dog lige, at vores sammenligning strengt taget ikke er helt fair, idet vi i denne sidste analyse er helt nede på 84 observationer i 14

15 alt. Det skyldes formentlig, at analysen nu involverer målinger fra såvel højre som venstre side, med deraf følgende større risiko for manglende værdier. Vi kan også prøve at lade begge værdier indgå som kovariater på samme tid: proc glm data=a1; model log_inhibin_left = log_testo_left log_testo_right / solution clparm; og finder så: The GLM Procedure Number of Observations Read 96 Number of Observations Used 84 Dependent Variable: log_inhibin_left Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE log_inhibin_left Mean Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 log_testo_left log_testo_right Parameter 95% Confidence Limits Intercept log_testo_left log_testo_right altså en virkelig klar indikation af, hvilken prediktor, der er bedst, da venstreside målingerne er en stærkt signifiknat prediktor, medens højreside målingerne ikke tilføjer noget signifikant til prediktionsevnen, når man allerede kender venstreside målingerne. 15

16 5. Hvis vi også udnytter information om inhibin niveauet på højre side som forklarende variabel, har vi da nogen glæde af at kende de to testosteron målinger? Ovenfor så vi, at venstre sides testosteron målinger predikterede bedre end højre sides, men det virker endnu mere oplagt, at inhibin målingerne på modsatte side skulle prediktere bedst. Vi afprøver dette ved at inddrage alle tre mulige kovariater i en regressionsmodel: proc glm data=a1; model log_inhibin_left = log_inhibin_right log_testo_left log_testo_right / solution clparm; og finder derved outputtet The GLM Procedure Number of Observations Read 96 Number of Observations Used 84 Dependent Variable: log_inhibin_left Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE log_inhibin_left Mean Standard Parameter Estimate Error t Value Pr > t Intercept log_inhibin_right <.0001 log_testo_left log_testo_right Parameter 95% Confidence Limits Intercept log_inhibin_right log_testo_left log_testo_right

17 Som vi kan se, har vi i hvert fald ikke meget glæde af at kende testosteronværdien på højre side, så denne udelader vi, hvorved vi får The GLM Procedure Dependent Variable: log_inhibin_left Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE log_inhibin_left Mean Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 log_inhibin_right <.0001 log_testo_left Parameter 95% Confidence Limits Intercept log_inhibin_right log_testo_left Vi ser, at der stadig ligger noget information i at kende testosteron værdien på venstre side. I denne model er residualspredningen , altså en del lavere end modellen uden inhibin højre side som kovariat. Bemærk, at man ikke bør sammenligne R 2 -værdierne for modeller, der ikke har det samme antal kovariater, da denne altid vil være mindre, når der er flere kovariater med. Til sammenligning får vi en residualspredning på , hvis vi udelukkende medtager højresidige inhibin målinger som kovariat, se nedenfor: proc glm data=a1; model log_inhibin_left = log_inhibin_right / solution clparm; 17

18 The GLM Procedure Dependent Variable: log_inhibin_left Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE log_inhibin_left Mean Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 log_inhibin_right <.0001 Parameter 95% Confidence Limits Intercept log_inhibin_right For en ordens skyld skal vi lige overbevise os selv om, at den multiple regressionsmodel overhovedet var rimelig, dvs. vi skal udføre de sædvanlige modelkontroltegninger. Det drejer sig om residualer plottet mod hver af kovariaterne (her kun vist for de to vigtigste), residualer plottet mod forventede værdier af outcome samt fraktildiagram over residualerne. I de to næste spørgsmål fokuserer vi på sideforskelle for testosteron 6. Beskriv den naturligt forekommende variation i testosteron mellem en kvindes to æggestokke, evt opdelt efter behandlingsgruppe, hvis dette skønnes relevant. Kvantificer ved hjælp af limits of agreement på den relevante skala. Når vi skal beskrive variationen mellem hormon niveauerne på højre og venstre side, er det oplagt at tage udgangspunkt i forskellene på de to sider og kvantificere størrelsen af disse. Først skal man først sikre sig, at det er fornuftigt at se på differenser, dvs. om størrelsen af disse er nogenlunde uafhængigt at hormon niveauet. Dette gør vi ved hjælp af et Bland-Altman plot, som blot er et scatter plot af differenserne mellem højre og venstre, plottet mod gennemsnittet af de selvsamme værdier: 18

19 data a1; set a1; dif_testo=testo_right-testo_left; snit_testo=(testo_left+testo_right)/2; dif_log_testo=log_testo_right-log_testo_left; snit_log_testo=(log_testo_left+log_testo_right)/2; proc gplot data=a1; plot dif_testo*snit_testo=treat / vref=0 lv=33 nolegend frame haxis=axis1 vaxis=axis2; axis1 offset=(8,8) value=(h=3) minor=none label=(h=3); axis2 value=(h=3) minor=none label=(a=90 R=0 H=3); symbol1 v=circle i=none c=blue h=3 w=3 l=1 r=1; symbol2 v=star i=none c=red h=3 w=3 l=1 r=2; 19

20 som giver plottet Her ses en klar trompetfacon, svarende til, at differenserne klart bliver (numerisk) større ved de højere koncentrationer. Forskellen mellem højre og venstre er derfor bedre udtrykt i relative termer, altså som procentvise forskelle, så også her skal vi se på logaritmetransformerede data: Her ser det pænere ud, pånær en enkelt outlier, så på denne skala vil 20

21 vi kvantificere differenserne, enten for hver behandling for sig (det gør vi ikke her), eller fælles for begge behandlinger. Bemærk, at forudsætningerne om de ens spredninger (Bland-Altman plottet) og normalfordelingsantagelsen (fraktildiagrammet nedenfor) her er meget vigtigere end i de tidligere spørgsmål (med undtagelse af spørgsmål 3), idet vi her vil udtale os om enkeltindivider og ikke blot gruppegennemsnit. For at kvantificere differenserne, udregner vi de relevante summary statistics: proc means N Nmiss mean std data=a1; var dif_log_testo; og får outputtet The MEANS Procedure Analysis Variable : dif_log_testo N N Miss Mean Std Dev

22 Ud fra gennemsnit og spredning af differenserne på logaritmsik skala, udregner vi limits of agreement: ± = ( , ), som tilbagetransformeret giver estimatet = 1.02 for ratio mellem siderne, med tilhørende limits of agreement 10 ( , ) = (0.58, 1.80) Vi kan således konkludere, at 95% af forskellene højre/venstre ligger mellem ratioerne 0.58 og 1.80, svarende til at højre æggestok ligger mellem 42% under til 80% over venstre æggestok. Da der næsten ikke er nogen systematisk forskel (højre æggestok ligger i gennemsnit kun 2% højere end venstre æggestok), ville vi finde ganske det tilsvarende, hvis vi var startet med at se på forskelle den anden vej, altså venstre-højre. Dette virker måske sært pga de tilsyneladende asymmetriske grænser, men man skal tænke på, at hvis højre side ligger 80% over venstre side (svarende til f.eks. 20 og 36), så ligger venstre side 16/ = 44.4% under højre side. 7. Er der systematisk forskel på testosteronværdierne på højre og venstre side? Kvantificer på passende skala, med konfidensinterval, og giv en fortolkning. Dette spørgsmål besvares ved at udføre et T-test. Dette kan gøres ved hjælp af proc means, og hvis man bruger option clm, får man også konfidensintervallet med. proc means N Nmiss mean stderr clm probt; var dif_log_testo; med outputtet The MEANS Procedure Analysis Variable : dif_log_testo 22

23 N Lower 95% Upper 95% N Miss Mean Std Error CL for Mean CL for Mean Pr > t Vi finder ingen signifikant forskel (P=0.46). For at se, om vi burde behandle de to grupper hver for sig, kunne vi se på et scatter plot af de to sæt differenser: eller måske endda et uparret T-test af de to (idet forudsætningerne for et sådant ses at være rimelige udfra ovenstående plot): proc ttest data=a1; class treat; var dif_log_testo; The TTEST Procedure Variable: dif_log_testo 23

24 treat N Mean Std Dev Std Err Minimum Maximum Diff (1-2) treat Method Mean 95% CL Mean Std Dev Diff (1-2) Pooled Diff (1-2) Satterthwaite Method Variances DF t Value Pr > t Pooled Equal Satterthwaite Unequal Equality of Variances Method Num DF Den DF F Value Pr > F Folded F som viser, at det ikke er særligt påkrævet at opdele (P = 0.14 for identitet af middelværdier for de to sæt differenser, P = 0.14 for identitet af de tilsvarende varianser). Testet for ingen forskel mellem højre og venstre kan naturligvis også udføres som et T-test, men nu er der tale om et parret T-test. Dette kan udføres enten som et one-sample T-test på differenserne (på logaritmisk skala), eller som et parret T-test på de to sider (igen logaritmetransformeret): proc ttest; var dif_log_testo; proc ttest data=a1; paired log_testo_left*log_testo_right; og som output fås nedenstående The TTEST Procedure Variable: dif_log_testo 24

25 N Mean Std Dev Std Err Minimum Maximum Mean 95% CL Mean Std Dev 95% CL Std Dev DF t Value Pr > t The TTEST Procedure Difference: log_testo_left - log_testo_right N Mean Std Dev Std Err Minimum Maximum Mean 95% CL Mean Std Dev 95% CL Std Dev DF t Value Pr > t Vi finder (selvfølgelig ganske som ovenfor) ingen signifikant forskel (P=0.46). Den estimerede forskel (højre minus venstre) er (på logaritmisk skala) , med et konfidensinterval på ( , ). Tilbagetransformeres dette, fås som før ratio-estimatet på 1.02, nu med 95% konfidensinterval på (0.96, 1.09). Det betyder, at værdierne på højre side i gennemsnit ligger 2% over de tilsvarende i venstre side, men usikkerheden på dette estimat viser, at det ligeså godt kunne dreje sig om 9% over, eller 4% under. I de to sidste spørgsmål ser vi på ægkvaliteten, som givet i to gange to tabellen på forsiden. 8. Giv et estimat for sandsynligheden for høj ægkvalitet, for hver af de to stimulationsmetoder hver for sig. Ser de to estimater forskellige ud? Først skal vi indlæse disse ekstra data i en to gange to tabel, og udregne de relevante procenter. Vi sætter tabellen op, så behandlingerne (treat) er rækkerne, og udfaldene (hhv. god(1) og dårlig(0) ægkvalitet) er kolonnerne. De relevante procenter er således rækkeprocenter, og vi undertrykker derfor de øvrige: 25

26 data a1; input treat kvalitet antal; cards; ; title spm 8 ; proc freq data=a1; tables treat*kvalitet / nopercent nocol; weight antal; Dette giver os output i form af tabellen The FREQ Procedure Table of treat by kvalitet treat kvalitet Frequency Row Pct 0 1 Total Total hvoraf vi aflæser, at treatment 1 har en estimeret sandsynlighed for god ægkvalitet på 58.82%, hvorimod treatment 2 ligger helt oppe på 68.89%, altså noget højere. 9. Lav et test for om kvaliteten af de udtagne æg afhænger af stimulationsmetoden. Kvantificere forskellen, dels som en forskel på de to sandsynligheder fundet ovenfor og dels som en odds ratio. Husk i begge tilfælde 26

27 at supplere med et konfidensinterval. Kan vi udelukke, at der er dobbelt så stor sandsynlighed (eller odds) for at have god ægkvalitet i den ene gruppe i forhold til den anden? Vi udvider vores analyse af to gange to tabellen med et par ekstra options: expected: De forventede counts i hver celle, under hypotesen om ingen forskel på behandlingerne. dem skal vi bruge til at vurdere om Chi-i-anden testet er tilladeligt at udføre chisq: Chi-i-anden testet skal udskrives riskdiff: Estimater for forskellen mellem sandsynlighederne for god ægkvalitet skal udskrives relrisk: Estimat for den relative risiko skal udskrives title spm 8 ; proc freq data=a1; tables treat*kvalitet / nopercent nocol expected chisq riskdiff relrisk; weight antal; som giver outputtet The FREQ Procedure Table of treat by kvalitet treat kvalitet Frequency Expected Row Pct 0 1 Total Total

28 Statistics for Table of treat by kvalitet Statistic DF Value Prob Chi-Square Likelihood Ratio Chi-Square Continuity Adj. Chi-Square Mantel-Haenszel Chi-Square Phi Coefficient Contingency Coefficient Cramer s V Fisher s Exact Test Cell (1,1) Frequency (F) 21 Left-sided Pr <= F Right-sided Pr >= F Table Probability (P) Two-sided Pr <= P Column 1 Risk Estimates (Asymptotic) 95% (Exact) 95% Risk ASE Confidence Limits Confidence Limits Row Row Total Difference Difference is (Row 1 - Row 2) The FREQ Procedure Statistics for Table of treat by kvalitet Column 2 Risk Estimates (Asymptotic) 95% (Exact) 95% Risk ASE Confidence Limits Confidence Limits Row Row Total Difference Difference is (Row 1 - Row 2) Estimates of the Relative Risk (Row1/Row2) Type of Study Value 95% Confidence Limits Case-Control (Odds Ratio) Cohort (Col1 Risk) Cohort (Col2 Risk)

29 Sample Size = 96 Vi ser af såvel χ 2 -test og Fishers eksakte test, at der ikke er signifikant forskel på ægkvaliteten for de to behandlinger (P=0.31 hhv. 0.40). De forventede antal er alle et pænt stykke over de krævede 5 (minimum 16.4), så det er ikke nødvendigt at lave Fishers eksakte test, da chi-ianden approksimationen er god nok. Den estimerede forskel på de to sandsynligheder for god ægkvalitet (Column 2 risk) er (= ), altså 10 procentpoint, med konfidensgrænser (-0.09,0.29). Der kan altså med rimelighed være op til 29% større sandsynlighed for god ægkvalitet for treatment 2. Odds ratio estimeres til med konfidensinterval (0.667, 3.598), og dette indeholder et 2-tal. Det samme er tilfældet for den relative risiko for dårlig ægkvalitet (Col1 Risk), men ikke for god ægkvalitet (Col2 Risk). Man kan derfor ikke sige, at sandsynligheden for god ægkvalitet kan være dobbelt så stor i den ene gruppe i forhold til den anden, men man kan sige, at den ene gruppe (gruppe 2) kan have dobbelt så store odds for god ægkvalitet. 29

Vejledende besvarelse af hjemmeopgave

Vejledende besvarelse af hjemmeopgave Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2013 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) I forbindelse med en undersøgelse af vitamin

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2016

Vejledende besvarelse af hjemmeopgave, forår 2016 Vejledende besvarelse af hjemmeopgave, forår 2016 Udleveret 1. marts, afleveres senest ved øvelserne i uge 13 (29. marts-1. april) Denne opgave fokuserer på at beskrive niveauet af hormonet AMH (højt niveau

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2015

Vejledende besvarelse af hjemmeopgave, forår 2015 Vejledende besvarelse af hjemmeopgave, forår 2015 En stikprøve bestående af 65 mænd og 65 kvinder er blevet undersøgt med henblik på at se på en evt. sammenhæng mellem kropstemperatur og puls. På hjemmesiden

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Phd-kursus i Basal Statistik, Opgaver til 2. uge Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.txt på hjemmesiden indeholder datamateriale til belysning af forskellen i sædkvalitet mellem SAS-ansatte og mænd, der lever

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge

Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Kommentarer til opg. 1 og 3 ved øvelser i basalkursus, 3. uge Opgave 1. Data indlæses i 3 kolonner, som f.eks. kaldessalt,pre ogpost. Der er således i alt tale om 26 observationer, idet de to grupper lægges

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Københavns Universitet Det Naturvidenskabelige Fakultet Eksamen i Statistik for biokemikere. Blok 2 2006. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet er på 6 sider.

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 Parret sammenligning, målemetoder med logaritmer Tosidet variansanalyse

Læs mere

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015 Faculty of Health Sciences Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 1 / 84 Logaritmer og kovariansanalyse Parret sammenligning, målemetoder med logaritmer Tosidet

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Normalfordelingen Statistik og Sandsynlighedsregning 2 Repetition og eksamen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige fejl på

Læs mere

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme

MPH specialmodul i epidemiologi og biostatistik. SAS. Introduktion til SAS. Eksempel: Blodtryk og fedme MPH specialmodul i epidemiologi og biostatistik. SAS Introduktion til SAS. Display manager (programmering) Vinduer: program editor (med syntaks-check) log output reproducerbart (program teksten kan gemmes

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

Reeksamen i Statistik for biokemikere. Blok 3 2007.

Reeksamen i Statistik for biokemikere. Blok 3 2007. Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for biokemikere. Blok 3 2007. Opgave 1. 3 timers skriftlig prøve. Alle hjælpemidler - også blyant - er tilladt. Opgavesættet

Læs mere

En Introduktion til SAS. Kapitel 5.

En Introduktion til SAS. Kapitel 5. En Introduktion til SAS. Kapitel 5. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 5 T-test og PROC UNIVARIATE 5.1 Indledning Dette kapitel

Læs mere

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007

Variansanalyse i SAS 1. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 1 Ensidet variansanalyse Bartlett s test Tukey s test PROC

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen Opgavebesvarelse, Resting metabolic rate I filen T:\Basalstatistik\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991

Læs mere

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved

Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved Matematisk Modellering 1 (reeksamen) Side 1 Opgave 1 Betragt to diskrete stokastiske variable X og Y. Antag at sandsynlighedsfunktionen p X for X er givet ved { 1 hvis x {1, 2, 3}, p X (x) = 3 0 ellers,

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1 (a) Denne opgave bygger på resultaterne fra 2 forsøg med epo-behandling af for tidligt fødte børn, idet gruppe 1 og 3 stammer fra første forsøg, mens gruppe 2 og 4 stammer fra det andet. Det må antages,

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Basal statistik. 21. oktober 2008

Basal statistik. 21. oktober 2008 Basal statistik 21. oktober 2008 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Parametriseringer Kovariansanalyse Esben Budtz-Jørgensen, Biostatistisk Afdeling

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 21. februar 2017 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Kapitel 1, Kliniske målinger Epidemiologi og Biostatistik Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik Uge, torsdag

Læs mere

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger. Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer, Repetition, Kovariansanalyse, Interaktion Lene Theil Skovgaard 4. oktober 2016 Parret sammenligning, målemetoder med

Læs mere

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008

Logistisk regression. Basal Statistik for medicinske PhD-studerende November 2008 Logistisk regression Basal Statistik for medicinske PhD-studerende November 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Konfidensintervaller og Hypotesetest

Konfidensintervaller og Hypotesetest Konfidensintervaller og Hypotesetest Konfidensinterval for andele χ -fordelingen og konfidensinterval for variansen Hypoteseteori Hypotesetest af middelværdi, varians og andele Repetition fra sidst: Konfidensintervaller

Læs mere

2. januar 2015 Proj.nr. 2001474 Version 1 LRK/EHBR/EVO/CCM/MT. Rapport

2. januar 2015 Proj.nr. 2001474 Version 1 LRK/EHBR/EVO/CCM/MT. Rapport Rapport Projekt: Fedtkvalitet i moderne svineproduktion Betdning af jodtal for udbtter af kogeskinker Lars Kristensen, Eva Honnens de Lichtenberg Broge, Eli Vibeke Olsen, Chris Claudi- Magnussen 2. januar

Læs mere

Basal statistik. 30. januar 2007

Basal statistik. 30. januar 2007 Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet

Læs mere

En Introduktion til SAS. Kapitel 6.

En Introduktion til SAS. Kapitel 6. En Introduktion til SAS. Kapitel 6. Inge Henningsen Afdeling for Statistik og Operationsanalyse Københavns Universitet Marts 2005 6. udgave Kapitel 6 Regressionsanalyse i SAS 6.1 Indledning Dette kapitel

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Introduktion til SAS. Faculty of Health Sciences

Introduktion til SAS. Faculty of Health Sciences Faculty of Health Sciences Introduktion til SAS Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Eksempel: Blodtryk og fedme OBESE: vægt/idealvægt,

Læs mere

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006

PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 PhD-kursus i Basal Biostatistik, efterår 2006 Dag 2, onsdag den 13. september 2006 I dag: To stikprøver fra en normalfordeling, ikke-parametriske metoder og beregning af stikprøvestørrelse Eksempel: Fiskeolie

Læs mere

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen)

Program. Logistisk regression. Eksempel: pesticider og møl. Odds og odds-ratios (igen) Faculty of Life Sciences Program Logistisk regression Claus Ekstrøm E-mail: ekstrom@life.ku.dk Odds og odds-ratios igen Logistisk regression Estimation og inferens Modelkontrol Slide 2 Statistisk Dataanalyse

Læs mere

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences Faculty of Health Sciences Sammenligning af grupper Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 7. februar 2017 Sammenligning af to grupper: T-test Dimensionering af undersøgelser

Læs mere

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017 Faculty of Health Sciences Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 7. februar 2017 1 / 96 Sammenligning af grupper Sammenligning af to grupper: T-test Dimensionering

Læs mere

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner I modsætning til envejs-anova kan flervejs-anova udføres selv om der er kun én

Læs mere

Faculty of Health Sciences. Basal statistik. Lille SAS Manual. Lene Theil Skovgaard. 31. januar 2017

Faculty of Health Sciences. Basal statistik. Lille SAS Manual. Lene Theil Skovgaard. 31. januar 2017 Faculty of Health Sciences Basal statistik Lille SAS Manual Lene Theil Skovgaard 31. januar 2017 1 / 42 Selve sproget Siderne 9-18 Indlæsning (9-12) Definition af nye variable (13) Missing values / Manglende

Læs mere

Løsning til eksaminen d. 14. december 2009

Løsning til eksaminen d. 14. december 2009 DTU Informatik 02402 Introduktion til Statistik 200-2-0 LFF/lff Løsning til eksaminen d. 4. december 2009 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition,

Læs mere

Overlevelsesanalyse. Faculty of Health Sciences

Overlevelsesanalyse. Faculty of Health Sciences Faculty of Health Sciences Overlevelsesanalyse Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Program Overlevelsesdata Kaplan-Meier estimatoren

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og Model M 0 : X hi N(α h + β h t hi,σ 2 h ), h = 1,...,m, i = 1,...,n h. m separate regressionslinjer. Behandles som i afsnit 3.3. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister)

Læs mere

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016 Faculty of Health Sciences Basal Statistik Begreber. Parrede sammenligninger. Lene Theil Skovgaard 6. september 2016 1 / 88 APPENDIX Programbidder svarende til diverse slides: Indlæsning af vitamin D datasæt,

Læs mere

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse

Øvelser i epidemiologi og biostatistik, 12. april 2010 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse Øvelser i epidemiologi og biostatistik, 12. april 21 Ebeltoft-projektet: Analyse af alkoholrelaterede data mm. Eksempel på besvarelse 1. Belys ud fra data ved 5 års follow-up den fordom, at der er flere

Læs mere

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration Faculty of Life Sciences Program Modelkontrol og prædiktion Claus Ekstrøm E-mail: ekstrom@life.ku.dk Test af hypotese i ensidet variansanalyse F -tests og F -fordelingen. Multiple sammenligninger. Bonferroni-korrektion

Læs mere

Skriftlig eksamen Science statistik- ST501

Skriftlig eksamen Science statistik- ST501 SYDDANSK UNIVERSITET INSTITUT FOR MATEMATIK OG DATALOGI Skriftlig eksamen Science statistik- ST501 Torsdag den 21. januar Opgavesættet består af 5 opgaver, med i alt 13 delspørgsmål, som vægtes ligeligt.

Læs mere

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/?? Dagens Temaer k normalfordelte obs. rækker i proc glm. Test for lineær regression Test for lineær regression - via proc glm p. 1/?? Proc glm Vi indlæser data i datasættet stress, der har to variable: areal,

Læs mere

Modul 5: Test for én stikprøve

Modul 5: Test for én stikprøve Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 5: Test for én stikprøve 5.1 Test for middelværdi................................. 1 5.1.1 t-fordelingen.................................

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Normalfordelingen. Statistik og Sandsynlighedsregning 2 Statistik og Sandsynlighedsregning 2 Repetition og eksamen T-test Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange variable, blandt andet tilfældige

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

Restsaltmængdernes afhængighed af trafikken,

Restsaltmængdernes afhængighed af trafikken, Restsaltmængdernes afhængighed af trafikken, Thomas Glue, marts 2. Trafikintensitet...2 Indledende definitioner...2 Regressionsanalyser på trafikintensiteten...6 Justering af restsaltmængder i henhold

Læs mere

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30.

Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. Hjemmeopgave Basal statistik for sundhedsvidenskabelige forskere, efterår 2015 Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-30. oktober) En undersøgelse blandt fødende kvinder

Læs mere

Basal statistik. 16. september 2008

Basal statistik. 16. september 2008 Basal statistik 16. september 2008 En- og to-stikprøve problemer sammenligning af to situationer: parret t-test Wilcoxon signed rank test logaritmetransformation sammenligning af to grupper uparret t-test

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

Hjemmeopgave, efterår 2009

Hjemmeopgave, efterår 2009 Hjemmeopgave, efterår 2009 Basal statistik for sundhedsvidenskabelige forskere Udleveret 29. september, afleveres senest ved øvelserne i uge 44 (27.-29. oktober) I alt 112 piger har fået målt bone mineral

Læs mere

Epidemiologi og Biostatistik

Epidemiologi og Biostatistik Epidemiologi og Biostatistik Kliniske målinger (Kapitel. +.1 + 11.-11 + 1.1-) Introduktion til skilder (varianskomponenter) måleusikkerhed sammenligning af målemetoder Mogens Erlandsen, Institut for Biostatistik

Læs mere

Note til styrkefunktionen

Note til styrkefunktionen Teoretisk Statistik. årsprøve Note til styrkefunktionen Først er det vigtigt at gøre sig klart, at når man laver statistiske test, så kan man begå to forskellige typer af fejl: Type fejl: At forkaste H

Læs mere

9. Chi-i-anden test, case-control data, logistisk regression.

9. Chi-i-anden test, case-control data, logistisk regression. Biostatistik - Cand.Scient.San. 2. semester Karl Bang Christensen Biostatististisk afdeling, KU kach@biostat.ku.dk, 35327491 9. Chi-i-anden test, case-control data, logistisk regression. http://biostat.ku.dk/~kach/css2014/

Læs mere

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00

Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Skriftlig Eksamen ST501: Science Statistik Mandag den 11. juni 2007 kl. 15.00 18.00 Forskningsenheden for Statistik IMADA Syddansk Universitet Alle skriftlige hjælpemidler samt brug af lommeregner er tilladt.

Læs mere

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.

Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25. Hjemmeopgave Basal statistik for lægevidenskabelige forskere, forår 2014 Udleveret 4. marts, afleveres senest ved øvelserne i uge 13 (25.-27 marts) Garvey et al. interesserer sig for sammenhængen mellem

Læs mere

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller

Chi-i-anden Test. Repetition Goodness of Fit Uafhængighed i Kontingenstabeller Chi-i-anden Test Repetition Goodness of Fit Uafhængighed i Kontingenstabeller Chi-i-anden Test Chi-i-anden test omhandler data, der har form af antal eller frekvenser. Antag, at n observationer kan inddeles

Læs mere

To samhørende variable

To samhørende variable To samhørende variable Statistik er tal brugt som argumenter. - Leonard Louis Levinsen Antagatviharn observationspar x 1, y 1,, x n,y n. Betragt de to tilsvarende variable x og y. Hvordan måles sammenhængen

Læs mere

INTRODUKTION TIL dele af SAS

INTRODUKTION TIL dele af SAS INTRODUKTION TIL dele af SAS Der er flere forskellige angrebsvinkler ved statistiske analyser i SAS. Vi skal her kun beskæftige os med to af disse, nemlig Direkte programmering. Brug af SAS ANALYST Hvilken

Læs mere

Basal statistik. 30. september 2008

Basal statistik. 30. september 2008 Basal statistik 30. september 2008 Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Peter Dalgaard, Biostatistisk Afdeling Institut for

Læs mere

Modelkontrol i Faktor Modeller

Modelkontrol i Faktor Modeller Modelkontrol i Faktor Modeller Julie Lyng Forman Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for Biokemikere 2003 For at konklusionerne på en ensidet, flersidet eller hierarkisk

Læs mere

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres.

Log-lineære modeller. Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Log-lineære modeller Analyse af symmetriske sammenhænge mellem kategoriske variable. Ordinal information ignoreres. Kontingenstabel Contingency: mulighed/tilfælde Kontingenstabel: antal observationer (frekvenser)

Læs mere

Ikke-parametriske tests

Ikke-parametriske tests Ikke-parametriske tests 2 Dagens menu t testen Hvordan var det nu lige det var? Wilcoxson Mann Whitney U Kruskall Wallis Friedman Kendalls og Spearmans correlation 3 t-testen Patient Drug Placebo difference

Læs mere

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test]

Anvendt Statistik Lektion 6. Kontingenstabeller χ 2 -test [ki-i-anden-test] Anvendt Statistik Lektion 6 Kontingenstabeller χ 2 -test [ki-i-anden-test] 1 Kontingenstabel Formål: Illustrere/finde sammenhænge mellem to kategoriske variable Opbygning: En celle for hver kombination

Læs mere

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model

Reminder: Hypotesetest for én parameter. Økonometri: Lektion 4. F -test Justeret R 2 Aymptotiske resultater. En god model Reminder: Hypotesetest for én parameter Antag vi har model Økonometri: Lektion 4 F -test Justeret R 2 Aymptotiske resultater y = β 0 + β 1 x 2 + β 2 x 2 + + β k x k + u. Vi ønsker at teste hypotesen H

Læs mere

Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner

Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner Statistik kommandoer i Stata opdateret 16/3 2009 Erik Parner Indledning... 1 Hukommelse... 1 Simple beskrivelser... 1 Data manipulation... 2 Estimation af proportioner... 2 Estimation af rater... 2 Estimation

Læs mere

Uge 13 referat hold 4

Uge 13 referat hold 4 Uge 13 referat hold 4 Gruppearbejde 1a: Er variablen kvotient inkluderet på en hensigtsmæssig måde? Der er to problemer med kvotient: 1) Den er trunkeret ved 6.9 og 10.0, løsningen er at indføre dummyer

Læs mere

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22 Dagens Emner Likelihood teori Lineær regression (intro) p. 1/22 Likelihood-metoden M : X i N(µ,σ 2 ) hvor µ og σ 2 er ukendte Vi har, at L(µ,σ 2 ) = ( 1 2πσ 2)n/2 e 1 2σ 2 P n (x i µ) 2 er tætheden som

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004

Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Statistikøvelse Kandidatstudiet i Folkesundhedsvidenskab 28. September 2004 Formål med Øvelsen: Formålet med øvelsen er at analysere om risikoen for død er forbundet med to forskellige vacciner BCG (mod

Læs mere

Basal statistik 3. oktober Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium?

Basal statistik 3. oktober Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium? variansanalyse, oktober 2006 1 Basal statistik 3. oktober 2006 Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Lene Theil Skovgaard

Læs mere

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff

Kursus 02402 Introduktion til Statistik. Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff Kursus 02402 Introduktion til Statistik Forelæsning 7: Kapitel 7 og 8: Statistik for to gennemsnit, (7.7-7.8,8.1-8.5) Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks

Læs mere

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test

Ikke-parametriske metoder. Repetition Wilcoxon Signed-Rank Test Kruskal-Wallis Test Friedman Test Chi-i-anden Test Ikkeparametriske metoder Repetition Wilcoxon SignedRank Test KruskalWallis Test Friedman Test Chiianden Test Run Test Er sekvensen opstået tilfældigt? PPPKKKPPPKKKPPKKKPPP Et run er en sekvens af ens elementer,

Læs mere

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet Eksamen ved Københavns Universitet i Kvantitative forskningsmetoder Det Samfundsvidenskabelige Fakultet 14. december 2011 Eksamensnummer: 5 14. december 2011 Side 1 af 6 1) Af boxplottet kan man aflæse,

Læs mere

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data

Program. t-test Hypoteser, teststørrelser og p-værdier. Hormonkonc.: statistisk model og konfidensinterval. Hormonkoncentration: data Faculty of Life Sciences Program t-test Hypoteser, teststørrelser og p-værdier Claus Ekstrøm E-mail: ekstrom@life.ku.dk Resumé og hængepartier fra sidst. Eksempel: effekt af foder på hormonkoncentration

Læs mere

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5

02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5 02402 Vejledende løsninger til hjemmeopgaver og øvelser i uge 5 Opgave 5.117, side 171 (7ed: 5.116 side 201 og 6ed: 5.116 side 197) I denne opgave skal vi benytte relationen mellem den log-normale fordeling

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

(studienummer) (underskrift) (bord nr)

(studienummer) (underskrift) (bord nr) Danmarks Tekniske Universitet Side 1 af 20 sider. Skriftlig prøve: 15. december 2008 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere

Modul 6: Regression og kalibrering

Modul 6: Regression og kalibrering Forskningsenheden for Statistik ST501: Science Statistik Bent Jørgensen Modul 6: Regression og kalibrering 6.1 Årsag og virkning................................... 1 6.2 Kovarians og korrelation...............................

Læs mere

Kategoriske data. Basal Statistik for medicinske PhD-studerende October 2008

Kategoriske data. Basal Statistik for medicinske PhD-studerende October 2008 Kategoriske data Basal Statistik for medicinske PhD-studerende October 2008 Bendix Carstensen Steno Diabetes Center, Gentofte & Biostatististisk afdeling, Københavns Universitet bxc@steno.dk www.biostat.ku.dk/~bxc

Læs mere

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk

Læs mere

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X.

Vi kalder nu antal prøverør blandt de 20, hvor der ikke ses vækst for X. Opgave I I en undersøgelse af et potentielt antibiotikum har man dyrket en kultur af en bestemt mikroorganisme og tilført prøver af organismen til 20 prøverør med et vækstmedium og samtidig har man tilført

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Kvant Eksamen December 2010 3 timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer.

Kvant Eksamen December 2010 3 timer med hjælpemidler. 1 Hvad er en continuous variable? Giv 2 illustrationer. Kvant Eksamen December 2010 3 timer med hjælpemidler 1 Hvad er en continuous variable? Giv 2 illustrationer. What is a continuous variable? Give two illustrations. 2 Hvorfor kan man bedre drage konklusioner

Læs mere

Simpel og multipel logistisk regression

Simpel og multipel logistisk regression Faculty of Health Sciences Logistisk regression Simpel og multipel logistisk regression 16. Maj 2012 Analyse af en binær responsvariabel. syg/rask, død/levende, ja/nej... Ud fra en eller flere forklarende

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402

Side 1 af 19 sider. Danmarks Tekniske Universitet. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Danmarks Tekniske Universitet Side 1 af 19 sider. Skriftlig prøve: 15. december 2007 Kursus navn og nr: Introduktion til Statistik, 02402 Tilladte hjælpemidler: Alle Dette sæt er besvaret af (studienummer)

Læs mere