Faculty of Health Sciences. Basal statistik. Den generelle lineære model mv. Lene Theil Skovgaard. 14. marts 2017

Save this PDF as:
 WORD  PNG  TXT  JPG

Størrelse: px
Starte visningen fra side:

Download "Faculty of Health Sciences. Basal statistik. Den generelle lineære model mv. Lene Theil Skovgaard. 14. marts 2017"

Transkript

1 Faculty of Health Sciences Basal statistik Den generelle lineære model mv. Lene Theil Skovgaard 14. marts / 96

2 Den generelle lineære model mv. Ikke-lineære sammenhænge Opbygning af modeller Sammenligning af modeller Endnu et eksempel Hjemmesider: / 96

3 Terminologi for kvantitativt outcome, f.eks. vitamin D Regression: Kovariaterne er også kvantitative Simpel (lineær) regression: kun en enkelt kovariat Multipel (lineær) regression: to eller flere kovariater Variansanalyse: Kovariaterne er kategoriske (grupper, class-variable, faktorer) Ensidet variansanalyse: kun en enkelt kovariat Tosidet variansanalyse: to kovariater Generel lineær model: Begge typer kovariater i samme model Kovariansanalyse: Netop en kvantitativ og en kategorisk kovariat 3 / 96

4 Forklarende variable = Kovariater Outcome Dikotom Kategorisk Kvantitativ Kategoriske og kvantitative Dikotom 2*2-tabeller χ 2 -test Logistisk regression parret Mc Nemar svært, mixed models Mixed models Kategorisk Kontingenstabeller/χ 2 -test Generaliseret logistisk regression Ordinale svært, f.eks. proportional odds modeller Kvantitativ Mann-Whitney Kruskal-Wallis Robust multipel parret Wilcoxon signed rank Friedman regression Normalfordelte T-test Variansanalyse Kovariansanalyse residualer uparret/parret ensidet/tosidet Multipel regression Censureret Log-rank test Cox regression Korrelerede Varianskomponent- Modeller for kvantitative modeller gentagne målinger Nf. residualer Mixed models 4 / 96

5 Den generelle lineære model Outcome: Kvantitativ variabel Y Kovariater: Kategoriske (class): Fortolkning af parameter: Forskel fra aktuel gruppe til referencegruppe, for fastholdt værdi af alle andre kovariater. Kvantitative: Her antages linearitet Fortolkning af parameter: 1 enheds ændring i X svarer til β enheders ændring i Y, for fastholdt værdi af alle andre kovariater. 5 / 96

6 Linearitet Skal alt så kunne beskrives ved hjælp af linier? Nej, fordi: Man kan transformere en eller flere af de indgående variable Eksempel: Biokemisk iltforbrug (s. 7-14) Man kan benytte polynomier ved at tilføje kovariater i forskellige potenser (s ) bruges dog mest som modelcheck Tilføje en kovariat, der er relateret til den oprindelige kovariat, f.eks. logaritmetransformationen Man kan lave stykvise lineære funktioner, kaldet lineære splines Eksempel: Væksthormon (s ) 6 / 96

7 Biologisk iltforbrug Iltsvind i lukkede flasker (boc, biochemical oxygen consumption), som funktion af antal dage (days) 4 flasker til hvert tidspunkt days / 96

8 Illustration af iltsvind Sammenhængen mellem iltsvind (boc) og antallet af dage (days) ses at være ikke-lineær. Vi ønsker at bestemme asymptoten, dvs. iltsvindet efter lang tid (når tiden går mod uendelig ( ) 8 / 96

9 Transformation til linearitet Biologerne hævder at vide, at iltsvindet kan beskrives ved funktionen boc = γ exp(-β/days) Denne relation er klart ikke-lineær, men den kan transformeres til linearitet ved brug af den (naturlige) logaritme: log(boc) = log(γ) - β/days Vi vil gerne bestemme boc( ) = γ exp(0) = γ 9 / 96

10 Omparametrisering Med definitionerne Outcome: y = logboc = log(boc) Kovariat: x = invdays = 1/days Intercept: α = log(γ) kan vi skrive ligningen som y = α βx altså en lineær relation, bare med en negativ hældning ( β) 10 / 96

11 Den lineære regression Variabeldefinitioner og analyse ses på kode s. 81 Bemærk, at vi her har benyttet den naturlige logaritme til at transformere iltforbruget (dette valg kommenteres s. 16) Output: The GLM Procedure Dependent Variable: logboc R-Square Coeff Var Root MSE logboc Mean Standard Parameter Estimate Error t Value Pr > t Intercept <.0001 invdays <.0001 Parameter 95% Confidence Limits Intercept invdays / 96

12 Den transformerede relation Dette plot ser pænt lineært ud, med rimelig varianshomogenitet. Vi finder: logboc = invdays 12 / 96

13 Fortolkning af resultaterne Den lineære regressionsmodel giver os estimaterne (fra s. 11): intercept : ˆα = log(ˆγ) = 5.431(0.019) slope : ˆβ = 0.808(0.039) Ved at bemærke, at boc( ) = γ = exp(α), finder vi estimatet af boc( ) til exp(5.431) = med 95% konfidensinterval (exp(5.392), exp(5.471)) = (219.6, 237.7) 13 / 96

14 Fit på original skala Bemærk, at der på denne skala ikke er varianshomogenitet. 14 / 96

15 Transformation med logaritmer men hvilken logaritme? Alle logaritmer er proportionale, så resultaterne bliver ens (efter tilbagetransformation), men der er visse fif: Hvis den forklarende variabel transformeres, er det i reglen for at opnå linearitet 15 / 96 Brug gerne 2-tals logaritmer her, for så kan estimatet fortolkes som effekten af fordobling af kovariaten. Man kan også vælge en logaritme med grundtal 1.1, så estimatet fortolkes som effekten af 10% ændring af kovariaten. log 1.1 (x) = log 10(x) log 10 (1.1)

16 Transformation med logaritmer, II Hvis outcome transformeres, kan det være for at opnå linearitet for at opnå ens spredninger (varianshomogenitet) Her er der en vis fordel ved at bruge den naturlige logaritme (den som tidligere har heddet ln, men som altså hedder log i computersprog), fordi Spredning(log(y)) Spredning(y) y = CV dvs. en konstant variationskoefficient (CV) på Y betyder konstant spredning på log(y ), I dette eksempel ser vi (fra outputtet s. 11), at variationskoefficienten for iltforbruget er 5.8% 16 / 96

17 Andre transformationer Selv om logaritmer er langt det hyppigste valg af transformation, bruges af og til andre: I eksemplet med biokemisk iltforbrug (boc) brugte vi den inverse til kovariaten (1/dage), fordi vi havde en specifik viden om den biologiske mekanisme, og dermed om sammenhængen mellem outcome og kovariat Somme tider bruges kvadratrod for at få konstante spredninger (eller evt. normalfordelte residualer), hvis man har trompetfacon på den oprindelige skala, men omvendt trompet på logaritme skala, men det bliver ret svært at fortolke 17 / 96

18 Modeller med logaritmetransformerede data Modelformel Tilbagetransformeret Fortolkning 1 enheds tilvækst y = α + βx (ikke relevant) i x svarer til β enheders tilvækst i y 1 enheds tilvækst log 2 (y) = α + βx y = α β x i x svarer til en faktor 2 β α = 2 α, β = 2 β på y En faktor 2 y = α + β log 2 (x) (ikke relevant) på x svarer til β enheders tilvækst i y En faktor 2 log 2 (y) = α + β log 2 (x) y = α x β på x svarer til en faktor 2 β α = 2 α på y 18 / 96

19 Eksempel om væksthormon fra øvelserne i denne uge: Væksthormon for børn, op til 20-års alderen Kode s. 83 Ikke udpræget lineært, men hvad så? Ingen specifik formel haves / 96

20 Polynomier Et p te grads polynomium: y = β 0 + β 1 x + β 2 x β p x p Et første-grads polynomium er en linie: y = β 0 + β 1 x Et anden-grads polynomium er en parabel: y = β 0 + β 1 x + β 2 x 2 som kan være glad (β 2 > 0) eller sur (β 2 < 0) Ser man lokalt på en parabel, kan den beskrive en afvigelse fra linearitet. 20 / 96

21 Polynomier af grad 21 / 96

22 Polynomial regression Y i = β 0 + β 1 x i + β 2 x 2 i + + β p x p i + ε i Med kovariaterne Z 1 = X, Z 2 = X 2,, Z p = X p er det bare en sædvanlig lineær multipel regression Y i = β 0 + β 1 z 1i + β 2 z 2i + + β p z pi + ε i Kovariaterne Z 1,, Z p er selvfølgelig korrelerede, men de er ikke lineært afhængige. 22 / 96

23 Polynomier til beskrivelse af Serum IGF-1 Væksthormon (kvadratrodstransformeret), som funktion af alder med overlejrede polynomier af 1., 2. og 3. grad (kode. s. 84) Men vi tror ikke rigtigt på disse modeller... fordi de svinger for meget Specielt ude i enderne kan de opføre sig meget underligt. 23 / 96

24 Splines: Lokale polynomier Lineære splines: Opdel i aldersgrupper, med passende tærskelværdier, f.eks. a 1 = 10, a 2 = 12, a 3 = 13, a 4 = 15 Fit en lineær effekt af alder i hver aldersgruppe Sørg for at de mødes i tærskelværdierne Resultatet er en knækket linie (men stadig en lineær model) y i = α+λ 0 x +λ 1 I (x > a 1 )(x a 1 )+ +λ k I (x i > a k )(x a k )+ε i Splines kan også være kvadratiske, kubiske etc. 24 / 96

25 Fortolkning af parametre α: Intercept, forventet outcome ved alder 0 λ 0 : hældning (effekt af aldersøgning med 1 år), frem til alder a 1 λ 1 : knæk i linien ved alder a 1 λ 1 = 0: linien fortsætter hen over a 1 uden at knække λ1 > 0: linien knækker, og får større hældning efter a 1 λ1 < 0: linien knækker, og får mindre hældning efter a 1 Hældning i aldersintervallet (a 1, a 2 ) er λ 0 + λ 1 λ 2 : knæk i linien ved alder a 2 Samme fortolkning som λ 1, blot ved en anden alderstærskel Hældning i aldersintervallet (a 2, a 3 ) er λ 0 + λ 1 + λ 2 osv. osv. 25 / 96

26 Lineær spline for Serum IGF-1 Estimater: λ 0 = 0.70, λ 1 = 0.16, λ 2 = 2.38, λ 3 = 1.15, λ 4 = 2.42 (kode s. 85, 87) 26 / 96

27 At fitte lineære splines Ud over selve kovariaten (her age) skal man tilføje en ekstra kovariat for hver tærskelværdi For tærsklen ved 13 definerer vi således en variabel: For personer under 13 år sættes til den 0 For personer over 13 år, defineres den som alder minus 13, så den f.eks. får værdien 2.4 for en person med alderen 15.4 år Se kode s / 96

28 Udseendet af lineære splines 4 stk, for tærskelværdierne 10, 12, 13 og 15: De er alle 0 op til deres respektive tærskel Herefter stiger de med 1 år pr. år, så de tæller år fra tærskel 28 / 96

29 Output, lineær spline Kode s. 85 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept <.0001 age extra_age extra_age extra_age extra_age <.0001 Evidens for et knæk omkring 15-års alderen, og måske omkring 12-års alderen / 96

30 Alternativ parametrisering af lineære splines Hvis man ændrer de nye kovariater til disse (se kode s. 86): så får man i stedet estimater for hældningerne i de enkelte aldersintervaller (ret teknisk): 30 / 96

31 Output fra alternativ parametrisering af lineære splines (kode s. 86) Nu fortolkes estimaterne som hældningerne i de successive intervaller: Op til alder 10, mellem 10 og 12, mellem 12 og 13, mellem 13 og 15, samt over 15 år Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept <.0001 ny_age ny_age ny_age ny_age <.0001 ny_age / 96

32 Kan GLM så klare alt? Nej der findes ikke-lineære modeller, der ikke kan transformeres til linearitet indeholder parametre med meget veldefineret betydning (typisk fysiologi/kinetik), som kun estimeres pænt i en ikke-lineær model (f.eks. Michaelis-Menten kinetik) Eksempel: Model til at kvantificere RES-systemet i leveren: 32 / 96

33 RES-systemet i leveren Lad Y i betegner den målte koncentration af en radioaktiv tracer, målt til tiden t i efter en bolus injektion ved tid 0. Så siger 1. ordens kinetik, at sammenhængen bør være y i = β(1 e γt i) + ε i, ε i N (0, σ 2 ) Her kan ikke transformeres til linearitet! 33 / 96

34 Mindste kvadraters metode kræver her startværdier (gæt på parametrenes værdier) iterationer (trinvise forbedrede fit) Estimater: ˆβ = (28.3), CI=(2115.5, ) ˆγ = (0.0023), CI=(0.0726, ) 34 / 96

35 Ikke-lineær regression Kode ses på s. 88, og output bliver Dependent Variable conc Iterative Phase Sum of Iter beta gamma Squares NOTE: Convergence criterion met. Konvergens betyder, at et stabilt fit er fundet 35 / 96

36 Output, fortsat Sum of Mean Approx Source DF Squares Square F Value Pr > F Regression <.0001 Residual Uncorrected Total Corrected Total Approx Approximate Parameter Estimate Std Error 95% Confidence Limits beta gamma Fittet svarende til disse parameterestimater fremgik af s / 96

37 Den generelle lineære model er et slagkraftigt værktøj, men altså med visse begrænsninger: Outcome: kvantitativ variabel Y (med ca. normalfordelte residualer) Kovariater: Kategoriske (class) Kvantitative: Her antages linearitet Interaktioner Men hvordan vælges modellen? 37 / 96

38 Opbygning af model bør følge problemstillingen som beskrevet i protokollen Her bør der være specificeret primært outcome de vigtigste hypoteser (videnskabelige spørgsmål) sekundære outcomes og hypoteser pludselige indskydelser (evt. baseret på tegninger), samt tests, der ikke var specificeret i protokollen, betegnes som fisketur, og skal bekræftes i en ny (confirmative) analyse, før der kan skabes tillid til resultaterne. Det betaler sig at gøre forarbejdet ordentligt, så man ikke bliver berømt på sine fejlkonklusioner 38 / 96

39 Eksempel: Modelbygning for Vitamin D Problemformulering i protokol: Er der forskel på vitamin D i de forskellige lande? Hvis ja, så hvorfor? Hypoteser: Primær: pga forskel i fedme (bmi) fordi vitamin D er fedtopløseligt pga forskelle i solvaner (sunexp) fordi solen laver vitamin D i huden pga forskelle i spisevaner (vitdintake) nogle steder spiser man måske flere (fede) fisk pga aldersforskelle...? 39 / 96

40 Vitamin D i de 4 lande Tabel over median værdier: Land Antal Vitamin D Alder Body Mass Index Vitamin D Indtag Denmark Finland Ireland Poland Polen ligger lavt i vitamin D niveau, og højt i body mass index lavt i vitamin D indtag 40 / 96

41 Første skridt Er der overhovedet signifikant forskel på landene? Modeldiagram: Country Vitamin D Uanset om man ser på utransformerede data eller logaritmetransformerede data, finder man en forskel på landene (P <0.0001), idet Polen findes at ligge lavere end de øvrige. Vi vælger at køre videre på logaritmeskala. 41 / 96

42 Sammenligning af landene Outcome Y: kvantitativ, Y=lvitd, log2-transformeret Kovariat X: kategorisk, X=country Derfor: Ensidet variansanalyse, på log2-skala: Sammenligning af 4 middelværdier (kode s. 89) R-Square Coeff Var Root MSE lvitd Mean Source DF Type III SS Mean Square F Value Pr > F country <.0001 Standard Parameter Estimate Error t Value Pr > t Intercept B <.0001 country DK B country EI B country PL B <.0001 country SF B / 96

43 Fortolkning af estimater Den estimerede forskel, f.eks. mellem Finland og Polen er en faktor = 1.47 altså svarende til 47% større niveau af vitamin D i Finland sammenlignet med Polen. Konfidensintervallet for denne sammenligning udregnes på samme måde ud fra konfidensintervallet (ikke vist ovenfor af pladshensyn) som altså fra 23% over til 76% over. ( , ) = (1.23, 1.76) 43 / 96

44 Hvordan forklarer vi forskellen mellem landene? kan vi f.eks. forklare det ved forskelle i body mass index? eller måske bare noget af det? Country BMI Vitamin D Country BMI VitaminD BMI er en mellemkommende variabel (mediator) 44 / 96

45 Model med bmi som kovariat (kode s. 90) R-Square Coeff Var Root MSE lvitd Mean Source DF Type III SS Mean Square F Value Pr > F bmi country Standard Parameter Estimate Error t Value Pr > t Intercept B <.0001 bmi country DK B country EI B country PL B <.0001 country SF B / 96

46 Fortolkning af nye estimater Den estimerede forskel mellem Finland og Polen, for folk med samme BMI, er en faktor = 1.45 altså næsten det samme som før (meget lidt confounding). Konfidensintervallet for denne sammenligning bliver ( , ) = (1.21, 1.73) en ubetydelighed lavere end den ujusterede forskel fra s / 96

47 Kunne bmi forklare forskellen på landene? Nej, Selv om bmi i sig selv er stærkt signifikant (negativ effekt, estimeret til (0.0116), P = ), er der stadig stærkt signifikant forskel på landene, når vi har korrigeret for bmi (P = ), så der er masser af plads til andre bud på forklarende variable fra protokollen, vel at mærke. 47 / 96

48 Modeldiagram - med det hele Land Sol VitaminD BMI Vitdintake og så er der interaktionerne / 96

49 Kan vi så forklare forskellen på landene ved hjælp af alle de 3 specificerede kovariater samtidig? (kode s. 91) Dependent Variable: lvitd Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total R-Square Coeff Var Root MSE lvitd Mean Source DF Type III SS Mean Square F Value Pr > F bmi sunexp lvitdintake <.0001 country Næh...der er stadig signifikant forskel på landene 49 / 96

50 Output, fortsat Standard Parameter Estimate Error t Value Intercept B bmi sunexp Avoid sun B sunexp Prefer sun B sunexp Sometimes in sun B.. lvitdintake country DK B country EI B country PL B country SF B.. Parameter Pr > t 95% Confidence Limits Intercept < bmi sunexp Avoid sun sunexp Prefer sun sunexp Sometimes in sun... lvitdintake < country DK country EI country PL country SF / 96

51 Fortolkning af estimater fra output på forrige side 1 enheds stigning i BMI giver en faktor = på vitamin D niveauet, dvs. et fald på 2.3%, med konfidensgrænser ( , ) = (0.964, 0.992), svarende til et fald på mellem 0.8% og 3.6%. Solvanerne ser ikke ud til at betyde så meget, men mønstret ser fornuftigt ud, så måske ville effekten vise sig i et større materiale. Forskellen på soldyrkere og solhadere estimeres her til en faktor = 1.16, altså svarende til 16% større niveau af vitamin D hos soldyrkere i forhold til solhadere. Konfidensgrænser: se side / 96

52 Fortolkning af estimater, fortsat fra output på forrige side En 10% øgning i vitamin D indtag (dvs. en faktor 1.1 på denne), svarer til en faktor = på vitamin D niveauet, altså kun en stigning på 2.5% (se s. 18, nederste modelformel). Konfidensgrænserne er ( , ) = (1.018, 1.032), svarende til en stigning på mellem 1.8% og 3.2%. Den estimerede forskel mellem Finland og Polen, for folk med samme BMI, solvaner og vitamin D indtag, er en faktor = 1.19 altså noget mindre end tidligere, svarende til at vi har kunnet forklare en vis del af forskellen mellem de to lande (faktisk er denne forskel kun lige akkurat signifikant). 52 / 96 Konfidensintervallet for denne sammenligning er ( , ) = (1.004, 1.40)

53 Sammenligning mellem andre lande Den estimerede forskel mellem lande som Irland og Polen fremgår ikke direkte af output, men kan nemt udregnes til faktoren = 1.37 altså svarende til 37% større niveau af vitamin D i Irland sammenlignet med Polen. For at få konfidensintervallet for denne sammenligning kan man i SAS anvende en estimate-sætning (se kode s. 91 og output s. 54). 53 / 96

54 Irland vs. Polen, og soldyrkere vs. solhadere Disse sammenligninger fremkommer ikke automatisk, fordi der ikke er tale om sammenligninger til referencen. Det kan løses på flere måder, afhængigt af program: Omkodning, så vi får en anden reference Direkte valg af en bestemt reference-værdi Kombination af parameterestimater, f.eks. differenser Output fra sidstnævnte mulighed vises herunder (kode s. 91) Standard Parameter Estimate Error t Value Pr > t soldyrkere vs. solhadere Irland vs. Polen Parameter 95% Confidence Limits soldyrkere vs. solhadere Irland vs. Polen / 96

55 Fortolkning af estimate-resultaterne s. 54 Forskellen soldyrkere vs. solhadere estimeres til en faktor = 1.16, altså svarende til 16% større niveau af vitamin D hos soldyrkere i forhold til solhadere. Konfidensgrænserne er ( , ) = (0.97, 1.39), altså fra 3% under til 39% over. Den estimerede forskel Irland vs. Polen er en faktor = 1.37, nu med konfidensgrænser ( , ) = (1.15, 1.64), altså således at Irland ligger mellem 15% og 64% over Polen. 55 / 96

56 Husk også modelkontrol Kode s / 96

57 Modelkontrol, II Kode s / 96

58 Note om T-test og F-test Et T-test tester typisk, om en parameter kan være 0 Forskel på 2 middelværdier, µ 1 µ 2 En hældning β, f.eks. en lineær effekt af bmi eller alder Et F-test tester flere sådanne på en gang Identitet af middelværdier af vitamin D for 4 lande (µ 1 = µ 2 = µ 3 = µ 4, df=3) Samtidig fjernelse af flere kovariater på en gang, f.eks. 3 kostvariable (β 1 = β 2 = β 3 = 0, df=3) 58 / 96

59 Modelreduktion - F test Vi skal sammenligne to modeller: Den oprindelige med alle kovariater (nr. 1) og den simplere (hypotesen, model nr. 2 uden 3 af kovariaterne) Kan vi forsvare at bruge den simpleste af dem? Beskriver den data tilstrækkeligt godt? NB: Modellerne skal være nestede, dvs. den ene fremkommer af den anden, typisk ved at sætte parametre til nul ( fjerne effekter ). Se på ændring i model-kvadratsum: Hvor meget mindre forklares af den simplere model? SS = SS model1 SS model2 59 / 96

60 Forståelse Flere parametre kan forklare (lidt) mere variation: SS > 0 Spørgsmålet er: Hvor meget mere? Hvor stor skal SS være, før vi erklærer testet signifikant? Det er det, F-testet svarer på. Her er vores hypotese (model 2), at fire parametre (svarende til effekten af 3 kovariater) er lig med 0 60 / 96

61 Udelad flere kovariater på en gang? I VitaminD-eksemplet har vi p.t. 4 kovariater: bmi (df=1) sunexp (df=2) lvitdintake (df=1) country (df=3) Bidrager de 3 øverste med noget forklaringsevne tilsammen? Det gør de selvfølgelig, fordi 2 af dem selvstændigt gør det, men for princippets skyld: Dette kan testes ved et F-test, der sammenligner 2 modeller: Den med de 3 kovariater og den uden disse 3, Her finder vi F = F(4, 205), P < , (se kode s. 92) 61 / 96

62 Udelad flere kovariater på en gang,ii Se kode s. 92 Dependent Variable: lvitd Sum of Source DF Squares Mean Square F Value Pr > F Model <.0001 Error Corrected Total Source DF Type III SS Mean Square F Value Pr > F bmi sunexp lvitdintake <.0001 country Contrast DF Contrast SS Mean Square F Value fjern alle tre paa en gang Contrast Pr > F fjern alle tre paa en gang < / 96

63 Hypoteser vedr. interaktioner Hvilke kunne vi forestille os at se på? sunexp*vitdintake: måske optages vitamin D fra kosten bedre, hvis man samtidig får sol? nok lidt spekulativt... country*sunexp: Pga breddegrad: Solen sydpå er nok lidt mere effektiv (det så vi i forelæsningen om ANOVA) country*lvitdintake: næppe...og dog Kun præ-specificerede, og fortolkelige interaktioner bør inkluderes i modellen. 63 / 96

64 Interaktionen sunexp*lvitdintake Kode s. 93 Dependent Variable: lvitd Source DF Type III SS Mean Square F Value Pr > F bmi sunexp lvitdintake <.0001 country lvitdintake*sunexp Standard Parameter Estimate Error t Value Pr > t log intake, avoid sun <.0001 log intake, sometimes sun <.0001 log intake, prefer sun Ikke nogen særlige forskelle på effekten af vitamin D indtag, afhængig af solvaner. 64 / 96

65 Interaktionen country*sunexp Kode s. 94 Dependent Variable: lvitd Source DF Type III SS Mean Square F Value Pr > F bmi sunexp lvitdintake <.0001 country country*sunexp Her er der en signifikant interaktion. Vi forsøger at forstå den ved at se på effekten af sunexp for hvert land separat 65 / 96

66 Effekt af sol, opdelt efter land Kode s. 94 country*sunexp Effect Sliced by country for lvitd Sum of country DF Squares Mean Square F Value Pr > F DK EI PL SF Der ser ud til at være en tendens til effekt af sunexp i Polen og Irland, men ikke i Danmark og Finland. Men mønsteret for Irland er ret svært at forstå...se figur næste side 66 / 96

67 Illustration af country*sunexp Kode s. 94 Hvad sker der for Irland? 67 / 96

68 Interaktionen country*lvitdintake Kode s. 95 Dependent Variable: lvitd Source DF Type III SS Mean Square F Value Pr > F bmi sunexp lvitdintake <.0001 country lvitdintake*country Standard Parameter Estimate Error lvitdintake*country DK lvitdintake*country EI lvitdintake*country PL lvitdintake*country SF Her ses overraskende nok en signifikant interaktion, mestendels fordi effekten af vitamin D indtaget er langt større i Danmark end i de øvrige lande. Det har formentlig en ret speciel forklaring / 96

69 Repetition: Sammenligning af to grupper - som ikke er helt sammenlignelige, pga en confounder, som er: En variabel, som har en effekt på outcome er relateret til gruppen (der er forskel på værdierne i de to grupper) Gruppe/behandling Confounder Outcome Eksempel: Lungekapacitet vs. køn og højde 69 / 96

70 Illustration af confounding og kovariansanalyse Kovariaten x er her en confounder for gruppeforskellen: 70 / 96

71 Eksempel om lungekapacitet fra forelæsningen om kovariansanalyse: Lungekapacitet vs. køn, Outcome er log10tlc: Kovariater Mænd vs. kvinder ratio (CI) P-værdi kun kønnet 1.35 (1.13, 1.61) køn og 1.10 (0.93, 1.30) 0.24 højde Den observerede forskel i (log 10 ) lungekapacitet mellem mænd og kvinder kan altså tilskrives højdeforskellen mellem kønnene. 71 / 96

72 Alternativt eksempel Det kan også forekomme, at Tilsyneladende ens grupper (f.eks. blodtryk hos mænd og kvinder) udviser forskelle, når der bliver korrigeret for inhomogeniteter (f.eks. fedmegrad) Vi så også dette i eksemplet med P-piller og hormoner i ANCOVA-forelæsningen Man skal (på protokolstadiet) nøje overveje, hvilke variable med potentiel betydning for outcome, der skal medtages i modellen!... uden at gå for meget på fisketur!! og man skal huske at tænke på, at fortolkningen skifter afhængig af de øvrige kovariater i modellen 72 / 96

73 Eksempel: Fedmegrad og blodtryk Systolisk blodtryk (bp) vs. fedmegrad = vægt/idealvægt (obese): begge på logaritmisk skala (kode s. 95) 73 / 96

74 Resultater, Blodtryk vs. køn Outcome log10bp: Kovariat Mænd vs. kvinder ratio (CI) P-værdi kun kønnet 1.02 (0.96, 1.07) 0.56 køn og 1.07 (1.01, 1.13) 0.02 fedmegrad Fedmegrad er en confounder for kønnet, idet der er forskel på fedmegrad for mænd og kvinder. Kvinder estimeres til en fedmegrad på 16.7% højere end mænd (CI: 9.3%-24.5%) 74 / 96

75 Illustration af kovariansanalysen To parallelle linier: Samme relation til fedmegrad for de to køn Forsigtig konklusion: Kvinder har ligeså højt blodtryk som mænd, fordi de er federe / 96

76 Husk også de tidligere eksempler på confounding Kolesterol vs. chokoladespisning og køn... Kolesterol og chokoladespisning er positivt relaterede for hvert køn separat negativt relaterede for mennesker Ingen særlig kønsforskel i kolesterol og dog... Vi så det også i eksemplet med hjernevægt hos mus 76 / 96

77 Men læg mærke til følgende: Selv om fordelingen af kovariaten er ens i de to grupper, kan det være af stor betydning at medtage den i analysen. Det giver større styrke! Gruppe/behandling Kovariat Outcome Men vi svarer samtidig på et andet videnskabeligt spørgsmål!! 77 / 96

78 Simuleret eksempel Uden x i modellen: Ingen særlig forskel på grupperne...? Med x i modellen: Tydelig forskel på grupperne (her den lodrette afstand mellem linierne) 78 / 96

79 Effekt af at medtage en ekstra forklarende variabel Besvarelse af et andet videnskabeligt spørgsmål undgå at maskere forskel, f.eks. en nedsættelse af hormonkoncentrationen ved indtagelse af P-piller (fordi man sammenligner unge P-pille brugere med ældre kvinder) nedsættelse af residualvariationen, med deraf følgende lavere standard errors, dvs. større styrke Hvis kovariaten ikke er vigtig, risikerer man at forøge residualvariationen lidt (fordi man har færre frihedsgrader) og at forøge standard errors meget, hvis kovariaten er korreleret til nogle af dem, der allerede er medtaget (kollinearitet). 79 / 96

80 Appendix Programbidder svarende til diverse slides: Biokemisk iltforbrug, transformationer, s Udglatning og polynomie-fit, s Lineære splines, s Ikke-lineær regression, s. 88 Vitamin D, GLM, s Interaktioner, s Blodtryk og fedme, s / 96

81 Data vedr. biokemisk iltforbrug Slide 11 med omstrukturering, transformationer og analyse data a1; input days boc1 boc2 boc3 boc4; datalines; ; run; data a2; set a1; boc=boc1; output; boc=boc2; output; boc=boc3; output; boc=boc4; output; drop boc1 boc2 boc3 boc4; run; data boc; set a2; logboc=log(boc); invdays=1/days; run; proc glm data=boc; model logboc=invdays / clparm; run; 81 / 96

82 Figurer vedr. biokemisk iltforbrug Slide 8 proc sgplot data=boc; scatter Y=boc X=days; run; Slide 12 proc sgplot data=boc; reg Y=logboc X=invdays / markerattrs=(color=blue size=10) lineattrs=(color=red); run; 82 / 96

83 Udglattet kurve en såkaldt Loess-kurve Slide 19 proc sgplot data=juul; where age ge 5 and age le 20 and sex= male ; loess Y=sigf1 X=age / smooth=0.5 lineattrs=(color=red); run; 83 / 96

84 Polynomiale fit Slide 23 proc gplot data=juul gout=plotud uniform; where age ge 5 and age le 20 and sex= male ; plot ssigf1*age ssigf1*age ssigf1*age / overlay haxis=axis1 vaxis=axis2; axis1 value=(h=3) minor=none label=(h=3); axis2 value=(h=3) minor=none label=(a=90 R=0 H=3); symbol1 v=circle i=rl c=black ci=black h=2 l=1 w=7; symbol2 v=circle i=rq c=black ci=red h=2 l=1 w=7; symbol3 v=circle i=rc c=black ci=green h=2 l=1 w=7; run; 84 / 96

85 Lineære splines Slide Definer de nye variable: extra_age10=max(age-10,0); extra_age12=max(age-12,0); extra_age13=max(age-13,0); extra_age15=max(age-15,0); Fit derefter en model med disse 4 ekstra kovariater: proc reg data=juul; where age ge 5 and age le 20 and sex= male ; model ssigf1=age extra_age10 extra_age12 extra_age13 extra_age15; output out=fit p=yhat; run; 85 / 96

86 Alternativ parametrisering af lineære splines Slide så man i stedet får estimater for hældningerne i de enkelte aldersintervaller ny_age=min(age,10); ny_age10=min(extra_age10,2); ny_age12=min(extra_age12,1); ny_age13=min(extra_age13,2); ny_age15=extra_age15; Fit derefter en model med disse 4 ekstra kovariater: proc reg data=juul; where age ge 5 and age le 20 and sex= male ; model ssigf1=age ny_age10 ny_age12 ny_age13 ny_age15; output out=fit p=yhat; run; 86 / 96

87 Illustration af fit med lineære splines Slide 86, 26 proc gplot data=fit gout=plotud; where age ge 5 and age le 20 and sex= male ; plot (ssigf1 yhat)*age / overlay haxis=axis1 vaxis=axis2 frame href=10 href=12 href=13 href=15 lh=33; axis1 value=(h=3) minor=none label=(h=3); axis2 value=(h=3) minor=none label=(a=90 R=0 H=3); symbol1 v=circle i=none c=blue h=2 l=1 w=1; symbol2 v=none i=join c=red h=2 l=1 w=3; run; 87 / 96

88 Ikke-lineær regression Slide data reticulo; infile kw_res.txt ; input tid conc; run; proc nlin data=reticulo; parms beta=2000 gamma=0.05; model conc=beta*(1-exp(-gamma*tid)); run; 88 / 96

89 ANOVA, sammenligning af D-vitamin i 4 lande Slide 42 DATA women; SET women; lvitd=log2(vitd); RUN; proc glm data=women; class country; model lvitd = country / solution clparm; run; 89 / 96

90 Model med bmi som kovariat, ANCOVA Slide 45 proc glm data=women; class country; model lvitd = bmi country / solution clparm; run; 90 / 96

91 Model med 4 kovariater og modelkontrol Slide 49-50, 53-54, DATA women; SET women; lvitd=log2(vitd); lvitdintake=log2(vitdintake); RUN; ods graphics on; proc glm PLOTS=(DIAGNOSTICS RESIDUALs(SMOOTH)) data=women; class sunexp country; model lvitd = bmi sunexp lvitdintake country / solution clparm; estimate soldyrkere vs. solhadere sunexp ; estimate Irland vs. Polen country ; run; ods graphics off; 91 / 96

92 Udeladelse af flere kovariater samtidig Slide proc glm data=women; class country sunexp; model lvitd=bmi sunexp lvitdintake country / solution clparm; contrast fjern alle tre paa en gang bmi 1, sunexp , sunexp 0-1 1, lvitdintake 1; run; 92 / 96

93 Interaktionen sunexp*lvitdintake Slide 64 proc glm data=women; class country sunexp; model lvitd=bmi sunexp lvitdintake country sunexp*lvitdintake / solution clparm; estimate "log intake, avoid sun" lvitdintake 1 sunexp*lvitdintake 1 0 0; estimate "log intake, sometimes sun" lvitdintake 1 sunexp*lvitdintake 0 0 1; estimate "log intake, prefer sun" lvitdintake 1 sunexp*lvitdintake 0 1 0; run; 93 / 96

94 Interaktionen country*sunexp Slide proc glm data=vitamind; class country sunexp; model lvitd=bmi sunexp lvitdintake country country*sunexp / solution clparm; lsmeans country*sunexp / slice=country out=adjmeans; run; data tegn; set adjmeans; lvitd=lsmean; LABEL sunexp="sun exposure" lvitd="log2 Vitamin D"; run; proc sgplot data=tegn; series X=sunexp Y=lvitd / group=country; xaxis type=discrete; run; 94 / 96

95 Interaktionen country*lvitdintake Slide 68 proc glm data=women; class country sunexp; model lvitd=bmi sunexp country country*lvitdintake / solution clparm; lsmeans country*lvitdintake; run; 95 / 96

96 Blodtryk vs. fedme Sammenligning af mænd og kvinder, med figur Slide 75 proc glm plots=all data=a1; class sex; model log10bp=sex log10obese / solution clparm; run; Kode til figuren ODS GRAPHICS ON; proc sgplot data=a1; scatter x=log10obese y=log10bp / group=sex; lineparm x=0.1 y= slope=0.312 / lineattrs=(color=blue); lineparm x=0.1 y= slope=0.312 / lineattrs=(color=red); lineparm x= y=2.0 slope=. / lineattrs=(color=blue); lineparm x= y=2.0 slope=. / lineattrs=(color=red); run; ods graphics off; 96 / 96

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Basal Statistik - SPSS Den generelle lineære model. Lene Theil Skovgaard 24. oktober 2017 Biokemisk iltforbrug,

Læs mere

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 6. september 2016 Faculty of Health Sciences Basal Statistik Begreber. Parrede sammenligninger. Lene Theil Skovgaard 6. september 2016 1 / 88 APPENDIX Programbidder svarende til diverse slides: Indlæsning af vitamin D datasæt,

Læs mere

Opgavebesvarelse, brain weight

Opgavebesvarelse, brain weight Opgavebesvarelse, brain weight (Matthews & Farewell: Using and Understanding Medical Statistics, 2nd. ed.) Spørgsmål 1 Data er indlagt på T:/Basalstatistik/brain.txt og kan indlæses direkte i Analyst med

Læs mere

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences

Basal Statistik. Simpel lineær regression. Simpel lineær regression. Data. Faculty of Health Sciences Faculty of Health Sciences Simpel lineær regression Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 21. februar 2017 Regression og korrelation Simpel lineær regression Todimensionale normalfordelinger

Læs mere

Lineær regression i SAS. Lineær regression i SAS p.1/20

Lineær regression i SAS. Lineær regression i SAS p.1/20 Lineær regression i SAS Lineær regression i SAS p.1/20 Lineær regression i SAS Simpel lineær regression Grafisk modelkontrol Multipel lineær regression SAS-procedurer: PROC REG PROC GPLOT Lineær regression

Læs mere

Basal statistik. 21. oktober 2008

Basal statistik. 21. oktober 2008 Basal statistik 21. oktober 2008 Den generelle lineære model Repetition af variansanalyse og multipel regression Interaktion Parametriseringer Kovariansanalyse Esben Budtz-Jørgensen, Biostatistisk Afdeling

Læs mere

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017

Faculty of Health Sciences. Basal Statistik. Regressionsanalyse. Lene Theil Skovgaard. 26. september 2017 Faculty of Health Sciences Basal Statistik Regressionsanalyse. Lene Theil Skovgaard 26. september 2017 1 / 85 Simpel lineær regression Regression og korrelation Simpel lineær regression Todimensionale

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder

Basal statistik. Logaritmer og kovariansanalyse. Nyt eksempel vedr. sammenligning af målemetoder. Scatter plot af de to metoder Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 Parret sammenligning, målemetoder med logaritmer Tosidet variansanalyse

Læs mere

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015

Faculty of Health Sciences. Basal statistik. Logaritmer. Kovariansanalyse. Lene Theil Skovgaard. 29. september 2015 Faculty of Health Sciences Basal statistik Logaritmer. Kovariansanalyse Lene Theil Skovgaard 29. september 2015 1 / 84 Logaritmer og kovariansanalyse Parret sammenligning, målemetoder med logaritmer Tosidet

Læs mere

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model

Multipel regression. M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Multipel regression M variable En afhængig (Y) M-1 m uafhængige / forklarende / prædikterende (X 1 til X m ) Model Y j 1 X 1j 2 X 2j... m X mj j eller m Y j 0 i 1 i X ij j BEMÆRK! j svarer til individ

Læs mere

Besvarelse af opgave om Vital Capacity

Besvarelse af opgave om Vital Capacity Besvarelse af opgave om Vital Capacity hentet fra P. Armitage & G. Berry: Statistical methods in medical research. 2nd ed. Blackwell, 1987. Spørgsmål 1: Indlæs data og konstruer en faktor (klassevariabel)

Læs mere

Faculty of Health Sciences. Basal statistik. Lille SAS Manual. Lene Theil Skovgaard. 31. januar 2017

Faculty of Health Sciences. Basal statistik. Lille SAS Manual. Lene Theil Skovgaard. 31. januar 2017 Faculty of Health Sciences Basal statistik Lille SAS Manual Lene Theil Skovgaard 31. januar 2017 1 / 42 Selve sproget Siderne 9-18 Indlæsning (9-12) Definition af nye variable (13) Missing values / Manglende

Læs mere

Basal statistik. Selve sproget. Grafik. Basale procedurer. Faculty of Health Sciences. Lille SAS Manual

Basal statistik. Selve sproget. Grafik. Basale procedurer. Faculty of Health Sciences. Lille SAS Manual Faculty of Health Sciences Selve sproget Basal statistik Lille SAS Manual Lene Theil Skovgaard 5. september 2017 Siderne 9-18 Indlæsning (9-12) Definition af nye variable (13) Missing values / Manglende

Læs mere

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Lineær regression. Simpel regression. Model. ofte bruges følgende notation: Lineær regression Simpel regression Model Y i X i i ofte bruges følgende notation: Y i 0 1 X 1i i n i 1 i 0 Findes der en linie, der passer bedst? Metode - Generel! least squares (mindste kvadrater) til

Læs mere

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1 Lineær regression Lad x 1,..., x n være udfald af stokastiske variable X 1,..., X n og betragt modellen M 2 : X i N(α + βt i, σ 2 ) hvor t i, i = 1,..., n, er kendte tal. Konkret analyseres (en del af)

Læs mere

k normalfordelte observationsrækker (ensidet variansanalyse)

k normalfordelte observationsrækker (ensidet variansanalyse) k normalfordelte observationsrækker (ensidet variansanalyse) Lad x ij, i = 1,...,k, j = 1,..., n i, være udfald af stokastiske variable X ij og betragt modellen M 1 : X ij N(µ i, σ 2 ). Estimaterne er

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014

Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Vejledende besvarelse af hjemmeopgave i Basal Statistik, forår 2014 Garvey et al. interesserer sig for sammenhængen mellem anæstesi og allergiske reaktioner (se f.eks. nedenstående reference, der dog ikke

Læs mere

Vejledende besvarelse af hjemmeopgave

Vejledende besvarelse af hjemmeopgave Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2013 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) I forbindelse med en undersøgelse af vitamin

Læs mere

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013

Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 Vejledende besvarelse af hjemmeopgave i Basal statistik for lægevidenskabelige forskere, forår 2013 I forbindelse med reagensglasbehandling blev 100 par randomiseret til to forskellige former for hormonstimulation.

Læs mere

Regressionsanalyse i SAS

Regressionsanalyse i SAS Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Inge Henningsen Afdeling for Anvendt Matematik og Statistik December 2006 Regressionsanalyse uden gentagelser Regressionsanalyse

Læs mere

Multipel Lineær Regression

Multipel Lineær Regression Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk model Specificer

Læs mere

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences

Basal statistik. Logaritmer og kovariansanalyse. Sammenligning af målemetoder. Scatter plot af de to metoder. Faculty of Health Sciences Faculty of Health Sciences Logaritmer og kovariansanalyse Basal statistik Logaritmer, Repetition, Kovariansanalyse, Interaktion Lene Theil Skovgaard 4. oktober 2016 Parret sammenligning, målemetoder med

Læs mere

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06)

Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Afdeling for Biostatistik Bo Martin Bibby 23. november 2006 Løsning til eksamensopgaven i Basal Biostatistik (J.nr.: 1050/06) Vi betragter 4699 personer fra Framingham-studiet. Der er oplysninger om follow-up

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Institut for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression Regressionsanalyse Regressionsanalyser

Læs mere

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences

Basal Statistik. Sammenligning af grupper. Praktisk håndtering af data. Vitamin D eksemplet. Faculty of Health Sciences Faculty of Health Sciences Sammenligning af grupper Basal Statistik Sammenligning af grupper, Variansanalyse Sammenligning af to grupper: T-test Dimensionering af undersøgelser Sammenligning af flere end

Læs mere

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 12. september / 116

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 12. september / 116 Faculty of Health Sciences Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 12. september 2017 1 / 116 Sammenligning af grupper Sammenligning af to grupper: T-test Dimensionering

Læs mere

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable

Faculty of Health Sciences. Logistisk regression: Kvantitative forklarende variable Faculty of Health Sciences Logistisk regression: Kvantitative forklarende variable Susanne Rosthøj Biostatistisk Afdeling Institut for Folkesundhedsvidenskab Københavns Universitet sr@biostat.ku.dk Sammenhæng

Læs mere

Reeksamen i Statistik for Biokemikere 6. april 2009

Reeksamen i Statistik for Biokemikere 6. april 2009 Københavns Universitet Det Naturvidenskabelige Fakultet Reeksamen i Statistik for Biokemikere 6. april 2009 Alle hjælpemidler er tilladt, og besvarelsen må gerne skrives med blyant. Opgavesættet er på

Læs mere

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger.

Filen indeholder 45 linier, først en linie med variabelnavnene (bw og rmr) og derefter 44 datalinier, hver med disse to oplysninger. Opgavebesvarelse, Resting metabolic rate I filen rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991 og Owen et.al., Am.

Læs mere

1 Hb SS Hb Sβ Hb SC = , (s = )

1 Hb SS Hb Sβ Hb SC = , (s = ) PhD-kursus i Basal Biostatistik, efterår 2006 Dag 6, onsdag den 11. oktober 2006 Eksempel 9.1: Hæmoglobin-niveau og seglcellesygdom Data: Hæmoglobin-niveau (g/dl) for 41 patienter med en af tre typer seglcellesygdom.

Læs mere

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ Normalfordelingen Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: f(x) = ( ) 1 exp (x µ)2 2πσ 2 σ 2 Frekvensen af observationer i intervallet

Læs mere

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 1 Regressionsproblemet 2 Simpel lineær regression Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning 3

Læs mere

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017

Faculty of Health Sciences. Basal Statistik. Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 7. februar 2017 Faculty of Health Sciences Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 7. februar 2017 1 / 96 Sammenligning af grupper Sammenligning af to grupper: T-test Dimensionering

Læs mere

Vejledende besvarelse af hjemmeopgave, efterår 2016

Vejledende besvarelse af hjemmeopgave, efterår 2016 Vejledende besvarelse af hjemmeopgave, efterår 2016 Udleveret 4. oktober, afleveres senest ved øvelserne i uge 44 (1.-4. november) Normal aktivitet af enzymet plasma kolinesterase er en forudsætning for

Læs mere

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april

Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Århus 8. april 2011 Morten Frydenberg Epidemiologi og Biostatistik Opgaver i Biostatistik Uge 10: 13. april Opgave 1 ( gruppe 1: sp 1-4, gruppe 5: sp 5-9 og gruppe 6: 10-14) I denne opgaveser vi på et

Læs mere

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer.

1. Lav en passende arbejdstegning, der illustrerer samtlige enkeltobservationer. Vejledende besvarelse af hjemmeopgave Basal statistik, efterår 2008 En gruppe bestående af 45 patienter med reumatoid arthrit randomiseres til en af 6 mulige behandlinger, nemlig placebo, aspirin eller

Læs mere

Løsning til øvelsesopgaver dag 4 spg 5-9

Løsning til øvelsesopgaver dag 4 spg 5-9 Løsning til øvelsesopgaver dag 4 spg 5-9 5: Den multiple model Vi tilføjer nu yderligere to variable til vores model : Køn og kolesterol SBP = a + b*age + c*chol + d*mand hvor mand er 1 for mænd, 0 for

Læs mere

Eksamen i Statistik for biokemikere. Blok

Eksamen i Statistik for biokemikere. Blok Eksamen i Statistik for biokemikere. Blok 2 2007. Vejledende besvarelse 22-01-2007, Niels Richard Hansen Bemærkning: Flere steder er der givet en argumentation (f.eks. baseret på konfidensintervaller)

Læs mere

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences

Basal Statistik. Sammenligning af grupper. Vitamin D eksemplet. Praktisk håndtering af data. Faculty of Health Sciences Faculty of Health Sciences Sammenligning af grupper Basal Statistik Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 7. februar 2017 Sammenligning af to grupper: T-test Dimensionering af undersøgelser

Læs mere

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Eksamensopgave E05. Socialklasse og kronisk sygdom Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab Eksamensopgave E05 Socialklasse og kronisk sygdom Data: Tværsnitsundersøgelse fra 1986 Datamaterialet indeholder: Køn, alder, Højest opnåede

Læs mere

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og

Model. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister) og Model M 0 : X hi N(α h + β h t hi,σ 2 h ), h = 1,...,m, i = 1,...,n h. m separate regressionslinjer. Behandles som i afsnit 3.3. (m separate analyser). I vores eksempel er m = 2, n 1 = 13 (13 journalister)

Læs mere

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk Eksempel: Systolisk blodtryk Udgangspunkt: Vi ønsker at prædiktere det systoliske blodtryk hos en gruppe af personer. Epidemiologi og biostatistik. Uge, torsdag. Erik Parner, Afdeling for Biostatistik.

Læs mere

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse . september 5 Epidemiologi og biostatistik. Forelæsning Uge, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Lineær regressionsanalyse - Simpel lineær regression - Multipel lineær regression

Læs mere

Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november)

Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) Hjemmeopgave Basal statistik, efterår 2013 Udleveret 1. oktober, afleveres senest ved øvelserne i uge 44 (29. oktober-1. november) I forbindelse med en undersøgelse af vitamin D status i Europa, har man

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2015

Vejledende besvarelse af hjemmeopgave, forår 2015 Vejledende besvarelse af hjemmeopgave, forår 2015 En stikprøve bestående af 65 mænd og 65 kvinder er blevet undersøgt med henblik på at se på en evt. sammenhæng mellem kropstemperatur og puls. På hjemmesiden

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA) Anvendt Statistik Lektion 9 Variansanalyse (ANOVA) 1 Undersøge sammenhæng Undersøge sammenhænge mellem kategoriske variable: χ 2 -test i kontingenstabeller Undersøge sammenhæng mellem kontinuerte variable:

Læs mere

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1 Matematisk Modellering 1 Side 1 I nærværende opgavesæt er der 16 spørgsmål fordelt på 4 opgaver. Ved bedømmelsen af besvarelsen vægtes alle spørgsmål lige. Endvidere lægges der vægt på, at det af besvarelsen

Læs mere

Vejledende besvarelse af hjemmeopgave, forår 2016

Vejledende besvarelse af hjemmeopgave, forår 2016 Vejledende besvarelse af hjemmeopgave, forår 2016 Udleveret 1. marts, afleveres senest ved øvelserne i uge 13 (29. marts-1. april) Denne opgave fokuserer på at beskrive niveauet af hormonet AMH (højt niveau

Læs mere

Variansanalyse i SAS. Institut for Matematiske Fag December 2007

Variansanalyse i SAS. Institut for Matematiske Fag December 2007 Københavns Universitet Statistik for Biokemikere Det naturvidenskabelige fakultet Institut for Matematiske Fag December 2007 Variansanalyse i SAS 2 Tosidet variansanalyse Residualplot Tosidet variansanalyse

Læs mere

Basal Statistik - SPSS

Basal Statistik - SPSS Faculty of Health Sciences Basal Statistik - SPSS Kovariansanalyse. Lene Theil Skovgaard 3. oktober 2017 1 / 12 APPENDIX med instruktioner til SPSS-analyse svarende til nogle af slides Bland-Altman plot,

Læs mere

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen

Filen indeholder variablenavne i første linie, og de ligger i rækkefølgen Opgavebesvarelse, Resting metabolic rate I filen T:\Basalstatistik\rmr.txt findes sammenhørende værdier af kropsvægt (bw, i kg) og hvilende stofskifte (rmr, kcal pr. døgn) for 44 kvinder (Altman, 1991

Læs mere

Phd-kursus i Basal Statistik, Opgaver til 2. uge

Phd-kursus i Basal Statistik, Opgaver til 2. uge Phd-kursus i Basal Statistik, Opgaver til 2. uge Opgave 1: Sædkvalitet Filen oeko.txt på hjemmesiden indeholder datamateriale til belysning af forskellen i sædkvalitet mellem SAS-ansatte og mænd, der lever

Læs mere

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S Kursus i varians- og regressionsanalyse Data med detektionsgrænse Birthe Lykke Thomsen H. Lundbeck A/S 1 Data med detektionsgrænse Venstrecensurering: Baggrundsstøj eller begrænsning i måleudstyrets følsomhed

Læs mere

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller Type I og type II fejl Type I fejl: forkast når hypotese sand. α = signifikansniveau= P(type I fejl) Program (8.15-10): Hvis vi forkaster når Z < 2.58 eller Z > 2.58 er α = P(Z < 2.58) + P(Z > 2.58) =

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression: Definitioner For en binær (0/) variabel Y antager vi P(Y)p P(Y0)-p Eksempel: Bil til arbejde vs alder

Læs mere

Modul 11: Simpel lineær regression

Modul 11: Simpel lineær regression Forskningsenheden for Statistik ST01: Elementær Statistik Bent Jørgensen Modul 11: Simpel lineær regression 11.1 Regression uden gentagelser............................. 1 11.1.1 Oversigt....................................

Læs mere

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression Anvendt Statistik Lektion 7 Simpel Lineær Regression 1 Er der en sammenhæng? Plot af mordraten () mod fattigdomsraten (): Scatterplot Afhænger mordraten af fattigdomsraten? 2 Scatterplot Et scatterplot

Læs mere

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Anvendt Statistik Lektion 8. Multipel Lineær Regression Anvendt Statistik Lektion 8 Multipel Lineær Regression 1 Simpel Lineær Regression (SLR) y Sammenhængen mellem den afhængige variabel (y) og den forklarende variabel (x) beskrives vha. en SLR: ligger ikke

Læs mere

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger

Øvelser til basalkursus, 5. uge. Opgavebesvarelse: Knogledensitet hos unge piger Øvelser til basalkursus, 5. uge Opgavebesvarelse: Knogledensitet hos unge piger I alt 112 piger har fået målt knogledensitet (bone mineral density, bmd) i 11-års alderen (baseline værdi). Pigerne er herefter

Læs mere

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j Hypoteser om mere end to stikprøver ANOVA k stikprøver: (ikke ordinale eller højere) H 0 : 1 2... k gælder også for k 2! H 0ij : i j H 0ij : i j simpelt forslag: k k 1 2 t-tests: i j DUER IKKE! Bonferroni!!

Læs mere

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19 For test med signifikansniveau α: p < α forkast H 0 2/19 p-værdi Betragt tilfældet med test for H 0 : µ = µ 0 (σ kendt). Idé: jo større

Læs mere

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere.

Overlevelse efter AMI. Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Køn og alder betragtes som confoundere. Overlevelse efter AMI Hvilken betydning har følgende faktorer for risikoen for ikke at overleve: Diabetes VF (Venticular fibrillation) WMI (Wall motion index) CHF (Cardiac Heart Failure) Køn og alder betragtes

Læs mere

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression Multipel Linear Regression Repetition Partiel F-test Modelsøgning Logistisk Regression Test for en eller alle parametre I jagten på en god statistisk model har vi set på følgende to hypoteser og tilhørende

Læs mere

Statistik Lektion 17 Multipel Lineær Regression

Statistik Lektion 17 Multipel Lineær Regression Statistik Lektion 7 Multipel Lineær Regression Polynomiel regression Ikke-lineære modeller og transformation Multi-kolinearitet Auto-korrelation og Durbin-Watson test Multipel lineær regression x,x,,x

Læs mere

Statistiske Modeller 1: Kontingenstabeller i SAS

Statistiske Modeller 1: Kontingenstabeller i SAS Statistiske Modeller 1: Kontingenstabeller i SAS Jens Ledet Jensen October 31, 2005 1 Indledning Som vist i Notat 1 afsnit 13 er 2 log Q for et test i en multinomialmodel ækvivalent med et test i en poissonmodel.

Læs mere

Løsning til opgave i logistisk regression

Løsning til opgave i logistisk regression Løsning til øvelser i logistisk regression, november 2008 1 Løsning til opgave i logistisk regression 1. Først indlæses data, og vi kan lige sørge for at danne en dummy-variable for cml, som indikator

Læs mere

Statistik Lektion 16 Multipel Lineær Regression

Statistik Lektion 16 Multipel Lineær Regression Statistik Lektion 6 Multipel Lineær Regression Trin i opbygningen af en statistisk model Repetition af MLR fra sidst Modelkontrol Prædiktion Kategoriske forklarende variable og MLR Opbygning af statistisk

Læs mere

Forelæsning 11: Kapitel 11: Regressionsanalyse

Forelæsning 11: Kapitel 11: Regressionsanalyse Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse Bygning 324, Rum 220 Danmarks Tekniske Universitet 2800

Læs mere

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode Kursus 02402 Introduktion til Statistik Forelæsning 11: Kapitel 11: Regressionsanalyse Oversigt 1 Gennemgående eksempel: Højde og vægt 2 Korrelation 3 Per Bruun Brockhoff DTU Compute, Statistik og Dataanalyse

Læs mere

MPH specialmodul Epidemiologi og Biostatistik

MPH specialmodul Epidemiologi og Biostatistik MPH specialmodul Epidemiologi og Biostatistik Kvantitative udfaldsvariable 23. maj 2011 www.biostat.ku.dk/~sr/mphspec11 Susanne Rosthøj (Per Kragh Andersen) 1 Kapitelhenvisninger Andersen & Skovgaard:

Læs mere

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper.

Det kunne godt se ud til at ikke-rygere er ældre. Spredningen ser ud til at være nogenlunde ens i de to grupper. 1. Indlæs data. * HUSK at angive din egen placering af filen; data framing; infile '/home/sro00/mph2016/framing.txt' firstobs=2; input id sex age frw sbp sbp10 dbp chol cig chd yrschd death yrsdth cause;

Læs mere

Logistisk Regression - fortsat

Logistisk Regression - fortsat Logistisk Regression - fortsat Likelihood Ratio test Generel hypotese test Modelanalyse Indtil nu har vi set på to slags modeller: 1) Generelle Lineære Modeller Kvantitav afhængig variabel. Kvantitative

Læs mere

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17

Analysestrategi. Lektion 7 slides kompileret 27. oktober 200315:24 p.1/17 nalysestrategi Vælg statistisk model. Estimere parametre i model. fx. lineær regression Udføre modelkontrol beskriver modellen data tilstrækkelig godt og er modellens antagelser opfyldte fx. vha. residualanalyse

Læs mere

Basal statistik. 2. oktober Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol

Basal statistik. 2. oktober Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Basal statistik 2. oktober 2007 Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Lene Theil Skovgaard, Biostatistisk Afdeling Institut

Læs mere

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression

Logistisk Regression. Repetition Fortolkning af odds Test i logistisk regression Logistisk Regression Repetition Fortolkning af odds Test i logistisk regression Logisitks Regression: Repetition Y {0,} binær afhængig variabel X skala forklarende variabel π P( Y X x) Odds(Y X x) π /(-π

Læs mere

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1

n r x rs x r = 1 n r s=1 (x rs x r ) 2, s=1 (a) Denne opgave bygger på resultaterne fra 2 forsøg med epo-behandling af for tidligt fødte børn, idet gruppe 1 og 3 stammer fra første forsøg, mens gruppe 2 og 4 stammer fra det andet. Det må antages,

Læs mere

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser

Uge 43 I Teoretisk Statistik, 21. oktober Forudsigelser Uge 43 I Teoretisk Statistik,. oktober 3 Simpel lineær regressionsanalyse Forudsigelser Fortolkning af regressionsmodellen Ekstreme observationer Transformationer Sammenligning af to regressionslinier

Læs mere

Morten Frydenberg 26. april 2004

Morten Frydenberg 26. april 2004 Introduktion til Logistisk Regression Morten Frydenberg, Inst. f. Biostatistik RESUME: 2 2. gang: 2002 Institut for Biostatistik, Århus Universitet MPH. studieår Specialmodul 4 Cand. San. uddannelsen.

Læs mere

Basal statistik. 30. september 2008

Basal statistik. 30. september 2008 Basal statistik 30. september 2008 Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Peter Dalgaard, Biostatistisk Afdeling Institut for

Læs mere

Kursus i basal statistik: Multipel regression. Birthe Lykke Thomsen Det Nationale Forskningscenter for Arbejdsmiljø

Kursus i basal statistik: Multipel regression. Birthe Lykke Thomsen Det Nationale Forskningscenter for Arbejdsmiljø Kursus i basal statistik: Multipel regression Birthe Lykke Thomsen Det Nationale Forskningscenter for Arbejdsmiljø Multipel regression: Princip 2 Multipel regression: Et outcome, mange forklarende variable

Læs mere

Basal statistik 3. oktober Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium?

Basal statistik 3. oktober Typiske problemstillinger: Hvordan afhænger behandlingens effekt af sygdomsstadium? variansanalyse, oktober 2006 1 Basal statistik 3. oktober 2006 Variansanalyse Sammenligning af flere grupper Ensidet variansanalyse Tosidet variansanalyse Interaktion Modelkontrol Lene Theil Skovgaard

Læs mere

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i

(tæt på N(0,1) hvis n ikke alt for lille). t i god til at checke for outliers som kan have stor indflydelse på estimaterne s 2 og ˆσ 2 e i Da er r i = e i ˆσ ei t(n 3) (tæt på N(0,1) hvis n ikke alt for lille). Program 1. lineær regression: opgave 3 og 13 (sukker-temperatur). 2. studentiserede residualer, multipel regression. Tommelfinger-regel:

Læs mere

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller.

Vi vil analysere effekten af rygning og alkohol på chancen for at blive gravid ved at benytte forskellige Cox regressions modeller. Løsning til øvelse i TTP dag 3 Denne øvelse omhandler tid til graviditet. Et studie vedrørende tid til graviditet (Time To Pregnancy = TTP) inkluderede 423 par i alderen 20-35 år. Parrene blev fulgt i

Læs mere

Statistik II 4. Lektion. Logistisk regression

Statistik II 4. Lektion. Logistisk regression Statistik II 4. Lektion Logistisk regression Logistisk regression: Motivation Generelt setup: Dikotom(binær) afhængig variabel Kontinuerte og kategoriske forklarende variable (som i lineær reg.) Eksempel:

Læs mere

Kursus i basal statistik: Multipel regression

Kursus i basal statistik: Multipel regression Multipel regression: Princip 2 Multipel regression: Et outcome, mange forklarende variable Problemstillingen kan eksempelvis være: Kursus i basal statistik: Multipel regression Birthe Lykke Thomsen Det

Læs mere

Basal statistik. 30. januar 2007

Basal statistik. 30. januar 2007 Basal statistik 30. januar 2007 Deskriptiv statistik Typer af data Tabeller Grafik Summary statistics Lene Theil Skovgaard, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet

Læs mere

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse

SPSS appendix SPSS APPENDIX. Box plots. Indlæsning. Faculty of Health Sciences. Basal Statistik: Sammenligning af grupper, Variansanalyse Faculty of Health Sciences SPSS APPENDIX SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 12. september 2017 med instruktioner til SPSS-analyse svarende til

Læs mere

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22.

Faculty of Health Sciences. SPSS appendix. Basal Statistik: Sammenligning af grupper, Variansanalyse. Lene Theil Skovgaard. 22. Faculty of Health Sciences SPSS appendix Basal Statistik: Sammenligning af grupper, Variansanalyse Lene Theil Skovgaard 22. januar 2018 1 / 20 SPSS APPENDIX med instruktioner til SPSS-analyse svarende

Læs mere

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling

Faculty of Health Sciences. Regressionsanalyse. Simpel lineær regression, Lene Theil Skovgaard. Biostatistisk Afdeling Faculty of Health Sciences Regressionsanalyse Simpel lineær regression, 28-2-2013 Lene Theil Skovgaard Biostatistisk Afdeling 1 / 67 Simpel lineær regression Regression og korrelation Simpel lineær regression

Læs mere

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge

Statistik og Sandsynlighedsregning 2. Repetition og eksamen. Overheads til forelæsninger, mandag 7. uge Statistik og Sandsynlighedsregning 2 Repetition og eksamen Overheads til forelæsninger, mandag 7. uge 1 Normalfordelingen Erfaringsmæssigt er normalfordelingen velegnet til at beskrive variationen i mange

Læs mere

Løsning eksamen d. 15. december 2008

Løsning eksamen d. 15. december 2008 Informatik - DTU 02402 Introduktion til Statistik 2010-2-01 LFF/lff Løsning eksamen d. 15. december 2008 Referencer til Probability and Statistics for Engineers er angivet i rækkefølgen [8th edition, 7th

Læs mere

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner

Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner Tovejs-ANOVA (Faktoriel) Regler og problemer kan generaliseres til mere end to hovedfaktorer med tilhørende interaktioner I modsætning til envejs-anova kan flervejs-anova udføres selv om der er kun én

Læs mere

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018

Faculty of Health Sciences. Basal Statistik. Overlevelsesanalyse. Lene Theil Skovgaard. 12. marts 2018 Faculty of Health Sciences Basal Statistik Overlevelsesanalyse Lene Theil Skovgaard 12. marts 2018 1 / 12 APPENDIX vedr. SPSS svarende til diverse slides: Kaplan-Meier kurver, s. 3 Kumulerede incidenser

Læs mere

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 15. januar 2018

Faculty of Health Sciences. Basal Statistik. Begreber. Parrede sammenligninger. Lene Theil Skovgaard. 15. januar 2018 Faculty of Health Sciences Basal Statistik Begreber. Parrede sammenligninger. Lene Theil Skovgaard 15. januar 2018 1 / 91 Indhold Planlægning af undersøgelse, protokol Grafik, Basale begreber Parrede sammenligninger

Læs mere

Hvorfor bøvle med MIXED

Hvorfor bøvle med MIXED Hvorfor bøvle med MIXED E. Jørgensen 1 1 Genetik og Bioteknologi Danmarks Jordbrgsforskning Forskergrppe for Statistik og besltningsteori Årslev 18/01/2006 MIXED vs. GLM Lidt baggrnd Generel Lineær Model

Læs mere

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1

Opgaver til ZAR II. Afdeling for Anvendt Matematik og Statistik Michael Sørensen Oktober Opgave 1 Københavns Universitet Afdeling for Anvendt Matematik og Statistik Statistik for biokemikere Inge Henningsen Michael Sørensen Oktober 2003 Opgaver til ZAR II Opgave 1 Et datasæt består af 20 observationer.

Læs mere

Module 4: Ensidig variansanalyse

Module 4: Ensidig variansanalyse Module 4: Ensidig variansanalyse 4.1 Analyse af én stikprøve................. 1 4.1.1 Estimation.................... 3 4.1.2 Modelkontrol................... 4 4.1.3 Hypotesetest................... 6 4.2

Læs mere

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression

Statikstik II 2. Lektion. Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Statikstik II 2. Lektion Lidt sandsynlighedsregning Lidt mere om signifikanstest Logistisk regression Sandsynlighedsregningsrepetition Antag at Svar kan være Ja og Nej. Sandsynligheden for at Svar Ja skrives

Læs mere

INTRODUKTION TIL dele af SAS

INTRODUKTION TIL dele af SAS INTRODUKTION TIL dele af SAS Der er flere forskellige angrebsvinkler ved statistiske analyser i SAS. Vi skal her kun beskæftige os med to af disse, nemlig Direkte programmering. Brug af SAS ANALYST Hvilken

Læs mere