Basal statistik 23. september 2008
Korrelation og regression Simpel lineær regression Todimensionale normalfordelinger Korrelation vs. regression Modelkontrol Diagnostics
Thomas Scheike, Biostatistisk Afdeling Institut for Folkesundhedsvidenskab, Københavns Universitet Slides af Lene T. Skovgaard findes på http://staff.pubhealth.ku.dk/~ebj/basal08_2
Korrelation og regression, september 2008 1 Simpel lineær regression Retningsbestemt relation (men ikke nødvendigvis kausal) mellem to kontinuerte variable: Y: Respons eller outcome, afhængig (dependent) variabel X: Forklarende variabel, kovariat (somme tider Independent/uafhængig - meget uheldigt!)
Korrelation og regression, september 2008 2 Data: Sammenhørende registreringer (x i,y i ), for en række individer eller units, i = 1,,n: Bemærk: x i erne kan vælges på forhånd! Det er smart, fordi man kan designe sig til mere præcise estimater Det er farligt, hvis man har tænkt sig at benytte korrelationer (mere om det senere)
Korrelation og regression, september 2008 3 Eksempel: Sammenhæng mellem kolinesteraseaktivitet (KE) og tid til opvågnen (TID) Outcome: TID Forklarende variabel: KE Konklusioner: Hvor lang tid forventer vi til opvågnen, baseret på en måling af KE? Hvor stor er usikkerheden på denne prediktion?
Korrelation og regression, september 2008 4 Eksempel: Sammenligning af lungekapacitet (FEV 1 ) for rygere og ikke-rygere Problem: FEV 1 afhænger også af f.eks. højde Outcome: FEV 1 Forklarende variable: højde, rygevaner Konklusioner: Hvor meget dårligere er lungefunktionen hos rygere?
Korrelation og regression, september 2008 5 Kan der påvises en sammenhæng mellem fastende blodsukkerniveau og sammentrækningsevne for venstre hjertekammer hos diabetikere? (n=23) OBS BLODSUK VCF Outcome: Y=vcf, %/sec. Kovariat: X=blodsuk, mmol/l 1 15.3 1.76 2 10.8 1.34 3 8.1 1.27......... 21 4.9 1.03 22 8.8 1.12
Korrelation og regression, september 2008 6 Scatter plot Graphs/Scatter Plot /Two-Dimensional eller proc gplot data=sasuser.bp; plot vcf*blodsuk; run;
Korrelation og regression, september 2008 7 Ligningen for en ret linie: Y = α + βx
Korrelation og regression, september 2008 8 Fortolkning: α: intercept, afskæring (skæring med Y-akse) Sammentrækningsevnen for en diabetiker med en blodsukkerværdi på 0. Som regel en utilladelig ekstrapolation! β: hældning, regressionskoefficient Forskellen i sammentrækningsevne hos 2 diabetikere, der afviger i blodsukkerværdi med 1 mmol/l. Ofte parameteren med størst interesse.
Korrelation og regression, september 2008 9 Statistisk model: Y i = α + βx i + ε i, ε i N(0,σ 2 ) uafh. Estimation foretages v.hj.a mindste kvadraters metode
Korrelation og regression, september 2008 10 Mindste kvadraters metode: Bestem α og β, så kvadratafvigelsessummen n n (y i (α + βx i )) 2 = bliver mindst mulig i=1 i=1 ε 2 i ˆβ = S xy S xx = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2, ˆα = ȳ ˆβ x
Korrelation og regression, september 2008 11 Regressionsanalyse i ANALYST: Statistics/Regression/Simple eller Linear vcf Dependent, blodsuk Explanatory Statistics afkryds Confidence limits for estimates samt evt. Correlation matrix of estimates Og ved direkte programmering: proc reg data=sasuser.bp; model vcf = blodsuk / clb corrb; run;
Korrelation og regression, september 2008 12 Dependent Variable: vcf Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 0.20727 0.20727 4.41 0.0479 Error 21 0.98610 0.04696 Corrected Total 22 1.19337 Root MSE 0.21670 R-Square 0.1737 Dependent Mean 1.32565 Adj R-Sq 0.1343 Coeff Var 16.34634 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t 95% Confidence Limits Intercept 1 1.09781 0.11748 9.34 <.0001 0.85350 1.34213 blodsuk 1 0.02196 0.01045 2.10 0.0479 0.00022311 0.04370 Correlation of Estimates Variable Intercept blodsuk Intercept 1.0000-0.9231 blodsuk -0.9231 1.0000
Korrelation og regression, september 2008 13 Vigtige informationer fra output: hældning (slope, vises i output under betegnelsen blodsuk, fordi det er koefficienten til denne), ˆβ = 0.02196 0.022, med tilhørende spredning (standard error) spredningen omkring linien (Root MSE), s = ˆσ = 0.21670 0.217 Denne størrelse benyttes til konstruktion af prediktionsgrænser (kommer senere), som er normalområder for given blodsukkerværdi.
Korrelation og regression, september 2008 14 Tegning med linie: I regressionsopsætningen klikkes Plots, og der afkrydses i Plot observed vs. independent Estimeret regressionslinie: vcf=1.10 + 0.0220 blodsuk
Korrelation og regression, september 2008 15 Fortolkning af ˆα er ofte håbløs, men den er nødvendig for at lave prediktioner. Fittede (predikterede, forventede) værdier: ŷ i = ˆα + ˆβx i Forventet værdi af vcf for en diabetiker med blodsukker 10mmol/l: 1.10 + 0.0220 10 = 1.32
Korrelation og regression, september 2008 16 Omparametrisering, f.eks. v.hj.a. ny forklarende variabel: Z = X 10 Der gælder så α = α + 10β, dvs. liniens y-værdi i x=10. Fortolkning af α 10 : Sammentrækningsevne for en diabetiker med blodsukkerværdi 10 mmol/l.
Korrelation og regression, september 2008 17 Data/Transform/Compute, definer sukker10 som blodsuk-10 Gentag nu regressionen med blodsuk erstattet af sukker10. Vi får så Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > t 95% Confidence Limits Intercept 1 1.31744 0.04535 29.05 <.0001 1.22312 1.41176 sukker10 1 0.02196 0.01045 2.10 0.0479 0.00022311 0.04370 Correlation of Estimates Variable Intercept sukker10 Intercept 1.0000-0.0862 sukker10-0.0862 1.0000
Korrelation og regression, september 2008 18 Regressionsanalysen indeholder 3 parametre: 2 hørende til linien (intercept og hældning) 1, som er spredningen omkring linien (σ): den biologiske variation af vcf for folk med samme blodsukker-værdi Vi estimerer σ 2, variansen omkring regressionslinien ved s 2 = 1 n 2 n (y i ˆα ˆβx i ) 2 i=1 ca. gennemsnitlig kvadratisk afstand, blot er n (antallet af observationer) erstattet af n 2 (antallet af frihedsgrader), her 21
Korrelation og regression, september 2008 19 Man kan ikke forstå eller fortolke varianser direkte, så vi tager straks kvadratrod: s = s 2 som er estimat for spredningen omkring regressionslinien kaldes i SAS (lidt uheldigt) for Root Mean Square Error her 0.2167, med de samme enheder som vcf
Korrelation og regression, september 2008 20 Hvor gode er skønnene over de ukendte parametre α og β? Hvor meget anderledes resultater kunne vi forvente at finde ved en ny undersøgelse? Det kan vises, at ˆβ N(β, σ2 S xx ) dvs. hældningen er præcist bestemt, hvis observationerne ligger tæt på linien (σ 2 lille) variationen i x-værdier (S xx ) er stor
Korrelation og regression, september 2008 21 Estimeret usikkerhed på ˆβ: se(ˆβ) = s Sxx Dette estimat kaldes standard error for ˆβ, eler generelt standard error of the estimate (s.e.e) Vi bruger det til at konstruere et 95% konfidensinterval ˆβ ± t 97.5% (n 2) se(ˆβ) = ˆβ ± ca.2 se(ˆβ) = 0.0220 ± 2.080 0.0105 = (0.0002, 0.0438)
Korrelation og regression, september 2008 22 Vi kan også teste, typisk H 0 : β = 0 ved t-testet t = ˆβ se(ˆβ) t(n 2) som her giver t = 0.0220 =2.10 t(21), P=0.048 0.0105 dvs. lige på grænsen af det signifikante
Korrelation og regression, september 2008 23 Tilsvarende kan vi teste f.eks. H 0 : α = α 0 ved t-testet t = ˆα α 0 se(ˆα) t(n 2) eller udregne et 95% konfidensinterval for α: 1.098 ± 2.080 0.1175 = (0.854, 1.342) Dette er ikke særlig interessant. I stedet kan vi erstatte blodsuk af blodsuk-10, hvorved det nye intercept -estimat bliver 1.317(0.045) med 95% konfidensinterval 1.317 ± 2.080 0.045 = (1.223, 1.411). Dette kan fortolkes.
Korrelation og regression, september 2008 24 Vi kan altså teste hypoteser om såvel α som β, men: Estimaterne for intercept og hældning er (negativt) korrelerede (her -0.92, jv. s. 12) Accepter ikke to sideordnede test Selv om vi kan acceptere test vedr. både α (f.eks. intercept=0) og β (f.eks. hældning 1) hver for sig, kan vi ikke nødvendigvis acceptere begge samtidig
Korrelation og regression, september 2008 25
Korrelation og regression, september 2008 26 Variationsopspaltning SS total = n (y i ȳ) 2 = SS model + SS resid i=1 Total variation = variation, som kan forklares + variation, som ikke kan forklares x er en god forklarende variable, hvis SS resid er lille i forhold til SS model
Korrelation og regression, september 2008 27 Alternativ teststørrelse for effekt af x F-teststørrelse for hypotesen H 0 : β = 0: SS model /1 SS resid /(n 2) F(1,n 2) Bemærk, at der her gælder, at det nye F-test giver det samme som det gamle t-test, fordi t = ˆβ se(ˆβ) = F
Korrelation og regression, september 2008 28 Ækvivalensen mellem t og F-tests gælder kun for simpel lineær regression Generelt tester F-testet mere end 1 frihedsgrad væk: flere niveauer af en kategorisk kovariat testes ens (anova) flere kvantitative forklarende variable testes væk på samme tid (multipel regression)
Korrelation og regression, september 2008 29 Determinationskoefficient, R 2 : Den andel af variationen (i y), der kan forklares ved modellen: R 2 = SS model SS total Her finder vi determinationskoefficienten: R 2 = 0.17, dvs. vi kan forklare 17% af variationen i vcf v.hj.a. variablen blodsuk. Determinationskoefficienten er kvadratet på korrelationskoefficienten mellem vcf og blodsuk (som dermed er r = 0.17 = 0.42)
Korrelation og regression, september 2008 30 Korrelationen r mellem to variable måler: I hvor høj grad ligner scatter plottet en ret linie? Ikke: Hvor nær ligger punkterne ved den rette linie? Korrelationskoefficienten estimeres ved: S n xy i=1 r = r xy = = (x i x)(y i ȳ) Sxx S n yy i=1 (x i x) 2 n i=1 (y i ȳ) 2 antager værdier mellem -1 og 1 (0 = uafhængighed) +1 og -1 svarer til perfekt lineær sammenhæng, hhv. positiv og negativ
Korrelation og regression, september 2008 31 Todimensional normalfordelingstæthed med korrelation 0 Alle lodrette snit giver normalfordelinger med samme middelværdi og samme varians
Korrelation og regression, september 2008 32 Todimensional normalfordelingstæthed Korrelation 0.9 Udpræget retning i figuren
Korrelation og regression, september 2008 33 Konturkurver for en normalfordeling
Korrelation og regression, september 2008 34 Regression kontra korrelation Antagelserne til brug for fortolkning af en korrelation er skrappere end for regressionsanalysen, fordi: En todimensional normalfordeling for (X,Y) medfører: De betingede fordelinger af Y givet X=x er igen normalfordelinger De betingede middelværdier ligger på en ret linie De betingede varianser er ens (uafhængig af x)
Korrelation og regression, september 2008 35 Betingninger i den todimensionale normalfordeling giver altså en lineær regressionsmodel: men ved udregning af korrelationen antager man tillige, at X erne følger en normalfordeling.
Korrelation og regression, september 2008 36 De to estimater (for korrelation og hældning) ligner hinanden ˆβ = S xy S xx ˆβ = r xy Syy S xx r xy = S xy Sxx S yy r xy = ˆβ Sxx S yy Men korrelationen er dimensionsløs og svær at fortolke
Korrelation og regression, september 2008 37 Test af uafhængighed (ingen korrelation), H 0 : ρ xy = 0 T = r xy 1 r 2 xy n 2 t(n 2) Test for β = 0 er identisk med test for ρ xy = 0
Korrelation og regression, september 2008 38 Men pas på: 1 r 2 xy = s 2 s 2 +ˆβ 2 Sxx n 2 Hold ˆβ og s 2 fast: S xx stor 1-r 2 xy tæt på 0 r 2 xy tæt på 1 r 2 xy kan gøres vilkårlig tæt på 1 ved at sprede x erne f.eks. ved at udelade de midterste
Korrelation og regression, september 2008 39 Korrelationskoefficienten udtrykker sammenhæng, ikke overensstemmelse (der er f.eks. en sammenhæng mellem alder og blodtryk, men der er naturligvis ikke overensstemmelse) Man skal derfor ikke bruge korrelationskoefficienten til at sammenligne målemetoder Pearson korrelationen måler graden af lineær sammenhæng. For krumme sammenhænge bør man benytte rangkorrelationer (Spearman).
Korrelation og regression, september 2008 40 Fittede (predikterede, forventede) værdier: ŷ i = ˆα + ˆβx i Konfidensgrænser for selve linien (smalle grænser) benyttes til sammenligning med andre grupper af personer man benytter spredningen s 1 + (x i x) 2 n S xx Disse grænser bliver vilkårligt snævre, når antallet af observationer øges. De er ofte irrelevante!
Korrelation og regression, september 2008 41 Konfidensgrænser (fås under Plots i regressionsopsætningen) eller ved at skrive symbol=rlclm95 i symbol-sætningen
Korrelation og regression, september 2008 42 Fittede (predikterede, forventede) værdier: ŷ i = ˆα + ˆβx i Prediktionsgrænser (normalområde) for enkeltobservationer (brede grænser) De benyttes til at afgøre, om en ny person er atypisk i forhold til normen (diagnostik), idet de omslutter ca. 95% af fremtidige observationer, også for store n. man benytter spredningen s 1 + 1 n + (x i x) 2 S xx Disse grænser bliver ikke nævneværdigt snævrere, når antallet af observationer øges.
Korrelation og regression, september 2008 43 Prediktionsgrænser Afkryds Prediction limits i stedet for Confidence limits eller ved at skrive symbol=rlcli95 i symbol-sætningen
Korrelation og regression, september 2008 44 Modellens konklusioner er kun rimelige, hvis modellen selv er rimelig. Modelkontrol: Passer modellen rimeligt til data? Diagnostics: Passer data til modellen? Eller er der indflydelsesrige observationer eller outliers? Check af disse to forhold burde foretages fra begyndelsen, men da de kræver fit af modellen, kan de først foretages efterfølgende
Korrelation og regression, september 2008 45 Modelkontrol: Den statistiske model var Y i = α + βx i + ε i, ε i N(0,σ 2 ) uafhængige Hvilke antagelser skal vi checke her? linearitet varianshomogenitet (ε i erne har samme varians) normalfordelte afvigelser (ε i erne) Obs: Intet krav om normalfordeling på x i erne!! eller y i erne!!
Korrelation og regression, september 2008 46 Til grafisk modelkontrol skal vi bruge residualerne = modelafvigelserne = observeret - fittet værdi: eller en modifikation af disse (se senere) ˆε i = y i ŷ i
Korrelation og regression, september 2008 47 Residualplots: Residualer (af passende type) plottes mod den forklarende variabel x i for at checke linearitet (se efter krumninger) de fittede værdier ŷ i for at checke varianshomogenitet (se efter trompeter) fraktildiagram eller histogram for at checke normalfordelingsantagelsen De to førstnævnte figurer skal give indtryk af uorden dvs. der må ikke være nogen systematik Fraktildiagrammet skal ligne en ret linie
Korrelation og regression, september 2008 48 Linearitet, eller.. Tendens til buer? Hvis lineariteten ikke holder i rimelig grad, bliver modellen ufortolkelig.
Korrelation og regression, september 2008 49 Numerisk check af linearitet: Tilføj kvadratleddet blodsuk 2 vcf=α+β 1 blodsuk+β 2 blodsuk 2 Test af linearitet: β 2 =0 Parameter Standard Variable DF Estimate Error t Value Pr > t Intercept 1 1.27901 0.06149 20.80 <.0001 sukker10 1 0.01520 0.01277 1.19 0.2480 blodsuk_i_anden 1 0.00218 0.00234 0.93 0.3640 Test af β = 0 giver t = 0.93 og P = 0.36. Lineariteten ser rimelig ud
Korrelation og regression, september 2008 50 Afhjælpning af non-linearitet: tilføj flere kovariater, f.eks. alder, køn, medicin etc. transformer variablene med logaritmer kvadratrod, invers Lad være med at gøre noget: ikke-lineær regression
Korrelation og regression, september 2008 51 Problemer med varianshomogeniteten? Kaos? eller trompetfacon? symmetri om 0-linien? Hvis varianshomogeniteten ikke holder i rimelig grad, mister vi styrke, og prediktionsgrænser bliver upålidelige!
Korrelation og regression, september 2008 52 Trompetfacon kan fortolkes som konstant relativ spredning = konstant variationskoefficient Variationskoefficient = spredning middelværdi ofte konstant, når man måler på små positive størrelser, f.eks. koncentrationer transformer outcome med logaritme
Korrelation og regression, september 2008 53 Problemer med normalfordelingsantagelsen? Er histogrammet passende symmetrisk? Ser fraktildiagrammet lineært ud?
Korrelation og regression, september 2008 54 Hvis normalfordelingen ikke holder i rimelig grad, mister vi (lidt) styrke og prediktionsgrænser bliver upålidelige! Afhjælpning af problemer med normalfordelingsantagelsen: transformation med logaritmer i tilfælde af fordelinger med haler mod højre non-parametriske metoder men så får vi ingen kvantificeringer
Korrelation og regression, september 2008 55 Antagelsen om normalfordeling (og varianshomogenitet) er ikke så kritisk for selve fittet, fordi: t-fordelingen bygger på normalfordelingen, men kun på en normalfordelingsantagelse for estimatet ˆβ, og dette passer ofte, når der er rimeligt mange observationer, på grund af Den centrale grænseværdisætning, der siger at summer og andre funktioner af mange observationer bliver mere og mere normalfordelt. Men prediktionsgrænserne bliver misvisende og ufortolkelige!!
Korrelation og regression, september 2008 56 Transformation med logaritmer men hvilken logaritme? Alle logaritmer er proportionale, så resultaterne bliver ens (efter tilbagetransformation), men der er visse fif: Den forklarende variabel transformeres for at opnå linearitet, dvs. når det er successive fordoblinger, der har konstant effekt. Brug gerne 2-tals logaritmer!
Korrelation og regression, september 2008 57 Outcome transformeres enten for at opnå linearitet for at opnå varianshomogenitet Var(log(y)) Var(y) y 2 = CV 2 dvs. en konstant variationskoefficient (CV) på Y betyder konstant varians på log(y ), den naturlige logaritme (den som tidligere har heddet ln, men som altså hedder log i computersprog)
Korrelation og regression, september 2008 58 Regression diagnostics: Understøttes konklusionerne af hele materialet? Eller er der observationer med meget stor indflydelse på resultaterne? Udelad den i te person og bestem nye estimater for samtlige parametre. Udregn Cook s afstand, et mål for ændringen i parameterestimater. Spalt Cook s afstand ud i koordinater, som måler f.eks: Hvor mange s.e. ændrer ˆβ 1 sig, hvis den i te person udelades?
Korrelation og regression, september 2008 59 En enkelt observation skiller sig ud i forhold til de øvrige
Korrelation og regression, september 2008 60 Spalt Cooks afstand ud i koordinater og angiv: Hvor mange se er ændres f.eks. ˆβ, når den i te person udelades? Dependent Variable: vcf Output Statistics -------DFBETAS------- Obs Intercept blodsuk 1-0.2421 0.4134 2 0.0014 0.0005 3-0.0049 0.0030 4 0.1082-0.1461 5 0.0150-0.0104 6 0.4436-0.3547 7 0.0048-0.0019 8-0.0588-0.0430 9-0.0829 0.0552 10 0.0008-0.0617 11 0.0060-0.0043 12-0.0345 0.0277 13-0.8744 1.1973 <--------------------- 14 0.0982-0.1718 15 0.3409-0.2478 16.. 17-0.1295 0.1086 18 0.0181-0.0008 19 0.0128-0.0907 20 0.3978-0.6287 21 0.0169-0.0476 22-0.2938 0.2395 23-0.1237 0.0625 24 0.2419-0.0856
Korrelation og regression, september 2008 61 Estimeret linie: y = 1.098 + 0.022x ˆβ = 0.02196(0.01045), t = 0.02196 0.01045 = 2.1,P = 0.048 Regressionsanalyse uden observation nr. 13 Estimeret linie: y = 1.189 + 0.011x ˆβ = 0.01082(0.01029), t = 0.01082 0.01029 = 1.05,P = 0.31
Korrelation og regression, september 2008 62 Outliers Observationer, der ikke passer ind i sammenhængen de er ikke nødvendigvis indflydelsesrige de har ikke nødvendigvis et stort residual Press-residualer Residualer, der fremkommer efter at den pågældende observation har været udelukket fra estimationen. (residualer without current observation)
Korrelation og regression, september 2008 63 Hvad gør vi ved indflydelsesrige observationer og outliers? ser nærmere på dem, de er tit ganske interessante anfører et mål for deres indflydelse Hvornår kan vi udelade dem? hvis de ligger meget yderligt husk at afgrænse konklusionerne tilsvarende! hvis man kan finde årsagen og da skal alle sådanne udelades!
Korrelation og regression, september 2008 64 Modelkontrol og Diagnostics i ANALYST Visse af plottene kan konstrueres direkte ved i regressionsopsætningen at klikke Plots/Residual hvor der vælges f.eks. Residual mod Predicted
Korrelation og regression, september 2008 65 Der findes 4 forskellige typer af residualer normeret? med alle obs. uden current obs. nej Residual Press ja Student Rstudent
Korrelation og regression, september 2008 66 Fuld kontrol over tegninger til modelkontrol fås ved i regressionsopsætningen at benytte Save Data, afkryds Create and save diagnostics data overflyt (klik Add) de størrelser, der skal gemmes (typisk Predicted, Residual, Student, Rstudent,Cookd,Press). Dobbeltklik på Diagnostics Table i projekttræet Gem det ved at klikke File/Save as By SAS Name og åbn det i ANALYST, når der skal laves tegninger mv.
Korrelation og regression, september 2008 67 Falsk korrelation (spurious correlation) Korrelationen er: positiv for mænd positivt for kvinder negativt for mennesker Eks: Kolesterol vs. chokoladeindtag
Korrelation og regression, september 2008 68 Korrelationen er: tilsyneladende positiv 0 for hver aldersgruppe X og Y vokser begge med alderen
Korrelation og regression, september 2008 69 Et delvist program kunne se ud som: data a1; infile vcf.tal ; input glucose vcf; sukker10=glucose-10; glucose_i_anden=(glucose-10)**2; run; proc print data=a1; var glucose vcf; run; proc corr pearson spearman data=a1; var vcf glucose; run;
Korrelation og regression, september 2008 70 proc reg data=a1; model vcf=sukker10 glucose_i_anden / clb; run; proc reg data=a1; model vcf=glucose / corrb clb r p influence; output out=ny p=yhat r=resid student=stresid cookd=cook h=h rstudent=uresid press=press; run; proc print data=ny; var glucose vcf yhat resid stresid h cook uresid press; run; proc univariate normal data=ny; var resid; histogram / cfill=gray height=3 normal; probplot / height=3 normal(mu=est sigma=est l=33); inset mean std skewness / header= descriptive ; run;
Korrelation og regression, september 2008 71 proc gplot gout=plotud data=a1; plot vcf*glucose / haxis=axis1 vaxis=axis2 frame; axis1 order=(0 to 20 by 5) value=(h=3) offset=(3,3) minor=none label=(h=3 blood glucose (mmol/l) ); axis2 order=(0.6 to 2.0 by 0.2) value=(h=3) offset=(3,3) minor=none label=(a=90 R=0 H=3 Vcf (%/sec) ); symbol1 v=circle i=rlcli95 c=black h=3 l=1 w=2; run;