Præsentation og praktisk anvendelse af PROC GLMSELECT Kristina Birch, projektchef Copyright 2011 SAS Institute Inc. All rights reserved.
Præsentation og praktisk anvendelse af PROC GLMSELECT Abstract I mange praktiske tilfælde er udfordringen i statistisk modellering og/eller data mining ikke manglen på uafhængige variable, men snarere det omvendte: At der er hundredvis af inputvariable at vælge imellem. Analytikerens job er bl.a. at finde den bedste model, som indeholder en delmængde af inputvariable ud fra mere eller mindre veldefinerede kriterier. Denne demo præsenterer kort de metoder til model- og variabelselektion, der bruges i forbindelse med generelle lineære modeller, herunder udvidelser af de velkendte (i bl.a. proc reg og SAS Enterprise Miner ) metoder forward-, backward- og stepwise-variabelselektion. 2
Agenda Introduktion Generelle lineære modeller Kort præsentation af forward-, backward- og stepwiseselektionsmetoder Om PROC GLMSELECT To eksempler Ikke-parametrisk modellering ved brug af spline-effekter» Univariate- og multivariate-tilfælde Modelselektion for microarray data (genstrenge) 3
Introduktion Udfordringer for statistikeren Øget datamængde gør variabel- og modelselektion mere og mere vanskelig Data hentes fra transaktionssystemer ( real live data ) og ikke fra specifikt designede lukkede eksperimenter Kan ikke umiddelbart forklare sammenhæng mellem afhængig og uafhængig variabel intuitionen mistes Flere og flere avancerede metoder og modeller bliver tilgængelige og kan gøre estimation vanskeligere Hardware og software er ikke længere en begrænsning i forhold til estimation af modeller 4
Generelle lineære modeller Ingen SAS/STAT -demo uden formler En lineær model har følgende struktur Antagelser Da er 5
Selektionsmetoder Kendte selektionsmetoder fra PROC REG, PROC LOGISTIC, PROC GLM mv. incl. standard procedurer i SAS Enterprise Miner Forward Backward Stepwise All subsets 6
All subsets 3 2 2 2 1 2 k 1 1 0 7
Stepwise selection 0 1 2 3 4 5 6 Stop 8
Backward elimination 0 1 2 3 4 5 6 Stop 9
PROC GLMSELECT Egenskaber Modelspecifikation Mulighed for forskellige typer parametrisering for klassifikationsvariable Understøtter alle grader af vekselvirkninger (crossed effects) og nestede effekter Understøtter hierarkier af effekter Understøtter partitionering af data (train, validation, testing ) Indeholder EFFECT statement til at generere» Spline effects» Polynomial effects» Multimember effects» Collection effects 10
PROC GLMSELECT Egenskaber Selektionskontrol Mulighed for forskellige metoder af effektselektion Muliggør udvælgelse blandt et højt antal af mulige effekter (titusinder) Indeholder individuel udvælgelse af niveauer for klassifikationsvariable Muliggør selektion på basis af en mængde af selektionskriterier Understøtter stopregler baseret på en mængde af modelevalueringskriterier Giver mulighed for leave-one-out - og k-fold validation 11
PROC GLMSELECT Egenskaber Display og output Danner grafisk illustration af selektionsprocessen Danner et outputdatasæt bestående af prædikterede variable og residualer Danner et outputdatasæt bestående af designmatricen Danner makrovariable, der indeholder de valgte modeller Supporterer parallel processing af BY-grupper Supporterer multiple SCORE statements 12
Om EFFECT statement Experimental in SAS/STAT 9.2 Muliggør konstruktion af en samling af kolonner i designmatricen hørende til modellen Disse refereres til som konstruerede effekter for at adskille dem fra almindelige effekter, som er givet ved én kontinuert eller én klassifikationsvariabel 13
Om EFFECT statement Experimental in SAS/STAT 9.2 Følgende EFFECT statements er til rådighed COLLECTION» En samling af effekter med flere frihedsgrader anses for én enhed i forhold til variabeludvælgelse MULTIMEMBER MM» En multimember -klassifikationseffekt, der er bestemt ud fra én eller flere klassifikationsvariable (eksempelvis teacher effect ) POLYNOMIAL POLY» En multivariatpolynomialeffekt i de specificerede variable SPLINE» Er en regressions-spline (dansk: liste) -effekt bestående af univariate spline-ekspansioner af én eller flere kontinuerte variable. Spline-effekten erstatter den originale variabel med et ekspanderet sæt af variable 14
Eksempel på brug af PROC GLMSELECT Eksempel 1 Ikke-parametrisk modellering med brug af spline-effekter Univariate- og multivariate-tilfælde 15
Eksempel på brug af PROC GLMSELECT Eksempel 2 Modelselektion for micro array data (genstrenge) 16
Copyright 2011 SAS Institute Inc. All rights reserved.