Præsentation og praktisk anvendelse af PROC GLMSELECT



Relaterede dokumenter
High-Performance Data Mining med SAS Enterprise Miner 14.1

Demo af PROC GLIMMIX: Analyse af gentagne observationer

Multipel regression. Data fra opgave 3 side 453: Multipel regressionsmodel: Y = α + β 1 x 1 + β 2 x 2 + ǫ. hvor ǫ N(0, σ 2 ).

Introduktion til GLIMMIX

Estimering og anvendelse af modeller ved brug af PROC MODEL

Multipel Linear Regression. Repetition Partiel F-test Modelsøgning Logistisk Regression

Undervisningsbeskrivelse

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Opsamling Modeltyper: Tabelanalyse Logistisk regression Generaliserede lineære modeller Log-lineære modeller

Moderne SAS-programmering på webben med SAS Studio. Georg Morsing SAS Institute

Reeksamen i Statistik for Biokemikere 6. april 2009

Økonometri 1. Inferens i den lineære regressionsmodel 2. oktober Økonometri 1: F8 1

Skriftlig eksamen Science statistik- ST501

Net Lift Modelling. Peter Steffensen, Senior Principal Consultant. Copyright 2011 SAS Institute Inc. All rights reserved.

Fagårsplan 10/11 Fag: Matematik Klasse: 7.ABC Lærer: Henrik Stillits. Fagområde/ emne

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Kausale modeller. Konstruktion og analyse

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Simpel Lineær Regression

Tips og tricks til Proc Means. Per Andersen

Adgangsgivende eksamen (udeladt kategori: Matematisk student med matematik på niveau A)

Økonometri Lektion 1 Simpel Lineær Regression 1/31

Opgavebesvarelse, logistisk regression

Kapitel 11 Lineær regression

Agenda. Kort om YouSee. Udfordringer & Vision. Setup & Dataflow. Dynamikken i løsningen. Resultater og femtiden

Note om Monte Carlo eksperimenter

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Statistik II 4. Lektion. Logistisk regression

β 2 : forskel i skæring polymer 1 og 2. β 3 forskel i skæring polymer 1 og 3.

Additiv model teori og praktiske erfaringer

PROC TRANSPOSE. SAS-tabellen - hensigtsmæssig lagring af data. Copyright 2011 SAS Institute Inc. All rights reserved.

Noter til Specialkursus i videregående statistik

1 Regressionsproblemet 2

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Nye testteknikker fra ISTQB - direkte fra hylderne. Ole Chr. Hansen

Undervisningsbeskrivelse

Tips og tricks til Proc Means. Per Andersen Senior IM Consultant Dong Energy, Group IT, Trading IT, Analytics

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Løsning til opgave i logistisk regression

Binomialfordeling og konfidensinterval for en andel

Statistik Obligatorisk opgave

Wooldridge, kapitel 19: Carrying out an Empirical Project. Information og spørgsmål vedr. eksamen. Økonometri 1: Afslutningsforelæsning 2

Anvendt Statistik Lektion 7. Simpel Lineær Regression

Kvantitative Metoder 1 - Forår Dagens program

Statistik II 1. Lektion. Analyse af kontingenstabeller

Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

Lineær og logistisk regression

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Årsplan i matematik 9 klasse. 2018/2019 Abdiaziz Farah

Statistik II Lektion 3. Logistisk Regression Kategoriske og Kontinuerte Forklarende Variable

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Kursusoversigt for juli 2007 januar 2008

β = SDD xt SSD t σ 2 s 2 02 = SSD 02 f 02 i=1

MPH specialmodul Epidemiologi og Biostatistik

En introduktion til SAS Risk Dimensions 5.2

Økonometri 1 Efterår 2006 Ugeseddel 11

Demonstration af SAS Activity-Based Management v7.1

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Data mining er ikke længere nice to have men need to have

Confounding. Mads Kamper-Jørgensen, lektor, Afdeling for Social Medicin, Institut for Folkesundhedsvidenskab

Højkvalitetsdata: Dokumentation, videndeling mv.

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Lineær regression i SAS. Lineær regression i SAS p.1/20

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Kvantitative metoder 2

Kursus i varians- og regressionsanalyse Data med detektionsgrænse. Birthe Lykke Thomsen H. Lundbeck A/S

Fordele og ulemper ved latent klasseanalyse

Data-analyse og datalogi

Undervisningsbeskrivelse

Skriftlig Eksamen Kombinatorik, sandsynlighed og randomiserede algoritmer (DM528)

To samhørende variable

Statistik og Sandsynlighedsregning 2

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Statistik vejledende læreplan og læringsmål, foråret 2015 SmartLearning

Forelæsning 11: Kapitel 11: Regressionsanalyse

Statistik Lektion 4. Variansanalyse Modelkontrol

Løsning til øvelsesopgaver dag 4 spg 5-9

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Undervisningsbeskrivelse

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Intelligent kontrol med SAS

Undervisningsbeskrivelse

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Undervisningsbeskrivelse

Eksamen i Statistik for Biokemikere, Blok januar 2009

Undervisningsbeskrivelse

Introduktion til SPSS

Introduktion til prædikatlogik

Undervisningsbeskrivelse

Undervisningsbeskrivelse

Transkript:

Præsentation og praktisk anvendelse af PROC GLMSELECT Kristina Birch, projektchef Copyright 2011 SAS Institute Inc. All rights reserved.

Præsentation og praktisk anvendelse af PROC GLMSELECT Abstract I mange praktiske tilfælde er udfordringen i statistisk modellering og/eller data mining ikke manglen på uafhængige variable, men snarere det omvendte: At der er hundredvis af inputvariable at vælge imellem. Analytikerens job er bl.a. at finde den bedste model, som indeholder en delmængde af inputvariable ud fra mere eller mindre veldefinerede kriterier. Denne demo præsenterer kort de metoder til model- og variabelselektion, der bruges i forbindelse med generelle lineære modeller, herunder udvidelser af de velkendte (i bl.a. proc reg og SAS Enterprise Miner ) metoder forward-, backward- og stepwise-variabelselektion. 2

Agenda Introduktion Generelle lineære modeller Kort præsentation af forward-, backward- og stepwiseselektionsmetoder Om PROC GLMSELECT To eksempler Ikke-parametrisk modellering ved brug af spline-effekter» Univariate- og multivariate-tilfælde Modelselektion for microarray data (genstrenge) 3

Introduktion Udfordringer for statistikeren Øget datamængde gør variabel- og modelselektion mere og mere vanskelig Data hentes fra transaktionssystemer ( real live data ) og ikke fra specifikt designede lukkede eksperimenter Kan ikke umiddelbart forklare sammenhæng mellem afhængig og uafhængig variabel intuitionen mistes Flere og flere avancerede metoder og modeller bliver tilgængelige og kan gøre estimation vanskeligere Hardware og software er ikke længere en begrænsning i forhold til estimation af modeller 4

Generelle lineære modeller Ingen SAS/STAT -demo uden formler En lineær model har følgende struktur Antagelser Da er 5

Selektionsmetoder Kendte selektionsmetoder fra PROC REG, PROC LOGISTIC, PROC GLM mv. incl. standard procedurer i SAS Enterprise Miner Forward Backward Stepwise All subsets 6

All subsets 3 2 2 2 1 2 k 1 1 0 7

Stepwise selection 0 1 2 3 4 5 6 Stop 8

Backward elimination 0 1 2 3 4 5 6 Stop 9

PROC GLMSELECT Egenskaber Modelspecifikation Mulighed for forskellige typer parametrisering for klassifikationsvariable Understøtter alle grader af vekselvirkninger (crossed effects) og nestede effekter Understøtter hierarkier af effekter Understøtter partitionering af data (train, validation, testing ) Indeholder EFFECT statement til at generere» Spline effects» Polynomial effects» Multimember effects» Collection effects 10

PROC GLMSELECT Egenskaber Selektionskontrol Mulighed for forskellige metoder af effektselektion Muliggør udvælgelse blandt et højt antal af mulige effekter (titusinder) Indeholder individuel udvælgelse af niveauer for klassifikationsvariable Muliggør selektion på basis af en mængde af selektionskriterier Understøtter stopregler baseret på en mængde af modelevalueringskriterier Giver mulighed for leave-one-out - og k-fold validation 11

PROC GLMSELECT Egenskaber Display og output Danner grafisk illustration af selektionsprocessen Danner et outputdatasæt bestående af prædikterede variable og residualer Danner et outputdatasæt bestående af designmatricen Danner makrovariable, der indeholder de valgte modeller Supporterer parallel processing af BY-grupper Supporterer multiple SCORE statements 12

Om EFFECT statement Experimental in SAS/STAT 9.2 Muliggør konstruktion af en samling af kolonner i designmatricen hørende til modellen Disse refereres til som konstruerede effekter for at adskille dem fra almindelige effekter, som er givet ved én kontinuert eller én klassifikationsvariabel 13

Om EFFECT statement Experimental in SAS/STAT 9.2 Følgende EFFECT statements er til rådighed COLLECTION» En samling af effekter med flere frihedsgrader anses for én enhed i forhold til variabeludvælgelse MULTIMEMBER MM» En multimember -klassifikationseffekt, der er bestemt ud fra én eller flere klassifikationsvariable (eksempelvis teacher effect ) POLYNOMIAL POLY» En multivariatpolynomialeffekt i de specificerede variable SPLINE» Er en regressions-spline (dansk: liste) -effekt bestående af univariate spline-ekspansioner af én eller flere kontinuerte variable. Spline-effekten erstatter den originale variabel med et ekspanderet sæt af variable 14

Eksempel på brug af PROC GLMSELECT Eksempel 1 Ikke-parametrisk modellering med brug af spline-effekter Univariate- og multivariate-tilfælde 15

Eksempel på brug af PROC GLMSELECT Eksempel 2 Modelselektion for micro array data (genstrenge) 16

Copyright 2011 SAS Institute Inc. All rights reserved.