I dag. Kursus Data matrice. Formål med PCA. Statistik. Principal komponent analyse, PCA, Esbensen kapitel 3. Splus. Anna Helga Jónsdóttir



Relaterede dokumenter
I dag. Kursus Hvad er PCR? Eksempel, Data 1. Statistik. PCR: Principal component regression. Anna Helga Jónsdóttir. 25.

Kvantitative metoder 2

Analysestrategi. Lektion 7 slides kompileret 27. oktober :24 p.1/17

Kapitel 11 Lineær regression

Anvendt Statistik Lektion 7. Simpel Lineær Regression

To samhørende variable

! Variansen på OLS estimatoren. ! Multikollinaritet. ! Variansen i misspecificerede modeller. ! Estimat af variansen på fejlleddet

Simpel Lineær Regression

Module 9: Residualanalyse

Oversigt. 1 Gennemgående eksempel: Højde og vægt. 2 Korrelation. 3 Regressionsanalyse (kap 11) 4 Mindste kvadraters metode

Module 3: Statistiske modeller

Forelæsning 11: Kapitel 11: Regressionsanalyse

Bilag 7. SFA-modellen

Module 4: Ensidig variansanalyse

Økonometri: Lektion 2 Multipel Lineær Regression 1/27

Et eksempel på en todimensional normalfordeling Anders Milhøj September 2006

Økonometri Lektion 1 Simpel Lineær Regression 1/31

MLR antagelserne. Antagelse MLR.1:(Lineære parametre) Den statistiske model for populationen kan skrives som

Dagens Emner. Likelihood teori. Lineær regression (intro) p. 1/22

Anvendt Statistik Lektion 8. Multipel Lineær Regression

Økonometri 1. Den simple regressionsmodel 11. september Økonometri 1: F2

1 Hb SS Hb Sβ Hb SC = , (s = )

Eksempel Multipel regressions model Den generelle model Estimation Multipel R-i-anden F-test for effekt af prædiktorer Test for vekselvirkning

Multipel Lineær Regression

1 Regressionsproblemet 2

Lineær regression. Simpel regression. Model. ofte bruges følgende notation:

Mindste kvadraters tilpasning Prædiktion og residualer Estimation af betinget standardafvigelse Test for uafhængighed Konfidensinterval for hældning

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Institut for Biostatistik. Regressionsanalyse

Økonometri 1. Dagens program. Den simple regressionsmodel 15. september 2006

1. Intoduktion. Undervisningsnoter til Øvelse i Paneldata

Simpel Lineær Regression: Model

Dagens Emner. Likelihood-metoden. MLE - fortsat MLE. Likelihood teori. Lineær regression (intro) Vi har, at

Produkt og marked - matematiske og statistiske metoder

Epidemiologi og biostatistik. Uge 3, torsdag. Erik Parner, Afdeling for Biostatistik. Eksempel: Systolisk blodtryk

Kursusindhold: Produkt og marked - matematiske og statistiske metoder. Monte Carlo

grupper(kvalitativ exposure) Variation indenfor og mellem grupper F-test for ingen effekt AnovaTabel Beregning af p-værdi i F-fordelingen

Bilag 12 Regressionsanalysens tabeller og forklaringer

Tænk på a og b som to n 1 matricer. a 1 a 2 a n. For hvert i = 1,..., n har vi y i = x i β + u i.

12. september Epidemiologi og biostatistik. Forelæsning 4 Uge 3, torsdag. Niels Trolle Andersen, Afdelingen for Biostatistik. Regressionsanalyse

praktiskegrunde Regression og geometrisk data analyse (2. del) Ulf Brinkkjær

Perspektiver i Matematik-Økonomi: Linær regression

Kvantitative metoder 2

Tema. Dagens tema: Indfør centrale statistiske begreber.

Økonometri: Lektion 2 Multipel Lineær Regression 1/33

1 Ensidet variansanalyse(kvantitativt outcome) - sammenligning af flere grupper(kvalitativ

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Statistik Lektion 4. Variansanalyse Modelkontrol

Økonometri 1. Dagens program. Den multiple regressionsmodel 18. september 2006

Kursus Introduktion til Statistik. Forelæsning 13: Summary. Per Bruun Brockhoff

Tema. Model og modelkontrol ( Fx. en normalfordelt obs. række m. kendt varians) Estimation af parametre. Fordeling. Hypotese og test. Teststørrelse.

Normalfordelingen. Statistik og Sandsynlighedsregning 2

Diagonalisering. Definition (diagonaliserbar)

Statistik II 4. Lektion. Logistisk regression

Normalfordelingen og Stikprøvefordelinger

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Anvendt Statistik Lektion 9. Variansanalyse (ANOVA)

Kvantitative metoder 2

Fokus på Forsyning. Datagrundlag og metode

Løsninger til kapitel 1

Normalfordelingen. Det centrale er gentagne målinger/observationer (en stikprøve), der kan beskrives ved den normale fordeling: 1 2πσ

Antag X 1, X 2,..., X n er n uafhængige stokastiske variable, hvor Var(X 1 )=σ 2 1,..., Var(X n )=σ 2 n.

Middelværdi og varians. Kovarians. korrelation = 0.02 korrelation = 0.7 korrelation = 1.0

Dagens Temaer. Test for lineær regression. Test for lineær regression - via proc glm. k normalfordelte obs. rækker i proc glm. p. 1/??

Eksamen ved. Københavns Universitet i. Kvantitative forskningsmetoder. Det Samfundsvidenskabelige Fakultet

! Proxy variable. ! Målefejl. ! Manglende observationer. ! Dataudvælgelse. ! Ekstreme observationer. ! Eksempel: Lønrelation (på US data)

Kapitel 12 Variansanalyse

Lineær algebra 1. kursusgang

Kursusgang 3 Matrixalgebra Repetition

Appendiks A Anvendte test statistikker

HYPOTESE 1 - MULTIPEL REGRESSION...

Regneregler for middelværdier M(X+Y) = M X +M Y. Spredning varians og standardafvigelse. 1 n VAR(X) Y = a + bx VAR(Y) = VAR(a+bX) = b²var(x)

DANMARKS METEOROLOGISKE INSTITUT TEKNISK RAPPORT Logistisk Kalman filter for kraftig nedbør. December Michael Steffensen

Statistik ved Bachelor-uddannelsen i folkesundhedsvidenskab. Estimation

Naturvidenskabelig Bacheloruddannelse Forår 2006 Matematisk Modellering 1 Side 1

Poul Thyregod, introslide.tex Specialkursus vid.stat. foraar Lad θ = θ(β) R k for β B R m med m k

k UAFHÆNGIGE grupper Oversigt 1 Intro eksempel 2 Model og hypotese 3 Beregning - variationsopspaltning og ANOVA tabellen 4 Hypotesetest (F-test)

Modul 6: Regression og kalibrering

2010 Matematik 2A hold 4 : Prøveeksamen juni 2010

Program: 1. Repetition: p-værdi 2. Simpel lineær regression. 1/19

Kursusindhold: X i : tilfældig værdi af ite eksperiment. Antag X i kun antager værdierne 1, 2,..., M.

Program. 1. Varianskomponent-modeller (Random Effects) 2. Transformation af data. 1/12

Introduktion til R. March 8, Regne- og tegneprogrammet R kan frit downloades fra adressen. http : //mirrors.sunsite.dk.cran

Institut for Matematiske Fag Aalborg Universitet Specielt: Var(aX) = a 2 VarX 1/40. Lad X α, X β og X γ være stokastiske variable (vinkelmålinger) med

Note om Monte Carlo metoden

Teoretisk Statistik, 9 marts nb. Det forventes ikke, at alt materialet dækkes d. 9. marts.

Module 12: Mere om variansanalyse

Rygtespredning: Et logistisk eksperiment

Lagrange multiplier test. Økonometri: Lektion 6 Håndtering ad heteroskedasticitet. Konsekvenser af Heteroskedasticitet

Forelæsning 5: Kapitel 7: Inferens for gennemsnit (One-sample setup)

Modul 11: Simpel lineær regression

Økonometri: Lektion 6 Emne: Heteroskedasticitet

Kapitel 12 Variansanalyse

men nu er Z N((µ 1 µ 0 ) n/σ, 1)!! Forkaster hvis X 191 eller X 209 eller

Program. Modelkontrol og prædiktion. Multiple sammenligninger. Opgave 5.2: fosforkoncentration

4 Oversigt over kapitel 4

Hypoteser om mere end to stikprøver ANOVA. k stikprøver: (ikke ordinale eller højere) gælder også for k 2! : i j

Additiv model teori og praktiske erfaringer

Forelæsning 11: Envejs variansanalyse, ANOVA

Kvadratisk regression

Transkript:

I dag Kursus 02593 Statistik Anna Helga Jónsdóttir Principal komponent analyse, PCA, Esbensen kapitel 3. Splus ahj@imm.dtu.dk 18. november 2008 Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 1 / 22 Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 2 / 22 Formål med PCA Data matrice Håndtering af mange forklarende variable Forståelse af samvariation Data-reduktion Lad X = [x 1, x 2,..., x p ] være en data matrice med n observationer og p variabler, dvs. p dimensionalt dataset med n observationer Vi antager (for simpelhed) at variablerne i data matricen er blevet centreret, dvs. de har alle sammen gennemsnit lig med 0 X nxp Anvendelse i klassifikation og regression For at illustrere metoden tager vi som eksempel en data matrice med 20 observationer (n) og 3 variabler (p) da det er (meget!) svært at forstille sig et rum med flere en 3 dimensioner Normalt, når PCA anvendes, er antal variabler meget større Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 3 / 22 Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 4 / 22

Den første principal komponent - PC1 Vi leder efter den retning der forklarer mest muligt af variationen i data. Det svarer til at finde den lineære kombination t 1 = p 11 x 1 + p 12 x 2 + p 13 x 3 der har størst varians (under forudsætning af p 2 1j = 1). Vi kalder t scores og p loadings. Den anden principal komponent - PC2 Vi betragter dernæst planen vinkelret på T 1 og finder den linearkombination der forklarer næstmest variation t 2 = p 21 x 1 + p 22 x 2 + p 23 x 3 igen under forudsætning af p 2 2j = 1. T 1 = p 11 X 1 + p 12 X 2 + p 13 X 3 kalder vi den første principal komponent - PC1. X 1, X 2 og X 3 er enheds vektorerne i de oprindelige rum. T 2 = p 21 X 1 + p 22 X 2 + p 23 X 3 kalder vi den anden principale komponent - PC2. PC1 og PC2 er ortogonale. Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 5 / 22 Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 6 / 22 Højere ordens PC er PCA - egenskaber Vi kan blive ved med at finde højere ordens PC er som er ortogonale på de andre PC er indtil vi har nået til det maximale antal komponenter til data matricen X De maximale antal komponenter er enten n 1 eller p afhængig af hvilken størrelse der er mindst Det maximale antal principale komponenter for data matricen forklarer hele variationen i data matricen Vores mål er normalt at prøve at forklare en høj del af variationen med (meget) færre komponenter end det maximale antal komponenter De principale komponenter T 1, T 2,... er uafhængige Summen af de oprindelige variables varians er lig summen af de principale komponenters varians (alle PC er med) PC erne er egentlig defineret ud fra en sand underliggende varians-kovarians matrice. Når den estimeres har vi egentlig estimater af de principale komponenter Matematisk svarer loadings til eigenvektorerne for varians-kovarians matricen for de oprindelige data Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 7 / 22 Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 8 / 22

Skalering Hvis data har forskellige enheder eller hvis det må forventes at data med samme enhed ligger i forskellige intervaller er det fornuftigt at standardisere data x ij,stand = x ij x j s j Dette svarer til at arbejde på korrelationsmatricen istedet for varians-kovarians matricen Loadings Loadings relaterer variablerne i X og PC erne (T). Hver principal komponent kan skrives som lineær kombination af p antal enhedsvektorer i det oprindelige variabel rum: T a = p 1a X 1 + p 2a X 2 + + p pa X p I denne kombination kalder vi p ka for loadings, k = 1,..., p hvor p er antal variabler i data matricen og a = 1,..., A hvor A er antal PC er. Loading koefficienterne udgør loading matricen P, med p rækker og A koloner. Kolonerne i matricen udgør loading vektorerne dvs. loading parametrene for hver PC. P pxa Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 9 / 22 Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 10 / 22 Scores Scores betragtes som koordinaterne for observationerne i PC rummet. Antal af såkaldte score vektorer er lige med antal PC er: t a = p a1 x 1 + p a2 x 2 + p ap x p PC modellen Vi kan skrive PC modellen som: X = TP + E Struktur + støj hvor T er score matricen, P er loading matricen og E er residual matricen. Score vektorerne udgører score matricen T, med n rækker og A koloner. Kolonerne i matricen udgør score vektorerne og rækkerne såkaldte observationernes scores. T nxa X nxp T = Ṕ + nxa Axp E nxp Hver observation har sin række i T matricen som svarer til observationens koordinater i PC rummet. Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 11 / 22 Hvis A, antal PC er, er lig med maximal antal PC er gælder at E = 0, dvs. hele variationen i X er forklaret med scores og loading matricerne. Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 12 / 22

PC modellen Score- loading- og biplot Vi vil nu finde det optimale antal PC er A som forklarer en høj del af variationen og adskiller signal og støj i data. Scree Plot viser hvor meget af variansen hver PC forklarer; nogle gange er det ret åbenlyst ud fra plottet ca. hvor mange komponenter der er nødvendige så en høj del af variationen er forklaret Under forudsætning af at der arbejdes med standardisere variable: Kun komponenter med varians større end 1 (dette er kun en retningslinie!) Score plot: plot af to score vektorer mod hinanden Viser hvordan observationerne relaterer til hinanden Det mest brugte score plot er PC1 mod PC2 Vi kan bruge score plottene for at prøve at fortolke hvad PC erne repræsenterer Loading plot: plot af to loading vektorer mod hinanden Viser hvordan variablerne relaterer til hinanden Viser hvor meget hver variabel bidrager til PC erne Biplot: Score og loading plots på samme plot Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 13 / 22 Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 14 / 22 PCA i Splus Eksempel Brug funktionen: pca<-princomp() Hvis analysen skal bygge på standardiserede variabler: pca<-princomp(,cor=t) Screeplot: screeplot(pca) Biplot: biplot(pca,c(1,2),var.axes=f) biplot(pca,c(1,3),var.axes=f) # PC1 og PC2 # PC1 og PC3 Vi har data vedrørende 178 (n) Italienske vine, 59 er Barolo vine, 71 Grignolino vine og 48 Barbera vine. Disse er karakteriseret ved 13 variable: 1) Alcohol (%): alcohol 2) malic acid: ma 3) ash: ash 4) alkalinity of ash: aoa 5) magnesium: mg 6) total phenols: tp 7) flavanoids: flav 8) nonflavanoid phenols: np 9) proanthocyanins: proant 10) colour intensity: ci 11) colour hue: ch 12) OD280/OD315 of diluted wines: OD 13) Praline: praline Barplot af loadings: plot.loadings(loadings(pca)) Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 15 / 22 Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 16 / 22

Eksempel - Splus Scatter plots # hent data dat<-importdata( italwine.txt ) # gør efterfølgende plot lettere at forstå dimnames(dat)[[1]] <- ifelse(dat$type == "Barolo", "O", ifelse(dat$type == "Barbera", "E", "G")) # kigge på parvise relationer og mulige outliers pairs(dat,pch=16) # fjerne obs. no 63 dat<-dat[-63,] Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 17 / 22 Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 18 / 22 names(dat) [1] "type" "alcohol" "ma" "ash" "aoa" "mg" "tp" "flav" [9] "np" "proant" "ci" "ch" "OD" "praline" pca.1<-princomp(~alcohol+ma+ash+aoa+mg +tp+flav+np+proant+ci+ch+od+praline,data=dat,cor=t) Screeplot # scores: pca.1$scores # screeplot: screeplot(pca.1) # biplot: biplot(pca.1,c(1,2),var.axes=f) # barplot af loadings: plot.loadings(loadings(pca.1),1:5) Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 19 / 22 Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 20 / 22

Biplot- PC1/PC2 Barplot af loadings Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 21 / 22 Anna Helga Jónsdóttir (ahj@imm.dtu.dk) Kursus 02593 18. november 2008 22 / 22