Clustering. CC 226 Análise de padrões Carlos Henrique Q. Forster

Relaterede dokumenter
Basic statistics for experimental medical researchers

Opbyg din åbning sådan at den beskriver helt præcist beskriver hvad din afhandling indeholder

Differential Evolution (DE) "Biologically-inspired computing", T. Krink, EVALife Group, Univ. of Aarhus, Denmark

Generalized Probit Model in Design of Dose Finding Experiments. Yuehui Wu Valerii V. Fedorov RSU, GlaxoSmithKline, US

DoodleBUGS (Hands-on)

Vina Nguyen HSSP July 13, 2008

Applications. Computational Linguistics: Jordan Boyd-Graber University of Maryland RL FOR MACHINE TRANSLATION. Slides adapted from Phillip Koehn

Statistik for MPH: 7

On the complexity of drawing trees nicely: corrigendum

University of Copenhagen Faculty of Science Written Exam - 3. April Algebra 3

The GAssist Pittsburgh Learning Classifier System. Dr. J. Bacardit, N. Krasnogor G53BIO - Bioinformatics

Skriftlig Eksamen Kombinatorik, Sandsynlighed og Randomiserede Algoritmer (DM528)

Black Jack --- Review. Spring 2012

v Motivation v Multi- Atlas Segmentation v Learn Dictionary v Apply Dictionary v Results

Unitel EDI MT940 June Based on: SWIFT Standards - Category 9 MT940 Customer Statement Message (January 2004)

Linear Programming ١ C H A P T E R 2

Statistik for MPH: oktober Attributable risk, bestemmelse af stikprøvestørrelse (Silva: , )

IBM Network Station Manager. esuite 1.5 / NSM Integration. IBM Network Computer Division. tdc - 02/08/99 lotusnsm.prz Page 1

Sign variation, the Grassmannian, and total positivity

Heuristics for Improving

University of Copenhagen Faculty of Science Written Exam - 8. April Algebra 3

Strings and Sets: set complement, union, intersection, etc. set concatenation AB, power of set A n, A, A +

Hvor er mine runde hjørner?

Project Step 7. Behavioral modeling of a dual ported register set. 1/8/ L11 Project Step 5 Copyright Joanne DeGroat, ECE, OSU 1

University of Copenhagen Faculty of Science Written Exam April Algebra 3

Privat-, statslig- eller regional institution m.v. Andet Added Bekaempelsesudfoerende: string No Label: Bekæmpelsesudførende

The X Factor. Målgruppe. Læringsmål. Introduktion til læreren klasse & ungdomsuddannelser Engelskundervisningen

CHAPTER 8: USING OBJECTS

On the Relations Between Fuzzy Topologies and α Cut Topologies

Multivariate Extremes and Dependence in Elliptical Distributions

Exercise 6.14 Linearly independent vectors are also affinely independent.

Den uddannede har viden om: Den uddannede kan:

Kurver og flader Aktivitet 15 Geodætiske kurver, Isometri, Mainardi-Codazzi, Teorema Egregium

Molio specifications, development and challenges. ICIS DA 2019 Portland, Kim Streuli, Molio,

Frequency Dispersion: Dielectrics, Conductors, and Plasmas

Titel: Barry s Bespoke Bakery

Particle-based T-Spline Level Set Evolution for 3D Object Reconstruction with Range and Volume Constraints

Measuring the Impact of Bicycle Marketing Messages. Thomas Krag Mobility Advice Trafikdage i Aalborg,

Løsning af skyline-problemet

what is this all about? Introduction three-phase diode bridge rectifier input voltages input voltages, waveforms normalization of voltages voltages?

Subject to terms and conditions. WEEK Type Price EUR WEEK Type Price EUR WEEK Type Price EUR WEEK Type Price EUR

SEPA Direct Debit. Mandat Vejledning Nets Lautrupbjerg 10 DK-2750 Ballerup

Meget formel, modtager har en meget speciel titel som skal bruges i stedet for deres navne. Caro Senhor, Caro(a) Senhor(a), Prezado(a) Senhor(a),


LED STAR PIN G4 BASIC INFORMATION: Series circuit. Parallel circuit HOW CAN I UNDERSTAND THE FOLLOWING SHEETS?

Portal Registration. Check Junk Mail for activation . 1 Click the hyperlink to take you back to the portal to confirm your registration

frame bracket Ford & Dodge

Measuring Evolution of Populations

Evaluating Germplasm for Resistance to Reniform Nematode. D. B. Weaver and K. S. Lawrence Auburn University

Bilag. Resume. Side 1 af 12

Vores mange brugere på musskema.dk er rigtig gode til at komme med kvalificerede ønsker og behov.

Brug sømbrættet til at lave sjove figurer. Lav fx: Få de andre til at gætte, hvad du har lavet. Use the nail board to make funny shapes.

Info og krav til grupper med motorkøjetøjer

Side 1 af 9. SEPA Direct Debit Betalingsaftaler Vejledning

Trolling Master Bornholm 2016 Nyhedsbrev nr. 5

WIO200A INSTALLATIONS MANUAL Rev Dato:

Skriftlig Eksamen Beregnelighed (DM517)

Userguide. NN Markedsdata. for. Microsoft Dynamics CRM v. 1.0

PARALLELIZATION OF ATTILA SIMULATOR WITH OPENMP MIGUEL ÁNGEL MARTÍNEZ DEL AMOR MINIPROJECT OF TDT24 NTNU

Probabilistic properties of modular addition. Victoria Vysotskaya

Procedure 2(b) (obvious errors in a number of language versions)

IPv6 Application Trial Services. 2003/08/07 Tomohide Nagashima Japan Telecom Co., Ltd.

FAST FORRETNINGSSTED FAST FORRETNINGSSTED I DANSK PRAKSIS

Remember the Ship, Additional Work

Mandara. PebbleCreek. Tradition Series. 1,884 sq. ft robson.com. Exterior Design A. Exterior Design B.

Mandara. PebbleCreek. Tradition Series. 1,884 sq. ft robson.com. Exterior Design A. Exterior Design B.

User Manual for LTC IGNOU

3C03 Concurrency: Model-based Design

Engelsk. Niveau C. De Merkantile Erhvervsuddannelser September Casebaseret eksamen. og

Reexam questions in Statistics and Evidence-based medicine, august sem. Medis/Medicin, Modul 2.4.

Titel: Hungry - Fedtbjerget

Cross-Sectorial Collaboration between the Primary Sector, the Secondary Sector and the Research Communities

Det er muligt at chekce følgende opg. i CodeJudge: og

Appendix 1: Interview guide Maria og Kristian Lundgaard-Karlshøj, Ausumgaard

Design til digitale kommunikationsplatforme-f2013

,

ATEX direktivet. Vedligeholdelse af ATEX certifikater mv. Steen Christensen

DM549 Diskrete Metoder til Datalogi

Den nye Eurocode EC Geotenikerdagen Morten S. Rasmussen

STUDIEOPHOLD I BANGKOK FASE 2 - INFORMATION, VEJLEDNING OG DOKUMENTER

Aktivering af Survey funktionalitet

RoE timestamp and presentation time in past

&DOFXOHDQGR 1DFKR'LHJR

Our activities. Dry sales market. The assortment

Engineering of Chemical Register Machines

The complete construction for copying a segment, AB, is shown above. Describe each stage of the process.

applies equally to HRT and tibolone this should be made clear by replacing HRT with HRT or tibolone in the tibolone SmPC.

GNSS/INS Product Design Cycle. Taking into account MEMS-based IMU sensors

Rejse Almen. Almen - Essentielle. Almen - Samtale. Você pode me ajudar, por favor? At spørge efter hjælp

Eksamen i Signalbehandling og matematik

BANGKOK FASE 2 - VALGFAG INFORMATION, VEJLEDNING OG DOKUMENTER

Skriftlig Eksamen Diskret matematik med anvendelser (DM72)

Internationalt uddannelsestilbud

Get Instant Access to ebook Udleveret PDF at Our Huge Library UDLEVERET PDF. ==> Download: UDLEVERET PDF

SOFTWARE PROCESSES. Dorte, Ida, Janne, Nikolaj, Alexander og Erla

Velkommen til IFF QA erfa møde d. 15. marts Erfaringer med miljømonitorering og tolkning af nyt anneks 1.

South Baileygate Retail Park Pontefract

BANGKOK FASE 2 -VALGFAG INFORMATION, VEJLEDNING OG DOKUMENTER

Implementing SNOMED CT in a Danish region. Making sharable and comparable nursing documentation

Statistical information form the Danish EPC database - use for the building stock model in Denmark

Transkript:

Clustering CC 226 Análise de padrões Carlos Henrique Q. Forster 1

Basic Concepts CLUSTERING In clustering or unsupervised learning no training data, with class labeling, are available. The goal becomes: Group the data into a number of sensible clusters (groups). This unravels similarities and differences among the available data. Applications: Engineering Bioinformatics Social Sciences Medicine Data and Web Mining 2

To perform clustering of a data set, a clustering criterion must first be adopted. Different clustering criteria lead, in general, to different clusters. Blue shark, sheep, cat, dog Lizard, sparrow, viper, seagull, gold fish, frog, red mullet 1. Two clusters 2. Clustering criterion: How mammals bear their progeny Gold fish, red mullet, blue shark Sheep, sparrow, dog, cat, seagull, lizard, frog, viper 1. Two clusters 2. Clustering criterion: Existence of lungs 3

Clustering task stages Feature Selection: Information rich features-parsimony Proximity Measure: This quantifies the term similar or dissimilar. Clustering Criterion: This consists of a cost function or some type of rules. Clustering Algorithm: This consists of the set of stepsfollowed to reveal the structure, based on the similarity measure and the adopted criterion. Validation of the results. Interpretation of the results. 4

Depending on the similarity measure, the clustering criterion and the clustering algorithm different clusters may result. Subectivityis a reality to live with from now on. A simple example: How many clusters?? 2 or 4?? 5

Modelos de Misturas Distribuições que representam um fenômeno aleatório composto, cuo modelo corresponde a diferentes comportamentos com determinadas probabilidades. Cada distribuição que faz parte da mistura éuma distribuição componente. Cada distribuição componente tem uma probabilidade de ocorrência Exemplo: Jogo uma moeda, Se der cara, puxo um carta de valor 16 a 20 de probabilidades idênticas, Se der coroa, ogo dois dados de valor 1 a 6 igualmente prováveis e somo os resultados Neste caso: P = α + 1P α 1 2P2 A soma dos αdeve ser igual a 1!!! 6

Resultados do Jogo 7

Misturas Dada uma amostra e K, o número de componentes, o aprendizado corresponde a estimar as densidades de componentes e suas proporções (estimação semi-paramétrica). Por exemplo, se a distribuição de componentes for formada por normais multidimensionais, basta estimar os parâmetros para cada componente, além das proporções da mistura. p( x) = K i= 1 p( x G ) P( i G i ) μ, Σ Componentes da mistura Densidade de componentes Proporções da mistura 8

Aprendizado não-supervisionado No caso não-supervisionado, não sabemos a qual classe pertence cada observação da amostra. Queremos, na verdade, encontrar uma estrutura implícita na amostra. Para cada observação da amostra, precisamos, simultaneamente: Rotular a qual classe pertence cada observação e Estimar os parâmetros da distribuição de cada distribuição componente. 9

Nossas hipóteses... Vamos supor, a princípio, que nosso espaço de atributos étal que podemos calcular um vetor médio m Supomos também a êxistênciade uma função de dissimilaridade d(x,m), que mede o quão diferentes são os vetores de atributos xe m. Dado um conunto de amostras x 1... x N a serem classificada em K classes m 1... m K, definimos o algoritmo K-Means. 10

K-Means Inicializaraleatoriamente m 1... m K. Àcada iteração: Rotular x i, associando ao m mais próximo Austar m conforme as médias dos elementos x i associados a m Atéque as rotulações não se alterem. Rotular x i Recalcular médias m 11

K-means otimiza verossimilhança 12

Passos do K-means 13

Exemplo: Iris 14

15

16

17

18

19

20

21

Final 22

Kmeans.m (parte 1) loadiris; % vamos pegar sepal-length e petal-length data=[iris(:,1),iris(:,3)]; k=3; % tres clusters %clu[,l] onde l eh o atributo e eh o cluster %sorteia centro dos clusters "dentro do grafico" for(i=1:k) clu(i,1)=min(data(:,1))+rand*(max(data(:,1))-min(data(:,1))); clu(i,2)=min(data(:,2))+rand*(max(data(:,2))-min(data(:,2))); end % plotar dados e centros dos clusters figure; hold on; plot(data(:,1),data(:,2),'kx'); plot(clu(1,1),clu(1,2),'rh');plot(clu(1,1),clu(1,2),'r.'); plot(clu(2,1),clu(2,2),'bp');plot(clu(2,1),clu(2,2),'b.'); plot(clu(3,1),clu(3,2),'mv');plot(clu(3,1),clu(3,2),'m.'); xlabel('sepal-length'); ylabel('petal-length'); title('configuracao inicial'); 23

oldb=zeros( size(data,1), k); b=ones( size(oldb) ); Kmeans.m (parte 2) while any( any( oldb~=b ) ) % associar os elementos aos clusters mais proximos % b(i,) onde i eh o elemento e eh o cluster oldb=b; for i=1:size(data,1) dists = (data(i,1)-clu(:,1)).^2 + (data(i,2)-clu(:,2)).^2; b(i,:)=zeros(1,k); loc=find(dists==min(dists)); b(i,loc(1))=1; end % plotar dados ligados a cada cluster pause; cla reset; hold on; plot(data(find(b(:,1)),1),data(find(b(:,1)),2),'rh'); plot(data(find(b(:,2)),1),data(find(b(:,2)),2),'bp'); plot(data(find(b(:,3)),1),data(find(b(:,3)),2),'mv'); plot(clu(1,1),clu(1,2),'rh');plot(clu(1,1),clu(1,2),'r.'); plot(clu(2,1),clu(2,2),'bp');plot(clu(2,1),clu(2,2),'b.'); plot(clu(3,1),clu(3,2),'mv');plot(clu(3,1),clu(3,2),'m.'); xlabel('sepal-length'); ylabel('petal-length'); title('cada observacao eh associada ao centro de cluster mais proximo'); 24

Kmeans.m (parte 3) % recalcular a posicao dos clusters % pela media dos elementos associados clu=(b'*data)./(b'*ones(size(data))); % plotar os novos clusters pause; cla reset; hold on; plot(data(find(b(:,1)),1),data(find(b(:,1)),2),'rh'); plot(data(find(b(:,2)),1),data(find(b(:,2)),2),'bp'); plot(data(find(b(:,3)),1),data(find(b(:,3)),2),'mv'); plot(clu(1,1),clu(1,2),'rh');plot(clu(1,1),clu(1,2),'r.'); plot(clu(2,1),clu(2,2),'bp');plot(clu(2,1),clu(2,2),'b.'); plot(clu(3,1),clu(3,2),'mv');plot(clu(3,1),clu(3,2),'m.'); xlabel('sepal-length'); ylabel('petal-length'); title('os centros sao recalculados para a media dos clusters'); end disp('\n\nterminou!!!!'); 25

Aplicações do K-means Quantização cromática Representar uma imagem colorida de 24-bits (até16 milhões de cores por pixel) em uma imagem com 8-bits por pixel. Utilizar uma tabela de cores em que há256 cores disponíveis dentre as 16 milhões. Mapear cada pixel na cor mais apropriada, de forma a ficar mais semelhantes à imagem original. 26

Aplicações do K-means Quantização de vetores Caso geral do problema anterior, utilizado para compressão de sinais com perda. Amostra x 1... x i... x N e K vetores de referência m 1... m... m K. Os vetores m formam um dicionário ou codebook. Para codificar, escolhemos m i de menor distância para a observação x i. Para criar o código, utilizamos o k-meanspara escolher o conunto dos vetores m. 27

Fuzzy K-Means Em oposição ao método K-Meansque rotula cada instância como pertencente a uma classe, o FCM (Fuzzyc-means) ou FKM atribui um grau de pertinência ao par instância-classe. O grau de pertinência estáassociado àdistância da instância ao centro de cada cluster. Os centros dos clusters são, então, re-estimadoscom base numa média ponderada das observações. Observa-se pouca vantagem em relação ao K-means. Entretanto, se ao invés de médias utilizamos protótipos das formas dos clusters e ao invés de distâncias de ponto a ponto utilizamos as pertinências de pontos aos protótipos, esse método é recomendado. 28

E.M. Expectation-maximizationou Maximização do valor esperado éum método de estimação de parâmetros. Éutilizado quando não conseguimos resolver a estimação de parâmetros por métodos diretos. (por exemplo, no caso em que há valores não-tabelados ou no caso das misturas de distribuições). No caso das misturas, os valores faltantes são os rótulos dizendo a que classe pertence cada observação. É uma técnica iterativa com convergência estocástica. É um método guloso: vai encontrar mínimos locais. 29

E.M. Divide-se em dois passos: Passo E: (valor esperado) Utilizo as distribuições de probabilidades estimadas para completar os dados faltantes com seus valores esperados. (corresponde à rotulação do K-Means) Passo M: (maximização) utilizamos as tabelas completadas com os dados faltantes estimados para estimar novos parâmetros através da maximização da verossimilhança. (corresponde à estimação das médias no K-means) 30

Éuma extensão do K-means E.M. para Clustering Como, em geral, o processo de EM épesado e precisa de uma estimativa inicial próxima do resultado esperado, o K-meanséutilizado para iniciar o algoritmo de EM. São feitos alguns passos do K-means. A verossimilhança a ser maximizada é L( Φ D) = log P(G ) corresponde àproporção das misturas e chamaremos de π. Déo conunto de observações x i. K p( xi Φ) = log = 1 i i p( x Φconsiste em π,mais estatísticas suficientes para p(x i G ) i G ) P( G ) 31

E.M. para clustering(passo E) Consideramos, agora uma versão da função de verossimilhança em que os dados escondidos (faltantes) são representados num conunto Z de variáveis. L C ( Φ D, Z) No caso do clustering, Z corresponde aos rótulos associando cada observação a uma classe. Definimos Q como o valor esperado para a verossimilhança completa, com base nos dados conhecidos e nos parâmetros estimados até então. l [ L ( Φ D, Z) D Φ ] Q( Φ Φ ) = E, C l Como a verossimilhança completa depende de Z diretamente, estamos estimando Z no passo E. 32

E.M. para clustering(passo M) Uma vez estimados os valores de Z, vamos estimar novos valores para os atributos Φ de forma a maximizar a verossimilhança Q arg max l = Q( Φ, Φ Φ Φ + 1 l ) Neste passo, obtemos as médias para cada cluster e também as matrizes de covariância. Definindo a verossimilhança da instância x i pertencer àclasse G como um conunto de variáveis escondidas h i, : 33

34 E.M. algoritmo E.M. algoritmo Passo E: Passo M: [ ] [ ] = g g i g T g i g g i T i i m x S m x S m x S m x S h ) ( ) )( ( exp ) ( ) )( ( exp 1 2 1 1 2 1, 2 1 2 1 π π N h i i =, π = i i i h x h m,, = i T i i i h m x m x h S,, ) )( (

35

36

37

K-Means online Algoritmos onlinefazem acesso a cada elemento do conunto de treinamento uma única vez. Definimos o erro de reconstrução como E ( K { m } D) = b x = 1 1 2 i Onde b é1 se a distância de x i ao m émínima ou b=0 caso contrário i, i m i 2 Utilizando a descida na direção do gradiente para minimizar E. O método do gradiente estocástico realiza a descida online, enquanto recebe novas observações. m E η η k, = = bi, k ( xi, mk, mk, ) 38

K-Means online Em outras palavras: Move-se o centro do cluster que émais próximo da última observação na direção desta por um fator η. Inicializarmcom =1... K Repetir para cada x i vindo em ordem aleatória: q = arg min x i m m q = m + η q ( xi m ) Atéa convergência de m. 39

Algoritmos de clustering 40

Exemplo: Algoritmo monotético tico Jainetal., ACM ComputingSurveys, Vol. 31, No. 3, September1999 41

Between vectors PROXIMITY MEASURES Dissimilarity measure(between vectors of X) is a function d : X X R with the following properties d0 R : < d0 d( x, y) < +, x, y X d( x, x) = d0, x X d( x, y) = d( y, x), x, y X 42

If in addition d ( x, y) = d 0 if and only if x = y d ( x, z) d( x, y) + d( y, z), x, y, z X (triangular inequality) d is called a metric dissimilarity measure. 43

Similarity measure(between vectors of X) is a function s : X X R with the following properties s0 R : < s( x, y) s0 < +, x, y X s( x, x) s0 =, x X s( x, y) = s( y, x), x, y X 44

If in addition ( x s, y) s if and only if x = = 0 y s( x, y) s( y, z) [ s( x, y) + s( y, z)] s( x, z), x, y, s is called a metric similarity measure. Between sets Let D i X, i=1,,kand U={D 1,,D k } A proximity measure on Uis a function :U U R z X A dissimilarity measurehas to satisfy the relations of dissimilarity measure between vectors, where D i s are used in place of x, y(similarly for similarity measures). 45

PROXIMITY FUNCTIONS BETWEEN A VECTOR AND A SET Let X={x 1,x 2,,x N } and C X, x X All points of Ccontribute to the definition of (x, C) Max proximity function ps max ( x, C) = max y C ( x, y) Min proximity function ps min ( x, C) = min y C ( x, y) Average proximity function ps avg 1 ( x, C) = ( x, y) (n n C is the cardinality of C) C y C 46

A representative(s) of C, r C,contributes to the definition of (x,c) In this case: (x,c)= (x,r C ) Typical representatives are: The mean vector: m p = 1 n The mean center: m C C : C y C y C d( m y C, y) y C where n C is the cardinality of C d( z, y), z C d: a dissimilarity measure The median center: m med C : med( d( m med, y) y C) med( d( z, y) y C), z C NOTE:Other representatives (e.g., hyperplanes, hyperspheres) are useful in certain applications (e.g., obect identification using clustering techniques). 47

PROXIMITY FUNCTIONS BETWEEN SETS Let X={x 1,,x N }, D i, D X and n i = D i, n = D All points of each set contribute to (D i,d ) Maxproximity function (measure but notmetric, only if is a similarity measure) ss max ( Di, D ) = max x D, i y D ( x, y) Minproximity function (measure but notmetric, only if is a dissimilarity measure) ss min ( Di, D ) = min x D, i y D ( x, y) Averageproximity function (nota measure, even if is a measure) ss avg ( D i, D ) = 1 ( x, y) nin x D i x D 48

Each set D i is represented by its representative vector m i Mean proximity function (it is a measure provided that is a measure): ss mean ( Di, D ) = ( mi, m ) ss e nin ( Di, D ) = ( mi, m ) n + n i NOTE:Proximity functions between a vector xand a set Cmay be derived from the above functions if we set D i ={x}. 49

Remarks: Differentchoices of proximity functions between sets may lead to totally different clustering results. Differentproximity measures between vectors in the same proximity function between sets may lead to totally different clustering results. The only way to achieve a proper clustering is by trial and error and, taking into account the opinion of an expert in the field of application. 50

Método hierárquico pode ser Métodos hierárquicos rquicos Aglomerativo: partindo de vários clusters de um único elemento e unindo clusters até que todos elementos pertençam a um único cluster. Divisivo: parte de um único cluster e vai particionando cada cluster até obter um elemento em cada cluster. Em função da medida da distância entre dois clusters pode ser: De ligação simples: a distância entre dois clusters éa menor distância possível entre dois pontos, um em cada cluster. De ligação completa: a distância entre dois clusters éa maior distância entre dois pontos, um em cada cluster. 51

Single-link link 52

Complete-link link 53

Dendrograma 54

Minimal Spanning Tree 55

Referências Duda, Hart, Stork(livro) Teodoridis, Koutrombas(transparências e livro) Andrew Moore(tranparências) 56