Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais

Cervo, Victor Leonardo

dc.contributor.advisor	Anzanello, Michel José	pt_BR
dc.contributor.author	Cervo, Victor Leonardo	pt_BR
dc.date.accessioned	2013-07-17T01:49:35Z	pt_BR
dc.date.issued	2013	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/75915	pt_BR
dc.description.abstract	A presente dissertação propõe novas abordagens para seleção de variáveis com vistas à formação de grupos representativos de observações. Para tanto, sugere um novo índice de importância das variáveis apoiado nos parâmetros oriundos da Análise de Componentes Principais (APC), o qual é integrado a uma sistemática do tipo forward para seleção de variáveis. A qualidade dos agrupamentos formados é medida através do Silhouette Index. Um estudo de simulação é projetado para avaliar a robustez e o desempenho da sistemática proposta em dados com diferentes níveis de correlação, ruído e número de observações a serem clusterizadas. Na sequência, é apresentada uma versão modificada da sistemática original, a qual utiliza funções kernel para remapeamento dos dados com vistas ao incremento da qualidade de clusterização e redução das variáveis retidas para formação dos agrupamentos. A versão modificada é aplicada em 3 bancos de dados da indústria química, aumentando a qualidade da clusterização medida pelo SI médio em 150% e utilizando em torno de 6% das variáveis originais.	pt_BR
dc.description.abstract	This thesis proposes new approaches for variable selection aimed at forming representative groups of observations. For that matter, we suggest a new variable importance index based on parameters derived from the Principal Component Analysis (PCA), which is integrated to a forward procedure for variable selection. The quality of clustering procedure is assessed by the Silhouette Index. A simulation study is designed to evaluate the robustness of the proposed method on different levels of variable correlation, noise and number of observations to be clustered. Next, we modify the original method by remapping observations through kernel functions tailored to improving the clustering quality and reducing the retained variables. The modified version is applied to 3 databases related to chemical processes, increasing the quality of clustering measured by SI on average 150%, while using around 6% of the original variables.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Análise multivariada	pt_BR
dc.subject	Variable selection	en
dc.subject	Planejamento e controle da produção	pt_BR
dc.subject	Clustering analysis	en
dc.subject	Principal component analysis	en
dc.subject	Kernel functions	en
dc.title	Seleção de variáveis para clusterização através de índices de importância das variáveis e Análise de Componentes Principais	pt_BR
dc.title.alternative	Clustering variable selection through variable importance indices and principal component analysis	en
dc.type	Dissertação	pt_BR
dc.identifier.nrb	000891315	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Escola de Engenharia	pt_BR
dc.degree.program	Programa de Pós-Graduação em Engenharia de Produção	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2013	pt_BR
dc.degree.level	mestrado	pt_BR

Nome:: 000891315.pdf
Tamanho:: 419.1Kb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Engenharias (7318)

Engenharia de Produção (1222)

Mostrar registro simples