Repositório Digital

A- A A+

Um framework para agrupamento de dados

.

Um framework para agrupamento de dados

Mostrar registro completo

Estatísticas

Título Um framework para agrupamento de dados
Outro título A framework for data clustering
Autor Ribacki, Guilherme Haag
Orientador Wives, Leandro Krug
Data 2013
Nível Graduação
Instituição Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Assunto Banco : Dados
Sistemas : Informação
[en] Algorithms
[en] Cluster analysis
[en] Data clustering
[en] Design patterns
[en] Framework
Resumo Com a evolução tecnológica, cada vez mais se tem acesso a grandes volumes de dados através da Internet. Para que se possa usufruir desses dados, algumas técnicas são aplicadas para extrair informações relevantes em uma determinada busca, sendo uma dessas técnicas o agrupamento de dados. O agrupamento de dados (data clustering) é utilizado para criar partições de objetos semelhantes entre si, independente dos tipos desses objetos, para facilitar a recuperação de informação. Este trabalho propõe uma arquitetura de framework que, através do uso de padrões de projeto (design patterns) e outras práticas da Engenharia de Software, permite que se implementem diferentes técnicas de agrupamento para tipos de dados variados de forma a maximizar o reuso de código. Uma instância desse framework é proposta para o agrupamento de textos de forma a demonstrar o uso do framework e comparar a eficácia de alguns algoritmos. Uma comparação é feita entre os algoritmos implementados com o framework e alguns resultados usando a ferramenta Eurekha. Os agrupamentos resultantes são avaliados através de métricas como Medida-F (F-Measure) e Silhueta (Silhouette). Duas coleções de documentos são usadas nos testes – uma pequena (12 documentos) e uma grande (722 documentos). Os algoritmos Cliques, Stars, Full-stars e Best-star foram usados com a coleção pequena, e o último deles se mostrou o mais eficiente. A coleção grande foi testada com esse mesmo algoritmo, porém os resultados, avaliados com a técnica Silhueta, não obtiveram resultados tão bons.
Abstract With the technological evolution, more and more there is access to large data volume through the internet. To be able to use this data, some techniques are used to extract relevant information from a search, one of these techniques being the data clustering. Data clustering is used to create partitions of similar objects, independently of their type, to make it easier to retrieve information. This work propose a framework architecture that, through the use of design patterns and other Software Engineering practices, allows different clustering techniques to be implemented for varying data types, in a way to maximize code reuse. An instance of this framework is proposed for text clustering in a way to show the framework’s use and to compare the effectiveness of some algorithms. A comparison is made between the implemented algorithms in the framework and some results of the Eurekha tool. The resulting clusters are evaluated through metrics like F-measure and Silhouette. Two collections are used in the tests – a small one (12 documents) and a large one (722 documents). The Cliques, Stars, Fullstars and Best-star algorithms were used with the small one, and the last had the best results. The big collection was tested with this algorithm, but the results, evaluated with the Silhouette technique, didn’t reach as good results.
Tipo Trabalho de conclusão de graduação
URI http://hdl.handle.net/10183/66090
Arquivos Descrição Formato
000870880.pdf (473.8Kb) Texto completo Adobe PDF Visualizar/abrir

Este item está licenciado na Creative Commons License

Este item aparece na(s) seguinte(s) coleção(ões)


Mostrar registro completo

Percorrer



  • O autor é titular dos direitos autorais dos documentos disponíveis neste repositório e é vedada, nos termos da lei, a comercialização de qualquer espécie sem sua autorização prévia.
    Projeto gráfico elaborado pelo Caixola - Clube de Criação Fabico/UFRGS Powered by DSpace software, Version 1.8.1.