Repositório Digital

A- A A+

Uma ferramenta para experimentação em deduplicação de dados pessoais

.

Uma ferramenta para experimentação em deduplicação de dados pessoais

Mostrar registro completo

Estatísticas

Título Uma ferramenta para experimentação em deduplicação de dados pessoais
Outro título A tool for experimenting in deduplication of personal data
Autor Dadalt, Diogo Rigolli
Orientador Heuser, Carlos Alberto
Data 2014
Nível Graduação
Instituição Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Assunto Banco : Dados
Recuperacao : Informacao
[en] Deduplication
[en] GEDCOM
[en] Genealogy databases
Resumo Um problema recorrente encontrado por pessoas que trabalham com bases de dados genealógicas são as duplicatas. No contexto de bases de dados genealógicas, estas duplicatas usualmente descrevem o mesmo registro de forma diferente e muitas vezes incorreta. Por isto é importante encontrar e eliminar estes registros. A este processo se dá o nome de deduplicação. Esta é uma tarefa conhecida por ser difícil de automatizar. A ferramenta proposta por este trabalho dá o primeiro passo na direção da automatização. Ela recebe como entrada uma base de dados GEDCOM (formato de bases genealógicas) juntamente com uma lista de evidências, sugerindo ao usuário os registros que se referem a um mesmo indivíduo. Estas sugestões são obtidas com o auxílio de conceitos de aprendizado de máquina providos pela biblioteca WEKA. Além disso, a ferramenta está disponível através da internet, o que permite que ela seja acessada de qualquer lugar do mundo e por qualquer pessoa.
Abstract A recurrent problem found by people that work with genealogy databases are duplicates. In the context of genealogy databases, usually these duplicates describe the same record in a different way and sometimes wrongly. Therefore it is important to find and eliminate these records. To this process is given the name deduplication. This is a task known to be difficult to automate. The tool proposed by this work takes the first step towards the automation of this process. It receives as input a GEDCOM (genealogy database format) along with a list of evidences, providing as output a suggestion of the records that refer to the same individual. These suggestions are obtained with the help of machine learning concepts provided by the WEKA library. Besides that, the tool is available over the internet, thus letting it be accessed by anyone, anywhere.
Tipo Trabalho de conclusão de graduação
URI http://hdl.handle.net/10183/143737
Arquivos Descrição Formato
000931698.pdf (1.372Mb) Texto completo Adobe PDF Visualizar/abrir

Este item está licenciado na Creative Commons License

Este item aparece na(s) seguinte(s) coleção(ões)


Mostrar registro completo

Percorrer



  • O autor é titular dos direitos autorais dos documentos disponíveis neste repositório e é vedada, nos termos da lei, a comercialização de qualquer espécie sem sua autorização prévia.
    Projeto gráfico elaborado pelo Caixola - Clube de Criação Fabico/UFRGS Powered by DSpace software, Version 1.8.1.