Repositório Digital

A- A A+

Elaboração de uma estratégia de deduplicação de dados utilizando técnicas de blocagem em um cadastro hospitalar de pacientes

.

Elaboração de uma estratégia de deduplicação de dados utilizando técnicas de blocagem em um cadastro hospitalar de pacientes

Mostrar registro completo

Estatísticas

Título Elaboração de uma estratégia de deduplicação de dados utilizando técnicas de blocagem em um cadastro hospitalar de pacientes
Outro título Elaborating a record linkage strategy using blocking techniques on a hospital patients database
Autor Bohm, Luiz Fernando
Orientador Heuser, Carlos Alberto
Data 2010
Nível Graduação
Instituição Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Assunto Banco : Dados
Informática médica
[en] Blocking
[en] BuscaBR
[en] Record linkage
[en] Soundex
Resumo O presente trabalho consiste na elaboração de uma estratégia de deduplicação de dados utilizando técnicas de blocagem e algoritmos fonéticos em um cadastro hospitalar de pacientes. A chave de blocagem que apresenta a maior qualidade é a chave que utiliza os algoritmos fonéticos Soundex em conjunto com o BuscaBR, aplicados ao nome da mãe do paciente. Todos os passos realizados na preparação da base de dados de testes, no préprocessamento dos dados, na deduplicação dos registros da base de dados completa e todas as métricas utilizadas na análise da qualidade dos resultados estão detalhados. Como resultado deste trabalho é apresentada a estratégia de deduplicação que maximiza a quantidade de registros duplicados encontrados em uma base de dados de testes previamente avaliada, assim como o conjunto de registros possivelmente duplicados que foram encontrados na base de dados completa. Também são analisadas propostas adicionais para melhorar o desempenho e a qualidade do processo de blocagem e deduplicação.
Abstract This work consists in elaborating a record linkage strategy using blocking techniques and phonetic algorithms on a hospital patient’s database. The blocking key with the highest quality was the key using the phonetic algorithms Soundex combined with the BuscaBR, applied on the patient mother’s name. All the steps taken in preparing the test database, pre-processing of data, in the record linkage of the complete database and all the metrics used in analyzing the quality of the results are detailed. As a result of this work is presented the record linkage strategy that maximizes the amount of duplicate records found in the test database previously evaluated, as well as possibly duplicate set of records that were found in the complete database. Besides, additional proposals are analyzed to improve the performance and quality of the blocking and record linkage process.
Tipo Trabalho de conclusão de graduação
URI http://hdl.handle.net/10183/26350
Arquivos Descrição Formato
000757805.pdf (1.153Mb) Texto completo Adobe PDF Visualizar/abrir

Este item está licenciado na Creative Commons License

Este item aparece na(s) seguinte(s) coleção(ões)


Mostrar registro completo

Percorrer



  • O autor é titular dos direitos autorais dos documentos disponíveis neste repositório e é vedada, nos termos da lei, a comercialização de qualquer espécie sem sua autorização prévia.
    Projeto gráfico elaborado pelo Caixola - Clube de Criação Fabico/UFRGS Powered by DSpace software, Version 1.8.1.