Mostrar registro simples

dc.contributor.advisorHeuser, Carlos Albertopt_BR
dc.contributor.authorFarinon, Vinícius de Bonapt_BR
dc.date.accessioned2010-02-19T04:14:44Zpt_BR
dc.date.issued2009pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/18544pt_BR
dc.description.abstractDevido a grande diversidade de fontes de dados utilizadas pela maioria das bibliotecas digitais (DLs), podem existir problemas de ambigüidade em suas bases de dados. Pensando em melhorar esse quadro, esse trabalho propõe uma heurística que busca amenizar um problema de ambigüidade de nomes de autores bastante comum em DLs chamado split citation. Esse problema ocorre quando um autor possui seu nome representado de maneiras distintas nas diferentes publicações de sua autoria. Dessa forma, cada uma dessas variações de nome, podem ser consideradas como pessoas diferentes, dividindo a produção de um determinado autor. O split citation é um problema bastante corriqueiro, pois é muito comum, por exemplo, a abreviação ou até mesmo a supressão de sobrenomes muito extensos, além de outras práticas que geram variações de um nome. Para corrigir esse inconveniente, é feita uma análise em cima das diferentes informações contidas em uma publicação para decidir a sua autoria. Com as informações extraídas dos registros das bases de dados, são feitas medidas de similaridade que, ao final do processo, servem para ordenar uma lista de publicações onde as primeiras posições devem representar as publicações relevantes do autor em questão. Essas medidas de similaridade são calculadas utilizando evidências presentes nas publicações em forma de metadados, como por exemplo, os nomes dos autores, nomes dos co-autores, títulos, veículos de publicação, etc. A heurística foi avaliada em termos de precisão e revocação com a ajuda do software chamado trec_eval, disponibilizado pela conferência TREC (Text REtrieval Conference) que apóia pesquisas na área de recuperação de informação. Esse software permite a análise da precisão do método para diferentes níveis de revocação, e com isso facilita também a comparação entre as variantes do método proposto.pt_BR
dc.description.abstractDue to the wide variety of data sources used by most digital libraries, there may be problems of ambiguity in their databases. Thinking of improving this situation, this paper proposes a heuristic method that seeks to alleviate a authors name ambiguity problem that is very common in digital libraries called split citation. This problem occurs when an author has its name represented in different ways in his different publications. Thus, each of these name's variations can be considered as different authors, dividing the production of a particular author. The split citation is a fairly common problem. It is very common, for example, shortening or even elimination of long last names, and other practices that generate name variations. To correct this drawback, an analysis is made on different information contained in a publication to decide on his own. With the information obtained from the records of the databases, are made similarity measures that, at the end of the process, are used to sort a list of publications where the top positions must represent the relevant publications of the author in question. These similarity measures are calculated using evidence from the publications in the form of metadata such as authors' names, co-authors' names, titles, publication venue, etc. The heuristic method was evaluated in terms of recall/precision with the help of software called trec_eval, made available by the conference TREC (Text REtrieval Conference) which supports research in information retrieval. This software allows the analysis of the accuracy for different levels of recall, and it also facilitates the comparison between the proposed method variants.en
dc.format.mimetypeapplication/pdf
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectBanco : Dadospt_BR
dc.subjectDisambiguationen
dc.subjectBiblioteca digitalpt_BR
dc.subjectSimilarityen
dc.subjectPrecisionen
dc.subjectRecallen
dc.subjectDigital librariesen
dc.subjectSplit citationen
dc.subjectTrec_evalen
dc.titleAvaliação experimental de métodos de desambiguação de autores em bibliotecas digitaispt_BR
dc.title.alternativeExperimental evaluation of methods for authors disambiguation in digital libraries en
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.identifier.nrb000730602pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2009pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples