Metadata extraction from scientific documents in PDF

Souza, Alan Pinto

dc.contributor.advisor	Heuser, Carlos Alberto	pt_BR
dc.contributor.author	Souza, Alan Pinto	pt_BR
dc.date.accessioned	2014-12-10T02:20:00Z	pt_BR
dc.date.issued	2014	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/108005	pt_BR
dc.description.abstract	A maioria dos artigos científicos estão disponíveis no formato PDF. Este padrão permite a geracão de metadados que são inclusos dentro do documento. Porém, muitos autores não definem esta informação, fazendo esse recurso inseguro ou incompleto. Este fato tem motivado pesquisa que busca extrair metadados automaticamente. A extração automática de metadados foi classificada como uma das tarefas mais desafiadoras na área de engenharia de documentos. Este trabalho propõe Artic, um método para extração de metadados de artigos científicos que aplica um modelo probabilístico em duas camadas baseado em Conditional Random Fields. A primeira camada visa identificar as secões principais com possíveis metadados. Já a segunda camada identifica, para cada secão, o metadado correspondente. Dado um PDF contendo um artigo científico, Artic extrai título, nome dos autores, emails, afiliações e informações sobre a conferência onde o paper foi publicado. Os experimentos usaram 100 artigos de conferências variadas. Os resultados superaram a solução estado-da-arte usada como baseline, atingindo uma precisão acima de 99%.	pt_BR
dc.description.abstract	Most scientific articles are available in PDF format. The PDF standard allows the generation of metadata that is included within the document. However, many authors do not define this information, making this feature unreliable or incomplete. This fact has been motivating research which aims to extract metadata automatically. Automatic metadata extraction has been identified as one of the most challenging tasks in document engineering. This work proposes Artic, a method for metadata extraction from scientific papers which employs a two-layer probabilistic framework based on Conditional Random Fields. The first layer aims at identifying the main sections with metadata information, and the second layer finds, for each section, the corresponding metadata. Given a PDF file containing a scientific paper, Artic extracts the title, author names, emails, affiliations, and venue information. We report on experiments using 100 real papers from a variety of publishers. Our results outperformed the state-of-the-art system used as the baseline, achieving a precision of over 99%.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Metadata extraction	en
dc.subject	Recuperacao : Informacao	pt_BR
dc.subject	Banco : Dados	pt_BR
dc.subject	PDF	en
dc.subject	Extracao : Dados	pt_BR
dc.subject	Machine learning	en
dc.title	Metadata extraction from scientific documents in PDF	pt_BR
dc.title.alternative	Extração de metadados em artigos científicos no formato PDF	pt
dc.type	Dissertação	pt_BR
dc.contributor.advisor-co	Moreira, Viviane Pereira	pt_BR
dc.identifier.nrb	000947623	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.program	Programa de Pós-Graduação em Computação	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2014	pt_BR
dc.degree.level	mestrado	pt_BR

Nome:: 000947623.pdf
Tamanho:: 1.315Mb
Formato:: PDF
Descrição:: Texto completo (inglês)

Visualizar/abrir

Este item está licenciado na Creative Commons License

Ciências Exatas e da Terra (5041)

Computação (1733)

Mostrar registro simples