Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento

Schreiner, Paulo

dc.contributor.advisor	Villavicencio, Aline	pt_BR
dc.contributor.author	Schreiner, Paulo	pt_BR
dc.date.accessioned	2011-02-02T05:59:18Z	pt_BR
dc.date.issued	2010	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/27658	pt_BR
dc.description.abstract	O alinhamento léxico automático é uma tarefa essencial para as técnicas de tradução de máquina empíricas modernas. A abordagem gerativa não-supervisionado têm sido substituída recentemente por uma abordagem discriminativa supervisionada que facilite inclusão de conhecimento linguístico de uma diversidade de fontes. Dentro deste contexto, este trabalho descreve uma série alinhadores léxicos discriminativos que incorporam heurísticas de pós-processamento com o objetivo de melhorar o desempenho dos mesmos para expressões multi-palavra, que constituem um dos desafios da área de processamento de linguagens naturais atualmente. A avaliação é realizada utilizando um gold-standard obtido a partir da anotação de um corpus paralelo de legendas de filmes. Os alinhadores propostos apresentam um desempenho superior tanto ao obtido por uma baseline quanto ao obtido por um alinhador gerativo do estado-da-arte (Giza++), tanto no caso geral quanto para as expressões foco do trabalho.	pt_BR
dc.description.abstract	Lexical alignment is an essential task for modern empirical machine translation techniques. The unsupervised generative approach is being replaced by a supervised, discriminative one that considerably facilitates the inclusion of linguistic knowledge from several sources. Given this context, the present work describes a series of discriminative lexical aligners that incorporate post-processing heuristics with the goal of improving the quality of the alignments of multiword expressions, which is one of the major challanges in natural language processing today. The evaluation is conducted using a gold-standard obtained from a movie subtitle parallel corpus. The aligners proposed show an alignment quality that is superior both to our baseline and to a state-of-the-art generative aligner (Giza++), for the general case as well as for the expressions that are the focus of this work.	en
dc.format.mimetype	application/pdf
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Linguística computacional	pt_BR
dc.subject	Natural language processing	en
dc.subject	Lexical alignment	en
dc.subject	Processamento : Linguagem natural	pt_BR
dc.subject	Machine learning	en
dc.subject	Parallel corpora	en
dc.subject	Multiword expressions	en
dc.subject	UFRGS	en
dc.title	Alinhamento léxico utilizando técnicas híbridas discriminativas e de pós-processamento	pt_BR
dc.title.alternative	Text alignment	en
dc.type	Dissertação	pt_BR
dc.contributor.advisor-co	Caseli, Helena de Medeiros	pt_BR
dc.identifier.nrb	000764635	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.program	Programa de Pós-Graduação em Computação	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2010	pt_BR
dc.degree.level	mestrado	pt_BR

Nome:: 000764635.pdf
Tamanho:: 486.9Kb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Ciências Exatas e da Terra (5040)

Computação (1733)

Mostrar registro simples