On the application of focused crawling for statistical machine translation domain adaptation

Laranjeira, Bruno Rezende

dc.contributor.advisor	Moreira, Viviane Pereira	pt_BR
dc.contributor.author	Laranjeira, Bruno Rezende	pt_BR
dc.date.accessioned	2015-05-28T01:59:04Z	pt_BR
dc.date.issued	2015	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/117259	pt_BR
dc.description.abstract	Statistical Machine Translation (SMT) is highly dependent on the availability of parallel corpora for training. However, these kinds of resource may be hard to be found, especially when dealing with under-resourced languages or very specific domains, like the dermatology. For working this situation around, one possibility is the use of comparable corpora, which are much more abundant resources. One way of acquiring comparable corpora is to apply Focused Crawling (FC) algorithms. In this work we propose novel approach for FC algorithms, some based on n-grams and other on the expressive power of multiword expressions. We also assess the viability of using FC for performing domain adaptations for generic SMT systems and whether there is a correlation between the quality of the FC algorithms and of the SMT systems that can be built with its collected data. Results indicate that the use of FCs is, indeed, a good way for acquiring comparable corpora for SMT domain adaptation and that there is a correlation between the qualities of both processes.	en
dc.description.abstract	O treinamento de sistemas de Tradução de Máquina baseada em Estatística (TME) é bastante dependente da disponibilidade de corpora paralelos. Entretanto, este tipo de recurso costuma ser difícil de ser encontrado, especialmente quando lida com idiomas com poucos recursos ou com tópicos muito específicos, como, por exemplo, dermatologia. Para contornar esta situação, uma possibilidade é utilizar corpora comparáveis, que são recursos muito mais abundantes. Um modo de adquirir corpora comparáveis é a aplicação de algoritmos de Coleta Focada (CF). Neste trabalho, são propostas novas abordagens para CF, algumas baseadas em n-gramas e outras no poder expressivo das expressões multipalavra. Também são avaliadas a viabilidade do uso de CF para realização de adaptação de domínio para sistemas genéricos de TME e se há alguma correlação entre a qualidade dos algoritmos de CF e dos sistemas de TME que podem ser construídos a partir dos respectivos dados coletados. Os resultados indicam que algoritmos de CF podem ser bons meios para adquirir corpora comparáveis para realizar adaptação de domínio para TME e que há uma correlação entre a qualidade dos dois processos.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Linguística computacional	pt_BR
dc.subject	Focused crawling	en
dc.subject	Estatística aplicada	pt_BR
dc.subject	Statistical machine translation	en
dc.subject	Domain adaptation	en
dc.subject	Comparable corpora	en
dc.title	On the application of focused crawling for statistical machine translation domain adaptation	pt_BR
dc.type	Dissertação	pt_BR
dc.contributor.advisor-co	Villavicencio, Aline	pt_BR
dc.identifier.nrb	000967675	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.program	Programa de Pós-Graduação em Computação	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2015	pt_BR
dc.degree.level	mestrado	pt_BR

Nome:: 000967675.pdf
Tamanho:: 1.614Mb
Formato:: PDF
Descrição:: Texto completo (inglês)

Visualizar/abrir

Este item está licenciado na Creative Commons License

Ciências Exatas e da Terra (5040)

Computação (1733)

Mostrar registro simples