Repositório Digital

A- A A+

Construção e avaliação de modelos semânticos distribucionais

.

Construção e avaliação de modelos semânticos distribucionais

Mostrar registro completo

Estatísticas

Título Construção e avaliação de modelos semânticos distribucionais
Outro título Construction and evaluation of semantic distributional models
Autor Gonçalves, Gabriel Costa
Orientador Villavicencio, Aline
Data 2015
Nível Graduação
Instituição Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Assunto Lingüística computacional
Processamento : Linguagem natural
[en] Automatically built resources
[en] Corpus
[en] Natural language processing
[en] Thesaurus
[en] Thesaurus construction
Resumo No estudo do processamento de linguagem natural, os tesauros distribucionais, que representam modelos semânticos de linguagens, são muito utilizados em tarefas que envolvem relações semânticas, tais como respostas a perguntas, simplificação de texto, desambiguação, análise de sentimentos, entre outras. Uma barreira frequentemente encontrada nestas tarefas é a falta destes recursos - seja devido a altos custos de criá-los e extendê-los, difícil acesso ou até mesmo por serem inexistentes para algumas línguas. Muitos esforços são dedicados à construção automática de tesauros, e diferentes técnicas foram desenvolvidas a fim de atingir este objetivo, mas elas precisam ser cuidadosamente avaliadas para garantir que a qualidade dos resultados obtidos seja satisfatória. Este trabalho fará uma comparação entre modelos semânticos distribucionais construídos automaticamente para dois idiomas, português e inglês, para determinar se estas técnicas podem ser aplicadas em linguagens com diferentes características léxicas e sintáticas. Também serão comparadas duas técnicas de construção de tesauros para determinar se elas são equivalentes. Finalmente, será examinado o impacto do tamanho e do tipo de contexto utilizado para cada modelo, assumindo que contextos maiores levam a resultados de maior qualidade. Modelos semânticos construídos automaticamente implicam em uma redução de custos e aumento na abrangência e acessibilidade da área de processamento de linguagem ao permitir a criação destes recursos para idiomas que não possuam tesauros construídos manualmente ou para os quais estes recursos sejam de difícil acesso.
Abstract In Natural Language Processing, distributional thesauri, semantic model language representations, are widely used in tasks that involve semantic relations, such as question answering, text simplification, disambiguation and sentiment analysis. A frequent barrier to these tasks is the lack of resources - either due to the high cost of manually constructing and extending them, difficulty of access or even because they do not exist for some languages. Therefore much effort have been dedicated to the automatic construction of thesauri, and different techniques have been developed in order to reach that goal, but they need to be carefully assessed to ensure the quality of the results obtained with them is satisfactory. This work compares distributional semantic models built automatically for two different languages, Portuguese and English, to determine whether the techniques can be robustly applied to languages with different lexical and syntactics characteristics. Secondly, we compare two different techniques for thesaurus construction, to determine if they are equivalent. Finally we examine the impact of the type and size of context used for each of the model, assuming that larger contexts lead to better quality results. Automatically built semantic models imply in a cost reduction and a raise in coverage and accessibility of the area by enabling the construction of these resources for languages that may not have manually built ones or for languages whose resources have restrict access.
Tipo Trabalho de conclusão de graduação
URI http://hdl.handle.net/10183/132028
Arquivos Descrição Formato
000972929.pdf (579.2Kb) Texto completo Adobe PDF Visualizar/abrir

Este item está licenciado na Creative Commons License

Este item aparece na(s) seguinte(s) coleção(ões)


Mostrar registro completo

Percorrer



  • O autor é titular dos direitos autorais dos documentos disponíveis neste repositório e é vedada, nos termos da lei, a comercialização de qualquer espécie sem sua autorização prévia.
    Projeto gráfico elaborado pelo Caixola - Clube de Criação Fabico/UFRGS Powered by DSpace software, Version 1.8.1.