Repositório Digital

A- A A+

Anotação morfológica automática de corpus de língua falada : desafios ao Aelius

.

Anotação morfológica automática de corpus de língua falada : desafios ao Aelius

Mostrar registro completo

Estatísticas

Título Anotação morfológica automática de corpus de língua falada : desafios ao Aelius
Outro título Morphological pos tagging in oral language corpus : challenges for Aelius
Autor Othero, Gabriel de Ávila
Ayres, Mônica Rigo
Resumo Apresentamos, neste artigo, nosso trabalho de anotação morfológica automática de trechos de um corpus de língua falada – pertencentes ao projeto Varsul –, utilizando um etiquetador automático morfossintático gratuito, o Aelius, em 20 textos, perfazendo um total de 154.530 palavras. Basicamente, apresentamos a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, o trabalho de revisão manual da etiquetagem automática e as sugestões de melhorias para tratar especificamente de aspectos da oralidade. A partir dos erros do etiquetador, buscamos depreender certos padrões de anotação para superar limitações de desempenho apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória um corpus de língua falada. Tratamos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.
Abstract In this paper, we present the results of our work on automatic morphological annotation using the free morphosyntatic Aelius tagger. The excerpts analyzed were taken from a corpus of spoken language – part of the VARSUL project. We present 20 texts containing 154,530 words, which were automatically annotated and manually corrected. This paper also describes the Aelius tagger and our effort of manual reviewing the texts, as well as our suggestions for improving the tool, concerning aspects of oral texts tagging. We assessed the performance of the tagger at the morphosyntactic tagging of a spoken language corpus, an unprecedented challenge for the tool. Based on its errors, we try to infer certain patterns of annotation to overcome the limitations presented by the program. We also make suggestions in order to allow Aelius to tag spoken language corpora in a more effective way, specially when dealing with interjections, apheresis, onomatopoeia and conversational markers.
Contido em Texto livre. Belo Horizonte, MG. Vol. 7, n. 2 (primavera 2014), f. 44-60
Assunto Aelius.
Lingüística de corpus
Morfossintaxe
[en] Corpus Linguistics
[en] Morphosyntactic tagging
[en] Tagger
Origem Nacional
Tipo Artigo de periódico
URI http://hdl.handle.net/10183/117105
Arquivos Descrição Formato
000966630.pdf (320.7Kb) Texto completo Adobe PDF Visualizar/abrir

Este item está licenciado na Creative Commons License

Este item aparece na(s) seguinte(s) coleção(ões)


Mostrar registro completo

Percorrer



  • O autor é titular dos direitos autorais dos documentos disponíveis neste repositório e é vedada, nos termos da lei, a comercialização de qualquer espécie sem sua autorização prévia.
    Projeto gráfico elaborado pelo Caixola - Clube de Criação Fabico/UFRGS Powered by DSpace software, Version 1.8.1.