Repositório Digital

A- A A+

Aelius falado 1.0

.

Aelius falado 1.0

Mostrar registro completo

Estatísticas

Título Aelius falado 1.0
Autor Ayres, Mônica Rigo
Orientador Othero, Gabriel de Ávila
Data 2014
Nível Graduação
Instituição Universidade Federal do Rio Grande do Sul. Instituto de Letras. Curso de Letras: Licenciatura.
Assunto Lingüística de corpus
Morfologia
Morfossintática
Oralidade
[en] Auto-tagging
[en] Corpus linguistics
[en] Morphosyntactic tagging
Resumo Este trabalho insere-se nas áreas de Linguística de Corpus e análise morfológica do português brasileiro, tratando do tema anotação automática morfológica de corpus de língua falada. O trabalho pretende, entre outras coisas, contribuir com a melhoria do etiquetador automático morfossintático Aelius, desenvolvido originalmente pelo prof. Dr. Leonel Alencar, da Universidade Federal do Ceará, coordenador do projeto CompLin – Computação e Linguagem Natural. As etiquetas utilizadas no Aelius são as mesmas do corpus de português histórico Tycho-Brahe (corpus eletrônico já anotado, composto de textos em português escritos por autores nascidos entre 1380 e 1845). Os textos que utilizamos para a anotação são do banco do projeto Varsul, que estuda a variação linguística na região Sul do Brasil. Trabalhamos com anotação automática de 20 textos, contendo 154.530 palavras. Este trabalho basicamente apresenta a ferramenta de anotação automática, o processo de análise morfossintática automática efetuada pelo anotador, nosso trabalho de revisão manual da etiquetagem automática e nossas sugestões de melhorias para tratar especificamente de aspectos da oralidade. Verificaremos o desempenho do Aelius na etiquetagem morfossintática automática de um corpus de língua falada, um desafio inédito para esta ferramenta. A partir dos erros do etiquetador, buscaremos depreender certos padrões de anotação para superar limitações apresentadas pelo programa, propondo algumas sugestões de implementações para que o Aelius etiquete de maneira ainda mais satisfatória corpus de língua falada. Trataremos especialmente dos casos de interjeições, aféreses, onomatopeias e marcadores conversacionais.
Abstract This project is included in the area of Corpus Linguistics and morphological analysis of Brazilian Portuguese, which is about automatic morphological annotation corpus of spoken language. The work aims to contribute to the improvement of the automatic morphosyntactic tagger Aelius, originally developed by prof. Dr. Leonel Alencar, from Universidade Federal do Ceará, coordinator of the project CompLin - Natural Language and Computation. The tags used in Aelius are the same tags of Tycho-Brahe historical Portuguese corpus (electronic corpus already tagged, composed of texts in Portuguese written by authors born between 1380 and 1845). The texts that were used for tagging come from the bank of Varsul project, which studies the linguistic variation in southern Brazil. We worked with automatic tag of 20 texts, containing 154.530 words. This project presents the tool for automatic tagging, the automatic morphosyntactic analysis process executed by the tagger and our auto-tagging manual review work, besides some suggestions of improvement to deal specifically with aspects of orality. We will verify the Aelius’ performance in automatic morphosyntactic tagging of a corpus of spoken language, an unprecedented challenge to this tool. From the errors of the tagger, we seek to infer certain patterns of annotation to overcome limitations presented by the program, proposing some suggestions of implementations so that Aelius can tag even more satisfactorily corpus of spoken language. We will deal especially with cases of interjections, apheresis, onomatopoeia and conversational markers.
Tipo Trabalho de conclusão de graduação
URI http://hdl.handle.net/10183/105249
Arquivos Descrição Formato
000941631.pdf (2.248Mb) Texto completo Adobe PDF Visualizar/abrir

Este item está licenciado na Creative Commons License

Este item aparece na(s) seguinte(s) coleção(ões)


Mostrar registro completo

Percorrer



  • O autor é titular dos direitos autorais dos documentos disponíveis neste repositório e é vedada, nos termos da lei, a comercialização de qualquer espécie sem sua autorização prévia.
    Projeto gráfico elaborado pelo Caixola - Clube de Criação Fabico/UFRGS Powered by DSpace software, Version 1.8.1.