Repositório Digital

A- A A+

Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais

.

Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais

Mostrar registro completo

Estatísticas

Título Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais
Outro título Corpus linguistics, lexicostatistics and natural language processing : perspective for vocabulary studies about essays
Autor Evers, Aline
Finatto, Maria José Bocorny
Resumo Partindo da visão teórica e metodológica da Linguística de Corpus (LC), conjugada com metodologias do Processamento de Linguagem Natural (PLN), apresenta-se aqui um trabalho de léxico-estatística textual com produções textuais escritas por estudantes de português como língua adicional (PLA). Inicialmente, discute-se a relevância de aspectos quantitativos da linguagem, especialmente a característica de frequência de palavras, conforme propostos por Biderman (1978, 1996) e Hoffmann (2007). Em seguida, situa-se a LC e o PLN e relata-se uma pesquisa (EVERS, 2013) que propôs uma metodologia de avaliação automática aplicada a textos produzidos no contexto do exame Celpe-Bras – um exame de proficiência do português brasileiro. Fazendo uso do Aprendizado de Máquina (AM) supervisionado, uma técnica de PLN, cotejaram-se padrões lexicais e coesivos para distinguir níveis de proficiência e calcularam-se parâmetros de coesão, de coerência e de inteligibilidade textual de uma amostra de textos. Por fim, a proposta de metodologia que associa LC e PLN é problematizada e são apontados seus limites, vantagens e futuras aplicações.
Abstract Based on the theoretical and methodological framework of Corpus Linguistics (CL), and allied to Natural Language Processing (NLP) techniques, we present a lexicostatistical study about textual productions written by students of Portuguese as an additional language. We begin by discussing the relevance of quantitative language studies, specially regarding word frequencies, as proposed by Biderman (1978, 1996) and Hoffmann (2007). Then, we situate CL and NLP and their role in the proposition of a methodology (EVERS, 2013) for automatic essay score applied to texts produced in the context of Celpe-Bras – a Brazilian Portuguese as an additional language proficiency exam. By using supervised Machine Learning (ML), a NLP technique, it was possible to identify lexical cohesive patterns and distinguish levels of proficiency using such patterns. Cohesion, coherence and intelligibility parameters were used and the text sample was submitted for examination. At the end, the proposed methodology combines CL and NLP and it is problematized: we point out limits, advantages and future applications for the results found with this research.
Contido em Revista GTLex. Uberlândia, MG. Vol. 1, n. 2 (jan./jun. 2016), p. [271]-295
Assunto Linguagem natural
Língua portuguesa
Linguística
Lingüística de corpus
Produção textual
[en] Corpus linguistics
[en] Lexicostastic
[en] Portuguese as an additional language
Origem Nacional
Tipo Artigo de periódico
URI http://hdl.handle.net/10183/168725
Arquivos Descrição Formato
001047485.pdf (1.374Mb) Texto completo Adobe PDF Visualizar/abrir

Este item está licenciado na Creative Commons License

Este item aparece na(s) seguinte(s) coleção(ões)


Mostrar registro completo

Percorrer



  • O autor é titular dos direitos autorais dos documentos disponíveis neste repositório e é vedada, nos termos da lei, a comercialização de qualquer espécie sem sua autorização prévia.
    Projeto gráfico elaborado pelo Caixola - Clube de Criação Fabico/UFRGS Powered by DSpace software, Version 1.8.1.