Processamento de língua natural e níveis de proficiência do português : um estudo de produções textuais do exame Celpe-Bras

Evers, Aline

dc.contributor.advisor	Finatto, Maria José Bocorny	pt_BR
dc.contributor.author	Evers, Aline	pt_BR
dc.date.accessioned	2013-10-18T01:48:26Z	pt_BR
dc.date.issued	2013	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/79447	pt_BR
dc.description.abstract	Este trabalho trata dos temas da proficiência em português como língua adicional e da detecção de padrões lexicais e coesivos a partir de um enfoque computacional, situando o tema em meio à descrição de textos produzidos no contexto do exame de proficiência Celpe- Bras de 2006-1. Fazendo uso de pressupostos teórico-metodológicos da Linguística de Corpus, da Linguística Textual e do Processamento de Língua Natural, investigou-se a hipótese de que seria possível classificar, de modo automático, textos submetidos ao exame conforme níveis de proficiência pré-estabelecidos. Por meio do processamento de 177 textos previamente avaliados por corretores humanos em seis níveis (Iniciante, Básico, Intermediário, Intermediário Superior, Avançado e Avançado Superior), usou-se o Aprendizado de Máquina (AM) supervisionado para cotejar padrões lexicais e coesivos capazes de distinguir os níveis sob estudo. Para o cotejo dos padrões, a ferramenta Coh-Metrix-Port – que calcula parâmetros de coesão, coerência e inteligibilidade textual – foi utilizada. Cada um dos textos foi processado na ferramenta; para o AM, os resultados da ferramenta Coh-Metrix-Port foram usados como atributos, os níveis de proficiência como classes e os textos como instâncias. As etapas de processamento do corpus foram: 1) digitação do corpus; 2) processamento individual dos textos na ferramenta Coh-Metrix-Port; 3) análise usando AM – Algoritmo J48 – e os seis níveis de proficiência; 4) nova análise usando AM e duas novas classes: textos sem certificação (Iniciante e Básico) e com certificação (Intermediário, Intermediário Superior, Avançado e Avançado Superior). Avançado e Avançado Superior). Apesar do tamanho reduzido do corpus, foi possível identificar os seguintes atributos distintivos entre os textos da amostra: número de palavras, medida de riqueza lexical, número de parágrafos, incidência de conectivos negativos, incidência de adjetivos e Índice Flesch. Chegou-se a um classificador capaz de separar dois conjuntos de texto (SEM e COM CERTIFICAÇÃO) através das métricas utilizadas (fmeasure de 70%).	pt_BR
dc.description.abstract	This research analyzes Portuguese proficiency from a computational perspective, studying texts submitted to the Brazilian Portuguese proficiency exam Celpe-Bras (Certificate of Proficiency in Portuguese for Foreigners). The study was based on Corpus Linguistics, Textual Linguistics, and Natural Language Processing. We investigated the hypothesis that it would be possible to predict second language proficiency using Machine Learning (ML), measures given by a NLP tool (Coh-Metrix-Port), and a corpus of texts previously classified by human raters. The texts (177) were previously classified as Beginner, Elementary, Intermediate, Upper Intermediate, Advanced, and Upper Advanced. After preparation, they were processed by Coh-Metrix-Port, a tool that calculates cohesion, coherence, and textual readability at different linguistic levels. The output of this tool provided 48 measures that were used as attributes, the proficiency levels given by raters were considered classes, and the 177 were considered instances for ML purposes. The algorithm J48 was used with this set of texts, providing a Decision Tree that classified the six levels of proficiency. The results for this analysis were not conclusive; because of that, we performed a new analysis with a new set of texts: two classes, one with texts that did not receive certificate (Beginner and Elementary) and the other with texts that did receive the certificate (Intermediate, Upper Intermediate, Advanced, and Upper Advanced). Despite the small size of the corpus, we were able to identify the following distinguishing attributes: number of words, type token ratio, number of paragraphs, incidence of negative connectives, incidence of adjectives, and Flesch Index. The classifier was able to separate these two last sets of texts with a F-measure of 70%.	en
dc.format.mimetype	application/pdf
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Portuguese as an additional language	en
dc.subject	Exame Celpe-Bras	pt_BR
dc.subject	Portuguese as a foreign language	en
dc.subject	Aquisição da linguagem	pt_BR
dc.subject	Portuguese learner corpus	en
dc.subject	Língua portuguesa	pt_BR
dc.subject	Língua adicional	pt_BR
dc.subject	Celpe-bras	en
dc.subject	Proficiency in portuguese	en
dc.subject	Exame de proficiência	pt_BR
dc.subject	Coh-metrix	en
dc.subject	Lingüística de corpus	pt_BR
dc.subject	Natural language processing	en
dc.subject	Linguística textual	pt_BR
dc.subject	Estudos da linguagem	pt_BR
dc.title	Processamento de língua natural e níveis de proficiência do português : um estudo de produções textuais do exame Celpe-Bras	pt_BR
dc.type	Dissertação	pt_BR
dc.identifier.nrb	000899478	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Letras	pt_BR
dc.degree.program	Programa de Pós-Graduação em Letras	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2013	pt_BR
dc.degree.level	mestrado	pt_BR

Nome:: 000899478.pdf
Tamanho:: 11.07Mb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Linguística, Letras e Artes (2796)

Letras (1712)

Mostrar registro simples