Repositório Digital

A- A A+

JESS : uma ferramenta para detecção de linguagem em textos

.

JESS : uma ferramenta para detecção de linguagem em textos

Mostrar registro completo

Estatísticas

Título JESS : uma ferramenta para detecção de linguagem em textos
Outro título Language detection in online texts
Autor Santos, Aline Graciela Lermen dos
Orientador Wives, Leandro Krug
Data 2013
Nível Graduação
Instituição Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Assunto Linguagem natural
Lingüística computacional
[en] Language detection
[en] N-grams
[en] Online text
[en] Weighting schemes
Resumo Com a expansão da Internet nos últimos anos, surgem textos na web de diversas fontes, acarretando um aumento na quantidade de idiomas. Ao se deparar com um destes textos, um problema relevante consiste em saber qual é o idioma dele. Este trabalho tem como objetivo abordar o problema da identificação do idioma de textos, como posts de blog e jornais online, entre inglês e português, utilizando técnicas e abordagens provenientes da área de Recuperação de Informação. A detecção de linguagem é uma variação da classificação de textos, e aqui será utilizado o treinamento com aprendizado supervisionado. A detecção de idioma é feita por três esquemas de ponderação diferentes: tf-idf, booleano e tf, além de analisar o melhor desempenho quanto ao uso de palavra inteira ou n-gramas. Com essas técnicas, deseja-se saber qual análise terá melhor resultadona classificação, através da quantidade de acertos de cada uma. Os experimentos realizados mostram que a análise com palavras inteiras e com peso booleano possui o melhor desempenho no menor tempo de processamento.
Abstract With the growth of the Internet in recent years, web texts arise from various sources, resulting in multiple languages as well. When facing one of these texts, one important issue is related to knowing the language used in a specific document. This work aims to approach the problem of identifying the language of online texts, as blog posts and online newspapers, between English and Portuguese, using techniques and approaches from Information Retrieval for this. Language detection is a variation of text classification, and here will be used training with supervised learning. The detection is performed by three different weighting schemes: tf-idf, boolean and tf weights, besides analyzing the best performance over the use of whole word or n-grams. With these techniques, it is desirable to know which analysis will result in better classification by the number of hits each one gets. The experiments show that the analysis with whole words and the boolean weight has the best performance in the shortest processing time.
Tipo Trabalho de conclusão de graduação
URI http://hdl.handle.net/10183/66081
Arquivos Descrição Formato
000870782.pdf (768.8Kb) Texto completo Adobe PDF Visualizar/abrir

Este item está licenciado na Creative Commons License

Este item aparece na(s) seguinte(s) coleção(ões)


Mostrar registro completo

Percorrer



  • O autor é titular dos direitos autorais dos documentos disponíveis neste repositório e é vedada, nos termos da lei, a comercialização de qualquer espécie sem sua autorização prévia.
    Projeto gráfico elaborado pelo Caixola - Clube de Criação Fabico/UFRGS Powered by DSpace software, Version 1.8.1.