JESS : uma ferramenta para detecção de linguagem em textos
Visualizar/abrir
Data
2013Orientador
Nível acadêmico
Graduação
Outro título
Language detection in online texts
Assunto
Resumo
Com a expansão da Internet nos últimos anos, surgem textos na web de diversas fontes, acarretando um aumento na quantidade de idiomas. Ao se deparar com um destes textos, um problema relevante consiste em saber qual é o idioma dele. Este trabalho tem como objetivo abordar o problema da identificação do idioma de textos, como posts de blog e jornais online, entre inglês e português, utilizando técnicas e abordagens provenientes da área de Recuperação de Informação. A detecção de linguagem é uma ...
Com a expansão da Internet nos últimos anos, surgem textos na web de diversas fontes, acarretando um aumento na quantidade de idiomas. Ao se deparar com um destes textos, um problema relevante consiste em saber qual é o idioma dele. Este trabalho tem como objetivo abordar o problema da identificação do idioma de textos, como posts de blog e jornais online, entre inglês e português, utilizando técnicas e abordagens provenientes da área de Recuperação de Informação. A detecção de linguagem é uma variação da classificação de textos, e aqui será utilizado o treinamento com aprendizado supervisionado. A detecção de idioma é feita por três esquemas de ponderação diferentes: tf-idf, booleano e tf, além de analisar o melhor desempenho quanto ao uso de palavra inteira ou n-gramas. Com essas técnicas, deseja-se saber qual análise terá melhor resultadona classificação, através da quantidade de acertos de cada uma. Os experimentos realizados mostram que a análise com palavras inteiras e com peso booleano possui o melhor desempenho no menor tempo de processamento. ...
Abstract
With the growth of the Internet in recent years, web texts arise from various sources, resulting in multiple languages as well. When facing one of these texts, one important issue is related to knowing the language used in a specific document. This work aims to approach the problem of identifying the language of online texts, as blog posts and online newspapers, between English and Portuguese, using techniques and approaches from Information Retrieval for this. Language detection is a variation ...
With the growth of the Internet in recent years, web texts arise from various sources, resulting in multiple languages as well. When facing one of these texts, one important issue is related to knowing the language used in a specific document. This work aims to approach the problem of identifying the language of online texts, as blog posts and online newspapers, between English and Portuguese, using techniques and approaches from Information Retrieval for this. Language detection is a variation of text classification, and here will be used training with supervised learning. The detection is performed by three different weighting schemes: tf-idf, boolean and tf weights, besides analyzing the best performance over the use of whole word or n-grams. With these techniques, it is desirable to know which analysis will result in better classification by the number of hits each one gets. The experiments show that the analysis with whole words and the boolean weight has the best performance in the shortest processing time. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1025)
Este item está licenciado na Creative Commons License