JESS : uma ferramenta para detecção de linguagem em textos

Santos, Aline Graciela Lermen dos

dc.contributor.advisor	Wives, Leandro Krug	pt_BR
dc.contributor.author	Santos, Aline Graciela Lermen dos	pt_BR
dc.date.accessioned	2013-02-05T01:38:53Z	pt_BR
dc.date.issued	2013	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/66081	pt_BR
dc.description.abstract	Com a expansão da Internet nos últimos anos, surgem textos na web de diversas fontes, acarretando um aumento na quantidade de idiomas. Ao se deparar com um destes textos, um problema relevante consiste em saber qual é o idioma dele. Este trabalho tem como objetivo abordar o problema da identificação do idioma de textos, como posts de blog e jornais online, entre inglês e português, utilizando técnicas e abordagens provenientes da área de Recuperação de Informação. A detecção de linguagem é uma variação da classificação de textos, e aqui será utilizado o treinamento com aprendizado supervisionado. A detecção de idioma é feita por três esquemas de ponderação diferentes: tf-idf, booleano e tf, além de analisar o melhor desempenho quanto ao uso de palavra inteira ou n-gramas. Com essas técnicas, deseja-se saber qual análise terá melhor resultadona classificação, através da quantidade de acertos de cada uma. Os experimentos realizados mostram que a análise com palavras inteiras e com peso booleano possui o melhor desempenho no menor tempo de processamento.	pt_BR
dc.description.abstract	With the growth of the Internet in recent years, web texts arise from various sources, resulting in multiple languages as well. When facing one of these texts, one important issue is related to knowing the language used in a specific document. This work aims to approach the problem of identifying the language of online texts, as blog posts and online newspapers, between English and Portuguese, using techniques and approaches from Information Retrieval for this. Language detection is a variation of text classification, and here will be used training with supervised learning. The detection is performed by three different weighting schemes: tf-idf, boolean and tf weights, besides analyzing the best performance over the use of whole word or n-grams. With these techniques, it is desirable to know which analysis will result in better classification by the number of hits each one gets. The experiments show that the analysis with whole words and the boolean weight has the best performance in the shortest processing time.	en
dc.format.mimetype	application/pdf
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Language detection	en
dc.subject	Linguagem natural	pt_BR
dc.subject	Linguística computacional	pt_BR
dc.subject	Online text	en
dc.subject	N-grams	en
dc.subject	Weighting schemes	en
dc.title	JESS : uma ferramenta para detecção de linguagem em textos	pt_BR
dc.title.alternative	Language detection in online texts	en
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.identifier.nrb	000870782	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2013	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 000870782.pdf
Tamanho:: 750.8Kb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (36230)

TCC Ciência da Computação (991)

Mostrar registro simples