Utilizando buscas online para identificar informações relevantes em mineração de textos

Mineração de Textos é uma área importante na literatura de Recuperação de Informação, por encontrar informações em dados não estruturados (textos), e que tem sido muito utilizada para descobrir conteúdo em livros, artigos, trabalhos textuais, entre outros, de forma rápida e eficiente. Também a utilização de web sites, blogs, redes sociais, fóruns, e outros, teve um crescimento maciço nos últimos anos, fazendo a Internet atualmente ser a principal fonte de conteúdo textual. Junto com esse aumento, os algoritmos e aplicações capazes de extrair informações e minerar esses textos também tiveram um significativo crescimento. Tais algoritmos são utilizados para auxiliar os usuários a obterem maiores quantidades de informação em um menor espaço de tempo ou mesmo encontrar informações que passaram despercebidas pelo leitor. Tendo em vista o crescimento contínuo de dados em formato textual, o processo de mineração de textos busca as melhores formas de encontrar informações que representam claramente o conteúdo de um documento. Uma de suas aplicações é extrair termos que possuam relevância ao assunto que o texto aborda, orientando o usuário no seu entendimento da forma mais adequada. Ao considerar a grande quantidade de textos que se tem de ler no dia a dia, ferramentas de mineração de textos são de grande auxílio para sintetizar e organizar as informações desses documentos. Apesar dos avanços sobre a pesquisa na área, muitos resultados obtidos no processo se apresentam pouco relevantes ao usuário. Considerando que a mineração de documentos não possui uma base de contexto da qual se possa também extrair informações acerca do assunto versado, a qualidade do resultado da mineração de texto pode ser prejudicada. Uma forma de solucionar tal problema é pós-processar o conhecimento obtido antes de apresentá-lo ao usuário final, buscando encontrar as informações que são mais relevantes ao texto minerado. Este trabalho visa aprimorar a qualidade dos termos retornados pelo processo de mineração, através do uso de métricas de contexto para avaliá-los. Para isso, foram utilizados o motor de buscas do Google e o minerador de textos Sobek, esse último desenvolvido por um grupo de pesquisa da UFRGS. É inserido um contexto junto a cada termo extraído, e então realiza-se uma série de buscas em meio às páginas indexadas pelo Google, que mostram o quão relevante são os termos quando inseridos dentro de um determinado assunto. Dessa forma, o usuário pode encontrar um maior destaque naqueles relacionados com o assunto do texto minerado, sendo possível reordená-los para que sejam priorizados os mais representativos dentro do contexto. Para os testes, foram escolhidos textos sobre educação e computação, com participantes especialistas na área. Foi solicitado que esses fizessem o reordenamento dos termos já extraídos, de forma que apontassem qual a ordem considerada mais relevante. Como resultado, pôde-se observar que houve melhora após o reordenamento dos termos pelo algoritmo proposto, pois os termos reordenados pelos participantes ficaram, em média, com a ordenação mais próxima daquela mostrada pelo algoritmo do que aquela dada pelo minerador. ...

Abstract

Text Mining is an important area in the literature of Information Retrieval, because it helps find information in non-structural data (texts), and it has been used mostly to discover content in books, articles, textual works, and others, in a rapid and efficient way. Also the usage of web sites, blogs, social networks, forums, and others has had a massive growth over the last few years, making the Internet the main source of textual content nowadays. With this advancement, the algorithms and applications capable of extracting information and mining these texts also have had a significant increase. Such algorithms are used to support users to obtain greater amounts of knowledge in a minor amount of time, or even discover information which have passed unnoticed by the reader. Knowing the continuous evolution of data in textual formats, the process of text mining look to find better ways of discovering knowledge that represents clearly the content of the document. One application of text mining is to extract terms that have relevance to the subject the text addresses, guiding the user to comprehend it in a more adequate way. When considering the great amount of texts to be read on a daily basis, text mining tools are a great help to synthesize and organize the information found in these documents. Despite the advances in the area researches, many results obtained in the process are not of relevance to the user. Considering that the mining of simple documents does not have a context base in which information related to the subject can also be extracted, the quality of the text mining can be injured. One way to solve this issue is to post-process the information obtained before presenting them to the final user, looking for finding knowledge that is more relevant in the mined text. This work intends to improve the quality of the returned terms in the mining process through the usage of context metrics to evaluate them. For this purpose, it was used the Google search engine and the Sobek text mining tool, this last one developed by a research group of UFRGS. The context is joined with every term extracted and then it makes a series of searches between the pages indexed by Google, which show how relevant are these terms when inserted in some specific theme. This way, the user can find more relevance in terms related with the mined text’s subject, being able to reorder them to highlight those who are the most representative in the document context. To accomplish the tests, it was chosen texts about education and computation, with the participants being specialists in the area. They were asked to reorder the terms already extracted and point out which order was considered more relevant. Finally, the proposed algorithm improved the terms’ order, since the new order given by the participants was, in average, closer to the one shown by the algorithm in comparison to the one given by the miner. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.

Coleções

Trabalhos de Conclusão de Curso de Graduação (38354)

TCC Ciência da Computação (1074)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License