Clustering multilingual aspect phrases for sentiment analysis

Pessutto, Lucas Rafael Costella

dc.contributor.advisor	Moreira, Viviane Pereira	pt_BR
dc.contributor.author	Pessutto, Lucas Rafael Costella	pt_BR
dc.date.accessioned	2019-03-01T02:27:59Z	pt_BR
dc.date.issued	2019	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/189069	pt_BR
dc.description.abstract	The area of sentiment analysis has experienced significant developments in the last few years. More specifically, there has been growing interest in aspect-based sentiment analysis in which the goal is to extract, group, and rate the overall opinion about the features of the entity being evaluated. Techniques for aspect extraction can produce an undesirably large number of aspects – with many of those relating to the same product feature. This problem is aggravated when the reviews are written in many languages. We address the novel task of multilingual aspect clustering which aims at grouping together semantic related aspects extracted from reviews written in several languages. Our method is unsupervised. We rely on the contextual information of the aspects, whichwas represented through word embeddings in our approach. This representation allied with a good similarity measure (Word Mover’s Distance) allows us to cluster together related aspect phrases, using k-means algorithm. We contribute with a proposal of techniques to tackle this problem and test them on reviews written in five languages. Our experiments show that our unsupervised clustering technique achieves results that outperform a semi-supervised baseline.	en
dc.description.abstract	A pesquisa em análise de sentimentos obteve um significante desenvolvimento nos últimos anos motivado pela crescente disponibilidade de comentários opinativos sobre produtos. Mais especificamente, tem havido um crescente interesse em análise de sentimentos baseada em aspectos, cujo objetivo principal consiste em extrair, agrupar e avaliar a opinião global em relação às características da entidade que está sendo avaliada. As técnicas existentes para extração de aspectos podem produzir uma quantidade excessiva de aspectos – muitos destes relacionados a uma mesma característica do produto. Este problema é agravado quando os comentários estão escritos em muitos idiomas. Este trabalho aborda a tarefa de agrupamento de aspectos multilíngues, que consiste em criar grupos de aspectos semanticamente relacionados, extraídos de comentários escritos em diversos idiomas. Este trabalho propõe uma técnica não supervisionada para esta tarefa. Ela baseia-se na informação contextual advinda dos aspectos, que é representada através de word embeddings. Esta representação aliada a uma medida de similaridade (Word Mover’s Distance) permitiu realizar o agrupamento de aspectos relacionados, utilizando o algoritmo k-means. A contribuição deste trabalho inclui as técnicas para resolver este problema juntamente com os testes realizados em comentários escritos em cinco idiomas. Os experimentos mostraram que a técnica não supervisionada de agrupamento alcança resultados que superam um baseline semi-supervisionado.	pt
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Linguística computacional	pt_BR
dc.subject	Aspect-based sentiment analysis	en
dc.subject	Aspectos Cognitivos	pt_BR
dc.subject	Multilingual aspect clustering	en
dc.subject	Unsupervised learning	en
dc.subject	Word embeddings	en
dc.title	Clustering multilingual aspect phrases for sentiment analysis	pt_BR
dc.title.alternative	Agrupamento de expressões de aspecto multilíngues em análise de sentimentos	pt
dc.type	Dissertação	pt_BR
dc.identifier.nrb	001086991	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.program	Programa de Pós-Graduação em Computação	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2019	pt_BR
dc.degree.level	mestrado	pt_BR

Nome:: 001086991.pdf
Tamanho:: 1.448Mb
Formato:: PDF
Descrição:: Texto completo (inglês)

Visualizar/abrir

Este item está licenciado na Creative Commons License

Ciências Exatas e da Terra (5048)

Computação (1736)

Mostrar registro simples