Applying BERT language model to poem classification : a study on data imbalance issues

Ceccon, Tiago Silveira

dc.contributor.advisor	Carbonera, Joel Luis	pt_BR
dc.contributor.author	Ceccon, Tiago Silveira	pt_BR
dc.date.accessioned	2023-07-04T03:52:31Z	pt_BR
dc.date.issued	2023	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/259959	pt_BR
dc.description.abstract	Art, and specifically poetry, has always been a very valuable resource to understand a society’s identity and view of life. Recently, with the rise of the big data revolution, large datasets of the most varied subjects are starting to appear. Also, we are seeing a new wave of very powerful Artificial Intelligence systems based on deep learning, especially in the area of Natural Language Processing (NLP). It is reasonable, then, to explore how well suited these systems are to process data within the realm of poetry, since we stand to gain so much insight about human cultures from it. In this work we apply the BERT pre-trained language model to a real-world dataset of poems, in order to create classifiers to recognize the topics the poems deal with. We list some of the issues that appeared during this process and experiment with possible strategies to mitigate one of them, namely imbalance of classes. We found that it was possible to improve the baseline results by applying two of the strategies explored, those being undersampling of the majority class and the use of different weights for each class to scale the loss function	en
dc.description.abstract	Arte, e em específico poesia, sempre foi um recurso muito valioso para a compreensão da identidade e visão de mundo de uma sociedade. Recentemente, com o crescimento da revolução de big data, grandes conjuntos de dados dos mais variados assuntos estão começando a aparecer. Também estamos presenciando uma nova onda de sistemas de In teligência Artificial muito poderosos baseados em aprendizado profundo, em especial na área de Processamento de Linguagem Natural. É razoável, então, explorar o quão adequa dos são esses sistemas para processar dados dentro do campo da poesia, já que podemos ganhar tanto entendimento sobre as culturas humanas através deles. Nesse trabalho apli camos o modelo pré-treinado de linguagem BERT a um dataset de poemas do mundo real, de modo a criar classificadores para reconhecer com quais tópicos os poemas lidam. Listamos alguns dos problemas que apareceram durante esse processo e experimentamos com estratégias possíveis para mitigar um deles, a saber o desbalanceamento de classes. Descobrimos que é possível melhorar os resultados iniciais ao aplicar duas das estratégias propostas, sendo estas undersampling da classe majoritária e o uso de diferentes pesos para cada classe escalando a função de perda.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Inteligência artificial	pt_BR
dc.subject	NLP	en
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Large Language Models	en
dc.subject	BERT	en
dc.subject	Aprendizado profundo	pt_BR
dc.subject	Poetry	en
dc.title	Applying BERT language model to poem classification : a study on data imbalance issues	pt_BR
dc.title.alternative	Aplicando o modelo de linguagem BERT à classificação de poemas: um estudo sobre problemas de desbalancamento de dados	en
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.contributor.advisor-co	Garcia, Luan Fonseca	pt_BR
dc.identifier.nrb	001172384	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2023	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001172384.pdf
Tamanho:: 628.0Kb
Formato:: PDF
Descrição:: Texto completo (inglês)

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (36523)

TCC Ciência da Computação (993)

Mostrar registro simples