Comparativo de técnicas de geração de linguagem natural para a tarefa de long-form question answering

Silva, Gabriel Pakulski da

dc.contributor.advisor	Barone, Dante Augusto Couto	pt_BR
dc.contributor.author	Silva, Gabriel Pakulski da	pt_BR
dc.date.accessioned	2022-12-07T04:52:03Z	pt_BR
dc.date.issued	2022	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/252388	pt_BR
dc.description.abstract	A área de processamento de linguagem natural vem ganhando destaque principalmente pelos avanços em técnicas baseadas em aprendizado de máquina e Transformers, que conseguem lidar facilmente com dependências textuais de longo alcance. Entretanto, a área ainda apresenta diversos desafios relacionados à compreensão e geração de linguagem natural. No contexto de Long-Form Question Answering (LFQA) temos o desafio em que as perguntas exigem respostas não factuais e complexas, sendo necessário recorrer a outros recursos para que sistemas autônomos de QA sejam capazes de providenciar uma resposta precisa e completa. Na tarefa de geração de linguagem natural, existem diversos avanços, principalmente com modelos de linguagem autorregressiva que usam aprendi zagem profunda para produzir texto semelhante ao humano. O presente estudo busca aplicar modelos de geração de linguagem natural para a tarefa de LFQA, apoiando-se em extensas bases de dados de perguntas e respostas não-factuais. Experimentos empíricos comparando algumas das abordagens consideradas estado da arte para a tarefa foram re alizados. Para realizar o comparativo, este trabalho faz uso do conjunto de dados ELI5 e simultaneamente criando documentos de suporte através de trechos recuperados de arti gos retirados da Wikipedia. Reportamos as métricas de performance dos modelos BART e T5-Small para a tarefa de LFQA. Concluímos que a exploração de modelos mais robus tos do tipo T5 pode levar a resultados mais promissores que o atual estado da arte para a base de dados citada. Os resultados dessa pesquisa irão contribuir para outros projetos relacionados à tarefa de LFQA.	pt_BR
dc.description.abstract	The field of Natural Language Processing has been gaining prominence mainly due to advances in techniques based on machine learning and Transformers, which can easily manage long-range text dependencies. However, the field still presents several challenges related to the understanding and generation of natural language. In the context of Long Form Question Answering (LFQA) we have the challenge where the questions require non-factoid and complex answers, requiring other resources so that autonomous QA sys tems are able to provide an accurate and complete answer. In the natural language gen eration task there has been several advances, particularly with auto-regressive language models that use deep learning to produce human-like text. This study seeks to apply natu ral language generation models to the LFQA task, relying on extensive non-factoid LFQA data sets. Empirical experiments comparing some of the state-of-the-art approaches to the task were held. To compare the models, this work makes use of the ELI5 data set, simul taneously creating support documents through snippets gathered from Wikipedia articles. We report the performance metrics of the BART and T5-Small models for the LFQA task. We conclude that the use of more robust models of the T5 family may lead to more promising results than the current state-of-the-art for the aforementioned dataset. The results of this research will contribute to other projects related to the LFQA task.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Transformers	en
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	NLP	en
dc.subject	Software	pt_BR
dc.subject	LFQA	en
dc.subject	Natural language generation	en
dc.subject	NLG	en
dc.subject	ELI5	en
dc.subject	BART	en
dc.subject	T5-Small	en
dc.title	Comparativo de técnicas de geração de linguagem natural para a tarefa de long-form question answering	pt_BR
dc.title.alternative	Comparison of natural language generation techniques for the LFQA task	en
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.contributor.advisor-co	Côrtes, Eduardo Gabriel	pt_BR
dc.identifier.nrb	001154126	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2022	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001154126.pdf
Tamanho:: 1.369Mb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (37607)

TCC Ciência da Computação (1025)

Mostrar registro simples