Comparativo de técnicas de geração de linguagem natural para a tarefa de long-form question answering

A área de processamento de linguagem natural vem ganhando destaque principalmente pelos avanços em técnicas baseadas em aprendizado de máquina e Transformers, que conseguem lidar facilmente com dependências textuais de longo alcance. Entretanto, a área ainda apresenta diversos desafios relacionados à compreensão e geração de linguagem natural. No contexto de Long-Form Question Answering (LFQA) temos o desafio em que as perguntas exigem respostas não factuais e complexas, sendo necessário recorrer a outros recursos para que sistemas autônomos de QA sejam capazes de providenciar uma resposta precisa e completa. Na tarefa de geração de linguagem natural, existem diversos avanços, principalmente com modelos de linguagem autorregressiva que usam aprendi zagem profunda para produzir texto semelhante ao humano. O presente estudo busca aplicar modelos de geração de linguagem natural para a tarefa de LFQA, apoiando-se em extensas bases de dados de perguntas e respostas não-factuais. Experimentos empíricos comparando algumas das abordagens consideradas estado da arte para a tarefa foram re alizados. Para realizar o comparativo, este trabalho faz uso do conjunto de dados ELI5 e simultaneamente criando documentos de suporte através de trechos recuperados de arti gos retirados da Wikipedia. Reportamos as métricas de performance dos modelos BART e T5-Small para a tarefa de LFQA. Concluímos que a exploração de modelos mais robus tos do tipo T5 pode levar a resultados mais promissores que o atual estado da arte para a base de dados citada. Os resultados dessa pesquisa irão contribuir para outros projetos relacionados à tarefa de LFQA. ...

Abstract

The field of Natural Language Processing has been gaining prominence mainly due to advances in techniques based on machine learning and Transformers, which can easily manage long-range text dependencies. However, the field still presents several challenges related to the understanding and generation of natural language. In the context of Long Form Question Answering (LFQA) we have the challenge where the questions require non-factoid and complex answers, requiring other resources so that autonomous QA sys tems are able to provide an accurate and complete answer. In the natural language gen eration task there has been several advances, particularly with auto-regressive language models that use deep learning to produce human-like text. This study seeks to apply natu ral language generation models to the LFQA task, relying on extensive non-factoid LFQA data sets. Empirical experiments comparing some of the state-of-the-art approaches to the task were held. To compare the models, this work makes use of the ELI5 data set, simul taneously creating support documents through snippets gathered from Wikipedia articles. We report the performance metrics of the BART and T5-Small models for the LFQA task. We conclude that the use of more robust models of the T5 family may lead to more promising results than the current state-of-the-art for the aforementioned dataset. The results of this research will contribute to other projects related to the LFQA task. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.

Coleções

Trabalhos de Conclusão de Curso de Graduação (37607)

TCC Ciência da Computação (1025)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License