Beyond accuracy : completeness and relevance metrics for evaluating long answers

Côrtes, Eduardo Gabriel

dc.contributor.advisor	Barone, Dante Augusto Couto	pt_BR
dc.contributor.author	Côrtes, Eduardo Gabriel	pt_BR
dc.date.accessioned	2024-07-19T06:21:40Z	pt_BR
dc.date.issued	2024	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/276519	pt_BR
dc.description.abstract	The development of Question Answering (QA) systems that provide long answers face significant challenges in assessing the quality of these answers. Developing metrics ca pable of evaluating specific criteria individually, such as completeness, relevance, cor rectness and comprehensiveness, are important for identifying weaknesses and guiding improvements in these systems. Traditional metrics, like BLEU and ROUGE, often fail to capture semantic details and linguistic flexibility, and rely on a single score value that indicates how similar the system generated answer is compared to a reference answer. In this context, the goal of this work is to initiate and establish research, development, and validation of specific metrics to evaluate the completeness and relevance of answers pro vided by QA systems. For this purpose, a systematic review of non-factoid QA systems was conducted, followed by the creation of a dataset specifically annotated to assess com pleteness and relevance, containing long answers annotated by humans based on these criteria. Three metric models for evaluating these criteria were proposed: a prompt-based strategy using Large Language Models (LLMs), such as GPT-4; a model that adapts con cepts of precision and recall to assess relevance and completeness, respectively, by seg menting the answer into discrete information units; and a regression model trained with synthetic data to assign scores of completeness and relevance. The experiments con ducted compared these new metrics with conventional metrics to assess their correlation with human evaluations. The results highlighted the efficacy of the prompt model with GPT-4, which showed high correlation with human judgment, as well as the regression model, which shows high correlation in evaluating completeness, suggesting that metrics that do not require reference answers are competitive and can surpass traditional metrics in various scenarios.	en
dc.description.abstract	O desenvolvimento de sistemas de Question Answering (QA) que fornecem respostas longas enfrenta desafios significativos na avaliação da qualidade dessas respostas. De senvolver métricas capazes de avaliar critérios específicos individualmente, como com pletude, relevância, correção e abrangência, é importante para identificar fraquezas e orientar melhorias nesses sistemas. Métricas tradicionais, como BLEU e ROUGE, muitas vezes falham em capturar detalhes semânticos e flexibilidade linguística, e dependem de um único valor de pontuação que indica o quanto a resposta gerada pelo sistema é semelhante a uma resposta de referência. Neste contexto, o objetivo deste trabalho é iniciar e estabelecer pesquisa, desenvolvimento e validação de métricas específicas para avaliar a completude e relevância das respostas fornecidas por sistemas de QA. Para esse fim, foi realizada uma revisão sistemática de sistemas de QA não-factoides, seguida pela criação de um conjunto de dados especificamente anotado para avaliar completude e relevância, contendo respostas longas anotadas por humanos baseadas nestes critérios. Foram propostos três modelos de métricas para avaliar esses critérios: uma estratégia baseada em prompts usando Large Language Models (LLMs), como o GPT-4; um modelo que adapta conceitos de precisão e revocação para avaliar relevância e completude, respectivamente, segmentando a resposta em unidades discretas de informação; e um modelo de regressão treinado com dados sintéticos para atribuir pontuações de completude e relevância. Os experimentos realizados compararam essas novas métricas com métricas convencionais para avaliar sua correlação com avaliações humanas. Os resultados destacaram a eficácia do modelo de prompt com GPT-4, que mostrou alta correlação com o julgamento humano, bem como o modelo de regressão, que mostra alta correlação na avaliação de completude, sugerindo que métricas que não requerem respostas de referência são competitivas e podem superar métricas tradicionais em vários cenários.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Question answering	en
dc.subject	Non-factoid questions	en
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Inteligência artificial	pt_BR
dc.subject	Answer evaluation	en
dc.subject	Respostas longas	pt_BR
dc.subject	Systematic revie	en
dc.subject	Avaliação da qualidade	pt_BR
dc.title	Beyond accuracy : completeness and relevance metrics for evaluating long answers	pt_BR
dc.title.alternative	Além da acurácia: métricas de completude e relevância para avaliar respostas longas	pt
dc.type	Tese	pt_BR
dc.contributor.advisor-co	Vieira, Renata	pt_BR
dc.identifier.nrb	001206899	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.program	Programa de Pós-Graduação em Computação	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2024	pt_BR
dc.degree.level	doutorado	pt_BR

Nome:: 001206899.pdf
Tamanho:: 2.337Mb
Formato:: PDF
Descrição:: Texto completo (inglês)

Visualizar/abrir

Este item está licenciado na Creative Commons License

Ciências Exatas e da Terra (5059)

Computação (1743)

Mostrar registro simples