Mostrar registro simples

dc.contributor.advisorBarone, Dante Augusto Coutopt_BR
dc.contributor.authorCôrtes, Eduardo Gabrielpt_BR
dc.date.accessioned2024-07-19T06:21:40Zpt_BR
dc.date.issued2024pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/276519pt_BR
dc.description.abstractThe development of Question Answering (QA) systems that provide long answers face significant challenges in assessing the quality of these answers. Developing metrics ca pable of evaluating specific criteria individually, such as completeness, relevance, cor rectness and comprehensiveness, are important for identifying weaknesses and guiding improvements in these systems. Traditional metrics, like BLEU and ROUGE, often fail to capture semantic details and linguistic flexibility, and rely on a single score value that indicates how similar the system generated answer is compared to a reference answer. In this context, the goal of this work is to initiate and establish research, development, and validation of specific metrics to evaluate the completeness and relevance of answers pro vided by QA systems. For this purpose, a systematic review of non-factoid QA systems was conducted, followed by the creation of a dataset specifically annotated to assess com pleteness and relevance, containing long answers annotated by humans based on these criteria. Three metric models for evaluating these criteria were proposed: a prompt-based strategy using Large Language Models (LLMs), such as GPT-4; a model that adapts con cepts of precision and recall to assess relevance and completeness, respectively, by seg menting the answer into discrete information units; and a regression model trained with synthetic data to assign scores of completeness and relevance. The experiments con ducted compared these new metrics with conventional metrics to assess their correlation with human evaluations. The results highlighted the efficacy of the prompt model with GPT-4, which showed high correlation with human judgment, as well as the regression model, which shows high correlation in evaluating completeness, suggesting that metrics that do not require reference answers are competitive and can surpass traditional metrics in various scenarios.en
dc.description.abstractO desenvolvimento de sistemas de Question Answering (QA) que fornecem respostas longas enfrenta desafios significativos na avaliação da qualidade dessas respostas. De senvolver métricas capazes de avaliar critérios específicos individualmente, como com pletude, relevância, correção e abrangência, é importante para identificar fraquezas e orientar melhorias nesses sistemas. Métricas tradicionais, como BLEU e ROUGE, muitas vezes falham em capturar detalhes semânticos e flexibilidade linguística, e dependem de um único valor de pontuação que indica o quanto a resposta gerada pelo sistema é semelhante a uma resposta de referência. Neste contexto, o objetivo deste trabalho é iniciar e estabelecer pesquisa, desenvolvimento e validação de métricas específicas para avaliar a completude e relevância das respostas fornecidas por sistemas de QA. Para esse fim, foi realizada uma revisão sistemática de sistemas de QA não-factoides, seguida pela criação de um conjunto de dados especificamente anotado para avaliar completude e relevância, contendo respostas longas anotadas por humanos baseadas nestes critérios. Foram propostos três modelos de métricas para avaliar esses critérios: uma estratégia baseada em prompts usando Large Language Models (LLMs), como o GPT-4; um modelo que adapta conceitos de precisão e revocação para avaliar relevância e completude, respectivamente, segmentando a resposta em unidades discretas de informação; e um modelo de regressão treinado com dados sintéticos para atribuir pontuações de completude e relevância. Os experimentos realizados compararam essas novas métricas com métricas convencionais para avaliar sua correlação com avaliações humanas. Os resultados destacaram a eficácia do modelo de prompt com GPT-4, que mostrou alta correlação com o julgamento humano, bem como o modelo de regressão, que mostra alta correlação na avaliação de completude, sugerindo que métricas que não requerem respostas de referência são competitivas e podem superar métricas tradicionais em vários cenários.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectProcessamento de linguagem naturalpt_BR
dc.subjectQuestion answeringen
dc.subjectNon-factoid questionsen
dc.subjectAprendizado de máquinapt_BR
dc.subjectInteligência artificialpt_BR
dc.subjectAnswer evaluationen
dc.subjectRespostas longaspt_BR
dc.subjectSystematic revieen
dc.subjectAvaliação da qualidadept_BR
dc.titleBeyond accuracy : completeness and relevance metrics for evaluating long answerspt_BR
dc.title.alternativeAlém da acurácia: métricas de completude e relevância para avaliar respostas longaspt
dc.typeTesept_BR
dc.contributor.advisor-coVieira, Renatapt_BR
dc.identifier.nrb001206899pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.programPrograma de Pós-Graduação em Computaçãopt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2024pt_BR
dc.degree.leveldoutoradopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples