Comparativo de métricas intrínsecas para avaliação do desempenho de modelos em open-ended tasks

Open-Ended Tasks são tarefas que não possuem uma única solução específica. Elas possuem uma grande ligação com a área de Processamento de Linguagem Natural e são tópicos de pesquisa muito populares nos últimos anos. Contudo, a avaliação dessas tarefas é um processo muito complexo e muitas métricas já foram propostas ao longo dos anos em prol de solucionar esse problema. O presente trabalho tem como objetivo catalogar as métricas mais comumente utilizadas e analisar quais delas melhor se adéquam para as tarefas de Sumarização e Question-Answering. Ao mesmo tempo, busca-se correlacionar os valores gerados pelas métricas com a forma de avaliação humana. Para a realização dos testes foram utilizados datasets e modelos na linguagem portuguesa. As saídas obtidas foram avaliadas pelas métricas automatizadas selecionadas e por quatro participantes humanos diferentes. Finalmente, foi realizado o cálculo da correlação entre as avaliações humanas e automatizadas, e apontou-se que as métricas atuais possuem, no máximo, uma correlação mediana com a forma de julgamento humano. Fato esse que já havia sido apontado por outros trabalhos na área, contudo feito pela primeira vez em português. Esses resultados apontam para uma necessidade de novas métricas que melhor se correlacionem com a percepção humana. Ademais, é possível perceber que métricas baseadas em Modelos de Linguagem Pré-Treinados apresentam maior correlação com a forma de avaliação humana. Por fim, notamos a carência de bons datasets desenvolvidos diretamente para a língua portuguesa, o que pode ter impactado negativamente os resultados obtidos. ...

Abstract

Open-Ended Tasks are tasks that do not have a single specific solution. They are closely connected to the field of Natural Language Processing and have become highly popular research topics in recent years. However, evaluating these tasks is a very complex process, and many metrics have been proposed over the years in an attempt to address this issue. This work aims to catalog the most commonly used metrics and analyze which of them are best suited for Summarization and Question-Answering tasks. At the same time, it seeks to correlate the values generated by the metrics with human evaluation. For the experiments, datasets and models in the Portuguese language were used. The generated outputs were evaluated by the selected automated metrics and by four different human participants. Finally, the correlation between human and automated evaluations was calculated, revealing that current metrics exhibit, at best, a moderate correlation with human judgment. This fact was previously noted in other studies in the field, though it is being reported for the first time in Portuguese. These results highlight the need for new metrics that better correlate with human perception. Furthermore, it is evident that metrics based on Pretrained Language Models (PLMs) tend to show a higher correlation with human evaluation. Lastly, we observed a lack of high-quality datasets developed specifically for the Portuguese language, which may have negatively impacted the obtained results. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.

Coleções

Trabalhos de Conclusão de Curso de Graduação (40351)

TCC Ciência da Computação (1128)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License