Mostrar registro simples

dc.contributor.advisorBalreira, Dennis Giovanipt_BR
dc.contributor.authorFaé, Eduardo Dalmáspt_BR
dc.date.accessioned2025-08-07T08:03:20Zpt_BR
dc.date.issued2025pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/294817pt_BR
dc.description.abstractOpen-Ended Tasks são tarefas que não possuem uma única solução específica. Elas possuem uma grande ligação com a área de Processamento de Linguagem Natural e são tópicos de pesquisa muito populares nos últimos anos. Contudo, a avaliação dessas tarefas é um processo muito complexo e muitas métricas já foram propostas ao longo dos anos em prol de solucionar esse problema. O presente trabalho tem como objetivo catalogar as métricas mais comumente utilizadas e analisar quais delas melhor se adéquam para as tarefas de Sumarização e Question-Answering. Ao mesmo tempo, busca-se correlacionar os valores gerados pelas métricas com a forma de avaliação humana. Para a realização dos testes foram utilizados datasets e modelos na linguagem portuguesa. As saídas obtidas foram avaliadas pelas métricas automatizadas selecionadas e por quatro participantes humanos diferentes. Finalmente, foi realizado o cálculo da correlação entre as avaliações humanas e automatizadas, e apontou-se que as métricas atuais possuem, no máximo, uma correlação mediana com a forma de julgamento humano. Fato esse que já havia sido apontado por outros trabalhos na área, contudo feito pela primeira vez em português. Esses resultados apontam para uma necessidade de novas métricas que melhor se correlacionem com a percepção humana. Ademais, é possível perceber que métricas baseadas em Modelos de Linguagem Pré-Treinados apresentam maior correlação com a forma de avaliação humana. Por fim, notamos a carência de bons datasets desenvolvidos diretamente para a língua portuguesa, o que pode ter impactado negativamente os resultados obtidos.pt_BR
dc.description.abstractOpen-Ended Tasks are tasks that do not have a single specific solution. They are closely connected to the field of Natural Language Processing and have become highly popular research topics in recent years. However, evaluating these tasks is a very complex process, and many metrics have been proposed over the years in an attempt to address this issue. This work aims to catalog the most commonly used metrics and analyze which of them are best suited for Summarization and Question-Answering tasks. At the same time, it seeks to correlate the values generated by the metrics with human evaluation. For the experiments, datasets and models in the Portuguese language were used. The generated outputs were evaluated by the selected automated metrics and by four different human participants. Finally, the correlation between human and automated evaluations was calculated, revealing that current metrics exhibit, at best, a moderate correlation with human judgment. This fact was previously noted in other studies in the field, though it is being reported for the first time in Portuguese. These results highlight the need for new metrics that better correlate with human perception. Furthermore, it is evident that metrics based on Pretrained Language Models (PLMs) tend to show a higher correlation with human evaluation. Lastly, we observed a lack of high-quality datasets developed specifically for the Portuguese language, which may have negatively impacted the obtained results.en
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectProcessamento de linguagem naturalpt_BR
dc.subjectOpen-ended Tasksen
dc.subjectAvaliação automáticapt_BR
dc.subjectMetricsen
dc.subjectMétricaspt_BR
dc.titleComparativo de métricas intrínsecas para avaliação do desempenho de modelos em open-ended taskspt_BR
dc.title.alternativeComparison of intrinsic metrics for evaluating model performance in open-ended tasks en
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.identifier.nrb001290512pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2025pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples