Mostrar registro simples

dc.contributor.advisorJung, Claudio Rositopt_BR
dc.contributor.authorVieira, Tiago Kramerpt_BR
dc.date.accessioned2023-04-01T03:28:51Zpt_BR
dc.date.issued2022pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/256584pt_BR
dc.description.abstractContextualised word representation models have been successfully used for capturing different word usages, and they may be an attractive alternative for representing idiomaticity in language. However, it is not clear how these models represent idiomaticity or to what extent they capture it. In this work, probing tasks are proposed to assess if some of the expected linguistic properties of noun compounds, especially those related to idiomatic meanings, and their dependence on context and sensitivity to lexical choice, are readily available in some standard and widely used representations. To evaluate that, the Noun Compound Idiomaticity (NCI) dataset was constructed, which contains annotations for noun compounds and their paraphrases, in neutral and informative naturalistic sentences, in two languages: English and Portuguese. The dataset, composed of 27,600 items, also contains human idiomaticity judgements for each noun compound at both type and token levels. For evaluation, four types of probing measures are proposed to assess how well the models distinguish idiomatic and literal meanings and is also defined as a set of metrics, that it is called affinity measures, to determine how much of these senses the compound representation captures. Results obtained with models like ELMo, BERT, and some of its variants, indicate that idiomaticity is not yet accurately represented by contextualised models. This work is a by-product of the two published papers in top-level conferences.en
dc.description.abstractModelos que representam palavras com seu contexto vem sendo utilizados para capturar diferentes uso de palavras, e podem ser uma alternativa atrativa para representar idiomaticidade na linguagem. Entretanto, não é claro como esses modelos representam a idiomaticidade ou em qual extensão conseguem capturá-la. Nesse trabalho, são propostas medidas para avaliar se algumas das propriedades linguísticas esperadas em compostos substantivos, especialmente aqueles relacionados a significados idiomáticos, suas de pendências com o contexto ao redor e as suas sensibilidades a escolhas lexicais, estão disponíveis em algumas das representações amplamente utilizadas na área. Para avaliar esses pontos, foi construído o conjunto de dados Noun Compound Idiomaticity (NCI), que contém anotações para compostos substantivos e suas paráfrases, em contexto neutro e informativo, em dois idiomas: Inglês e Português. O conjunto, composto por 27.600 sentenças, também contém avaliações idiomáticas humanas para cada composto substan tivo em âmbito de tipo (isolado) e contextualizado. Para avaliação, é proposto quatro tipos de medidas que avaliam quão bem os modelos distinguem significados idiomáticos e literais, e também é definido medidas um conjunto de medidas, chamadas de afinidades, que determinam o quanto desses sentidos são capturados na representação do composto. Resultados obtidos com modelos como ELMo, BERT e algumas de suas variantes, indicam que idiomaticidade ainda não é representada com precisão por modelos contextualizados. Esse trabalho é um resultado de dois artigos já publicados em conferências de alto nível.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectIdiomaticidadept_BR
dc.subjectMulti-word expressionsen
dc.subjectLinguísticapt_BR
dc.subjectDeep learningen
dc.subjectAprendizado profundopt_BR
dc.titleFinding idiomaticity in word representationspt_BR
dc.title.alternativeEncontrando idiomaticidade na representação das palavras pt
dc.typeDissertaçãopt_BR
dc.identifier.nrb001165843pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.programPrograma de Pós-Graduação em Computaçãopt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2022pt_BR
dc.degree.levelmestradopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples