Mostrar registro simples

dc.contributor.advisorAbel, Marapt_BR
dc.contributor.authorLopes Junior, Alcides Gonçalvespt_BR
dc.date.accessioned2025-04-25T06:56:02Zpt_BR
dc.date.issued2025pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/290803pt_BR
dc.description.abstractClassifying domain entities into their respective top-level ontology concepts is a com plex problem that typically demands manual analysis and deep expertise in the domain of interest and ontology engineering. An efficient approach to classifying domain entities can enhance data integration and interoperability, which is crucial for structured knowl edge representation and modeling. Motivated by this challenge, we propose an automated approach to classify domain entities into top-level ontology concepts using Natural Lan guage Definitions (NLDs) of these domain entities. We hypothesize that NLDs encap sulate semantic information that is critical for associating domain entities with specific top-level ontology concepts. Also, we proposed two classification pipelines trained using f ine-tuning and classic Machine Learning (ML) approaches and leveraging state-of-the art language models to deal with the textual input. To evaluate our proposal, we con structed multi-label, multi-resource, and multi-language datasets by extracting data from BabelNet and domain ontologies available in the OBO Foundry repository. These datasets encompass mappings to DOLCE-Lite-Plus (DLP) and Basic Formal Ontology (BFO) top level ontologies, ensuring a diverse and representative collection of domain entities and their corresponding top-level classifications, including different textual representations of domain entities, such as NLDs, definienda, definientia, and example sentences. In our experiments, we investigated the effectiveness of our approach across different tex tual representation techniques, languages, knowledge resources, knowledge domains, and domain ontologies. The results of our experiments highlight the value of leveraging Nat ural Language Definitions (NLDs) and embedding-based pipelines in classifying domain entities into top-level ontology concepts. Across multiple scenarios, NLDs consistently outperformed other textual representation approaches, achieving macro F1-scores exceed ing 90% in most of the cases. Also, pipelines using the Mistral7B language model and a KNNclassifier delivered a macro F1-score of 86.6% in cross-resource evaluations. Even in the challenging cross-domain experiments, where initial performance dropped below 40%, strategic inclusion of domain-specific data in the training data led to significant im provements, showcasing the differences between general and domains-specific NLDs in this classification task. Also, the findings underscore the potential of automated tools that can significantly support ontology engineers during the ontology development process. However, some limitations remain, such as the reliance on high-quality NLDs and chal lenges in handling underrepresented languages and knowledge domains.en
dc.description.abstractClassificar entidades de domínio em seus respectivos conceitos de ontologias de topo é umproblema complexo que normalmente exige análise manual e profundo conhecimento especializado no domínio de interesse e em engenharia de ontologias. Uma abordagem eficiente para classificar entidades de domínio pode melhorar a integração e a interope rabilidade de dados, aspectos cruciais para a representação e modelagem estruturada do conhecimento. Motivados por esse desafio, propomos uma abordagem automatizada para classificar entidades de domínio em conceitos de ontologias de topo, utilizando Defini ções em Linguagem Natural (NLDs) dessas entidades de domínio. Nossa hipótese é que as NLDsencapsulam informações semânticas essenciais para associar entidades de domí nio a conceitos específicos de ontologias de topo. Além disso, propomos dois pipelines de classificação treinados utilizando técnicas de ajuste fino e abordagens clássicas de Apren dizado de Máquina (ML), aproveitando modelos de linguagem de última geração para lidar com os dados textuais. Para avaliar nossa proposta, construímos conjuntos de da dos multi-rótulo, multi-recurso e multilíngues, extraídos do BabelNet e de ontologias de domínio disponíveis no repositório OBO Foundry. Esses conjuntos de dados abrangem mapeamentos para as ontologias de topo DOLCE-Lite-Plus (DLP) e Basic Formal Onto logy (BFO), garantindo uma coleção diversa e representativa de entidades de domínio e suas respectivas classificações em ontologias de topo, incluindo diferentes representações textuais das entidades de domínio, como NLDs, definienda, definientia e sentenças de exemplo. Em nossos experimentos, investigamos a eficácia de nossa abordagem em diferentes técnicas de representação textual, idiomas, recursos de conhecimento, domínios de conhecimento e ontologias de domínio. Os resultados de nossos experimentos desta camovalor de aproveitar Definições em Linguagem Natural (NLDs) e pipelines baseados em embeddings na classificação de entidades de domínio em conceitos de ontologias de topo. Em diversos cenários, as NLDs superaram consistentemente outras abordagens de representação textual, alcançando macro F1-scores superiores a 90% na maioria dos ca sos. Alémdisso, pipelines utilizando o modelo de linguagem Mistral7B e um classificador KNNobtiveramummacroF1-scorede86,6%emavaliaçõesentrediferentes fontes de dados. Mesmo em experimentos entre diferentes domínios, onde o desempenho inicial caiu abaixo de 40%, a inclusão estratégica de dados específicos do domínio no treinamento resultou em melhorias significativas, evidenciando as diferenças entre NLDs gerais e es pecíficas de domínio nessa tarefa de classificação. Os achados ressaltam o potencial do desenvolvimento de ferramentas automatizadas que possam apoiar os engenheiros de on tologias no processo de desenvolvimento de ontologias. No entanto, algumas limitações permanecem, como a dependência de NLDs de alta qualidade e os desafios no tratamento de idiomas e domínios de conhecimento sub-representados.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectOntologiaspt_BR
dc.subjectLinguagem naturalpt_BR
dc.subjectModelo de linguagempt_BR
dc.subjectAprendizado de máquinapt_BR
dc.titleHow to classify domain entities into top-level ontology concepts using language models : a study across multiple labels, resources, domains, and languagespt_BR
dc.title.alternativeCom oclassificar entidades de domínio em conceitos de ontologias de topo usando modelos de linguagem: um estudo com múltiplos rótulos, recursos, domínios, e idiomaspt
dc.typeTesept_BR
dc.identifier.nrb001255272pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.programPrograma de Pós-Graduação em Computaçãopt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2025pt_BR
dc.degree.leveldoutoradopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples