ACERPI-Block : aplicação de técnicas de blocagem à abordagem ACERPI
Visualizar/abrir
Data
2021Autor
Orientador
Co-orientador
Nível acadêmico
Graduação
Outro título
Application of blocking techniques as optimization for ACERPI’s entity resolution algorithm
Resumo
Resolução de entidades é uma etapa importante de diversas aplicações. Ela aparece tanto como parte essencial quanto como uma etapa de limpeza de dados para aumentar a eficiência ou eficácia dessas aplicações. Resolução de entidades é uma etapa essencial da abordagem ACERPI, que foi proposta com objetivo de gerar um banco de dados NoSQL com informações disponibilizadas por instituições públicas através de portarias para possibilitar consultas complexas nesses dados. A abordagem ACERPI é ainda be ...
Resolução de entidades é uma etapa importante de diversas aplicações. Ela aparece tanto como parte essencial quanto como uma etapa de limpeza de dados para aumentar a eficiência ou eficácia dessas aplicações. Resolução de entidades é uma etapa essencial da abordagem ACERPI, que foi proposta com objetivo de gerar um banco de dados NoSQL com informações disponibilizadas por instituições públicas através de portarias para possibilitar consultas complexas nesses dados. A abordagem ACERPI é ainda bem nova e apresenta espaço para otimizações. Uma das áreas que apresenta espaço para otimização é o algoritmo de resolução de entidades utilizado. Neste trabalho, são explo- radas técnicas de blocagem como formas de otimização da eficiência do algoritmo de resolução de entidades da abordagem ACERPI. O trabalho aqui proposto é denominado ACERPI-Block, um acrônimo para aplicação de técnicas de blocagem à abordagem ACERPI. Para demonstrar e analisar a aplicação dessas técnicas, são realizados múltiplos experimentos e coletadas diversas métricas para análise. Experimentos demonstraram que a eficácia das técnicas de blocagem na eficiência dos algoritmos de resolução de entidades é considerável, e que quanto maior o impacto dessas técnicas, mais a eficiência do algoritmo depende de uma utilização otimizada dos recursos de CPU. Experimentos também demonstraram como técnicas de blocagem podem servir como filtro de ruído para algoritmos de comparação demasiado permissivos, aumentando a qualidade dos seus resultados. ...
Abstract
Entity resolution is an important part of many applications. It can be anything from an essential part to a step of data cleanse that improves efficiency or effectiveness of these applications. The ACERPI approach to generate a NoSQL database with information made available by public institutions in the form of portarias to enable complex queries on this data has entity resolution as an essential part of its process. The ACERPI ap proach is still quite new and presents opportunities for optimiz ...
Entity resolution is an important part of many applications. It can be anything from an essential part to a step of data cleanse that improves efficiency or effectiveness of these applications. The ACERPI approach to generate a NoSQL database with information made available by public institutions in the form of portarias to enable complex queries on this data has entity resolution as an essential part of its process. The ACERPI ap proach is still quite new and presents opportunities for optimizations. One of the areas that presents opportunities for optimization is the entity resolution algorithm. In this text, multiple blocking techniques will be explored as options to optimize the efficiency of the ACERPI’s entity resolution algorithm. To demonstrate and analyse the results of the ap plication of these techniques, multiple experiments will be performed and metrics will be collected for analysis. Experiments showed that the effectiveness of blocking techniques is considerable, and that the bigger the impact of these techniques, the more the efficiency of the algorithm depends of an optimized use of the CPU resources. Experiments also showed how blocking techniques can be used as a noise filter for matching algorithms that are too permissive, increasing the quality of its results. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1025)
Este item está licenciado na Creative Commons License