Análise experimental do desempenho de bibliotecas de ciência de dados em workflows com alto custo computacional
Visualizar/abrir
Data
2024Orientador
Nível acadêmico
Graduação
Assunto
Resumo
A limpeza, estruturação e subsequente análise de dados ganhou força enquanto disciplina nos últimos anos, sendo denominada de Ciência de Dados, o que se explica pelo valor que consegue trazer para empresas e instituições que a utilizam com eficácia. Com isso, cresceu também o volume de dados manipulado, gerando um custo computacional alto que deve ser administrado com inteligência pelos desenvolvedores da área. Neste trabalho, mesmo que a análise e identificação de padrões tenham papel signific ...
A limpeza, estruturação e subsequente análise de dados ganhou força enquanto disciplina nos últimos anos, sendo denominada de Ciência de Dados, o que se explica pelo valor que consegue trazer para empresas e instituições que a utilizam com eficácia. Com isso, cresceu também o volume de dados manipulado, gerando um custo computacional alto que deve ser administrado com inteligência pelos desenvolvedores da área. Neste trabalho, mesmo que a análise e identificação de padrões tenham papel significativo, estima-se que até 80% do tempo dos desenvolvedores é dedicado à exploração, limpeza e preparação de dados para uso em suas aplicações. Na medida que a complexidade dos workflows cresce, especialmente quando o volume de dados ultrapassa a capacidade de memória ou exige processamento intensivo, a escolha de ferramentas adequadas se torna essencial para garantir a eficiência e escalabilidade dos sistemas, tipicamente fazendo uso de ferramentas que utilizem soluções computação paralela. No entanto, há uma base de conhecimento limitada na literatura científica que explore comparações práticas e objetivas entre diferentes bibliotecas, notadamente em termos da diversidade dos recursos computacionais explorados, dificultando uma tomada de decisão informada. Este trabalho visa abordar essa limitação ao fornecer uma análise detalhada das ferramentas disponíveis para a Ciência de Dados, e assim trazer uma visão objetiva que suporte esta tomada de decisão em aplicações práticas. ...
Abstract
Data cleaning, structuring, and subsequent analysis have gained prominence as a discipline in recent years, now known as Data Science, due to the significant value it brings to companies and institutions that use it effectively. Consequently, the volume of manipulated data has also increased, leading to high computational costs that must be managed intelligently by developers in the field. In this line of work, although analysis and pattern identification play a significant role, it is estimate ...
Data cleaning, structuring, and subsequent analysis have gained prominence as a discipline in recent years, now known as Data Science, due to the significant value it brings to companies and institutions that use it effectively. Consequently, the volume of manipulated data has also increased, leading to high computational costs that must be managed intelligently by developers in the field. In this line of work, although analysis and pattern identification play a significant role, it is estimated that up to 80% of developers’ time is dedicated to exploring, cleaning, and preparing data for use in their applications. As the complexity of workflows grows, particularly when the data volume exceeds memory capacity or requires intensive processing, selecting appropriate tools becomes essential to ensure system efficiency and scalability, typically involving tools that utilize parallel computing solutions. However, there is a limited knowledge base in the scientific literature, especially in terms of the diversity of computational resources employed, that explores practical and objective comparisons between different libraries, making it difficult to make an informed decision. This work aims to address this gap by providing a detailed analysis of the available tools for Data Science, thereby offering an objective perspective to support decision-making in practical applications. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.
Coleções
-
TCC Ciência da Computação (1024)
Este item está licenciado na Creative Commons License