Mostrar registro simples

dc.contributor.advisorSchnorr, Lucas Mellopt_BR
dc.contributor.authorOurique, João Pedro Jensenpt_BR
dc.date.accessioned2024-09-26T06:37:47Zpt_BR
dc.date.issued2024pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/279213pt_BR
dc.description.abstractA limpeza, estruturação e subsequente análise de dados ganhou força enquanto disciplina nos últimos anos, sendo denominada de Ciência de Dados, o que se explica pelo valor que consegue trazer para empresas e instituições que a utilizam com eficácia. Com isso, cresceu também o volume de dados manipulado, gerando um custo computacional alto que deve ser administrado com inteligência pelos desenvolvedores da área. Neste trabalho, mesmo que a análise e identificação de padrões tenham papel significativo, estima-se que até 80% do tempo dos desenvolvedores é dedicado à exploração, limpeza e preparação de dados para uso em suas aplicações. Na medida que a complexidade dos workflows cresce, especialmente quando o volume de dados ultrapassa a capacidade de memória ou exige processamento intensivo, a escolha de ferramentas adequadas se torna essencial para garantir a eficiência e escalabilidade dos sistemas, tipicamente fazendo uso de ferramentas que utilizem soluções computação paralela. No entanto, há uma base de conhecimento limitada na literatura científica que explore comparações práticas e objetivas entre diferentes bibliotecas, notadamente em termos da diversidade dos recursos computacionais explorados, dificultando uma tomada de decisão informada. Este trabalho visa abordar essa limitação ao fornecer uma análise detalhada das ferramentas disponíveis para a Ciência de Dados, e assim trazer uma visão objetiva que suporte esta tomada de decisão em aplicações práticas.pt_BR
dc.description.abstractData cleaning, structuring, and subsequent analysis have gained prominence as a discipline in recent years, now known as Data Science, due to the significant value it brings to companies and institutions that use it effectively. Consequently, the volume of manipulated data has also increased, leading to high computational costs that must be managed intelligently by developers in the field. In this line of work, although analysis and pattern identification play a significant role, it is estimated that up to 80% of developers’ time is dedicated to exploring, cleaning, and preparing data for use in their applications. As the complexity of workflows grows, particularly when the data volume exceeds memory capacity or requires intensive processing, selecting appropriate tools becomes essential to ensure system efficiency and scalability, typically involving tools that utilize parallel computing solutions. However, there is a limited knowledge base in the scientific literature, especially in terms of the diversity of computational resources employed, that explores practical and objective comparisons between different libraries, making it difficult to make an informed decision. This work aims to address this gap by providing a detailed analysis of the available tools for Data Science, thereby offering an objective perspective to support decision-making in practical applications.en
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectCiência de dadospt_BR
dc.subjectComputational costen
dc.subjectComputação paralelapt_BR
dc.subjectData preparationen
dc.subjectProcessamento paralelopt_BR
dc.subjectAnálise de dadospt_BR
dc.titleAnálise experimental do desempenho de bibliotecas de ciência de dados em workflows com alto custo computacionalpt_BR
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.identifier.nrb001211076pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2024pt_BR
dc.degree.graduationCiência da Computação: Ênfase em Ciência da Computação: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples