Mostrar registro simples

dc.contributor.advisorSantos, Hugo Henrique Kegler dospt_BR
dc.contributor.authorPires, Francisco Barbosapt_BR
dc.date.accessioned2024-08-06T06:35:52Zpt_BR
dc.date.issued2024pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/276961pt_BR
dc.description.abstractO cadastro da Nomenclatura Comum do MERCOSUL (NCM) de uma mercadoria é uma atividade executada por analistas em empresas com o objetivo de atribuir a classificação mais adequada a um material produzido. Cadastros feitos de forma errada podem resultar em problemas para as empresas tais como multas e recolhimento de tributos erroneamente. Este trabalho tem como objetivo estudar o método de vetorização Bag-of-Words e construir um algoritmo de aprendizado de máquina para auxiliar no cadastro de NCMs. A base de dados utilizada nesta pesquisa é oriunda de uma metalúrgica situada em Porto Alegre – RS, e foi inicialmente filtrada e processada pelo algoritmo de stemming RSLP. Em seguida, foram testadas e avaliadas as métricas do Bag-of-Words (Boolean, Frequency e tfidf ) por visualização gráfica usando o método de visualização de dados em alta dimensão t-SNE. A métrica escolhida para a construção do algoritmo de aprendizado de máquina foi a tfidf. A base de dados vetorizada foi submetida ao método de Mapa de Difusão para reduzir a dimensionalidade dos dados em cinquenta componentes. Os dados redimensionados foram usados para construir o modelo de aprendizado de máquina, Máquina de Vetores de Suporte (SVM). A escolha dos melhores parâmetros do modelo SVM foi feita através do método de Grid-Search. O modelo final apresentou uma acurácia de 88,06%. Os resultados indicaram a adequação da metodologia utilizada para a construção desta pesquisa, entretanto, sugere-se alterações no método de redução de dimensão dos dados vetorizados e testagem de outras técnicas de modelagem para a construção do modelo de classificação final. Esta pesquisa foi construída na linguagem de programação Python e seu código pode ser acessado através da plataforma GitHub.pt_BR
dc.description.abstractThe Mercosur Common Nomenclature (NCM) register of a product is a process developed by analysts in companies, aiming to attribute the most appropriate classification to a produced material. Incorrect registration may result in problems for companies such as fines and incorrect tax payments. This work aims to study the Bag-of-Words vectorization method and build a machine learning algorithm to assist in registering NCMs. The database used in this research, which was initially filtered and processed by the RSLP stemming algorithm, comes from a metallurgy in Porto Alegre – RS. After that, the Bag-of-Words metrics (Boolean, Frequency, and tfidf) were tested and evaluated, using the t-SNE graphical visualization for high-dimensional data. The metric chosen to build the machine learning algorithm was tfidf. The vectorized database was subjected to the Difusion Map method to reduce the dimensionality of the data into fifty components. The resized data were used to build the machine learning model, Support Vector Machine (SVM). The best parameters of the SVM model were chosen through the Grid-Search method. The final model showed an accuracy of 88,06%. The results indicated the suitability of the used methodology in order to carry out this research, however, it is advisable some changes to the dimension reduction method for vectorized data and testing other modeling techniques for building the final classification model. This research was done using the Python language and its code can be accessed through the GitHub platform.en
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectMapa de difusãopt_BR
dc.subjectMercosur Common Nomenclature (NCM)en
dc.subjectAprendizado de máquinapt_BR
dc.subjectBag-of-Wordsen
dc.subjectt-SNEen
dc.subjectMáquina de vetores de suporte (SVM)pt_BR
dc.subjectDiffusion mapen
dc.subjectMachine learningen
dc.subjectSupport vector machineen
dc.subjectGrid-Searchen
dc.titleVetorização de textos com Bag-of-Words e aprendizado de máquina para cadastro de NCMs - Nomenclatura Comum do MERCOSULpt_BR
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.identifier.nrb001207969pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Matemática e Estatísticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2024pt_BR
dc.degree.graduationEstatística: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples