Vetorização de textos com Bag-of-Words e aprendizado de máquina para cadastro de NCMs - Nomenclatura Comum do MERCOSUL

Pires, Francisco Barbosa

dc.contributor.advisor	Santos, Hugo Henrique Kegler dos	pt_BR
dc.contributor.author	Pires, Francisco Barbosa	pt_BR
dc.date.accessioned	2024-08-06T06:35:52Z	pt_BR
dc.date.issued	2024	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/276961	pt_BR
dc.description.abstract	O cadastro da Nomenclatura Comum do MERCOSUL (NCM) de uma mercadoria é uma atividade executada por analistas em empresas com o objetivo de atribuir a classificação mais adequada a um material produzido. Cadastros feitos de forma errada podem resultar em problemas para as empresas tais como multas e recolhimento de tributos erroneamente. Este trabalho tem como objetivo estudar o método de vetorização Bag-of-Words e construir um algoritmo de aprendizado de máquina para auxiliar no cadastro de NCMs. A base de dados utilizada nesta pesquisa é oriunda de uma metalúrgica situada em Porto Alegre – RS, e foi inicialmente filtrada e processada pelo algoritmo de stemming RSLP. Em seguida, foram testadas e avaliadas as métricas do Bag-of-Words (Boolean, Frequency e tfidf ) por visualização gráfica usando o método de visualização de dados em alta dimensão t-SNE. A métrica escolhida para a construção do algoritmo de aprendizado de máquina foi a tfidf. A base de dados vetorizada foi submetida ao método de Mapa de Difusão para reduzir a dimensionalidade dos dados em cinquenta componentes. Os dados redimensionados foram usados para construir o modelo de aprendizado de máquina, Máquina de Vetores de Suporte (SVM). A escolha dos melhores parâmetros do modelo SVM foi feita através do método de Grid-Search. O modelo final apresentou uma acurácia de 88,06%. Os resultados indicaram a adequação da metodologia utilizada para a construção desta pesquisa, entretanto, sugere-se alterações no método de redução de dimensão dos dados vetorizados e testagem de outras técnicas de modelagem para a construção do modelo de classificação final. Esta pesquisa foi construída na linguagem de programação Python e seu código pode ser acessado através da plataforma GitHub.	pt_BR
dc.description.abstract	The Mercosur Common Nomenclature (NCM) register of a product is a process developed by analysts in companies, aiming to attribute the most appropriate classification to a produced material. Incorrect registration may result in problems for companies such as fines and incorrect tax payments. This work aims to study the Bag-of-Words vectorization method and build a machine learning algorithm to assist in registering NCMs. The database used in this research, which was initially filtered and processed by the RSLP stemming algorithm, comes from a metallurgy in Porto Alegre – RS. After that, the Bag-of-Words metrics (Boolean, Frequency, and tfidf) were tested and evaluated, using the t-SNE graphical visualization for high-dimensional data. The metric chosen to build the machine learning algorithm was tfidf. The vectorized database was subjected to the Difusion Map method to reduce the dimensionality of the data into fifty components. The resized data were used to build the machine learning model, Support Vector Machine (SVM). The best parameters of the SVM model were chosen through the Grid-Search method. The final model showed an accuracy of 88,06%. The results indicated the suitability of the used methodology in order to carry out this research, however, it is advisable some changes to the dimension reduction method for vectorized data and testing other modeling techniques for building the final classification model. This research was done using the Python language and its code can be accessed through the GitHub platform.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Mapa de difusão	pt_BR
dc.subject	Mercosur Common Nomenclature (NCM)	en
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Bag-of-Words	en
dc.subject	t-SNE	en
dc.subject	Máquina de vetores de suporte (SVM)	pt_BR
dc.subject	Diffusion map	en
dc.subject	Machine learning	en
dc.subject	Support vector machine	en
dc.subject	Grid-Search	en
dc.title	Vetorização de textos com Bag-of-Words e aprendizado de máquina para cadastro de NCMs - Nomenclatura Comum do MERCOSUL	pt_BR
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.identifier.nrb	001207969	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Matemática e Estatística	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2024	pt_BR
dc.degree.graduation	Estatística: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001207969.pdf
Tamanho:: 2.096Mb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (37618)

TCC Estatística (295)

Mostrar registro simples