Utilização de algoritmos do tipo machine learning supervisionado para a caracterização dos resultados da copa do mundo de futebol de 2018
dc.contributor.advisor | Torrent, Hudson da Silva | pt_BR |
dc.contributor.author | Nabinger, Aluísio Moreira | pt_BR |
dc.date.accessioned | 2019-09-13T03:49:13Z | pt_BR |
dc.date.issued | 2018 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/10183/199214 | pt_BR |
dc.description.abstract | Entre os torneios de futebol, o mais popular é o torneio da copa do mundo de futebol masculino, que é organizado pela Fédération Internationale de Futeball Association (FIFA), que é disputado por 32 seleções mundiais. Por mais que o objetivo do futebol seja sempre um resultado positivo, e que marcar mais gols do que o número de gols sofridos seja a maneira de obter o resultado, não existe uma tática reconhecida como superior a todas as outras. A aprendizagem de máquinas, através da aprendizagem estatística, está cada vez mais presente nas tecnologias e serviços que utilizamos para estudar e prever comportamentos. A aprendizagem de máquinas se apoia na determinação de modelos de comportamento, ou algoritmos, com o objetivo de aplicá-los de forma útil às novas situações. Neste trabalho serão considerados os seguintes modelos, ou métodos: Árvore de Decisão, LASSO e MARS. No modelo de árvore de decisão, para maior precisão, várias árvores serão usadas, por meio de métodos de conjunto, em especial os métodos: ensacamento, floresta aleatória e o boosting. O objetivo do presente trabalho é detectar, através da aplicação de métodos de Aprendizagem Supervisionada, de regressão e classificação, quais variáveis foram as mais importantes para que uma seleção conquistasse um resultado positivo, em cada uma das 64 partidas disputadas na Copa do Mundo de 2018, utilizando os dados disponíveis no site da FIFA. Para cada um desses jogos, tem-se 40 variáveis potencialmente explicativas. Modelos de shrinkage e redução de dimensionalidade serão considerados para lidar com esse conjunto e é esperado que os métodos convirjam para grupos de variáveis similares. Os métodos em geral tiveram problemas para classificar empates, o que é esperado, conforme trabalhos de assuntos similares. A variável ofensiva chutes no gol e as variáveis defensivas desarmes e chutes bloqueados foram as que apareceram como mais significativas. | pt_BR |
dc.description.abstract | Among football tournaments, the most popular is the men's world cup tournament, which is organized by the Fédération Internationale de Futeball Association (FIFA), which is disputed by 32 world-class teams. Although the goal of football is always a positive result, and that scoring more goals than the number of goals conceded is the way to obtain the result, there is no tactic recognized as superior to all others. Machine learning through statistical learning is increasingly present in the technologies and services we use to study and predict behavior. Machine learning relies on the determination of behavioral models, or algorithms, in order to apply them in a useful way to new situations. In this work will be considered the following models, or methods: Decision Tree, LASSO and MARS. In the decision tree model, for more accuracy, several trees will be used, by means of assembly methods, especially the methods of Random Forest and of boosting. The objective of the present study is to detect, through the application of methods of Supervised Learning, regression and classification, which variables were the most important for a selection to achieve a positive result in each of the 64 matches played in the 2018 World Cup, using the data available on the website of the FIFA. For each of these games, there are 40 potentially explanatory variables. Shrinkage and dimensionality reduction models will be considered to deal with this set, and the methods are expected to converge to similar groups of variables. The methods in general had problems to classify draws, which is expected, according to similar works. The offensive variable attempts on goal and the defensive variables disarms and blocked kicks were the ones that appeared as most significant. The MARS model, with these three variables, achieved 57.8125% of correct games result. | en |
dc.format.mimetype | application/pdf | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | Open Access | en |
dc.subject | Machine Learning | en |
dc.subject | Aprendizado de máquina supervisionado | pt_BR |
dc.subject | Arvore de decisoes | pt_BR |
dc.subject | MARS | en |
dc.subject | LASSO | en |
dc.subject | Decision Tree | en |
dc.title | Utilização de algoritmos do tipo machine learning supervisionado para a caracterização dos resultados da copa do mundo de futebol de 2018 | pt_BR |
dc.type | Trabalho de conclusão de graduação | pt_BR |
dc.identifier.nrb | 001100471 | pt_BR |
dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
dc.degree.department | Instituto de Matemática | pt_BR |
dc.degree.local | Porto Alegre, BR-RS | pt_BR |
dc.degree.graduation | Estatística: Bacharelado | pt_BR |
dc.degree.level | graduação | pt_BR |
Este item está licenciado na Creative Commons License
-
TCC Estatística (295)