Previsão de resultados no vôlei de praia utilizando modelagem estatística

Alvim, Lucas Santarossa

dc.contributor.advisor	Valk, Márcio	pt_BR
dc.contributor.author	Alvim, Lucas Santarossa	pt_BR
dc.date.accessioned	2024-08-06T06:36:04Z	pt_BR
dc.date.issued	2024	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/276964	pt_BR
dc.description.abstract	Este trabalho visou à previsão de resultados em partidas de vôlei de praia. Foram utilizadas três metodologias: regressão logística, árvores de decisão e K-Nearest Neighbors (KNN). A base de dados utilizada contém dados de jogos masculinos e femininos, tanto do circuito norte-americano (AVP) quanto do circuito internacional (FIVB). Foram utilizadas variáveis referentes às estatísticas do jogo, informações de cada dupla, e a aspectos pessoais de cada jogador, como idade e altura. As variáveis referentes às estatísticas de cada jogo foram utilizadas no modelo por meio do cálculo de suas médias móveis simples das quatro partidas imediatamente anteriores à que está sendo prevista. Definiu-se que apenas os jogos da AVP seriam utilizados nas análises. A seleção de variáveis foi feita aplicando-se, para cada gênero, o método backward stepwise em duzentos conjuntos diferentes de dados de treino e teste, sendo que as variáveis que fossem eliminadas em mais de 50% destas repetições seriam removidas das análises. Os modelos com apenas as variáveis selecionadas se apresentaram vantajosos para ambos os gêneros devido à maior simplicidade de interpretação e precisão, medidas de ajuste e diagnóstico de resíduos semelhantes ao modelo completo. As médias de acurácia, sensibilidade e especificidade das previsões no modelo de regressão logística com variáveis selecionadas dos jogos masculinos foram de 0.721, 0.719 e 0.706, respectivamente. Para as partidas femininas, estes valores foram de 0.751, 0.742 e 0.755. O método KNN apresentou médias de acurácia, sensibilidade e especificidade de 0.705, 0.711 e 0.700 para os jogos masculinos e de 0.723, 0.701 e 0.745, respectivamente, para os femininos. Utilizando árvores de decisão, estes valores foram de 0.696, 0.697 e 0.695 para as partidas masculinas e de 0.731, 0.751 e 0.711 para as femininas. Ao avaliar os coeficientes da regressão logística para o último conjunto de dados de treino e de teste analisado, bem como a árvore de decisão gerada, ficou claro que as variáveis mais relevantes para a previsão dos resultados foram os rankings das duplas de referência e de oposição. Conclui-se que todos os métodos testados apresentam maior acurácia para as partidas femininas e que, com a metodologia utilizada, o modelo de regressão logística tende a apresentar desempenho preditivo levemente superior à dos outros métodos analisados.	pt_BR
dc.description.abstract	This work aimed to predict results in beach volleyball matches. Three methodologies were used: logistic regression, decision trees and K-Nearest Neighbors (KNN). The database used contains data from men’s and women’s games, both from the North American circuit (AVP) as well as from the international circuit (FIVB). Game statistics, information about each team and personal aspects of each player, such as age and height, were used as variables. Those regarding each game’s statistics were used in the model by calculating their simple moving averages from the four matches preceding the one being predicted. It was decided that only AVP games would be used in the analyses. The variable selection was made by applying, for each gender, the backward stepwise method on two hundred different sets of training and testing data, and the variables that were eliminated in more than 50% of these repetitions would be removed from the analyses. Models with only selected variables proved to be advantageous for both genders due to greater simplicity of interpretation and precision, goodness of fit and residuals diagnostics similar to the complete model. The accuracy, sensitivity and specificity of predictions in the model with selected variables for the men’s games were 0.721, 0.719 and 0.706, respectively. For the women’s matches, these values were 0.751, 0.742 and 0.755, respectively. For both genders, such values were similar or slightly higher when compared to models with all variables, thus proving to be advantageous to use variable selection. The KNN method presented average accuracy, sensitivity and specificity of 0.705, 0.711 and 0.700 for men’s games and 0.723, 0.701 and 0.745, respectively, for women’s. Using decision trees, these values were 0.696, 0.697 and 0.695 for men’s matches and 0.731, 0.751 and 0.711 for women’s. When evaluating logistic regression coefficients for the last analyzed training and testing data set, as well as the decision tree generated, it became clear that the most relevant variables for predicting the results were the rankings of the reference and opposition teams. In conclusion, all tested methods showed greater accuracy for women’s matches, and the logistic regression model tends to present slightly better predictive performance than the other methods analyzed.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Beach volleyball	en
dc.subject	Voleibol de praia	pt_BR
dc.subject	Regressão logística	pt_BR
dc.subject	Logistic regression	en
dc.subject	Arvore de decisoes	pt_BR
dc.subject	Decision tree	en
dc.title	Previsão de resultados no vôlei de praia utilizando modelagem estatística	pt_BR
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.identifier.nrb	001208032	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Matemática e Estatística	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2024	pt_BR
dc.degree.graduation	Estatística: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001208032.pdf
Tamanho:: 1.195Mb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (36381)

TCC Estatística (290)

Mostrar registro simples