Machine learning approaches for predicting diabetes and determining risk factors from epidemiological data
dc.contributor.advisor | Recamonde-Mendoza, Mariana | pt_BR |
dc.contributor.author | Perin, Lucas Hennemann | pt_BR |
dc.date.accessioned | 2018-11-23T02:44:29Z | pt_BR |
dc.date.issued | 2018 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/10183/184968 | pt_BR |
dc.description.abstract | The medical field has an urgent need for new analytical methods that are able to process complex and voluminous data, improving diagnostic tools and the knowledge regarding disease risk factors. In this sense, machine learning (ML) algorithms have become increasingly popular in the analysis of clinical and epidemiological data. The aim of this work is twofold. First, we carry out a systematic literature review (SLR) to investigate recent efforts towards the use of ML algorithms in the study of chronic diseases and summarize, in a comparative way, the performance of distinct methods for training prediction models and detecting risk factors. Second, based on the knowledge derived from the SLR, we apply a ML methodology to analyze data from an epidemiological study that investigated the impact of socioeconomic factors on the occurrence of chronic diseases, including diabetes. We apply multiple ML algorithms and assess their performance for training accurate prediction models and identifying important risk factors for the development of this disease. Our SLR results corroborate the notion that ML technology is growing exponentially in the medical research community, with several ML methods presenting promising results, which are extremely competitive in relation to traditional approaches such as clinical prediction scores derived by experts. Moreover, our experimental results with the diabetes dataset suggest that the Random Forest algorithm have the best predictive capability in the explored scenario, and that ML, in general, has great potential to elucidate new associations among socio-demographic variables and diabetes that may be useful for the development of new public health intervention programs to reduce the incidence of this disease. | en |
dc.description.abstract | A área médica tem uma necessidade urgente de novos métodos analíticos capazes de processar dados complexos e volumosos, melhorando as ferramentas de diagnóstico e o conhecimento sobre os fatores de risco de doenças. Nesse sentido, algoritmos de aprendizado de máquina têm se tornado cada vez mais populares na análise de dados clínicos e epidemiológicos. O objetivo deste trabalho é duplo. Primeiro, realizamos uma revisão sistemática da literatura para investigar os esforços recentes para o uso de algoritmos de aprendizado de máquina no estudo de doenças crônicas e resumir, de forma comparativa, o desempenho de métodos distintos para treinar modelos de previsão e detectar fatores de risco. Em segundo lugar, com base no conhecimento derivado da revisão sistemática da literatura, aplicamos uma metodologia de aprendizado de máquina para analisar dados de um estudo epidemiológico que investigou o impacto de fatores socioeconômicos na ocorrência de doenças crônicas, incluindo diabetes. Aplicamos vários algoritmos de aprendizado de máquina e avaliamos seu desempenho para o treinamento de modelos precisos de previsão e identificação de fatores de risco importantes para o desenvolvimento desta doença. Nossos resultados da revisão sistemática corroboram a noção de que a tecnologia de aprendizado de máquina está crescendo exponencialmente na comunidade de pesquisa médica, com vários métodos de aprendizado de máquina apresentando resultados promissores, extremamente competitivos em relação às abordagens tradicionais, como os escores de previsão clínica obtidos por especialistas. Além disso, nossos resultados experimentais com o conjunto de dados do diabetes sugerem que o algoritmo Random Forest tem a melhor capacidade preditiva no cenário explorado, e que o aprendizado de máquina, em geral, tem grande potencial para elucidar novas associações entre variáveis sociodemográficas e diabetes que podem ser úteis para o desenvolvimento de novos programas de intervenção em saúde pública para reduzir a incidência desta doença. | pt_BR |
dc.format.mimetype | application/pdf | pt_BR |
dc.language.iso | eng | pt_BR |
dc.rights | Open Access | en |
dc.subject | Informática médica | pt_BR |
dc.subject | Machine learning | en |
dc.subject | Banco : Dados | pt_BR |
dc.subject | Diabetes | en |
dc.subject | Risk factors | en |
dc.subject | Disease prediction | en |
dc.subject | Nested cross validation | en |
dc.subject | Logistic regression | en |
dc.subject | Random forest | en |
dc.subject | Support vector machine | en |
dc.subject | Decision tree | en |
dc.title | Machine learning approaches for predicting diabetes and determining risk factors from epidemiological data | pt_BR |
dc.title.alternative | Abordagens de aprendizado de máquina para predição de diabetes e determinação de fatores de risco a partir de dados epidemiológicos | pt |
dc.type | Trabalho de conclusão de graduação | pt_BR |
dc.identifier.nrb | 001077844 | pt_BR |
dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
dc.degree.department | Instituto de Informática | pt_BR |
dc.degree.local | Porto Alegre, BR-RS | pt_BR |
dc.degree.date | 2018 | pt_BR |
dc.degree.graduation | Engenharia de Computação | pt_BR |
dc.degree.level | graduação | pt_BR |
Este item está licenciado na Creative Commons License
-
TCC Engenharias (5882)