Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo

Lauris, Renato Pedroso

dc.contributor.advisor	Horta, Eduardo de Oliveira	pt_BR
dc.contributor.author	Lauris, Renato Pedroso	pt_BR
dc.date.accessioned	2024-07-31T06:12:17Z	pt_BR
dc.date.issued	2023	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/276732	pt_BR
dc.description.abstract	A profusão de dados com maiores dimensões e o crescente interesse em inferir causalidade têm permitido avançar a pesquisa de métodos que buscam estimar, para além do efeito médio de tratamento, o efeito médio de tratamento condicional (CATE). Nessa direção, alguns métodos de aprendizado de máquina têm sido propostos para estimar o CATE e identificar efeitos heterogêneos baseado nos próprios dados, de forma a reduzir a possibilidade de escolha arbitrária de covariáveis (p-hacking). Dois métodos têm se apresentado como alternativas robustas a esse propósito: Floresta Causal (Causal Forest, CF, Wager and Athey (2018)) e Double Machine Learning (DML, Chernozhukov et al. (2022)). Tendo em vista a concorrência entre estas abordagens e a ausência de estudos comparativos, a presente dissertação têm como objetivo principal apresentar esses métodos e avaliar, por um estudo de simulação, qual deles melhor lida com dimensões com formas funcionais lineares e não-lineares, cenários com picos e vales e descontinuidade. Uma simulação de Monte Carlo baseada em casos que ilustrem os desafios de estimação e de inferência para cada um dos métodos foi implementada. Utilizando indicadores de desempenho dos estimadores quanto à acurácia e ao viés da estimação (Erro quadrático médio –MSE e Viés Absoluto) e à adequação do intervalo de confiança (Taxa Cobertura), foram encontrados alguns resultados dignos de nota. As estimativas por DML tiveram níveis de acurácia e viés próximos ao CF medidos pelo MSE e o Viés Absoluto somente para os cenários linear e não-linear. Ambos os métodos CF e DML, nos cenários propostos, apresentaram inadequadas taxas de cobertura, indicando a necessidade de se avançar na proposição de procedimentos para construção de intervalos de confiança (ICs) e na construção de estimadores para a variância do CATE. Em geral, o DML não apresenta propriedades melhores para superar os desafios de estimação em cenários funcionais do CATE com picos e vales ou com descontinuidades. Por outro lado, se constatou que o método alternativo ao Floresta Causal apresenta menor sensibilidade do desempenho da estimação em dimensionalidades maiores, especialmente para tamanhos de amostra superiores a n = 2000, o que abre a possibilidade de pesquisas futuras avançarem em modelos mais flexíveis usando DML que possam apresentar melhorias no ajuste da estimação nos referidos cenários. Este trabalho avança na proposição de cenários de simulação e comparação entre os métodos CF e DML que não haviam sido comparados em trabalhos anteriores. Além disso, trouxe uma implementação alternativa à estimação do CATE para o método DML em R, usando a interface R-Python a partir dos pacotes DoubleML (Bach et al., 2021) e Reticulate (Ushey et al., 2023).	pt_BR
dc.description.abstract	The proliferation of data with higher dimensions and the growing interest in inferring causality have allowed for advancements in research methods that aim to estimate, beyond the average treatment effect, the conditional average treatment effect (CATE). In this direction, some machine learning methods have been proposed to estimate the CATE and identify heterogeneous effects based on the data itself, thus reducing the possibility of arbitrary covariate selection (p-hacking). Two methods have emerged as robust alternatives for this purpose: Causal Forest (CF, Wager and Athey (2018)) and Double Machine Learning (DML, Chernozhukov et al. (2022)). Considering the competition between these approaches and the lack of comparative studies, the main objective of this dissertation is to present these methods and evaluate, through a simulation study, which one better handles the estimation of heterogeneous treatment effects with linear and nonlinear functional forms, scenarios with peaks and valleys, and discontinuities. A Monte Carlo simulation based on cases that illustrate the challenges of estimation and inference for each method was implemented. Performance indicators such as Mean Squared Error (MSE) and Absolute Bias for estimation accuracy, as well as Coverage Rate for the adequacy of the confidence interval, were used to assess the results. The simulation results revealed some noteworthy findings. The DML estimates had accuracy levels and bias close to CF as measured by MSE and Absolute Bias, but only for linear and nonlinear scenarios. Both CF and DML methods exhibited inadequate coverage rates in the proposed scenarios, indicating the need for further advancement in proposing procedures for constructing confidence intervals (CIs) and developing estimators for the variance of the CATE. Overall, DML does not demonstrate better properties for overcoming estimation challenges in functional scenarios of the CATE with peaks and valleys or discontinuities. On the other hand, it was found that the alternative method to Causal Forest had lower sensitivity in estimation performance in higher dimensions settings, especially for sample sizes larger than n = 2000. This opens up the possibility for future research to advance in more flexible models using DML that may improve estimation fitting in the aforementioned scenarios. This work contributes to the proposition of simulation scenarios and the comparison between CF and DML methods that had not been compared in previous studies. Additionally, it provides an alternative implementation for estimating the CATE using the DML method in R, using the R-Python interface through the packages DoubleML (Bach et al., 2021) e Reticulate (Ushey et al., 2023).	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Higher dimensionalities	en
dc.subject	Simulação de Monte Carlo	pt_BR
dc.subject	Machine learning	en
dc.subject	Estimador	pt_BR
dc.subject	Conditional average treatment effect	en
dc.subject	Causal forest	en
dc.subject	Debiased Machine Learning (DML)	en
dc.subject	Monte Carlo simulation	en
dc.subject	Comparison of estimators performance	en
dc.title	Estimação do efeito de tratamento heterogêneo em maiores dimensões utilizando métodos de aprendizado de máquina : um estudo comparativo	pt_BR
dc.type	Dissertação	pt_BR
dc.contributor.advisor-co	Reis, Rodrigo Citton Padilha dos	pt_BR
dc.identifier.nrb	001198754	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Matemática e Estatística	pt_BR
dc.degree.program	Programa de Pós-Graduação em Estatística	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2023	pt_BR
dc.degree.level	mestrado	pt_BR

Nome:: 001198754.pdf
Tamanho:: 1.974Mb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Ciências Exatas e da Terra (5141)

Estatística (27)

Mostrar registro simples