Hybrid Machine Learning Algorithms in High-Dimensional Settings

Nome Completo:

Luciano Ribeiro Galvão

Unidade da USP:

ESALQ

Programa de Pós-Graduação:

Estatística e Experimentação Agronômica

Nível:

Doutorado

Resumo:

A sociedade enfrenta cada vez mais desafios que envolvem muitos dados, seja no seguro, na saúde, na economia ou na gestão pública. Por isso, é importante desenvolver métodos que ajudem a entender quais informações realmente importam e como fazer boas previsões a partir delas. Esta tese apresenta um conjunto de modelos de inteligência artificial que combinam duas forças: métodos estatísticos tradicionais, que ajudam a identificar quais variáveis são realmente relevantes, e algoritmos modernos de machine learning, capazes de aprender relações complexas e não lineares. No primeiro estudo, esses modelos foram aplicados a dados reais de uma seguradora de viagens, contendo quase 2.700 clientes e 35 características geradas por engenharia de atributos. A ideia foi prever quem tem maior chance de contratar um seguro viagem. Para isso, utilizou-se uma estratégia em duas etapas: primeiro, métodos estatísticos como Lasso, Ridge e Elastic Net selecionaram as variáveis mais importantes; depois, modelos como Random Forest, XGBoost e CatBoost fizeram as previsões usando apenas essas variáveis relevantes. O melhor resultado foi obtido pela combinação entre Lasso e CatBoost, que alcançou alta precisão e excelente capacidade de prever novos casos. Esse achado mostra que é possível manter clareza e interpretabilidade, sem perder desempenho, algo essencial em setores regulados como o de seguros. No segundo estudo, foi feita uma investigação mais teórica. Por meio de simulações controladas — usando uma equação clássica chamada Friedman — foram testados 23 modelos diferentes em cenários com vários tamanhos de amostra e diferentes quantidades de variáveis, incluindo muitas variáveis irrelevantes (ruído). O objetivo foi avaliar se esses métodos híbridos continuam funcionando bem mesmo quando o problema fica mais difícil. Os resultados mostraram que, conforme o número de dados aumenta, os modelos híbridos ficam mais estáveis, escolhem melhor as variáveis importantes e mantêm um desempenho superior na previsão, equilibrando simplicidade com alta performance. Assim, esta tese contribui de duas maneiras: (1) Praticamente, ao demonstrar que modelos híbridos são úteis para empresas reais, especialmente em áreas que exigem explicações claras, como o mercado de seguros; (2) Teoricamente, ao mostrar que esses modelos possuem boas propriedades matemáticas de consistência e generalização, mesmo em cenários complexos e com muitas variáveis. Em síntese, o trabalho mostra que é possível unir estatística e inteligência artificial para criar modelos mais transparentes, eficientes e confiáveis — contribuindo para decisões melhores, tecnologia mais responsável e uma sociedade mais bem informada.