Enhancing classification with hybrid feature selection : a multi-objective genetic algorithm for high-dimensional data

Feature selection is a fundamental step in machine learning, serving to reduce dataset redundancy, accelerate training speed, and improve model quality. This is particularly crucial in high-dimensional datasets, where the excess of features presents challenges for pattern recognition and data analysis. Recent methods proposed for high-dimensional data are often tailored for specific domains, leaving a lack of consensus on a universally recommended solution for general use cases. This paper proposes a hybrid feature selection approach using a multi-objective genetic algorithm to enhance classification performance and reduce dimensionality across diverse classification tasks. The proposed approach narrows the search space of possible relevant features by exploring the combined outputs of classical feature selection methods with novel genetic algorithm operators. This enables the evolution of combined solutions potentially not explored by the original methods, generating optimized feature sets in a process that adapts to different data conditions. Experimental results demonstrate the effectiveness of the proposed method in high-dimensional use cases, offering improved classification performance with reduced feature sets. In summary, our hybrid method offers a promising solution for addressing the challenges of high-dimensional datasets by enhancing classification performance in varying domains and data conditions. ...

Resumo

A seleção de variáveis é um passo fundamental no aprendizado de máquina, servindo para reduzir a redundância do conjunto de dados, acelerar a velocidade de treinamento e melhorar a qualidade de modelos. Isto é particularmente crucial em conjuntos de dados de alta dimensionalidade, onde o excesso de variáveis representa desafios para tarefas de reconhecimento de padrões e análise de dados. Os métodos recentes propostos para dados de alta dimensionalidade são frequentemente desenvolvidos para domínios específicos, gerando uma falta de consenso sobre uma solução universalmente recomendada para casos de uso gerais. Este artigo propõe uma abordagem híbrida de seleção de variá- veis usando um algoritmo genético multiobjetivo para melhorar o desempenho da classificação e reduzir a dimensionalidade em diversas tarefas de classificação. A abordagem proposta restringe o espaço de busca de possíveis variáveis relevantes através da exploração dos resultados combinados de métodos clássicos de seleção de variáveis através de novos operadores de algoritmo genético. Isto permite a evolução de soluções combinadas potencialmente não exploradas pelos métodos originais, gerando conjuntos de variáveis otimizados em um processo que se adapta a diferentes condições de dados. Os resultados experimentais demonstram a eficácia do método proposto em casos de uso de alta dimensionalidade, oferecendo melhor desempenho de classificação com conjuntos de variáveis reduzidos. Em resumo, o método híbrido proposto oferece uma solução promissora para lidar com os desafios de conjuntos de dados de alta dimensionalidade, melhorando o desempenho da classificação em diversos domínios e condições de dados. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Computação.

Coleções

Ciências Exatas e da Terra (5141)

Computação (1766)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License