Data oversampling and feature selection for class imbalanced datasets

V. Krishnakumar; V. Sangeetha

doi:10.56294/sctconf2024935

Original

Published: 2024-06-21

DOI: https://doi.org/10.56294/sctconf2024935

Sobremuestreo de datos y selección de características para conjuntos de datos desequilibrados de clase

Resumen

Introducción: Se han implementado avances y modificaciones importantes en la clasificación de datos (DC) en las últimas décadas. Debido a su infinita cantidad y desequilibrio, los datos se vuelven difíciles de clasificar. La mayor preocupación en DM (minería de datos) es el desequilibrio de clases (CI). Para evitar estos problemas, en un trabajo reciente se propuso reducir el mapa basado en la paralelización de datos de conjuntos de datos desequilibrados de clases.
Métodos: Se ha sugerido una nueva técnica de sobremuestreo (OS) llamada sobremuestreo minoritario en subespacios adaptativos de correlación canónica del núcleo (MOKCCAS) con el objetivo de minimizar la pérdida de datos en las proyecciones del espacio de características (FSP). Esta técnica aprovecha la capacidad constante de extracción de características (FE) de una versión de ASSOM (mapas autoorganizados adaptativos del subespacio) que se deriva del análisis de correlación canónica del kernel (KCCA). Y en la clasificación, la selección de características (FS) juega un papel importante porque el conjunto de datos adquirido puede contener un gran volumen de muestras; utilizar todas las características de las muestras del conjunto de datos para la clasificación disminuirá el rendimiento del clasificador. Y luego la paralelización de datos se realizará utilizando el marco de reducción de mapas para resolver este problema de requisitos de cálculo.
Resultado: luego propone un modelo de selección de características utilizando métodos de optimización de ballenas mutadas (MWO), produce características y reduce el consumo de tiempo. Finalmente, el modelo de equilibrio de clases propuesto se probará utilizando un sistema de inferencia neurodifusa adaptativo mejorado basado en distribución uniforme (UDANFIS). Los resultados de la prueba validan la eficiencia de la técnica sugerida mediante precisión, recuperación, exactitud y tasa de error (ER).
Conclusión: Posteriormente, el estudio sugiere un nuevo enfoque de sistema operativo llamado MOKCCAS para reducir la pérdida de datos a lo largo de la proyección del espacio de características.

Keywords:

datos de desequilibrio,

minería de datos (DM),

paralelización,

proyección del espacio de características (FSP),

sobremuestreo minoritario (MO),

subespacios adaptativos de correlación canónica del kernel (KCCAS),

optimización de ballenas (WO),

Cómo citar

Krishnakumar V, Sangeetha V. Sobremuestreo de datos y selección de características para conjuntos de datos desequilibrados de clase. Salud, Ciencia y Tecnología - Serie de Conferencias [Internet]. 21 de junio de 2024 [citado 1 de julio de 2024];3:935. Disponible en: https://conferencias.saludcyt.ar/index.php/sctconf/article/view/935

Aviso de derechos de autor/a

Este artículo se distribuye bajo la licencia Creative Commons Attribution 4.0 License. A menos que se indique lo contrario, el material publicado asociado se distribuye bajo la misma licencia.

Article metrics

Google scholar: See link

Métricas

Cargando métricas ...

Vol. 3 (2024)

See full issue

Revistas / Journals

Números

Acerca de

Directrices para autores/as