SmartKNN frente a Weighted_KNN y KNN: un análisis práctico en conjuntos de datos reales de regresión

El algoritmo K-Nearest Neighbours sigue siendo muy usado en la industria por su simplicidad, interpretabilidad y buen rendimiento en datos tabulares. Sin embargo, el KNN clásico falla cuando aparecen situaciones del mundo real: ruido, características irrelevantes, escalas sesgadas y tipos de datos mixtos. Este artículo resume un benchmark práctico que compara tres variantes en 31 conjuntos de datos reales de OpenML para tareas de regresión: KNN clásico, Weighted_KNN y SmartKNN.

Resumen del benchmark: se ejecutaron experimentos en aproximadamente 31 conjuntos de datos de regresión reales en dos lotes. En el primer lote la métrica MSE promedio se vio inflada por varios datasets con varianzas enormes, lo que afectó a todos los modelos. En el segundo lote emergió el comportamiento realista: SmartKNN produjo predicciones más precisas, estables y conscientes de la varianza.

Métricas destacadas: Avg MSE Lote 1: Weighted_KNN 4.146e7, SmartKNN 4.181e7. Avg MSE Lote 2: Weighted_KNN 2.354e6, SmartKNN 1.423e6. Tendencia RMSE: Weighted_KNN tiende a valores más altos, SmartKNN a valores más bajos. Tendencia R²: SmartKNN suele tener R² entre 0.50 y 0.88 en tareas realistas, mientras que Weighted_KNN suele quedarse entre 0.10 y 0.50. Interpretación: SmartKNN alcanza R² superiores y RMSE inferiores en la mayoría de tareas tabulares reales.

Dónde destaca cada variante

Ventajas de SmartKNN: rinde muy bien en datos tabulares medianos y grandes, en datasets con mezcla de variables numéricas y categóricas, en presencia de alto ruido o características con varianza elevada, y cuando existe importancia desigual entre características o columnas irrelevantes. Ejemplos concretos en OpenML donde SmartKNN tuvo ventaja incluyen los datasets 622, 634, 637, 638, 645, 654, 656, 657, 659, 695 y 712. La razón es que SmartKNN combina ponderación de características, normalización adaptativa y filtrado de dimensiones débiles, manteniendo la interpretabilidad propia de KNN pero corrigiendo sus puntos débiles clásicos.

Casos donde Weighted_KNN puede ganar: en datasets muy pequeños, con características limpias y relaciones lineales, sin ruido ni dimensiones irrelevantes. En esos escenarios de baja complejidad el coste adicional de SmartKNN puede penalizar ligeramente el rendimiento. Ejemplos OpenML donde Weighted_KNN se impuso incluyen 675, 683, 687 y 690.

Comparación con KNN clásico: SmartKNN supera al KNN tradicional en 24 de los 31 datasets evaluados, mientras que KNN clásico gana en 7 casos, normalmente en datasets triviales. SmartKNN muestra mayor robustez frente a outliers y características ruidosas, reduciendo colapso por alta varianza y mejorando la ordenación de vecinos mediante una distancia euclidiana ponderada con importancia de características aprendida desde los datos.

Por qué SmartKNN funciona mejor

Componentes clave y sus efectos: influencia ponderada de vecinos que maneja ruido y características desbalanceadas; escalado adaptativo de características que evita que variables de alta varianza dominen la distancia; preprocesado consciente del ruido que mejora la resistencia a valores atípicos; filtrado de características para eliminar dimensiones no informativas; distancia euclidiana ponderada que mejora el ranking de vecinos con importancia de características basada en datos. En conjunto, SmartKNN conserva la interpretabilidad de KNN y añade mecanismos prácticos para datos reales.

Ejemplo de uso rápido: importar SmartKNN, ajustar con k y umbral de ponderación, y predecir en datos de prueba. La instalación es sencilla vía pip con el paquete smart-knn y la API permite integrarlo como baseline moderno en pipelines de regresión.

Conclusión: SmartKNN no pretende sustituir redes neuronales ni grandes ensembles. Su objetivo es ofrecer una mejora moderna y robusta del KNN clásico: maneja mejor las características ruidosas, se adapta a datasets complejos y mejora significativamente R² y RMSE en la mayoría de escenarios reales. Es una baseline moderna, más estable para tareas de regresión en datos tabulares.

Acerca de Q2BSTUDIO: en Q2BSTUDIO somos una empresa de desarrollo de software y aplicaciones a medida especializada en soluciones personalizadas para empresas. Contamos con equipos expertos en inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios de inteligencia de negocio y automatización de procesos. Desarrollamos software a medida y soluciones de ia para empresas incluyendo agentes IA y proyectos con Power BI. Si buscas impulsar proyectos de inteligencia artificial en tu organización, puedes conocer nuestros servicios en la página de inteligencia artificial y también explorar nuestras capacidades en aplicaciones y software a medida. Nuestro enfoque combina ingeniería de software de calidad, ciberseguridad proactiva y despliegues en la nube para ofrecer soluciones escalables y seguras.

Palabras clave integradas: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi. Estas capacidades nos permiten ofrecer desde modelos de ML robustos como SmartKNN hasta servicios de Business Intelligence y pentesting orientados a proteger y explotar el dato.

Colaboración y feedback: si te interesa evaluar SmartKNN en tus propios datos, integrar una versión optimizada en producción o participar en mejoras como modo clasificación u optimización automática de hiperparámetros, en Q2BSTUDIO podemos ayudar a diseñar pruebas, desplegar pipelines y asegurar el entorno de producción.

En resumen: SmartKNN es una evolución práctica y interpretable del KNN clásico, pensada para los retos reales del dato tabular. En Q2BSTUDIO transformamos estas ideas en soluciones de software a medida, integrando inteligencia artificial, servicios cloud y seguridad para que tu proyecto llegue a producción con garantías.