#imo · DeepCodeNews

FusionRS: Dataset de teledetección RGB-Infrarrojo para modelos visión-lenguaje

Descubre FusionRS, el primer dataset RGB-Infrarrojo-texto para teledetección. Mejora alineación y descripciones multimodales.

2026-06-16 · 2 min

Atención, no escala, impulsa alineación humano-IA en predicción multimodal

Descubre cómo la atención selectiva, no la escala del modelo, mejora la alineación entre humanos e IA en la predicción del lenguaje multimodal. Estudio con 600

2026-06-16 · 1 min

Mecanismo de atención para integración multimodal robusta

Aprende cómo un mecanismo de atención ligero mejora la robustez en sistemas multimodales usando un selector top-down. Resultados en MM-IMDb.

2026-06-16 · 3 min

Atención Robusta para Integración Multimodal en Espacio Global

Mejora la robustez de sistemas multimodales con un selector de modalidad ligero. Basado en la Teoría del Espacio Global, ofrece resultados superiores incluso

2026-06-16 · 3 min

AIQI: Primera IA Universal sin Modelo

Descubre AIQI, el primer agente de IA universal sin modelo que demuestra optimalidad asintótica en aprendizaje por refuerzo general. ¡Revoluciona la IA!

2026-06-16 · 2 min

Variables Canónicas en el Espacio Métrico de Wasserstein

Descubre cómo las variables canónicas en el espacio métrico de Wasserstein mejoran la clasificación de distribuciones mediante la maximización de la razón de

2026-06-16 · 2 min

Sensado virtual para monitoreo en tiempo real de zonas inaccesibles

Descubre cómo MIMONet utiliza operadores neuronales para monitorizar en tiempo real zonas inaccesibles en sistemas energéticos, con errores menores al 5% y

2026-06-16 · 2 min

Flujo Eficiente con Variables Latentes

Descubre Latent-CFM, un modelo que usa variables latentes para un flujo eficiente en generación de imágenes. Mayor calidad, menos entrenamiento y recursos.

2026-06-16 · 1 min

Transporte Óptimo para Aprendices de Machine Learning

Descubre cómo el transporte óptimo revoluciona el machine learning: desde distancias de Wasserstein hasta modelos generativos. Una guía completa para

2026-06-16 · 3 min

Reducción de tokens en modelos generativos: más allá de la eficiencia

Descubre cómo la reducción de tokens va más allá de la eficiencia en IA generativa: mejora integración multimodal, reduce alucinaciones y optimiza rendimiento.

2026-06-16 · 2 min

Múltiples descensos en deep learning: transiciones orden-caos en LSTM

Descubre cómo las redes LSTM muestran múltiples ciclos de rendimiento tras el sobreentrenamiento, vinculados a transiciones entre orden y caos. El punto óptimo

2026-06-16 · 2 min

¿Son los modelos neuroinspirados resistentes a la inferencia de membresía?

Descubre cómo los modelos neuroinspirados de visión-lenguaje reducen un 24% los ataques de inferencia de membresía sin comprometer su utilidad. ¡Lee más!

2026-06-16 · 2 min

Akasha 2: Integración de espacio de estado Hamiltoniano y visión-lenguaje

Akasha 2: arquitectura IA con espacio de estado Hamiltoniano para predicción de video ultrarrápida y coherencia espacio-temporal.

2026-06-16 · 2 min

UniT: Escalado en tiempo de prueba con cadena de pensamiento multimodal

UniT permite a modelos unificados razonar, verificar y refinar en múltiples rondas, mejorando tareas complejas de composición visual y comprensión.

2026-06-16 · 2 min

MAND: Detección de Novedades Multimodal en Actividades Egocéntricas

MAND: detección de novedades multimodal en actividades egocéntricas. Mejora precisión usando RGB e IMU con puntuaciones adaptativas.

2026-06-16 · 2 min

MuVAP: Modelo multimodal para predicción de turnos en conversaciones

Descubre MuVAP, el modelo que predice quién hablará usando solo audio y una cámara. Ideal para robots sociales. Más preciso que los modelos actuales.

2026-06-16 · 2 min

MatchLM2Lite: De MLLM a Lite para identificación de contenido reproducido

Aprende cómo MatchLM2Lite identifica contenido reproducido en tiempo real con destilación MLLM. Reduce vistas duplicadas un 2.5% sin afectar engagement.

2026-06-16 · 2 min

Cribado neurodegenerativo con LLM multimodales unificando acústica y texto

NeurMLLM unifica acústica y texto con LLM multimodales para detectar Alzheimer y Parkinson. Resultados superiores en clasificación de etapas.

2026-06-16 · 2 min

RL eficiente para razonamiento visual-textual con difusión discreta

Descubre cómo la difusión discreta reduce un 26.9% el cómputo en razonamiento visual-textual y la recompensa factorizada mejora un 11.2% el rendimiento.

2026-06-16 · 2 min

Segmentación robusta de imágenes con votación de máscaras geodésicas

Descubre un nuevo método de segmentación de imágenes basado en votación de máscaras geodésicas que supera las limitaciones de inicialización y logra precisión

2026-06-16 · 2 min