#imo · DeepCodeNews

Cable divisor USB-C de Anker por $15: carga dos dispositivos a la vez

Aprovecha el precio más bajo del cable divisor USB-C de Anker. Carga dos dispositivos a la vez con hasta 140W. Ideal para viajeros y escritorios. Solo $14.99.

2026-06-10 · 2 min

De los sentidos a las decisiones: flujo auditivo-visual en MLLMs

Descubre como los modelos multimodales combinan audio y video para decisiones. Las rutas internas de informacion en AVLLMs permiten inferencia eficiente.

2026-06-10 · 2 min

Marco unificado multimodal para sistemas financieros inteligentes

Descubre el marco unificado: RL, trading de alta frecuencia y teoría de juegos con análisis multimodal. Mejoras del 31% en predicción y 23% en carteras.

2026-06-10 · 4 min

Un Token por Evidencia Multimodal: Memoria Latente para QA con Recursos Escasos

Descubre Latent Memory: comprime evidencia multimodal en un token, reduce hasta 10x el consumo de tokens en QA con recursos limitados. Eficiente y competitivo.

2026-06-10 · 2 min

LLMs abiertos como prior estructural para sintonía de controladores MIMO

LLMs open-source mejoran sintonía de controladores MIMO acoplados: mayor eficiencia e interpretabilidad en procesos industriales.

2026-06-10 · 2 min

IA culturalmente consciente para aprendizaje comunitario transfronterizo

Estudiantes universitarios crean IA cultural para preservar patrimonio y desarrollo sostenible en comunidades transfronterizas. Marco colaborativo innovador.

2026-06-10 · 2 min

SPACE: Borrado de Conceptos sin Datos en MLLMs

SPACE: primer método de machine unlearning sin datos para MLLMs. Elimina conceptos sensibles preservando el rendimiento del modelo. Descubre cómo.

2026-06-10 · 2 min

SD-GRPO: Descomposición verificable de segmentos en VL larga

SD-GRPO mejora la generación de respuestas largas en modelos multimodales al descomponer segmentos verificables y asignar recompensas precisas.

2026-06-10 · 2 min

Rotate2Think: cómo la rotación ortogonal mejora el razonamiento de modelos de IA

Rotate2Think mejora el razonamiento de modelos de lenguaje con rotación ortogonal. Aumenta precisión en matemáticas, ciencia y código sin entrenamiento.

2026-06-10 · 2 min

Spatial-Omni: Comprensión de audio espacial en LLM multimodales con FOA

Descubre Spatial-Omni, método ligero que integra audio espacial FOA en LLM multimodales, mejorando localización y razonamiento espacial. Supera a modelos existentes.

2026-06-10 · 2 min

Más allá de las APIs: los límites de los MLLMs en el uso de herramientas físicas

Descubre cómo los modelos multimodales fallan al identificar y planificar el uso de herramientas físicas reales. Un nuevo benchmark revela sus limitaciones.

2026-06-10 · 1 min

Earth-OneVision: Extiende la teledetección multimodal a más sensores

Earth-OneVision unifica 6 sensores (SAR, óptico, infrarrojo) y 9 tareas en un solo modelo de 2B que supera a modelos 4B-72B. ¡Innovación en teledetección!

2026-06-10 · 2 min

Spatial-Omni: Comprensión de audio espacial en LLMs con codificación FOA

Spatial-Omni integra audio espacial en LLMs multimodales con codificación FOA. Mejora localización y razonamiento espacial. ¡Descúbrelo!

2026-06-10 · 3 min

Personalidades múltiples y cambio dinámico en modelos de visión-lenguaje

Explora cómo los modelos de visión-lenguaje componen y cambian personalidades múltiples dinámicamente, afectando el razonamiento y la descripción de imágenes.

2026-06-10 · 2 min

Personalidades múltiples en modelos de visión-lenguaje: conmutación dinámica

Modelos de visión-lenguaje con múltiples personalidades: ¿cómo afecta al rendimiento? Conoce los hallazgos sobre equilibrio y residuales.

2026-06-10 · 2 min

Pronóstico grupal Dirichlet para evitar suavizado excesivo en series temporales

El método DGF elimina el suavizado excesivo en pronósticos de series temporales, preservando cambios bruscos y modos dinámicos. Mejora precisión y consistencia.

2026-06-10 · 3 min

Pronóstico grupal Dirichlet reduce suavizado excesivo en series temporales

Descubre cómo Dirichlet-Guided Group Forecasting reduce el sobre-suavizado en series temporales, mejorando precisión y diversidad en predicciones multimodales.

2026-06-10 · 2 min

MemVenom: Envenenamiento Activado de Memorias Multimodales en Agentes Web

Conoce MemVenom: el ataque que envenena la memoria de los agentes web y amenaza la seguridad de la IA multimodal. ¡Descubre cómo protegerse!

2026-06-10 · 2 min

Clasificación multimodal de tumores cerebrales con fusión de características

Modelo de red dual fusiona imágenes MRI con características radiomicas logrando 96.13% de precisión en clasificación de tumores cerebrales. ¡Conoce detalles!

2026-06-10 · 2 min

ChartAgent: Agente multimodal para razonamiento visual en gráficos complejos

Descubre ChartAgent, un agente multimodal que razona visualmente sobre gráficos complejos sin depender de textos. Logra hasta un 16% más de precisión.

2026-06-10 · 2 min