#imo · DeepCodeNews

Pruebas secuenciales asintóticamente óptimas con datos markovianos

Descubre un método asintóticamente óptimo para pruebas secuenciales en cadenas de Markov. Mejora límites inferiores y aplicaciones en MCMC y MDPs.

2026-06-03 · 2 min

Mínimos locales en redes ReLU de dos capas: un análisis preciso

Descubre cómo se caracterizan los mínimos locales en redes ReLU de dos capas y cómo la sobreparametrización facilita el acceso a mínimos globales.

2026-06-03 · 3 min

Benchmark de inferencia sin verosimilitud: redes neuronales y transporte óptimo

¿Cuál es el mejor método de inferencia sin verosimilitud? Comparamos redes neuronales y transporte óptimo en datos extremos y discretos.

2026-06-03 · 2 min

Acoplamientos en difusiones de Langevin cinéticas

Nuevos acoplamientos no markovianos revelan cotas exactas de convergencia para difusiones de Langevin cinéticas, superando limitaciones previas en muestreo.

2026-06-03 · 2 min

Tu MVP probablemente es demasiado grande

Descubre por qué tu MVP probablemente es demasiado grande y cómo recortar funciones para validar tu idea más rápido. Aprende a evitar sobreconstruir.

2026-06-03 · 4 min

Vectores funcionales multimodales para relaciones visuales

Descubre cómo los vectores de función multimodal permiten extraer y optimizar relaciones visuales en modelos de IA, mejorando el razonamiento sin necesidad de reentrenar.

2026-06-03 · 1 min

PolarMem: Memoria latente polarizada sin entrenamiento para VLMs verificables

PolarMem: sistema de memoria gráfica polarizada sin entrenamiento que verifica y reduce contradicciones en modelos de visión-lenguaje para un razonamiento multimodal confiable.

2026-06-03 · 2 min

FeynmanBench: El reto de los LLMs multimodales con diagramas de Feynman

FeynmanBench: 2000+ diagramas evalúan 19 LLMs. 70-95% en reconocimiento local, pero 13-17% en topología. Descubre las limitaciones.

2026-06-03 · 2 min

UI-in-the-Loop: el paradigma que une pantalla y acción en GUIs

Descubre UI-in-the-Loop (UILoop), nuevo paradigma que permite razonar sobre GUIs de forma interpretable, mejorando comprensión y acción.

2026-06-03 · 2 min

Revisión y evaluación de avances en inteligencia 3D multimodal

Descubre los últimos avances y métodos en inteligencia 3D multimodal. Revisión exhaustiva de benchmarks y desafíos clave para la conducción autónoma y simulación.

2026-06-03 · 2 min

Qwen3.7-Plus de Alibaba: multimodal a bajo costo, pero propietario

Nuevo modelo multimodal de Alibaba, Qwen3.7-Plus, a bajo costo pero propietario. Analizamos su rendimiento, precios y licencia.

2026-06-03 · 3 min

Encuesta sobre Reconstrucción 3D con Cámaras de Eventos

Descubre cómo las cámaras de eventos permiten la reconstrucción 3D en condiciones extremas. Encuesta completa de técnicas, datasets y desafíos.

2026-06-02 · 2 min

v-HUB: benchmark de humor en video con visión y sonido

Descubre v-HUB, el nuevo benchmark para evaluar cómo los modelos multimodales entienden el humor en videos. ¿Puede la IA captar la comedia visual y sonora?

2026-06-02 · 2 min

CARES: Selector de Resolución Consciente del Contexto para VLMs

CARES es un módulo ligero que selecciona la resolución mínima para VLMs, reduciendo el cómputo hasta un 80% sin perder precisión. Optimiza tus modelos.

2026-06-02 · 1 min

Efectos de los distractores en modelos de razonamiento visual-lingüístico

Los distractores visuales afectan a los modelos visión-lenguaje de forma distinta a los textuales: reducen precisión sin alargar el razonamiento. Aprende a mitigarlos.

2026-06-02 · 2 min

R3-CoVR: marco zero-shot de razonamiento para videos compuestos

Descubre R3-CoVR, un marco zero-shot sin entrenamiento que alcanza 91.9% R@1 en recuperación de videos compuestos mediante razonamiento multimodal y reordenamiento.

2026-06-02 · 2 min

Algoritmo óptimo para bandits contextuales lineales con actualizaciones escasas

Descubre un algoritmo práctico y óptimo para bandits contextuales lineales con O(log log T) actualizaciones. Máximo rendimiento con mínima complejidad.

2026-06-02 · 2 min

Alineación de características determina estrategia de fusión multimodal

La alineación de características, no el tamaño de datos, determina la fusión: cross-attention vs concatenación. Estudio con CLIP y ResNet.

2026-06-02 · 2 min

PaCX-MAE: Fusión de rayos X y fisiología en IA médica

PaCX-MAE mejora el diagnóstico de rayos X integrando datos fisiológicos (ECG, laboratorio) sin requerirlos en inferencia. Logra +2.7 AUROC y +6.5 F1 con solo 1% de datos.

2026-06-02 · 2 min

Traducción consciente de densidad de correlaciones espurias en VLMs

Descubre cómo DAT corrige correlaciones espurias en VLMs zero-shot usando densidad local para mejorar precisión sin ajuste fino.

2026-06-02 · 1 min