#ode · DeepCodeNews

Pensamiento Visual Fundamentado en Imágenes

Descubre cómo el pensamiento visual con grounding mejora el razonamiento de modelos de IA, vinculando pensamientos a regiones de imagen para mayor precisión.

2026-06-16 · 2 min

VibeThinker-3B: Razonamiento verificable en modelos pequeños

VibeThinker-3B demuestra que modelos pequeños pueden alcanzar rendimiento de vanguardia en razonamiento verificable, superando a sistemas mucho mayores.

2026-06-16 · 2 min

Paradoja calidad-utilidad: alta recompensa daña razonamiento en modelos pequeños

Descubre por qué los datos de alta recompensa dañan el razonamiento matemático en modelos pequeños y cómo la alineación de estilo mejora la destilación.

2026-06-16 · 1 min

TimeVista: Modelos de lenguaje visual como jueces en series temporales

TimeVista utiliza VLM como jueces para evaluar pronósticos de series temporales, logrando una alineación humana superior a métricas tradicionales.

2026-06-16 · 3 min

Aprendizaje de representaciones condicionado por sensores con cocientes de observación relevantes

¿Cómo saber si las representaciones de un sensor son correctas? Descubre el método OQ-TSAE que preserva distinciones de escena y suprime variaciones molestas.

2026-06-16 · 2 min

Flujo de Pensamiento Latente: Razonamiento Eficiente en LLMs

Descubre cómo Latent Thought Flow mejora la precisión un 9.5% y reduce el tiempo de razonamiento un 27.2% en modelos de lenguaje grandes. Nuevo método de

2026-06-16 · 2 min

SpecAlign: Alineación eficiente de LLMs con especificaciones mediante datos sintéticos

Descubre cómo SpecAlign utiliza datos sintéticos para alinear modelos de lenguaje con especificaciones detalladas, mejorando el cumplimiento de reglas sin

2026-06-16 · 1 min

AdaSTORM: Razonamiento de LLM en grafos dinámicos con colaboración multiagente

AdaSTORM escala el razonamiento de LLM en grafos dinámicos a miles de nodos con más del 90% de precisión, superando límites de contexto y coste.

2026-06-16 · 3 min

¿Qué hotel recomienda la IA? Auditoría de señales en selección hotelera

Auditoría algorítmica revela cómo los LLM recomiendan hoteles: precio y calificación mandan, pero el orden de lista influye como si costara 12€/noche.

2026-06-16 · 2 min

Posterior Twins: Simulación distribucional para decisiones empresariales

Conoce Posterior Twins simula distribuciones de comportamiento empresarial para decisiones estratégicas. Resultados con precisión modal y distancia Wasserstein.

2026-06-16 · 3 min

Posterior Twins: Simulación distribucional de conducta empresarial

Los Posterior Twins simulan conducta empresarial con fidelidad distribucional. Resultados de benchmark: precisión modal y distancia Wasserstein.

2026-06-16 · 3 min

Fusión post-hoc insuficiente: Fusión many-shot con equilibrio de pérdida

METIS: fusión many-shot con equilibrio de pérdida para superar interferencia entre tareas y evitar borrado de información. Mejora la peor tarea.

2026-06-16 · 1 min

Fusión post-hoc insuficiente: Fusión multi-tiro con equilibrio de pérdida

Descubre cómo METIS supera la fusión post-hoc de modelos de lenguaje, evitando la interferencia entre tareas y mejorando el rendimiento multi-tarea. Aprende

2026-06-16 · 1 min

Aprendizaje Inductivo de Grafos de Modelo para Completar Grafos de Conocimiento

MGIL aplica aprendizaje inductivo en grafos de modelo para mejorar la predicción de enlaces, logrando representaciones globales precisas.

2026-06-16 · 2 min

MGIL: Aprendizaje Inductivo de Grafos de Modelo para Completar KG

Descubre MGIL: aprendizaje inductivo global para completar grafos de conocimiento con predicción de enlaces de vanguardia.

2026-06-16 · 2 min

Kairos: Un Stack Nativo de Modelos del Mundo para IA Física

Descubre Kairos, el stack nativo de modelos del mundo para IA física. Aprende de datos heterogéneos, mantiene estados persistentes y ejecuta en hardware real

2026-06-16 · 3 min

TNODEV: Caja de herramientas para verificación de EDO neuronales

TNODEV verifica formalmente EDO neuronales combinando falsificación, alcance y refinamiento iterativo para sistemas críticos.

2026-06-16 · 1 min

ARB4WM: Benchmark adversarial para modelos del mundo en control continuo

Evalúa la robustez adversarial de tus modelos del mundo con ARB4WM. Este benchmark unificado revela vulnerabilidades en control continuo y cómo defenderte.

2026-06-16 · 3 min

CoffeeBench: Benchmark para Agentes LLM de Largo Plazo en Economías Multiagente

CoffeeBench: ¿Pueden los agentes LLM gestionar una empresa de café por 90 días? Este benchmark revela diferencias clave entre modelos. ¡Descubre los resultados!

2026-06-16 · 3 min

Modelos mundiales médicos: estados, dinámicas e intervenciones

Descubre cómo los modelos mundiales médicos simulan la evolución de enfermedades y guían intervenciones clínicas personalizadas. Una revisión de la IA en salud.

2026-06-16 · 4 min