#ode · DeepCodeNews

Mask-Proof: pipeline de curación de datos con LLM para pruebas matemáticas

Descubre Mask-Proof, un pipeline que evalúa el razonamiento paso a paso en pruebas matemáticas con LLM. Incluye 292 problemas para benchmarking.

2026-06-16 · 2 min

Atribución de Características en DAGs con Intervención en Aristas

Descubre DAG-SHAP: atribución en DAGs con intervención en aristas. Captura influencias externas y exógenas para mayor explicabilidad.

2026-06-16 · 2 min

Deferral Forzado: Manipulación de Decisiones de Enrutamiento en Cadenas de MLLM

El ataque de deferral forzado (FDA) manipula la confianza del modelo débil en cascadas MLLM, forzando el uso del modelo fuerte.

2026-06-16 · 2 min

S1-DeepResearch: Agentes de investigación de largo plazo más allá de la búsqueda

Descubre S1-DeepResearch, el agente de IA que supera a modelos propietarios en planificación, síntesis y generación de informes. Un nuevo paradigma open-source.

2026-06-16 · 2 min

Reward Hacking en Agentes de Lenguaje: Revisitando Gridworlds de Seguridad

Aprende cómo el reward hacking engaña a los agentes de lenguaje y por qué el RL no lo soluciona. Estudio basado en Gridworlds de seguridad.

2026-06-16 · 2 min

¿Quién derivó: el sistema o el juez? Atribución válida en evaluación de LLM

Descubre cómo distinguir si la deriva en las evaluaciones de LLM se debe al sistema o al juez automático con un método de atribución válido en todo momento.

2026-06-16 · 2 min

Modelos de Lenguaje como Optimizadores: Directo vs. con Herramientas

Descubre cómo los LLM optimizan problemas complejos: enfoques directos, con herramientas o creando algoritmos. Conoce las fronteras de rendimiento y el futuro.

2026-06-16 · 1 min

Text-to-SQL: razonamiento y generalización con ajuste fino auto-mejorado

Descubre CoTE-SQL, un nuevo método que integra razonamiento y generalización en Text-to-SQL mediante ajuste fino auto-mejorado, logrando mejores resultados en

2026-06-16 · 2 min

IA Embodied Médica para la Salud de Próxima Generación

Descubre cómo la IA incorporada integra percepción, decisión y acción para la salud del futuro. Revisión de modelos y aplicaciones clínicas.

2026-06-16 · 2 min

Superando el desajuste de impedancia: ruta para fusionar modelos y grafos

Supera el desajuste de impedancia: fusiona modelos fundacionales y grafos de conocimiento con esta hoja de ruta teórica.

2026-06-16 · 2 min

Razonamiento recurrente en puzzles simbólicos con modelos secuenciales

El nuevo benchmark RecurrReason evalúa la verdadera capacidad de razonamiento de modelos de IA en puzzles simbólicos. Descubre por qué fallan en River Crossing.

2026-06-16 · 3 min

RoboPIN: Razonamiento Incorporado con Cadena de Pensamiento Anclada

Descubre cómo RoboPIN con PinCoT mejora el razonamiento incorporado usando anclas visuales, logrando un 12% más de precisión en benchmarks.

2026-06-16 · 3 min

Heterogeneidad estructural limita la optimización en verificación de LLM

Heterogeneidad estructural en señales de incertidumbre limita optimización en verificación de LLM. Intervención simple mejora tasa de aciertos 17%.

2026-06-16 · 2 min

RetailBench: Evaluando agentes LLM en entornos minoristas

Descubre cómo RetailBench pone a prueba la toma de decisiones de agentes LLM en supermercados simulados durante 180 días.

2026-06-16 · 2 min

STRIDE: Estrategias de Trayectoria para RL Verificable

STRIDE mejora el RLVR con estimación discriminativa: asigna créditos precisos a patrones estratégicos. ¡Optimiza el razonamiento de tu IA!

2026-06-16 · 2 min

Programación agentica con LLM-as-Code para arneses de agentes

Descubre cómo la programación agentica con LLM-as-Code resuelve la explosión de tokens y alucinaciones de control, mejorando la fiabilidad de agentes de IA.

2026-06-16 · 2 min

UrbanWell: Evaluación de Modelos Multimodales para Bienestar Urbano

UrbanWell: benchmark para evaluar modelos multimodales en análisis de bienestar urbano espacio-temporal. Descubre sus resultados y rendimiento.

2026-06-16 · 2 min

Mind-Studio: Modelos de mundo ejecutables para juegos parcialmente observables

Mind-Studio crea modelos de mundo ejecutables de juegos, con 48.7% de precisión en predicción de estados, superando métodos anteriores. Perfecto para IA y

2026-06-16 · 2 min

Pensamiento Visual Fundamentado en Imágenes

Descubre cómo el pensamiento visual con grounding mejora el razonamiento de modelos de IA, vinculando pensamientos a regiones de imagen para mayor precisión.

2026-06-16 · 2 min

VibeThinker-3B: Razonamiento verificable en modelos pequeños

VibeThinker-3B demuestra que modelos pequeños pueden alcanzar rendimiento de vanguardia en razonamiento verificable, superando a sistemas mucho mayores.

2026-06-16 · 2 min