#delos

Reward Hacking en Agentes de Lenguaje: Revisitando Gridworlds de Seguridad

Aprende cómo el reward hacking engaña a los agentes de lenguaje y por qué el RL no lo soluciona. Estudio basado en Gridworlds de seguridad.

2026-06-16 · 2 min

Modelos de Lenguaje como Optimizadores: Directo vs. con Herramientas

Descubre cómo los LLM optimizan problemas complejos: enfoques directos, con herramientas o creando algoritmos. Conoce las fronteras de rendimiento y el futuro.

2026-06-16 · 1 min

Text-to-SQL: razonamiento y generalización con ajuste fino auto-mejorado

Descubre CoTE-SQL, un nuevo método que integra razonamiento y generalización en Text-to-SQL mediante ajuste fino auto-mejorado, logrando mejores resultados en

2026-06-16 · 2 min

IA Embodied Médica para la Salud de Próxima Generación

Descubre cómo la IA incorporada integra percepción, decisión y acción para la salud del futuro. Revisión de modelos y aplicaciones clínicas.

2026-06-16 · 2 min

Superando el desajuste de impedancia: ruta para fusionar modelos y grafos

Supera el desajuste de impedancia: fusiona modelos fundacionales y grafos de conocimiento con esta hoja de ruta teórica.

2026-06-16 · 2 min

Razonamiento recurrente en puzzles simbólicos con modelos secuenciales

El nuevo benchmark RecurrReason evalúa la verdadera capacidad de razonamiento de modelos de IA en puzzles simbólicos. Descubre por qué fallan en River Crossing.

2026-06-16 · 3 min

RoboPIN: Razonamiento Incorporado con Cadena de Pensamiento Anclada

Descubre cómo RoboPIN con PinCoT mejora el razonamiento incorporado usando anclas visuales, logrando un 12% más de precisión en benchmarks.

2026-06-16 · 3 min

Heterogeneidad estructural limita la optimización en verificación de LLM

Heterogeneidad estructural en señales de incertidumbre limita optimización en verificación de LLM. Intervención simple mejora tasa de aciertos 17%.

2026-06-16 · 2 min

RetailBench: Evaluando agentes LLM en entornos minoristas

Descubre cómo RetailBench pone a prueba la toma de decisiones de agentes LLM en supermercados simulados durante 180 días.

2026-06-16 · 2 min

STRIDE: Estrategias de Trayectoria para RL Verificable

STRIDE mejora el RLVR con estimación discriminativa: asigna créditos precisos a patrones estratégicos. ¡Optimiza el razonamiento de tu IA!

2026-06-16 · 2 min

UrbanWell: Evaluación de Modelos Multimodales para Bienestar Urbano

UrbanWell: benchmark para evaluar modelos multimodales en análisis de bienestar urbano espacio-temporal. Descubre sus resultados y rendimiento.

2026-06-16 · 2 min

Mind-Studio: Modelos de mundo ejecutables para juegos parcialmente observables

Mind-Studio crea modelos de mundo ejecutables de juegos, con 48.7% de precisión en predicción de estados, superando métodos anteriores. Perfecto para IA y

2026-06-16 · 2 min

Pensamiento Visual Fundamentado en Imágenes

Descubre cómo el pensamiento visual con grounding mejora el razonamiento de modelos de IA, vinculando pensamientos a regiones de imagen para mayor precisión.

2026-06-16 · 2 min

Paradoja calidad-utilidad: alta recompensa daña razonamiento en modelos pequeños

Descubre por qué los datos de alta recompensa dañan el razonamiento matemático en modelos pequeños y cómo la alineación de estilo mejora la destilación.

2026-06-16 · 1 min

TimeVista: Modelos de lenguaje visual como jueces en series temporales

TimeVista utiliza VLM como jueces para evaluar pronósticos de series temporales, logrando una alineación humana superior a métricas tradicionales.

2026-06-16 · 3 min

Flujo de Pensamiento Latente: Razonamiento Eficiente en LLMs

Descubre cómo Latent Thought Flow mejora la precisión un 9.5% y reduce el tiempo de razonamiento un 27.2% en modelos de lenguaje grandes. Nuevo método de

2026-06-16 · 2 min

SpecAlign: Alineación eficiente de LLMs con especificaciones mediante datos sintéticos

Descubre cómo SpecAlign utiliza datos sintéticos para alinear modelos de lenguaje con especificaciones detalladas, mejorando el cumplimiento de reglas sin

2026-06-16 · 1 min

AdaSTORM: Razonamiento de LLM en grafos dinámicos con colaboración multiagente

AdaSTORM escala el razonamiento de LLM en grafos dinámicos a miles de nodos con más del 90% de precisión, superando límites de contexto y coste.

2026-06-16 · 3 min

¿Qué hotel recomienda la IA? Auditoría de señales en selección hotelera

Auditoría algorítmica revela cómo los LLM recomiendan hoteles: precio y calificación mandan, pero el orden de lista influye como si costara 12€/noche.

2026-06-16 · 2 min

Fusión post-hoc insuficiente: Fusión many-shot con equilibrio de pérdida

METIS: fusión many-shot con equilibrio de pérdida para superar interferencia entre tareas y evitar borrado de información. Mejora la peor tarea.

2026-06-16 · 1 min