#multi-turno

InfoPO: Optimización de Políticas para Agentes Centrados en el Usuario

Descubre cómo InfoPO optimiza agentes centrados en el usuario mediante ganancia de información, superando a RL tradicional en clarificación y toma de decisiones

2026-06-18 · 2 min

Destilación on-policy con guía curricular por turnos para agentes multi-turno

Descubre cómo Guided-OPD mejora la destilación on-policy con guía curricular por turnos, logrando un 21% más de puntuación y 25% más de éxito en agentes

2026-06-16 · 1 min

AGENTSERVESIM: Simulador consciente del hardware para agentes LLM multi-turno

Descubre AGENTSERVESIM, un simulador de hardware que evalúa políticas de servicio para agentes LLM multi-turno con <6% de error, en CPU.

2026-06-16 · 2 min

HERO: Reflexión retrospectiva para auto-destilación de agentes

Descubre HERO, un marco de auto-destilación que mejora el éxito de tareas y reduce pasos innecesarios en agentes de IA, incluso con pocos datos de entrenamiento.

2026-06-11 · 2 min

ISE: Receta basada en ejecución para trayectorias multi-turn de agentes OS

Aprende cómo ISE sintetiza trayectorias multi-turno y mejora agentes OS alcanzando un 37.7% en ClawEval, superando a GPT-4o.

2026-06-11 · 2 min

ISE: Receta de trayectorias multi-turno para agentes OS

ISE genera trayectorias multi-turno con ejecución real, mejorando agentes OS en un 95% en ClawEval con Qwen3-8B. ¡Descúbrelo!

2026-06-11 · 2 min

Compresión Incremental Guiada por Contexto para Diálogos Multi-Turno

Descubre C-DIC, un método de compresión incremental que reduce costos computacionales en diálogos largos sin perder fidelidad. Ideal para asistentes conversacionales.

2026-06-11 · 4 min

TRACE: Marco de asignación de rollout para RL agente eficiente

Descubre cómo TRACE asigna presupuesto de rollout a nodos prometedores en RL agente multi-turno, mejorando contraste de recompensas y rendimiento.

2026-06-10 · 2 min

Puntos ciegos del LLM como juez en agentes transaccionales multi-turno

Los LLM como jueces fallan: solo detectan el 22% de los defectos. Conoce los puntos ciegos y cómo afectan a agentes transaccionales multi-turno.

2026-06-10 · 2 min

PLAGUE: Marco plug-and-play para jailbreaking multi-turno

Descubre PLAGUE, marco plug-and-play que logra jailbreak en GPT-4 y Claude con más del 80% de éxito. Ideal para red teaming y evaluación de seguridad.

2026-06-09 · 1 min

Evaluación multi-turno de agentes con retroalimentación a nivel de proceso

Analizamos la mejora de agentes de investigación profunda con retroalimentación de proceso. Resultados: ganancias del 8-15% en puntuación, pero sin acumulación. ¡Entra!

2026-06-09 · 3 min

Modelo de persuasión humana multi-turno con trazado de creencias

Descubre cómo PERSUASIONTRACE modela la persuasión humana en diálogos multi-turno con IA, evaluando dinámicas de creencias y fidelidad de simulaciones.

2026-06-06 · 2 min

PoliticsBench: Evaluación de valores políticos en modelos de lenguaje

Descubre PoliticsBench, un benchmark que evalúa valores políticos en modelos de lenguaje mediante roleplay interactivo. ¿Qué sesgos revela?

2026-06-04 · 1 min