#gtr · DeepCodeNews

Guía local, impacto global: Región de confianza gaussiana

GTR: región de confianza Gaussiana para transiciones de comportamiento en aprendizaje por refuerzo no estacionario. Ideal para juegos, robótica y más.

2026-06-03 · 3 min

¿Cuándo debe actualizar al profesor? Acoplamiento temporal en destilación

Descubre cómo el período de aislamiento del profesor evita colapsos en destilación autónoma. Presentamos CGTR, que logra cero colapsos en múltiples tareas.

2026-06-03 · 2 min

LongTraceRL: Razón de largo contexto con recompensas de rúbrica

LongTraceRL mejora el razonamiento en contexto largo usando recompensas de rúbrica y distractores por niveles desde trayectorias de agentes de búsqueda.

2026-06-01 · 1 min