#off-policy

La elección fundamental en Reinforcement Learning: On-Policy vs Off-Policy

Descubre cómo la elección entre On-Policy y Off-Policy define la exploración, seguridad y eficiencia en el aprendizaje por refuerzo. Conoce las diferencias.

2026-06-05 · 3 min

Optimización de Política de Secuencia Suave

Descubre Soft Sequence Policy Optimization: un nuevo método off-policy que mejora la estabilidad y rendimiento en tareas de razonamiento y codificación para LLMs.

2026-06-05 · 2 min

Modelos Mundiales de Difusión Autoregresiva para Evaluar Agentes LLM

Descubre ADWM, un marco de evaluación offline que simula entornos interactivos para estimar el rendimiento de agentes LLM sin necesidad de ejecución en línea.

2026-06-05 · 2 min

Explotando similitudes en A/B testing con estimación off-policy

Descubre cómo aprovechar las similitudes entre sistemas en pruebas A/B usando estimación off-policy para obtener resultados más precisos y robustos.

2026-06-02 · 2 min

Aprendizaje off-policy: optimización > estimación en grandes acciones

Descubre por qué la optimización es clave en el aprendizaje off-policy con grandes espacios de acción, y cómo los pesos de verosimilitud simplifican el proceso.

2026-06-02 · 3 min

Zero-Shot Off-Policy: Aprendizaje sin Entrenamiento

Nueva técnica de aprendizaje off-policy con zero-shot adapta políticas óptimas sin reentrenamiento, usando sucesores y densidades estacionarias. Benchmark en ExoRL y OGBench.

2026-06-02 · 2 min

Aprendizaje Off-Policy con Zero-Shot

Aprende cómo el método Zero-Shot Off-Policy Learning permite adaptar políticas a nuevas tareas sin reentrenamiento, usando medidas sucesoras y corrección de distribución para una rápida adaptación.

2026-06-02 · 1 min

RLVR sin muestras ineficaces: POPO para razonamiento LLM

POPO elimina muestras ineficaces acelerando el fine-tuning de LLM para razonamiento matemático, planificación y geometría visual con menos rollouts.

2026-06-02 · 2 min

Convergencia de aproximaciones bi-escala markovianas en RL

Descubre cómo se demuestra la convergencia de algoritmos bi-escala bajo ruido markoviano, un avance clave para el aprendizaje por refuerzo off-policy.

2026-06-01 · 2 min

Correcciones auxiliares conscientes del comportamiento para la predicción de diferencias temporales fuera de política

2026-05-30 · 3 min

DAGs Cociente para la Evaluación Off-Policy: Muestreo por Importancia de Flujo Hacia Adelante y Propensiones Exactas de Listas

Descubre cómo la evaluación off-policy se beneficia de los DAGs cociente y el muestreo por importancia adelantado para estimaciones más precisas y eficientes.

2026-05-29 · 2 min