#verificables

ThoughtFold: Plegado de Cadenas de Razonamiento con Aprendizaje Introspectivo

Descubre ThoughtFold, un framework que elimina exploraciones redundantes en modelos de razonamiento, reduciendo tokens hasta un 56% sin perder precisión.

2026-06-03 · 2 min

CAST: Autoenseñanza no privilegiada con inversión de ventaja para GRPO

CAST optimiza el RLVR con autoenseñanza no privilegiada y asignación de ventajas token en grupos de varianza cero. Mejora el razonamiento.

2026-06-02 · 2 min

Antes de que el modelo aprenda el error: fuzzing de verificadores RLVR

Descubre cómo el fuzzing de verificadores RLVR revela bugs antes de que el modelo los aprenda. Mejora la seguridad de tu IA con métricas clave.

2026-06-02 · 2 min

RLVR sin muestras ineficaces: POPO para razonamiento LLM

POPO elimina muestras ineficaces acelerando el fine-tuning de LLM para razonamiento matemático, planificación y geometría visual con menos rollouts.

2026-06-02 · 2 min

CARE-RL: Mitigando Conflictos entre Dominios con RL Consciente de Capacidades

Descubre cómo CARE-RL mitiga conflictos entre dominios en LLMs con aprendizaje por refuerzo consciente de capacidades, con resultados superiores en benchmarks.

2026-06-02 · 2 min

TRON: Entornos Verificables en Línea para Razonamiento Visual con RL

TRON genera instancias verificables bajo demanda para entrenar modelos de razonamiento visual con RL, mejorando benchmarks multimodales.

2026-06-02 · 1 min

LongTraceRL: Razón de largo contexto con recompensas de rúbrica

LongTraceRL mejora el razonamiento en contexto largo usando recompensas de rúbrica y distractores por niveles desde trayectorias de agentes de búsqueda.

2026-06-01 · 1 min

Softmax Recocido Greedy en Bandidos Bayesianos de Muchos Brazos

Softmax Recocido logra arrepentimiento casi óptimo en bandidos Bayesianos, explicando por qué GRPO funciona sin incertidumbre explícita.

2026-06-01 · 2 min

EchoRL: Aprendizaje por Refuerzo mediante Rollout Echoing

EchoRL identifica EchoClips en rollouts exitosos para proporcionar supervisión auxiliar y mejorar el aprendizaje por refuerzo en LLMs, superando la degeneración de ventajas.

2026-06-01 · 1 min