#gpo · DeepCodeNews

GPO: Aprendizaje de pasos críticos para mejorar razonamiento LLM

GPO identifica pasos críticos en el razonamiento de LLMs y optimiza el aprendizaje. Mejora el rendimiento con esta estrategia de fine-tuning.

2026-06-11 · 3 min

sGPO: Intercambio de FLOPs de inferencia por entrenamiento eficiente en RLVR

Descubre cómo sGPO reduce a un tercio el costo de entrenamiento de RLVR intercambiando FLOPs de inferencia por eficiencia, sin perder rendimiento.

2026-06-09 · 2 min

Crédito denso insuficiente: Optimización calibrada por evidencia para agentes LLM

ECPO calibra el crédito de acciones intermedias en agentes LLM, mejorando el rendimiento en ALFWorld y WebShop hasta un 7% con solo 0.1% de sobrecarga.

2026-06-05 · 2 min

SIRI: Auto-internalización de habilidades con RL para agentes LLM

SIRI: método RL que auto-internaliza habilidades en agentes LLM, mejorando rendimiento sin almacenes externos. Supera en ALFWorld y WebShop.

2026-06-02 · 2 min