GPO: Aprendizaje de pasos críticos para mejorar razonamiento LLM
GPO identifica pasos críticos en el razonamiento de LLMs y optimiza el aprendizaje. Mejora el rendimiento con esta estrategia de fine-tuning.
GPO identifica pasos críticos en el razonamiento de LLMs y optimiza el aprendizaje. Mejora el rendimiento con esta estrategia de fine-tuning.
Descubre cómo sGPO reduce a un tercio el costo de entrenamiento de RLVR intercambiando FLOPs de inferencia por eficiencia, sin perder rendimiento.
ECPO calibra el crédito de acciones intermedias en agentes LLM, mejorando el rendimiento en ALFWorld y WebShop hasta un 7% con solo 0.1% de sobrecarga.
SIRI: método RL que auto-internaliza habilidades en agentes LLM, mejorando rendimiento sin almacenes externos. Supera en ALFWorld y WebShop.