#relar

Aprendiendo a Refinar Estados Ocultos para Razonamiento Fiable en LLM

ReLAR refina estados ocultos con aprendizaje por refuerzo, mejorando precisión y estabilidad en razonamiento LLM con menor costo.