Aprendizaje por Refuerzo de Control: Dirección Interpretable a Nivel de Token de LLMs mediante Características de Autoencoder Disperso
Control interpretable de LLMs a nivel de token mediante RL y autoencoders dispersos. Técnica avanzada para transparencia en modelos de lenguaje.