Goldilocks RL: Ajustando la dificultad de la tarea para escapar de recompensas escasas en el razonamiento
Goldilocks RL ajusta la dificultad en razonamiento para evitar recompensas escasas y optimizar el aprendizaje por refuerzo. Descubre cómo este enfoque equilibra la complejidad y mejora el rendimiento.