LearnAlign: Selección de datos para el aprendizaje por refuerzo de LLM con alineación de gradiente mejorada <meta content=LearnAlign mejora la alineación de gradiente para seleccionar datos en RL de LLMs, optimizando el entrenamiento.> 2026-04-28 · 2 min