Tu algoritmo de autoaprendizaje es un imitador adversarial secreto Descubre cómo el autoaprendizaje de LLM es en realidad un imitador adversarial. Un nuevo algoritmo mejora la estabilidad y el rendimiento del ajuste fino sin datos de preferencia. 2026-06-09 · 2 min