Colapso de diversidad en RLVR: perspectiva del sobreentrenamiento
El sobreentrenamiento en RLVR mejora Pass@1 pero reduce la diversidad en Pass@k. Conoce el colapso de diversidad y la solución BBG para mantener el
El sobreentrenamiento en RLVR mejora Pass@1 pero reduce la diversidad en Pass@k. Conoce el colapso de diversidad y la solución BBG para mantener el
Descubre cómo el Vocabulary Dropout evita el colapso de diversidad en la co-evolución de LLMs, mejorando el razonamiento matemático hasta un 4.4% en benchmarks