BLISS: Método ligero de influencia bilevel para selección de datos
BLISS: método ligero para selección de datos en preentrenamiento de LLMs. Logra 1.7x de aceleración sin modelos externos.
BLISS: método ligero para selección de datos en preentrenamiento de LLMs. Logra 1.7x de aceleración sin modelos externos.
Estudio revela cómo y cuándo se forman los circuitos de atención en modelos de lenguaje 1B. Descubre que inducción y atención-sumidero están separadas por orden de magnitud en tokens.