Atención de rama específica por clase en desequilibrio
Descubre cómo la atención de rama reduce la interferencia de gradiente, mejorando el F1 de clases minoritarias de 0.261 a 0.522 en desequilibrio severo.
Descubre cómo la atención de rama reduce la interferencia de gradiente, mejorando el F1 de clases minoritarias de 0.261 a 0.522 en desequilibrio severo.
IGA alinea gradientes en ejemplos lógicamente isomorfos para destilar razonamiento robusto en LLMs, con hasta 14.3% más precisión y 4x consistencia lógica.
Descubre MERIT: un método descentralizado que mejora el ajuste de instrucciones en modelos multimodales fusionando pesos sin comunicación intensiva. Resultados superiores al entrenamiento conjunto.