#conflicto de gradiente

Atención de rama específica por clase en desequilibrio

Descubre cómo la atención de rama reduce la interferencia de gradiente, mejorando el F1 de clases minoritarias de 0.261 a 0.522 en desequilibrio severo.

2026-06-06 · 2 min

Alineación de Gradientes Invariante para Destilación Robusta de Razonamiento

IGA alinea gradientes en ejemplos lógicamente isomorfos para destilar razonamiento robusto en LLMs, con hasta 14.3% más precisión y 4x consistencia lógica.

2026-06-04 · 3 min

MERIT: Ajuste descentralizado de instrucciones con fusión de pesos

Descubre MERIT: un método descentralizado que mejora el ajuste de instrucciones en modelos multimodales fusionando pesos sin comunicación intensiva. Resultados superiores al entrenamiento conjunto.

2026-06-02 · 2 min