HARVE: Edición de Vector de Recompensa para Robustez ante Hacking
Descubre HARVE, un método sin entrenamiento que edita el vector de recompensa para eliminar el reward hacking en modelos de lenguaje. Mejora robustez sin perder capacidad.
Descubre HARVE, un método sin entrenamiento que edita el vector de recompensa para eliminar el reward hacking en modelos de lenguaje. Mejora robustez sin perder capacidad.
GEAR soluciona la propagación de crédito falso en RL con rúbricas mediante agregación gráfica probabilística. Logra mejoras de hasta 15.5% en HealthBench, WritingBench y PLawBench.
Descubre cómo PipeDream logra convergencia en entrenamiento distribuido con un nuevo análisis teórico no convexo. Comparativa con LocalSGD.
Entrenamiento de red predictiva en ImageNet con propagación de equilibrio logra 13.23% error top-5, igualando casi la retropropagación.
Descubre cómo el speedrun de nanoTabPFN logró un speedup de 81x en preentrenamiento de modelos tabulares. Participa y contribuye al benchmark abierto en GitHub.
Descubre cómo el momento en Muon filtra el ruido del gradiente, mejorando el entrenamiento de LLMs. Un análisis teórico con respaldo experimental.
Skill-RM unifica criterios heterogéneos usando habilidades de agente para optimizar LLMs en entrenamiento posterior. ¡Prueba el nuevo modelo!
Aprende a combinar LoRAs sin entrenamiento con ponderación por prompt para lograr composiciones de múltiples conceptos con alta fidelidad.
Las neuronas QIF ofrecen paisajes de pérdida menos fragmentados y superan a las LIF en descenso por gradiente exacto. Descubre los resultados.
R2DN acelera entrenamiento e inferencia hasta 10 veces, manteniendo estabilidad y robustez. Ideal para control y sistemas no lineales.
Descubre MuLoCo, el optimizador con Muon que supera a DiLoCo, permite mayores batch sizes y mejor escalabilidad en entrenamiento de modelos de lenguaje.
Descubre ParaBlock: una técnica innovadora que acelera el aprendizaje federado de grandes modelos de lenguaje al paralelizar comunicación y computación, manteniendo el rendimiento.
Descubre cómo nuestro algoritmo adaptativo multifidelidad reduce hasta 30 veces los costos de generación de datos en química cuántica, mejorando la eficiencia del machine learning.
Aplica protocolos de evaluación basados en pruebas de aceptación para sistemas LLM seguros, confiables y alineados con el negocio.
WRIT genera trayectorias sintéticas para entrenar agentes multi-turno con decisiones basadas en evidencia, y con solo 2K ejemplos supera a GPT-5.1.
Descubre cómo Echelon permite adaptar modelos de lenguaje entre organizaciones sin exponer datos, usando solo agregados auditables.
Descubre TypewriterLM, un modelo de lenguaje de 7.24B parámetros entrenado con textos anteriores a 1913. Supera desafíos de calidad y fuga temporal.
Potencia MLLMs con MUSE, un arnés agéntico unificado que mejora tareas complejas sin reentrenar, usando verificación y reparación guiada.
ROBUST-WT introduce cuatro mejoras clave en el entrenamiento de segmentación médica, logrando un Dice de 0.956 en disco óptico. ¡Conócelas!
Descubre cómo ASymPO optimiza el post-entrenamiento asíncrono de LLMs sin probabilidades de comportamiento, mejorando estabilidad y rendimiento.