#entrenamiento

HARVE: Edición de Vector de Recompensa para Robustez ante Hacking

Descubre HARVE, un método sin entrenamiento que edita el vector de recompensa para eliminar el reward hacking en modelos de lenguaje. Mejora robustez sin perder capacidad.

2026-06-03 · 2 min

Mitigación del Crédito Falso en RL con Rúbricas

GEAR soluciona la propagación de crédito falso en RL con rúbricas mediante agregación gráfica probabilística. Logra mejoras de hasta 15.5% en HealthBench, WritingBench y PLawBench.

2026-06-03 · 2 min

Desmitificando el paralelismo de pipelines: teoría para PipeDream

Descubre cómo PipeDream logra convergencia en entrenamiento distribuido con un nuevo análisis teórico no convexo. Comparativa con LocalSGD.

2026-06-03 · 2 min

Entrenamiento de red predictiva en ImageNet con propagación de equilibrio

Entrenamiento de red predictiva en ImageNet con propagación de equilibrio logra 13.23% error top-5, igualando casi la retropropagación.

2026-06-03 · 2 min

Speedrun de preentrenamiento de modelos tabulares

Descubre cómo el speedrun de nanoTabPFN logró un speedup de 81x en preentrenamiento de modelos tabulares. Participa y contribuye al benchmark abierto en GitHub.

2026-06-03 · 3 min

Denoise primero, ortogonaliza después: Momento en Muon como filtro espectral

Descubre cómo el momento en Muon filtra el ruido del gradiente, mejorando el entrenamiento de LLMs. Un análisis teórico con respaldo experimental.

2026-06-03 · 3 min

Skill-RM: Unificando Criterios Heterogéneos con Habilidades de Agente

Skill-RM unifica criterios heterogéneos usando habilidades de agente para optimizar LLMs en entrenamiento posterior. ¡Prueba el nuevo modelo!

2026-06-03 · 3 min

Composición LoRA multiconcepto sin entrenamiento con ponderación por prompt

Aprende a combinar LoRAs sin entrenamiento con ponderación por prompt para lograr composiciones de múltiples conceptos con alta fidelidad.

2026-06-03 · 3 min

Neuronas QIF mejoran el descenso por gradiente en redes de picos

Las neuronas QIF ofrecen paisajes de pérdida menos fragmentados y superan a las LIF en descenso por gradiente exacto. Descubre los resultados.

2026-06-03 · 2 min

R2DN: Parametrización escalable de redes recurrentes contractivas y Lipschitz

R2DN acelera entrenamiento e inferencia hasta 10 veces, manteniendo estabilidad y robustez. Ideal para control y sistemas no lineales.

2026-06-03 · 2 min

MuLoCo: Muon como optimizador interno práctico para DiLoCo

Descubre MuLoCo, el optimizador con Muon que supera a DiLoCo, permite mayores batch sizes y mejor escalabilidad en entrenamiento de modelos de lenguaje.

2026-06-03 · 2 min

ParaBlock: Aprendizaje Federado con Bloques Coordinados en Paralelo

Descubre ParaBlock: una técnica innovadora que acelera el aprendizaje federado de grandes modelos de lenguaje al paralelizar comunicación y computación, manteniendo el rendimiento.

2026-06-03 · 2 min

Algoritmo multifidelidad adaptativo para aprendizaje automático eficiente

Descubre cómo nuestro algoritmo adaptativo multifidelidad reduce hasta 30 veces los costos de generación de datos en química cuántica, mejorando la eficiencia del machine learning.

2026-06-03 · 3 min