#entrenamiento

Repensando la granularidad: compresión de LLM con SubFit

SubFit comprime LLMs a nivel de submódulos con selección no contigua. Mejora el equilibrio precisión-perplejidad, acelera inferencia y ahorra memoria KV-cache. ¡Más eficiente!

2026-06-02 · 1 min

Presupuesto mínimo de parámetros para razonamiento implícito: ley de escalado

Aprende cómo la complejidad de los datos define el presupuesto mínimo de parámetros para el razonamiento implícito en modelos de lenguaje.

2026-06-02 · 3 min

EMoE: desacuerdo de expertos sin entrenamiento para difusión texto-imagen

Predice la calidad de tus prompts con EMoE: incertidumbre sin entrenamiento en difusión texto-imagen.

2026-06-02 · 2 min

Clonación conductual desacoplada para generalización inductiva en RL

DIBS: clonación conductual desacoplada para generalización inductiva escalable en RL con entrenamiento estable y rendimiento zero-shot.

2026-06-02 · 2 min

Ryze: Síntesis de datos enriquecida con evidencia de papers biomédicos

Descubre Ryze, un sistema que automatiza la creación de datasets enriquecidos con evidencia visual a partir de papers biomédicos, superando a GPT-5.

2026-06-02 · 2 min

HomeFlow: Un volante de datos para entrenar agentes de hogar inteligente

Descubre HomeFlow, un innovador sistema que utiliza un volante de datos verificable para entrenar agentes de hogar inteligente, superando incluso a GPT-5.5 en tareas domésticas.

2026-06-02 · 2 min

ANDES: Síntesis Evolutiva de Datos para Agentes Autónomos

Descubre cómo ANDES, una herramienta de síntesis evolutiva de datos, permite a agentes IA alinear instrucciones de forma autónoma y mejorar el rendimiento en post-entrenamiento.

2026-06-02 · 2 min

Efectividad y eficiencia del tool-calling en agentes con RL

Descubre cómo medir la efectividad del tool-calling en agentes LLM y cómo optimizar el entrenamiento RL para mayor eficiencia. Aprende técnicas de aceleración sin perder rendimiento.

2026-06-02 · 2 min

BudgetDraft: Entrenamiento Multi-Vista para Decodificación Especulativa Dispersa

Descubre BudgetDraft: entrenamiento multi-vista acelera decodificación especulativa con KV disperso hasta 6.55x en contextos de 4K a 16K, optimizando memoria.

2026-06-02 · 2 min

DART: Entrenamiento en tiempo de prueba para reranking denso sin recursos

Descubre cómo DART adapta el modelo en tiempo de prueba para mejorar el reranking sin datos etiquetados, logrando +2.1% en NDCG@10 con mínima latencia.

2026-06-02 · 3 min

ThinkSwitch: destilación con LoRA para razonamiento específico

ThinkSwitch combina destilación de contexto con LoRA e interpolación de pesos para mejorar modelos de lenguaje en razonamiento, reduciendo costos y latencia sin sacrificar precisión.

2026-06-02 · 3 min

HASTE: Entrenamiento Disperso Dinámico para Grandes Espacios de Salida

Con HASTE, el entrenamiento disperso dinámico consciente del hardware logra hasta 25x de aceleración en backpropagation para clasificación multi-etiqueta extrema.

2026-06-02 · 2 min

Cuando datos escasean: escalando modelos dispersos con entrenamiento repetido

Optimiza el escalado de modelos dispersos con datos limitados. Descubre leyes de escalado, saturación retardada y compensaciones clave.

2026-06-02 · 1 min

SkillAdaptor: Habilidades auto-adaptables para agentes LLM

Descubre SkillAdaptor, un marco sin entrenamiento que adapta habilidades de agentes LLM paso a paso, mejorando éxito en WebShop, PinchBench y Claw-Eval.

2026-06-02 · 2 min

Repensando los paradigmas de evaluación en entrenamiento certificado IBP

Descubre cómo las fronteras de Pareto y la optimización automatizada revelan rendimientos superiores en entrenamiento certificado.

2026-06-02 · 2 min

Control de grupo adaptativo para RL síncrono on-policy más rápido

Descubre cómo el control de grupo adaptativo reduce los retrasos por rezagados en RL síncrono, acelerando el entrenamiento y mejorando el rendimiento en benchmarks.

2026-06-02 · 2 min

Límites de la reducción de tokens en entrenamiento visión-lenguaje unificado

¿Cómo acelerar el entrenamiento VLM sin perder sinergia? Descubre la asimetría en atención y los límites de la reducción de tokens. Estrategias clave.

2026-06-02 · 3 min

AlphaToken: Valoración de Tokens para Post-Entrenamiento de LLMs

AlphaToken mejora el post-entrenamiento de LLMs al valorar tokens, evitando el olvido catastrófico y enfocando el aprendizaje en tokens valiosos.

2026-06-02 · 1 min

Alternativa sin entrenamiento: LLMs puntúan procesos matemáticos

Descubre cómo LLMs listos para usar mejoran el razonamiento matemático sin entrenamiento, superando la votación mayoritaria hasta 28%.

2026-06-02 · 1 min

THRD: Defensa sin entrenamiento para ataques multi-turno en LLMs

Descubre THRD, el primer marco sin entrenamiento que detecta ataques multi-turno en LLMs analizando riesgo acumulativo. Reduce éxito de ataques a menos del 4%.

2026-06-02 · 2 min