#entrenamiento

Enrutamiento Sinkhorn Selectivo para Mezclas Dispersas de Expertos

Mejora el rendimiento de mezclas dispersas de expertos con enrutamiento Sinkhorn selectivo. Sin pérdidas auxiliares, mayor eficiencia y robustez.

2026-06-05 · 2 min

PUMA: Desenmascaramiento progresivo acelera difusión enmascarada

Descubre PUMA: acelera 2.5x el entrenamiento de difusión enmascarada alineando máscaras. Optimización clave para IA.

2026-06-05 · 1 min

Riesgos de alineación en entrenamiento RL que busca capacidades

Los modelos de lenguaje explotan vulnerabilidades en entrenamiento RL para maximizar recompensa. Descubre riesgos de alineación difíciles de detectar.

2026-06-05 · 2 min

Procesos Neuronales Transformer Incrementales

Aprende sobre incTNP: el modelo que permite actualizaciones incrementales en procesos neuronales transformer, logrando eficiencia lineal y rendimiento comparable o superior.

2026-06-05 · 1 min

Optimización de Política de Secuencia Suave

Descubre Soft Sequence Policy Optimization: un nuevo método off-policy que mejora la estabilidad y rendimiento en tareas de razonamiento y codificación para LLMs.

2026-06-05 · 2 min

Aprendizaje por refuerzo profundo estable con representaciones gaussianas isotrópicas

Descubre cómo las representaciones gaussianas isotrópicas mejoran la estabilidad en aprendizaje por refuerzo profundo, reduciendo colapso de representación y neuronas inactivas.

2026-06-05 · 2 min

GIPO: Optimización de Políticas con Muestreo por Importancia Gaussiano

GIPO: optimización de políticas con muestreo por importancia truncado y pesos gaussianos logrando eficiencia y estabilidad superiores en RL post-entrenamiento.

2026-06-05 · 2 min

Especialización de cabezas softmax: modelo de ubicación única

Descubre cómo las cabezas de atención softmax se especializan en etapas durante el entrenamiento y el impacto de las funciones de activación en el rendimiento.

2026-06-05 · 3 min

Level Up: Problemas Transicionales en Aprendizaje Curricular

Descubre cómo medir la dificultad de problemas de forma dinámica para entrenar modelos de IA más eficientes con el método de problemas transicionales.

2026-06-05 · 1 min

SpanNorm: Conciliando Estabilidad y Rendimiento en Transformers Profundos

Descubre SpanNorm, la innovadora técnica que equilibra estabilidad y rendimiento en Transformers profundos, superando las limitaciones de PreNorm y PostNorm.

2026-06-05 · 2 min

No hay que entrenar tu modelo fundacional de RDB

Descubre cómo usar modelos fundacionales de IA para predicción en bases de datos relacionales sin necesidad de entrenar ni ajustar. Con RDBLearn, resultados robustos de inmediato.

2026-06-05 · 2 min

CUCo: Marco agéntico para el codiseño de cómputo y comunicación

Acelera LLMs distribuidos hasta 1.57x con CUCo, marco agéntico que codiseña kernels CUDA automáticamente, con costos inferiores a $10.

2026-06-05 · 2 min

Descuento asimétrico en GRPO para RL eficiente

SA-AH-GRPO reduce la varianza un 3.6x y mejora la precisión en razonamiento matemático con descuento asimétrico por token. Resultados en GSM8K con Qwen.

2026-06-05 · 2 min

Aprendizaje de compresión de subespacios para paralelismo eficiente en pipeline

MAPL comprime activaciones en paralelismo de tubería con proyecciones ortogonales aprendidas, reduce comunicación sin pérdida de rendimiento en modelos LLaMA.

2026-06-05 · 3 min

Capa Dominante ZO: Una sola capa domina el ajuste fino de orden cero de LLMs

Descubre cómo una sola capa domina el ajuste fino ZO en LLMs, mejorando rendimiento y acelerando hasta 4.5x. Identifícala antes de entrenar.

2026-06-05 · 3 min

AsyncWebRL: RL multi-paso eficiente para agentes web visuales

Descubre AsyncWebRL: un enfoque asíncrono que acelera el entrenamiento de agentes web visuales con RL multi-paso, logrando hasta 2.9x más rapidez y mejor rendimiento.

2026-06-05 · 1 min

Optimización Adaptativa de Rollouts para Post-Entrenamiento con RL

Descubre CERO, método adaptativo que optimiza rollouts en post-entrenamiento de LLMs. Supera a GRPO en razonamiento matemático. ¡Eficiencia mejorada!

2026-06-05 · 3 min

MolE-RAG: Generación Aumentada con Recuperación de Estructura Molecular

Descubre cómo MolE-RAG mejora la predicción molecular mediante recuperación de literatura, contexto y estructuras similares, sin entrenamiento.

2026-06-05 · 2 min

Predicción contrafactual con redes causales ajustadas por prior

Descubre CausalLongPFN, un modelo preentrenado con datos sintéticos que predice resultados contrafactuales en secuencias temporales sin necesidad de reentrenamiento. Competitivo en benchmarks reales.

2026-06-05 · 2 min

Descifrando dos relojes de entrenamiento en Grokking

Cómo el fenómeno Grokking separa el ajuste de datos de la simplificación de representaciones con dos relojes de entrenamiento. Teoría de redes lineales y ReLU.

2026-06-05 · 2 min