#entrenamiento

Funciones de Confianza: Generalización Débil a Fuerte sin Pérdidas

Aprende cómo las funciones de confianza filtran etiquetas débiles para lograr generalización casi sin pérdidas. Mejora tu IA.

2026-06-02 · 3 min

TrOPD: Destilación On-Policy con Región de Confianza

TrOPD estabiliza la destilación on-policy de LLMs usando regiones de confianza, superando la divergencia profesor-alumno. Mejora razonamiento, código y benchmarks.

2026-06-02 · 2 min

Destilación On-Policy en Región de Confianza

TrOPD estabiliza la destilación on-policy en LLMs con regiones de confianza. Supera a OPD, EOPD y REOPOLD en razonamiento y código. ¡Descubre cómo!

2026-06-02 · 2 min

FSA: De características a dinámicas en predicción zero-shot de series temporales

Descubre FSA: método que transforma características en dinámicas para predecir series temporales nunca vistas, superando a Transformers con menos datos.

2026-06-02 · 2 min

GPTQ-intrinsic LoRA: Cuantización de baja precisión con adaptación de bajo rango

GPTQ-intrinsic LoRA: mejora la cuantización de baja precisión con corrección de bajo rango. Algoritmo casi óptimo para modelos grandes.

2026-06-02 · 2 min

GPTQ-intrinsic LoRA: algoritmo cuasióptimo para cuantización y adaptación de bajo rango

GPTQ-intrinsic LoRA combina cuantización de baja precisión y adaptación de bajo rango para comprimir redes neuronales. Algoritmo sin entrenamiento mejora modelos como Qwen3 y DeiT.

2026-06-02 · 2 min

OmniOPD: Destilación On-Policy sin Logits con Verificación Especulativa

Descubre OmniOPD: destilación on-policy sin logits que mejora matemáticas +28% y supera a modelos propietarios.

2026-06-02 · 3 min

CRePE: Poda post-entrenamiento con importancia relativa convolucional

Descubre CRePE, método de poda post-entrenamiento para LLMs que reduce costos sin perder precisión, y PHO que acelera la búsqueda de hiperparámetros.

2026-06-02 · 2 min

Marco teórico para autoaprendizaje en demostración de teoremas

Descubre el marco teórico para algoritmos de auto-play que logran crecimiento exponencial de teoremas probados, con mejora de diversidad usando similitud de difusión.

2026-06-02 · 2 min

SceneSmith: generación de escenas interiores realistas para simulación con IA

SceneSmith: genera escenas interiores realistas con IA para simulación robótica. Hasta 6x más objetos, <2% colisiones, 96% estables.

2026-06-02 · 2 min

Aprende tokenización de extremo a extremo con aprendizaje por refuerzo

Descubre cómo usar aprendizaje por refuerzo para aprender tokenización end-to-end, mejorando el rendimiento de modelos de lenguaje a gran escala.

2026-06-02 · 2 min

Picos masivos en LLMs: vectores de sesgo y cuantización sin picos

Descubre cómo los picos masivos en LLMs son vectores de sesgo y cómo la cuantización sin picos revoluciona la eficiencia de los modelos de IA. ¡Optimiza tu AI!

2026-06-02 · 2 min

Interferencia y recuperación entre dominios en RL mediante teoría de perturbación local

Descubre cómo la teoría de perturbación local explica la interferencia entre dominios en RL multi-dominio y cómo un breve refresco recupera el rendimiento sin dañar otros.

2026-06-02 · 2 min

LookWise: Saber cuándo y dónde mirar en modelos multimodales

LookWise mejora el razonamiento visual detallado en modelos multimodales sin entrenamiento, logrando 4x más velocidad y mayor precisión en benchmarks. ¡Descúbrelo!

2026-06-02 · 2 min

Guía para edición perceptual de bajo nivel en modelos de difusión incondicional

Edición perceptual de bajo nivel en difusión incondicional. Mejora imágenes sin reentrenar con parcheo de cuello de botella y guía libre de clasificador.

2026-06-02 · 2 min

Modelos de Difusión Descentralizados Heterogéneos

Aprende a entrenar modelos de difusión descentralizados con objetivos heterogéneos, reduciendo 16x cómputo y 14x datos con una sola GPU. ¡Acelera tu IA!

2026-06-02 · 2 min

Los modelos de razonamiento cuantizados creen que necesitan pensar más, pero no

La cuantización agresiva reduce la precisión y alarga el razonamiento de los modelos de IA. Descubre cómo una penalización simple en tokens de 'overthinking' mejora la eficiencia.

2026-06-02 · 2 min

El análogo de Grokking en el preentrenamiento de modelos de lenguaje

Descubre cómo el fenómeno Grokking aparece en el preentrenamiento de LLMs, revelando una generalización gramatical retardada. Análisis de conceptos y atención en cabezas.

2026-06-02 · 3 min

Políticas de orden adaptativo para difusión enmascarada

Políticas de orden adaptativo mejoran generación de secuencias en difusión enmascarada, superando heurísticas en tareas sensibles al orden como proteínas.

2026-06-02 · 2 min

Cómo equilibrar tasas de aprendizaje entre capas en redes neuronales lineales

Descubre cómo equilibrar las tasas de aprendizaje entre capas en redes lineales mejora el rendimiento temprano. Resultados teóricos y experimentales.

2026-06-02 · 2 min