#entrenamiento

Aprendizaje Variacional Global para Corrección de Errores Cuánticos

Aprendizaje variacional global para corrección de errores cuánticos: reduce 97% tiempo de entrenamiento, mejora 25% tasa de éxito y logra 100% de precisión.

2026-06-09 · 2 min

Entrenamiento eficiente de LLM con RL bajo discrepancia de caja negra

DCMDP reformula el RL para LLM corrigiendo la discrepancia train-inference. Mejora el rendimiento en modelos como Qwen-3 incluso con recursos limitados.

2026-06-09 · 2 min

C³ache: Caché Cruzado para Acelerar Modelos de Acción Mundial

Descubre C³ache, un método sin entrenamiento que acelera hasta 2.5x los Modelos de Acción Mundial (WAM) mediante caché de inferencia cruzada, manteniendo la precisión.

2026-06-09 · 2 min

Más allá del colapso neuronal: geometría intrínseca en aritmética modular

Descubre cómo las redes neuronales organizan representaciones en aritmética modular, revelando una geometría cíclica que supera el colapso neuronal tradicional.

2026-06-09 · 3 min

El sesgo oculto de los PRM: PRISM para recompensar el razonamiento correcto

Descubre cómo PRISM elimina el sesgo oculto en los PRM, mejorando la precisión del razonamiento y reduciendo falsos positivos en un 22%.

2026-06-09 · 2 min

De atajos a razonamiento: post-entrenamiento robusto de ToM con RL

El nuevo enfoque Thinking-RFT supera atajos en ToM: mejora un 6% frente a SFT mediante razonamiento y refuerzo.

2026-06-09 · 2 min

Claw-R1: Middleware de datos paso a paso para RL agentivo

Descubre Claw-R1, el middleware que transforma las interacciones agente-entorno en datos gestionables para mejorar el RL agentivo. Optimiza el entrenamiento de LLMs con datos paso a paso.

2026-06-09 · 1 min

Cómo escapar de la trampa del acuerdo KL en destilación on-policy

Nuevo método KAT detecta trampas de acuerdo KL en destilación on-policy, mejorando precisión 2.66% y reduciendo tiempo de entrenamiento 59.73%.

2026-06-09 · 1 min

Descomposición en volumen y frontera de redes neuronales

Descubre cómo la descomposición bulk-boundary revela dinámica intrínseca y estocástica de redes neuronales, con ecuación de continuidad de energía.

2026-06-09 · 2 min

Tu algoritmo de autoaprendizaje es un imitador adversarial secreto

Descubre cómo el autoaprendizaje de LLM es en realidad un imitador adversarial. Un nuevo algoritmo mejora la estabilidad y el rendimiento del ajuste fino sin datos de preferencia.

2026-06-09 · 2 min

Modelos de Inferencia Base para Ecuaciones Diferenciales Ordinarias

FIM-ODE predice campos vectoriales de EDOs con una pasada. Ofrece rendimiento cero-disparo y supera métodos tradicionales sin experticia en ML.

2026-06-09 · 2 min

Operacionalizando la Alineación Superficial vía Complejidad de Tareas

La Hipótesis de Alineación Superficial cuantificada: el post-entrenamiento colapsa la complejidad de tareas en LLMs. Resultados sorprendentes en razonamiento y traducción.

2026-06-09 · 2 min

RLVE: Escalando RL para LLMs con Entornos Verificables Adaptativos

Descubre RLVE: una técnica que escala el aprendizaje por refuerzo para LLMs con entornos adaptativos, logrando un 3.37% de mejora en razonamiento con menos cómputo.

2026-06-09 · 2 min

Resolviendo problemas inversos con modelos basados en flujo mediante control predictivo

Descubre cómo MPC-Flow resuelve problemas inversos con modelos generativos de flujo sin entrenamiento, aplicable a restauración de imágenes como in-painting y super-resolución.

2026-06-09 · 2 min

Escalamiento eficiente de LLMs con paralelismo de contexto flexible

Acelera el entrenamiento de LLMs con paralelismo de contexto flexible. Logra hasta 2.24x de velocidad incluso con datos heterogéneos.

2026-06-09 · 2 min

Equilibrio de datos reales y sintéticos para detección de grietas en mampostería con CNN

Descubre cómo combinar datos sintéticos con solo un 20% de datos reales iguala y mejora la detección de grietas en mampostería con CNN. ¡Resultados sorprendentes!

2026-06-09 · 2 min

Marginalización de fase en Vision Transformers: inestabilidad de cuadrícula

Mejora la segmentación y profundidad con marginalización de fase en Vision Transformers. Sin entrenamiento, más precisión.

2026-06-09 · 2 min

SAEExplainer: Interpretación SAE con optimización por activación

SAEExplainer optimiza la interpretación de características SAE usando preferencias guiadas por activación, reduciendo alucinaciones y mejorando causalidad.

2026-06-09 · 1 min

SG-OPD: Destilación on-policy con puerta de signo y muestreo por fases

SG-OPD introduce un verificador binario para mejorar la destilación on-policy, superando a métodos anteriores en problemas de razonamiento matemático.

2026-06-09 · 2 min

Intervalo conforme sin entrenamiento: línea base esencial para pronósticos probabilísticos

Descubre por qué el simple intervalo ConformalNaive, sin entrenamiento, supera a métodos complejos en pronósticos de series temporales probabilísticas.

2026-06-09 · 3 min