El acierto hace la fuerza: alinear estados ocultos para RL
Hidden-Align alinea estados ocultos en modelos de lenguaje, mejorando el razonamiento matemático hasta un 6.2% en benchmarks. Técnica innovadora de RL.
Hidden-Align alinea estados ocultos en modelos de lenguaje, mejorando el razonamiento matemático hasta un 6.2% en benchmarks. Técnica innovadora de RL.
Reduce errores en razonamiento con KVarN. Cuantificación KV de 2 bits que optimiza la memoria y mejora el rendimiento en modelos de lenguaje.
Descubre cómo el aprendizaje contrastivo permite a las GNN colorear grafos minimizando conflictos, superando métodos greedy. Resultados en grafos reales.
Descubre VaSE, un método de evicción de caché KV que protege valores grandes y usa estocasticidad para mejorar precisión en modelos de razonamiento. Reduce memoria 4x sin perder rendimiento.
Descubre cómo KeyVT optimiza la selección de vistas y tokens para responder preguntas sobre escenas 3D sin entrenamiento, superando a métodos existentes.
Descubre cómo la profundidad del razonamiento en cadena afecta la generalización en modelos de lenguaje. Teoría asintótica y fases de mejora exponencial.
Descubre cómo evitar el sesgo sistémico en RL auto-recompensante y mejorar el rendimiento de LLMs con nuestro método RLER. ¡Lee aquí!
Descubre cómo un sistema de subastas entre agentes de IA genera inteligencia colectiva sin control central, superando modelos monolíticos en tareas complejas.
ALAR reduce hasta un 84.6% los tokens en agentes LLM, usando razonamiento latente en rutina y explícito solo cuando es necesario. Eficiencia y precisión mejoradas.
¿Las sondas lineales detectan razonamiento o formato? Un estudio revela que la precisión en LLMs se explica por confusores de formato, no por modos de razonamie
WRIT genera trayectorias sintéticas para entrenar agentes multi-turno con decisiones basadas en evidencia, y con solo 2K ejemplos supera a GPT-5.1.
Potencia MLLMs con MUSE, un arnés agéntico unificado que mejora tareas complejas sin reentrenar, usando verificación y reparación guiada.
Descubre cómo ASymPO optimiza el post-entrenamiento asíncrono de LLMs sin probabilidades de comportamiento, mejorando estabilidad y rendimiento.
Descubre PhotoCraft, un sistema de memoria jerárquica que potencia la búsqueda de imágenes con razonamiento agentivo, logrando mejoras de 18.5% en precisión.
Descubre VistaHop, el benchmark que evalúa el razonamiento visual multi-salto. Solo el 24% de aciertos revela grandes desafíos para la IA.