WRIT: Trayectorias intensivas en escritura-lectura para agentes multi-turno
WRIT genera trayectorias sintéticas para entrenar agentes multi-turno con decisiones basadas en evidencia, y con solo 2K ejemplos supera a GPT-5.1.
WRIT genera trayectorias sintéticas para entrenar agentes multi-turno con decisiones basadas en evidencia, y con solo 2K ejemplos supera a GPT-5.1.
Potencia MLLMs con MUSE, un arnés agéntico unificado que mejora tareas complejas sin reentrenar, usando verificación y reparación guiada.
Descubre cómo ASymPO optimiza el post-entrenamiento asíncrono de LLMs sin probabilidades de comportamiento, mejorando estabilidad y rendimiento.
Descubre PhotoCraft, un sistema de memoria jerárquica que potencia la búsqueda de imágenes con razonamiento agentivo, logrando mejoras de 18.5% en precisión.
Descubre VistaHop, el benchmark que evalúa el razonamiento visual multi-salto. Solo el 24% de aciertos revela grandes desafíos para la IA.
Descubre cómo MAVEN, un scaffold ligero de verificación, mejora la generalización en agentes de IA, logrando un 71% de precisión sin entrenamiento adicional y a 1/10 del coste.
Descubre cómo GRiD usa modelos de difusión y aprendizaje por refuerzo para generar reglas tipo grafo, mejorando el razonamiento en grafos de conocimiento con resultados competitivos.
SLAT: recorte adaptativo por segmentos reduce un 50% la longitud del razonamiento CoT sin perder precisión.
Aprende sobre Feedback Distillation, un método que mejora la demostración de teoremas en Lean4 superando al GRPO. Incrementa diversidad y eficiencia en el entrenamiento de modelos de razonamiento.
BilliardPhys-Bench expone los límites de los LLM multimodales en razonamiento físico, revelando el 'sesgo de estasis' en predicciones de billar sintético.
Descubre cómo la nueva capa TTC integra control óptimo en LLMs, mejorando el razonamiento matemático hasta un 27.8% en benchmarks como MATH-500. Una innovación
Descubre IAPO: asigna ventajas a cada token según información mutua. Reduce razonamiento hasta 36% sin perder precisión. Optimiza tus modelos de lenguaje.
Descubre REBot, un chatbot impulsado por CatRAG que combina RAG y razonamiento con grafos para asesoramiento académico preciso. ¡Resultados de vanguardia!
Descubre cómo los vectores de función multimodal permiten extraer y optimizar relaciones visuales en modelos de IA, mejorando el razonamiento sin necesidad de reentrenar.
¿Sabías que los mejores modelos de IA solo aciertan el 35% en búsquedas locales? Descubre LocalSearchBench, el primer benchmark de búsqueda agéntica. ¡Entra!
ReasonBENCH revela: la inestabilidad en el razonamiento de LLMs no es ruido, es estructura. Un solo test puede engañar. ¡Evalúa con distribuciones!
Descubre cómo SaEI mejora el razonamiento visual en modelos de lenguaje-visión mediante intervención adversarial de entropía, aumentando la exploración y diversidad de respuestas en RL.
MulFeRL mejora el aprendizaje por refuerzo usando retroalimentación verbal en múltiples turnos para superar recompensas escalares y potenciar el razonamiento.
PolarMem: sistema de memoria gráfica polarizada sin entrenamiento que verifica y reduce contradicciones en modelos de visión-lenguaje para un razonamiento multimodal confiable.
La estructura permite a los LLMs localizar errores y autocorregirse. Thought-ICS logra un 20-40% de mejora.