#razonamiento

WRIT: Trayectorias intensivas en escritura-lectura para agentes multi-turno

WRIT genera trayectorias sintéticas para entrenar agentes multi-turno con decisiones basadas en evidencia, y con solo 2K ejemplos supera a GPT-5.1.

2026-06-03 · 2 min

MUSE: Un arnés agéntico unificado para MLLMs

Potencia MLLMs con MUSE, un arnés agéntico unificado que mejora tareas complejas sin reentrenar, usando verificación y reparación guiada.

2026-06-03 · 3 min

ASymPO: Optimización Asimétrica para Post-Entrenamiento Asíncrono de LLMs

Descubre cómo ASymPO optimiza el post-entrenamiento asíncrono de LLMs sin probabilidades de comportamiento, mejorando estabilidad y rendimiento.

2026-06-03 · 2 min

PhotoCraft: Razonamiento Agentivo con Memoria Jerárquica para Búsqueda Visual

Descubre PhotoCraft, un sistema de memoria jerárquica que potencia la búsqueda de imágenes con razonamiento agentivo, logrando mejoras de 18.5% en precisión.

2026-06-03 · 2 min

VistaHop: Evaluando razonamiento multi-salto para Visual DeepSearch

Descubre VistaHop, el benchmark que evalúa el razonamiento visual multi-salto. Solo el 24% de aciertos revela grandes desafíos para la IA.

2026-06-03 · 2 min

MAVEN: Generalización mejorada en llamadas a herramientas de agentes

Descubre cómo MAVEN, un scaffold ligero de verificación, mejora la generalización en agentes de IA, logrando un 71% de precisión sin entrenamiento adicional y a 1/10 del coste.

2026-06-03 · 3 min

Reglas tipo grafo para razonamiento en KGs con modelos de difusión

Descubre cómo GRiD usa modelos de difusión y aprendizaje por refuerzo para generar reglas tipo grafo, mejorando el razonamiento en grafos de conocimiento con resultados competitivos.

2026-06-03 · 2 min

SLAT: Recorte Adaptativo de Segmentos en Razonamiento CoT

SLAT: recorte adaptativo por segmentos reduce un 50% la longitud del razonamiento CoT sin perder precisión.

2026-06-03 · 1 min

Destilación de feedback de LLM para demostración de teoremas en Lean

Aprende sobre Feedback Distillation, un método que mejora la demostración de teoremas en Lean4 superando al GRPO. Incrementa diversidad y eficiencia en el entrenamiento de modelos de razonamiento.

2026-06-03 · 2 min

BilliardPhys-Bench: evaluando el razonamiento físico de los LLM multimodales

BilliardPhys-Bench expone los límites de los LLM multimodales en razonamiento físico, revelando el 'sesgo de estasis' en predicciones de billar sintético.

2026-06-03 · 2 min

Más allá de la memoria en tiempo de test: control óptimo para LLM

Descubre cómo la nueva capa TTC integra control óptimo en LLMs, mejorando el razonamiento matemático hasta un 27.8% en benchmarks como MATH-500. Una innovación

2026-06-03 · 2 min

IAPO: Optimización de Políticas Informada para Razonamiento Eficiente en Tokens

Descubre IAPO: asigna ventajas a cada token según información mutua. Reduce razonamiento hasta 36% sin perder precisión. Optimiza tus modelos de lenguaje.

2026-06-03 · 2 min

REBot: De RAG a CatRAG con enriquecimiento semántico y enrutamiento por grafos

Descubre REBot, un chatbot impulsado por CatRAG que combina RAG y razonamiento con grafos para asesoramiento académico preciso. ¡Resultados de vanguardia!

2026-06-03 · 2 min

Vectores funcionales multimodales para relaciones visuales

Descubre cómo los vectores de función multimodal permiten extraer y optimizar relaciones visuales en modelos de IA, mejorando el razonamiento sin necesidad de reentrenar.

2026-06-03 · 1 min

LocalSearchBench: Evaluación de búsqueda agéntica en servicios locales reales

¿Sabías que los mejores modelos de IA solo aciertan el 35% en búsquedas locales? Descubre LocalSearchBench, el primer benchmark de búsqueda agéntica. ¡Entra!

2026-06-03 · 5 min

ReasonBENCH: La inestabilidad del razonamiento en LLMs

ReasonBENCH revela: la inestabilidad en el razonamiento de LLMs no es ruido, es estructura. Un solo test puede engañar. ¡Evalúa con distribuciones!

2026-06-03 · 2 min

Razonamiento visual con RL potenciado por intervención adversarial selectiva de entropía

Descubre cómo SaEI mejora el razonamiento visual en modelos de lenguaje-visión mediante intervención adversarial de entropía, aumentando la exploración y diversidad de respuestas en RL.

2026-06-03 · 2 min

MulFeRL: Retroalimentación verbal para aprendizaje por refuerzo en multiturno

MulFeRL mejora el aprendizaje por refuerzo usando retroalimentación verbal en múltiples turnos para superar recompensas escalares y potenciar el razonamiento.

2026-06-03 · 2 min

PolarMem: Memoria latente polarizada sin entrenamiento para VLMs verificables

PolarMem: sistema de memoria gráfica polarizada sin entrenamiento que verifica y reduce contradicciones en modelos de visión-lenguaje para un razonamiento multimodal confiable.

2026-06-03 · 2 min

La estructura permite la autolocalización efectiva de errores en LLMs

La estructura permite a los LLMs localizar errores y autocorregirse. Thought-ICS logra un 20-40% de mejora.

2026-06-03 · 2 min