#razonamiento

PyraMathBench: Evaluando y mejorando capacidad matemática en LLMs

Descubre PyraMathBench: evalúa y mejora la capacidad matemática de los LLMs con 32,505 preguntas y técnicas como SOLVE e IRPO.

2026-06-03 · 1 min

Estructura de razonamiento de los grandes modelos de lenguaje

Un nuevo benchmark de acertijos lógicos revela la estructura oculta del razonamiento en modelos de IA, más allá de la precisión.

2026-06-03 · 2 min

Hedge-Bench: Benchmark de Agentes en Tareas Financieras Complejas

Hedge-Bench: solo el 16% de éxito en tareas financieras complejas para agentes de IA. ¿Qué tan lejos estamos del analista humano?

2026-06-03 · 2 min

Entropía no es suficiente: aprendizaje por refuerzo visual con tokens anclados

La entropía falla en RL visual: VEPO selecciona tokens visual-informativos y supera en hasta 3.15 puntos. Descubre cómo.

2026-06-03 · 2 min

Tokens de Percepción Imaginativa Mejoran Razonamiento Espacial

Los Tokens de Percepción Imaginativa (IPT) mejoran el razonamiento espacial en modelos multimodales sin generar imágenes. Aumento del 3.4% en precisión en conteo multivista.

2026-06-03 · 1 min

TRAP: Secuestro del razonamiento CoT en VLA mediante parches adversariales

Descubre cómo TRAP usa parches adversariales para secuestrar razonamiento CoT en robots VLA y provocar comportamientos peligrosos. Vulnerabilidad crítica en IA.

2026-06-03 · 3 min

Psicometría en SLMs: artefactos de prompt, no constructos psicológicos

Descubre por qué los SLMs miden artefactos de prompt, no rasgos psicológicos. Un estudio revela cómo los sesgos de cumplimiento dominan las evaluaciones.

2026-06-03 · 2 min

Calibración sin entrenamiento para MoE: evitando ruptura de enrutamiento

Descubre cómo HARC corrige la ruptura de enrutamiento en MoE fusionados sin entrenamiento, usando curvatura hessiana. Ideal para razonamiento y código.

2026-06-03 · 2 min

CR-Seg: Segmentación razonada de grueso a fino con atención y CoT

CR-Seg: segmentación razonada que combina atención y cadena de pensamiento para objetos complejos.

2026-06-03 · 2 min

Pruebas de razonamiento aritmético en LLMs con ataques de reasignación numérica

Descubre cómo los LLMs fallan ante cambios numéricos mínimos en problemas aritméticos. Nuevos ataques automáticos revelan fragilidades en razonamiento.

2026-06-03 · 3 min

Verificación condicionada por confianza en RL en tiempo de prueba

Descubre cómo TTRL-CoCoV mejora Pass@k y Pass@1 en razonamiento complejo sin etiquetas, usando verificación condicionada por confianza.

2026-06-03 · 2 min

Optimización con herramientas y entropía para RL agente eficiente

Descubre TAO-RL, el nuevo marco que combina filtrado de trayectorias con exploración guiada por entropía para optimizar el razonamiento de LLMs con herramientas. Mejora la eficiencia y precisión.

2026-06-03 · 3 min

Expresión fiel de confianza en modelos de razonamiento grandes

¿Los modelos de razonamiento grandes expresan su confianza de forma fiel? Cuantificamos la calibración entre incertidumbre interna y verbalizada, revelando desa

2026-06-03 · 3 min

Aproximando inferencia probabilística en SEL con embeddings de grafos

Descubre cómo los embeddings de grafos aproximan la inferencia probabilística en SEL de forma eficiente, con garantías de sonido y velocidad.

2026-06-03 · 2 min

DTKG: Razonamiento dual con grafos de conocimiento para QA multi-salto

Descubre DTKG, un marco que combina verificación de hechos y cadenas en grafos de conocimiento para responder preguntas multi-salto con alta precisión.

2026-06-03 · 3 min

MemVerse: Memoria Multimodal para Agentes de Aprendizaje Continuo

Descubre MemVerse, el marco de memoria multimodal que permite a los agentes de IA recordar, adaptarse y razonar sin olvido catastrófico. ¡Mejora el aprendizaje continuo!

2026-06-03 · 3 min

MIND: Marco de razonamiento discriminativo integrado para modelos multimodales

MIND: nuevo marco de razonamiento activo para modelos multimodales. Emula el proceso humano entender-repensar-corregir. Logra SOTA.

2026-06-03 · 2 min

X-RAY: Mapeo del razonamiento en LLMs con sondas formales

Descubre cómo X-RAY mapea la capacidad de razonamiento de los LLMs usando sondas formales y calibradas, revelando asimetrías y fallos interpretables.

2026-06-03 · 1 min

Evaluación del razonamiento relacional en LLMs con REL

Descubre cómo el benchmark REL evalúa el razonamiento relacional en LLMs, revelando sus limitaciones en tareas de alta aridad en ciencias.

2026-06-03 · 2 min

Optimización automatizada con agentes en coevolución y razonamiento interpretable

Descubre cómo EvoOR-Agent utiliza la coevolución de arquitecturas de agentes y razonamiento interpretable para optimizar procesos complejos con LLMs. Mejora el rendimiento y la interpretabilidad.

2026-06-03 · 2 min