#razonamiento

GTBench: Benchmarck curricular para evaluar LLMs en teoría de grafos

Nuevo benchmark curricular GTBench evalúa LLMs como asistentes en teoría de grafos. GPT-5 lidera, Llama falla.

2026-06-03 · 2 min

Percepción antes de razonar: marco PRPF para agentes móviles

El marco PRPF optimiza la intervención de agentes móviles proactivos al percibir antes de razonar, reduciendo falsos positivos y mejorando la eficiencia. Descubre cómo.

2026-06-03 · 2 min

Destilación de reglas ASP desde LLMs para VQA neurosimbolico

Aprende a destilar reglas de programación lógica desde LLMs para VQA interpretable, con solo pocos ejemplos. Alternativa eficiente al aprendizaje de reglas tradicional.

2026-06-03 · 1 min

Resultado negativo: transferencia de activación entre modelos Pythia

¿Puede un modelo transmitir activaciones a otro? En nuestro experimento con Pythia, la alineación no basta para comunicación causal. Resultado negativo.

2026-06-03 · 2 min

LEAP: Potenciando LLMs para matemáticas formales con marcos agentivos

Descubre cómo LEAP, un marco agentivo, potencia LLMs para resolver problemas formales de matemáticas, superando récords en competiciones como Putnam e IMO.

2026-06-03 · 2 min

CP-Agent: Razonamiento multimodal contextual para fenotipado celular

CP-Agent: IA multimodal que interpreta morfología celular bajo fármacos, acelerando descubrimiento con reportes contextuales.

2026-06-03 · 3 min

ThoughtFold: Plegado de Cadenas de Razonamiento con Aprendizaje Introspectivo

Descubre ThoughtFold, un framework que elimina exploraciones redundantes en modelos de razonamiento, reduciendo tokens hasta un 56% sin perder precisión.

2026-06-03 · 2 min

Restricciones auxiliares para el seguimiento de instrucciones en LRMs

Reduce violaciones de restricciones en un 39% con CRGC. Mejora el seguimiento de instrucciones en modelos de razonamiento.

2026-06-03 · 3 min

TSQAgent: Calidad de Series Temporales con Razonamiento Agéntico

Descubre TSQAgent, un marco de agentes de IA que evalúa la calidad de series temporales mediante razonamiento y herramientas analíticas. Mejora la selección de datos y el rendimiento.

2026-06-03 · 2 min

Implicación no monótona en lógica defeasible de puntos de vista

Aprende cómo la lógica defeasible de puntos de vista permite implicaciones no monótonas con condicionales situados y cierres racional y lexicográfico.

2026-06-03 · 1 min

Más que respuestas: Evaluación verificable del razonamiento químico paso a paso

Evalúa el razonamiento químico de los LLMs con ChemCoTBench-V2, un benchmark verificable paso a paso que detecta fallos en la lógica ocultos tras respuestas correctas.

2026-06-03 · 2 min

Code-on-Graph: Razonamiento Programático con LLMs

Descubre Code-on-Graph, framework que combina LLMs y grafos de conocimiento para razonamiento programático flexible. Supera limitaciones de precisión y escalabilidad.

2026-06-03 · 2 min

Desvelando la estructura del razonamiento Do-Cálculo mediante gráficos de derivación

Descubre cómo los gráficos de derivación simplifican el razonamiento del Do-Cálculo, permitiendo obtener estimadores más eficientes para la inferencia causal. ¡Lee más!

2026-06-03 · 2 min

Persistencia de subobjetivos en razonamiento latente jerárquico

Descubre cómo la persistencia moderada de subobjetivos (periodos de 3 a 6 pasos) mejora el razonamiento latente jerárquico.

2026-06-03 · 2 min

PyraMathBench: Evaluando y mejorando capacidad matemática en LLMs

Descubre PyraMathBench: evalúa y mejora la capacidad matemática de los LLMs con 32,505 preguntas y técnicas como SOLVE e IRPO.

2026-06-03 · 1 min

Estructura de razonamiento de los grandes modelos de lenguaje

Un nuevo benchmark de acertijos lógicos revela la estructura oculta del razonamiento en modelos de IA, más allá de la precisión.

2026-06-03 · 2 min

Hedge-Bench: Benchmark de Agentes en Tareas Financieras Complejas

Hedge-Bench: solo el 16% de éxito en tareas financieras complejas para agentes de IA. ¿Qué tan lejos estamos del analista humano?

2026-06-03 · 2 min

Entropía no es suficiente: aprendizaje por refuerzo visual con tokens anclados

La entropía falla en RL visual: VEPO selecciona tokens visual-informativos y supera en hasta 3.15 puntos. Descubre cómo.

2026-06-03 · 2 min

Tokens de Percepción Imaginativa Mejoran Razonamiento Espacial

Los Tokens de Percepción Imaginativa (IPT) mejoran el razonamiento espacial en modelos multimodales sin generar imágenes. Aumento del 3.4% en precisión en conteo multivista.

2026-06-03 · 1 min

TRAP: Secuestro del razonamiento CoT en VLA mediante parches adversariales

Descubre cómo TRAP usa parches adversariales para secuestrar razonamiento CoT en robots VLA y provocar comportamientos peligrosos. Vulnerabilidad crítica en IA.

2026-06-03 · 3 min