#razonamiento

ViCuR: Destilación multimodal on-policy con señales visuales recuperables

ViCuR mejora el razonamiento visual en destilación multimodal on-policy usando señales visuales recuperables, superando métodos en +1.19%.

2026-06-05 · 2 min

ViCuR: Pistas visuales como privilegio recuperable en destilación multimodal

ViCuR usa pistas visuales recuperables para destilación on-policy multimodal, mejorando razonamiento sin sesgos de atajos. Resultados mejores en benchmarks.

2026-06-05 · 3 min

¿Pueden los LLMs escribir especificaciones TLA+ correctas?

Evaluamos 30 LLMs en la generación de especificaciones TLA+ correctas. Solo un 8.6% de precisión semántica. ¿Son fiables? Descúbrelo.

2026-06-05 · 1 min

Flujos contextuales: nueva representación de la atención investigativa

Los flujos contextuales representan la atención investigativa y mejoran la evaluación con razonamiento analógico. Un nuevo enfoque para entender su evolución.

2026-06-05 · 2 min

Un marco de visión-lenguaje para razonamiento comparativo en radiología

MedReCo: un framework que permite a la IA razonar comparativamente entre imágenes radiológicas, mejorando diagnósticos y seguimientos. Resultados clínicos superiores.

2026-06-05 · 2 min

Descubrimiento no supervisado de habilidades para agente de análisis de datos

DataCOPE descubre habilidades sin supervisión para agentes de análisis de datos, mejorando su rendimiento en informes un 9.7% y en razonamiento un 32.3%.

2026-06-05 · 2 min

Razonamiento latente con flujos normalizadores

NF-CoT: razonamiento latente con flujos normalizadores para código eficiente y preciso. Supera a la cadena de pensamiento tradicional.

2026-06-05 · 3 min

SARDI: Recuperación autoaumentada para modelos de difusión

SARDI usa tokens de baja confianza para guiar recuperación en desruido. Logra alta precisión en preguntas multi-salto sin entrenamiento.

2026-06-05 · 2 min

Optimización de Política de Secuencia Suave

Descubre Soft Sequence Policy Optimization: un nuevo método off-policy que mejora la estabilidad y rendimiento en tareas de razonamiento y codificación para LLMs.

2026-06-05 · 2 min

Selección Dinámica de Tokens de Pensamiento para Razonamiento Eficiente

DynTS selecciona solo tokens clave en modelos de razonamiento grandes para reducir memoria y acelerar inferencia, manteniendo precisión. Optimiza eficiencia computacional.

2026-06-05 · 2 min

Aprendizaje de autocorrección en modelos visión-lenguaje mediante aumento de trayectorias

Descubre cómo Octopus-8B logra autocorrección eficiente en VLMs mediante aumento de trayectorias, superando a otros modelos con un 1.0 de puntuación y menor tiempo de entrenamiento.

2026-06-05 · 2 min

BG-MCTS: Búsqueda en árbol con presupuesto fijo de tokens

Descubre cómo BG-MCTS optimiza búsqueda en árbol con presupuesto fijo de tokens para razonamiento superior.

2026-06-05 · 2 min

Descuento asimétrico en GRPO para RL eficiente

SA-AH-GRPO reduce la varianza un 3.6x y mejora la precisión en razonamiento matemático con descuento asimétrico por token. Resultados en GSM8K con Qwen.

2026-06-05 · 2 min

LEVANTE-bench: Comparación multiescala de VLMs con niños

Descubre cómo LEVANTE-bench compara modelos de IA con niños de 5 a 12 años en tareas cognitivas. ¿Son los VLMs más inteligentes que un niño de 5º grado?

2026-06-05 · 2 min

Más allá de la apariencia: Razonamiento funcional de affordances

Descubre cómo A4D revoluciona la planificación robótica al razonar sobre funcionalidades de objetos. Logra un 94% de precisión y 100x más rapidez. ¡Descúbrelo!

2026-06-05 · 2 min

Explicabilidad de LLM mediante Cadenas Contrafactuales y Grafos Causales

Descubre cómo los grafos causales y las cadenas contrafactuales revelan el razonamiento interno de los LLM, mejorando la transparencia y la interpretabilidad en tareas de clasificación.

2026-06-05 · 1 min

Compress-Distill: comprimir trazas para destilar conocimiento

Comprime trazas de razonamiento para destilar conocimiento. Reduce tokens de entrenamiento hasta 70% y acelera 7.6x con hasta 96% de precisión.

2026-06-05 · 2 min

HoT-SSM: Razonamiento temporal de alto orden en grafos de conocimiento para salud

HoT-SSM combina hipergrafos dinámicos y modelos de estado para mejorar predicciones clínicas capturando interacciones complejas y dependencias temporales.

2026-06-05 · 2 min

Estimaciones de ventaja para gradientes de política Max@K

Descubre cómo MaxPO optimiza el post-entrenamiento de LLMs con una nueva línea base Leave-Two-Out que centra la ventaja y reduce la varianza del gradiente.

2026-06-05 · 1 min

PEEL: Andamio semiótico para investigación con IA responsable

La IA erosiona la responsabilidad epistémica. PEEL propone un andamio semiótico usando Voyant Tools y Claude para restaurarla. Conoce las implicaciones.

2026-06-04 · 2 min