#razonamiento

ToMAP: Persuasores LLM con conciencia del oponente

Descubre cómo ToMAP, un modelo de 3B parámetros, supera a GPT-4o en persuasión usando Teoría de la Mente. Aumenta efectividad un 39.4%.

2026-06-02 · 2 min

OncoReason: razonamiento clínico en LLMs para predicción de supervivencia

Nuevo marco OncoReason alinea LLMs con razonamiento clínico para predicción de supervivencia robusta e interpretable. Mejora F1 un 6% y reduce MAE un 12%.

2026-06-02 · 2 min

ForesightKV: Evicción óptima de caché KV en modelos de razonamiento

ForesightKV optimiza la evicción de caché KV en modelos de razonamiento, superando métodos previos con la mitad del presupuesto y aprendizaje combinado.

2026-06-02 · 2 min

Garantías estadísticas para sondas de inferencia de circuitos booleanos con bucle

Las sondas de razonamiento en circuitos booleanos con bucle ofrecen garantías estadísticas óptimas sin depender del tamaño del grafo. ¡Descubre más!

2026-06-02 · 3 min

SmartThinker: Calibración Progresiva de Longitud CoT para Razonamiento Eficiente

SmartThinker calibra la longitud de cadena de pensamiento logrando hasta 52.5% de compresión y mejora de precisión en modelos de lenguaje grandes.

2026-06-02 · 2 min

d2: Mejora del razonamiento en modelos de difusión con estimación de trayectoria

Descubre d2, un marco de razonamiento para modelos de difusión que mejora el rendimiento en tareas lógicas y matemáticas, superando a RL tradicional.

2026-06-02 · 2 min

Auto-mejora iterativa con currículos fácil-difícil: teoría centrada en tareas

Aprende cómo la teoría centrada en tareas y currículos fáciles a difíciles permiten la auto-mejora iterativa de LLMs con garantías de rendimiento.

2026-06-02 · 3 min

Razonamiento adaptativo en series temporales mediante selección de segmentos

Descubre ARTIST, el sistema que optimiza el razonamiento en series temporales seleccionando segmentos clave. Mejora la precisión un 6.46% con aprendizaje por refuerzo.

2026-06-02 · 1 min

Autoencoder Disperso a Nivel de Paso para Interpretar Razonamiento

Descubre cómo el autoencoder disperso a nivel de paso (SSAE) desentraña el razonamiento de los LLMs, revelando información sobre corrección y lógica. Ideal para interpretabilidad en IA.

2026-06-02 · 1 min

De Segmentos a Escenas: Comprensión Temporal en Conducción Autónoma

Conoce el benchmark TAD para conducción autónoma. Scene-CoT y TCogMap mejoran la comprensión temporal de VLMs hasta un 17.72% sin entrenamiento.

2026-06-02 · 1 min

Desmitificando el debate multiagente: confianza y diversidad

Descubre cómo la diversidad de opiniones y la confianza calibrada mejoran el debate entre agentes de IA, superando al voto mayoritario.

2026-06-02 · 2 min

Parada Bayesiana Óptima para Respuestas Consistentes de LLMs

Descubre cómo la parada bayesiana óptima permite obtener respuestas consistentes de LLM usando menos muestras, ahorrando hasta un 50% en costos de inferencia.

2026-06-02 · 4 min

Cuándo y cuánto imaginar: Escalado adaptativo con modelos del mundo para razonamiento espacial

Descubre cuándo y cuánto imaginar en razonamiento espacial visual. AVIC optimiza el uso de modelos del mundo, superando a GPT-4o con menos recursos.

2026-06-02 · 1 min

Entrenamiento Cognitivo por Pares para Mejorar la Metacognición en LLMs

El nuevo método CPT mejora el equilibrio entre razonamiento y metacognición en LLMs, logrando +2.2 puntos en matemáticas y +5.2 en F1 de abstención. Descubre cómo.

2026-06-02 · 3 min

ATLAS: Escalado Agentic en Tiempo de Prueba para LLMs

Descubre ATLAS, un framework donde un orquestador decide cómo escalar el razonamiento de LLMs en tiempo de prueba, mejorando precisión con menos llamadas API.

2026-06-02 · 2 min

LookWise: Saber cuándo y dónde mirar en modelos multimodales

LookWise mejora el razonamiento visual detallado en modelos multimodales sin entrenamiento, logrando 4x más velocidad y mayor precisión en benchmarks. ¡Descúbrelo!

2026-06-02 · 2 min

DyLLM: Inferencia Eficiente de LLMs de Difusión mediante Token Saliente

Descubre DyLLM, un marco de inferencia sin entrenamiento que acelera hasta 9.6x los LLMs de difusión seleccionando solo tokens relevantes. Ideal para razonamiento y código.

2026-06-02 · 2 min

PaintBench: Evaluación determinista de edición visual precisa

PaintBench: benchmark determinista para edición visual precisa en IA. Evalúa 20 operaciones con métricas exactas. Descubre la baja precisión actual.

2026-06-02 · 2 min

ES-Merging: Fusión de MLLM biológicos mediante señales de embedding

ES-Merging fusiona modelos multimodales biológicos usando señales de embedding, mejorando razonamiento cruzado y preservación.

2026-06-02 · 2 min

Límites del razonamiento espacial en LLMs de frontera

Los LLM de frontera fallan en rotación mental incluso con ayuda externa. Estudio: solo 62.5% de precisión. Descubre por qué carecen de primitivas visuales.

2026-06-02 · 2 min