#razonamiento

Sistemas auto-evolutivos: el rol de la interacción humano-agente

Sistemas auto-evolutivos: el rol de la interacción humano-agente

Descubre cómo el marco ANCHOR utiliza supervisión humana para estabilizar agentes auto-evolutivos, previniendo degradación sin afectar rendimiento.

2026-06-06 · 3 min

Cerrando el bucle del razonamiento latente con reconstrucción en tiempo de prueba

Cerrando el bucle del razonamiento latente con reconstrucción en tiempo de prueba

Descubre cómo ReLAT cierra el bucle del razonamiento latente usando reconstrucción en tiempo de prueba, mejorando precisión en matemáticas un 73.3% en AIME 2024

2026-06-06 · 2 min

ALMANAC: Dataset de modelos mentales para colaboración de agentes

ALMANAC: Dataset de modelos mentales para colaboración de agentes

Descubre ALMANAC, el primer dataset con anotaciones de modelos mentales para mejorar la colaboración entre humanos y agentes de IA. ¡Mejora tus agentes ahora!

2026-06-06 · 2 min

Benchmark Agent: evalúa todo, en todas partes, a la vez

Benchmark Agent: evalúa todo, en todas partes, a la vez

Descubre Benchmark Agent, un sistema autónomo que crea benchmarks de alta calidad para evaluar LLMs y MLLMs sin intervención humana. Ideal para investigación.

2026-06-06 · 2 min

Agente de IA personal para responder preguntas de tu carrete fotográfico

Agente de IA personal para responder preguntas de tu carrete fotográfico

¿Puede una IA entender tu carrete de fotos? Conoce camroll-agent, un asistente que responde preguntas visuales personales con memoria jerárquica. Dataset de 50 usuarios.

2026-06-06 · 2 min

LoRi: Destilación de Bajo Rango para Razonamiento Implícito

LoRi: Destilación de Bajo Rango para Razonamiento Implícito

Descubre LoRi: destilación de bajo rango que mejora el razonamiento implícito en LLMs, acercándose a cadenas de pensamiento explícitas.

2026-06-06 · 2 min

CoT-Space: Un marco teórico para el pensamiento lento interno mediante RL

CoT-Space: Un marco teórico para el pensamiento lento interno mediante RL

CoT-Space explica el escalado interno del pensamiento lento en IA. Aprende cómo el aprendizaje por refuerzo optimiza las trayectorias de razonamiento en LLMs.

2026-06-06 · 1 min

ReTreVal: Razonamiento en Árbol con Validación y Memoria entre Problemas

ReTreVal: Razonamiento en Árbol con Validación y Memoria entre Problemas

ReTreVal permite a LLMs aprender entre problemas durante la inferencia, mejorando el razonamiento sin ajuste fino. Logra 85.8% en MATH-500 y 54.4% en MMLU-Pro.

2026-06-06 · 2 min

Drive-KD: Destilación multi-profesor para VLMs en conducción autónoma

Drive-KD: Destilación multi-profesor para VLMs en conducción autónoma

Drive-KD destila conocimiento multi-profesor para VLMs en conducción autónoma: menor uso de GPU, mayor throughput y rendimiento superior en planificación.

2026-06-06 · 2 min

Rompiendo la cadena: fidelidad causal de LLM a estructuras intermedias

Rompiendo la cadena: fidelidad causal de LLM a estructuras intermedias

Descubre cómo los LLM son aparentemente fieles a sus estructuras intermedias, pero fallan al ser intervenidos. Análisis causal revela fragilidad.

2026-06-06 · 2 min

InfoDensity: Recompensando trazas densas en información

InfoDensity: Recompensando trazas densas en información

Descubre InfoDensity, un nuevo método de recompensa que optimiza el razonamiento de LLMs, reduciendo verbosidad y mejorando precisión y eficiencia.

2026-06-06 · 2 min

Mejora de respuestas cardíacas en LLMs con recompensas de rúbrica y GRPO

Mejora de respuestas cardíacas en LLMs con recompensas de rúbrica y GRPO

GRPO y recompensas de rúbrica mejoran respuestas cardíacas en LLMs pequeños: precisión sube a 50.2%, compitiendo con modelos 8x mayores.

2026-06-06 · 2 min

CLASH: Evaluación de modelos de lenguaje en dilemas de alto riesgo

CLASH: Evaluación de modelos de lenguaje en dilemas de alto riesgo

Descubre CLASH, el benchmark que evalúa cómo los modelos de lenguaje enfrentan dilemas de alto riesgo con múltiples perspectivas. Resultados sorprendentes sobre el razonamiento moral de la IA.

2026-06-06 · 2 min

MCBench: Benchmark de seguridad multicontexto para LLMs Omni

MCBench: Benchmark de seguridad multicontexto para LLMs Omni

Descubre MCBench, el primer benchmark multicontexto que evalúa la seguridad de modelos de lenguaje omni (visión, audio y texto). Revela sus limitaciones en razonamiento multimodal.

2026-06-06 · 1 min

Razonamiento multigranular para inferencia de lenguaje natural

Razonamiento multigranular para inferencia de lenguaje natural

Descubre MGRN, una red de razonamiento multigranular que mejora la inferencia de lenguaje natural imitando el proceso cognitivo humano. Resultados superiores en benchmarks.

2026-06-06 · 1 min

A2RAG: Recuperación Adaptativa con Grafos para Razonamiento Confiable

A2RAG: Recuperación Adaptativa con Grafos para Razonamiento Confiable

A2RAG: marco adaptativo para recuperación con grafos que reduce costos y mejora precisión en preguntas complejas. +11% recall, 50% menos tokens.

2026-06-06 · 1 min

OG-MAR: Alineamiento cultural de LLMs mediante ontología y multiagentes

OG-MAR: Alineamiento cultural de LLMs mediante ontología y multiagentes

OG-MAR alinea LLMs con valores culturales usando ontología y multiagentes. Mejora transparencia y precisión.

2026-06-06 · 2 min

Agente de IA personal para VQA en galería de fotos

Agente de IA personal para VQA en galería de fotos

Un agente de IA personal responde preguntas visuales sobre tu galería. El dataset Camroll y agente Camroll-Agent con memoria jerárquica.

2026-06-06 · 2 min

LoRi: Destilación de Bajo Rango para Razonamiento Implícito

LoRi: Destilación de Bajo Rango para Razonamiento Implícito

Descubre LoRi, un método que utiliza destilación de bajo rango para mejorar el razonamiento implícito en modelos de lenguaje, superando a técnicas anteriores.

2026-06-06 · 2 min

ReasoningFlow: Estructuras discursivas en trazas de LLM

ReasoningFlow: Estructuras discursivas en trazas de LLM

ReasoningFlow revela patrones discursivos en trazas de LLM, mejorando la transparencia y el análisis del razonamiento automático.

2026-06-06 · 2 min