#razonamiento

MetaEvo: Metaoptimización para la evolución de agentes con experiencia

MetaEvo: Metaoptimización para la evolución de agentes con experiencia

MetaEvo permite a los agentes de IA mejorar su razonamiento aprendiendo de la experiencia mediante metaoptimización. Dos fases para una evolución continua.

2026-06-09 · 1 min

CrowdMath: Conjunto de datos de discusiones matemáticas colaborativas

CrowdMath: Conjunto de datos de discusiones matemáticas colaborativas

Descubre CrowdMath, un dataset de discusiones matemáticas colaborativas que revela la brecha de la IA en razonamiento científico.

2026-06-08 · 3 min

Selección de evidencia con optimización cuántica para razonamiento legal

Selección de evidencia con optimización cuántica para razonamiento legal

EP-HUBO usa optimización cuántica para seleccionar la mejor evidencia en razonamiento legal, superando el voto mayoritario y preservando hipótesis correctas.

2026-06-08 · 2 min

Enseñar el método, no la respuesta: Destilación privilegiada multimodal

Enseñar el método, no la respuesta: Destilación privilegiada multimodal

Descubre cómo PTD-PO optimiza políticas multimodales sin revelar respuestas, mejorando el razonamiento complejo.

2026-06-08 · 3 min

DyCon: Control Dinámico del Razonamiento con Modelado de Dificultad Evolutiva

DyCon: Control Dinámico del Razonamiento con Modelado de Dificultad Evolutiva

Descubre cómo DyCon reduce el sobrepensamiento en modelos de razonamiento grandes sin perder precisión, adaptándose dinámicamente a la dificultad.

2026-06-08 · 2 min

Piensa rápido: Estimando horizontes temporales de IA sin CoT

Piensa rápido: Estimando horizontes temporales de IA sin CoT

Modelos de IA de frontera razonan sin cadena de pensamiento. Su horizonte temporal se duplica cada año. ¡Podría superar los 7 minutos en 2028!

2026-06-08 · 2 min

DuMate-DeepResearch: Sistema multiagente con búsqueda recursiva y rúbricas

DuMate-DeepResearch: Sistema multiagente con búsqueda recursiva y rúbricas

Descubre DuMate-DeepResearch, un sistema multiagente auditable con búsqueda recursiva y razonamiento por rúbricas que logra el mejor rendimiento en deep research.

2026-06-08 · 2 min

Actúa como un investigador real: benchmarks para LLMs y agentes

Actúa como un investigador real: benchmarks para LLMs y agentes

Descubre AARRI-Bench, el benchmark que mide si los agentes de IA pueden pensar como investigadores humanos. El mejor modelo solo alcanza un 68.3% de éxito.

2026-06-08 · 2 min

Colaboración multiagente: ¿cuándo ayuda? Perspectiva de entropía

Colaboración multiagente: ¿cuándo ayuda? Perspectiva de entropía

La perspectiva de entropía revela cuándo colaborar: un solo agente supera al sistema multiagente en el 43% de los casos. Entropy Judger mejora la precisión.

2026-06-08 · 2 min

Firmas de errores de razonamiento en modelos de lenguaje

Firmas de errores de razonamiento en modelos de lenguaje

Identifica fallos en modelos de lenguaje mediante firmas a nivel de token: errores comprometidos y persistentes. Aprende a mejorar la detección y autocoherencia.

2026-06-08 · 2 min

CAF-Gen: Sistema multiagente para enriquecer estructuras argumentativas

CAF-Gen: Sistema multiagente para enriquecer estructuras argumentativas

CAF-Gen: sistema multiagente que enriquece argumentos mediante colaboración creador-revisor. Supera limitaciones de un solo paso y mejora el modelado argumentativo.

2026-06-08 · 2 min

Piensa como un piloto: navegación UAV de largo horizonte y grano fino

Piensa como un piloto: navegación UAV de largo horizonte y grano fino

Descubre FLIGHT VLA: la arquitectura asíncrona que permite a los drones razonar y controlar su vuelo con precisión fina.

2026-06-08 · 2 min

Caracterizar y luego destilar: razonamiento mecanicista en grandes espacios

Caracterizar y luego destilar: razonamiento mecanicista en grandes espacios

Aprende cómo los modelos de razonamiento seleccionan entre millones de etiquetas usando una estrategia de destilación mecanicista en dos fases.

2026-06-08 · 2 min

TRUE: Marco confiable unificado para explicar el razonamiento de LLM

TRUE: Marco confiable unificado para explicar el razonamiento de LLM

Descubre TRUE: un marco que unifica verificación ejecutable, diagramas DAG de regiones factibles y análisis causal de fallos para hacer el razonamiento de los LLM más interpretable y confiable.

2026-06-08 · 3 min

Razonamiento estable, respuestas inestables: clave contra el engaño en LLM

Razonamiento estable, respuestas inestables: clave contra el engaño en LLM

Descubre cómo la asimetría de estabilidad entre el razonamiento interno y las respuestas externas revela el engaño en LLMs, y cómo una nueva regularización lo mitiga sin perder capacidad.

2026-06-08 · 2 min

MCERF: Evaluación multimodal de LLM con recuperación mejorada para ingeniería

MCERF: Evaluación multimodal de LLM con recuperación mejorada para ingeniería

MCERF logra un +41% de precisión en evaluación de documentos de ingeniería con recuperación multimodal. Descubre el nuevo marco.

2026-06-08 · 2 min

¿Saltar una capa o repetirla? Aprendiendo programas de capas en LLMs

¿Saltar una capa o repetirla? Aprendiendo programas de capas en LLMs

Descubre cómo los LLMs pueden ejecutar programas dinámicos de capas, saltando o repitiendo, para mejorar precisión y eficiencia en razonamiento matemático.

2026-06-08 · 2 min

TALAN: Adaptación Latente Alineada a Tareas para Post-Entrenamiento de LLMs

TALAN: Adaptación Latente Alineada a Tareas para Post-Entrenamiento de LLMs

TALAN mejora el post-entrenamiento de LLMs: razonamiento y código sin perder fortalezas. Solo 1% parámetros extra. ¡Descubre!

2026-06-08 · 2 min

RASFT: Ajuste Fino Adaptativo con Rollout para Razonamiento

RASFT: Ajuste Fino Adaptativo con Rollout para Razonamiento

Descubre RASFT, un nuevo método de fine-tuning que combina supervisión experta con rollouts adaptativos para mejorar el razonamiento en modelos de lenguaje. Res

2026-06-08 · 2 min

Modelado de Mundo Agentico para 6G: Razonamiento Generativo en Tiempo Casi Real

Modelado de Mundo Agentico para 6G: Razonamiento Generativo en Tiempo Casi Real

El modelado de mundo agéntico revoluciona el control de redes 6G, simulando escenarios futuros en tiempo casi real con mayor precisión y velocidad.

2026-06-08 · 2 min