#razonamiento

FinTradeBench: nuevo benchmark financiero para LLMs

Descubre FinTradeBench: evalúa el razonamiento financiero de LLMs combinando fundamentos y trading. ¿Qué modelos destacan?

2026-06-04 · 1 min

Inclusion-of-Thoughts: Mitigando la inestabilidad de preferencias en LLMs

Inclusion-of-Thoughts (IoT) estabiliza respuestas de LLMs en opción múltiple filtrando distractores, mejorando razonamiento e interpretabilidad con mínimo coste.

2026-06-04 · 1 min

VentAgent: Arbitraje multiobjetivo con LLM para ARDS

Descubre VentAgent, un marco jerárquico que usa LLM para arbitrar objetivos contrapuestos en ventilación para ARDS, ofreciendo interpretabilidad y seguridad.

2026-06-04 · 2 min

De lo simbólico a lo geométrico: razonamiento espacial en LLMs

Descubre cómo el nuevo SLM integra representaciones geométricas para lograr razonamiento espacial real en LLMs, superando métodos simbólicos tradicionales.

2026-06-04 · 2 min

MemoryDocDataSet: benchmark de memoria conversacional y razonamiento en documentos largos

Descubre MemoryDocDataSet: un benchmark que desafía a la IA a combinar memoria conversacional y razonamiento en documentos largos. ¿Tu modelo supera la brecha?

2026-06-04 · 4 min

Evaluando la fidelidad del razonamiento en generación visual de texto

¿Los modelos de texto a imagen realmente razonan o solo imitan? Analizamos la fidelidad del razonamiento en generación visual de texto y sus fallos semánticos.

2026-06-04 · 2 min

Smart Picks en la oscuridad: RLVR eficiente con trazado metacognitivo

Descubre cómo PivotTrace logra un rendimiento casi total con solo el 29% de datos etiquetados y una convergencia 2.75 veces más rápida en RLVR.

2026-06-04 · 3 min

GeoMin: Modelado Geométrico para RLVR Semi-Supervisado Eficiente

GeoMin optimiza RLVR semi-supervisado usando modelado geométrico. Logra +4.1% sobre los mejores y supera la supervisión completa con solo el 10% de datos etiquetados.

2026-06-04 · 2 min

Anclajes de Relleno Dinámico para Generación con Formato Restringido

Los Anclajes de Relleno Dinámico (DIA) optimizan la generación con formato restringido, logrando avances zero-shot en GSM8K y MATH.

2026-06-04 · 2 min

NoRA: Evaluación de razonamiento normativo visual en primera persona

Descubre NoRA, el benchmark que evalúa si los modelos de IA pueden justificar acciones razonables en video en primera persona. Un paso hacia una IA más segura.

2026-06-04 · 3 min

Demostrador por abducción en Isabelle/HOL

Automatiza la búsqueda de demostraciones en Isabelle/HOL con el Abduction Prover, que identifica conjeturas útiles mediante razonamiento abductivo. Acelera tu verificación formal.

2026-06-04 · 3 min

DeliChess: dataset de diálogo multiagente para deliberación en ajedrez

Descubre DeliChess, un dataset innovador de diálogos grupales para resolver puzzles de ajedrez. Mejora la precisión mediante deliberación colaborativa.

2026-06-04 · 2 min

DAR: Razonamiento deóntico con arneses agénticos

Descubre cómo DAR mejora el razonamiento deóntico en IA usando arneses agénticos. Resultados sorprendentes en DeonticBench. ¡Lee más!

2026-06-04 · 3 min

Alineación de Gradientes Invariante para Destilación Robusta de Razonamiento

IGA alinea gradientes en ejemplos lógicamente isomorfos para destilar razonamiento robusto en LLMs, con hasta 14.3% más precisión y 4x consistencia lógica.

2026-06-04 · 3 min

Pedagogía aritmética para modelos de lenguaje

Descubre cómo el método pedagógico GASING entrena modelos de lenguaje en aritmética básica. Un GPT-2 pequeño alcanza más del 80% de precisión sin refuerzo. ¡Lee más!

2026-06-04 · 2 min

Las trazas de razonamiento fallidas te dicen qué es reparable pero no leyéndolas

Las trazas de razonamiento fallidas revelan fallos reparables sin leerlas. Aprende a diagnosticar y mejorar tus modelos.

2026-06-04 · 2 min

Gemma 4 12B de Google: IA multimodal que se ejecuta local en portátiles 16GB

Gemma 4 12B de Google: modelo open source multimodal que corre local en laptops 16GB. Analiza audio, video y texto con 256K de contexto. Ideal para privacidad y edge.

2026-06-04 · 2 min

MAI-Thinking-1: El nuevo modelo de razonamiento de Microsoft

Microsoft presenta MAI-Thinking-1, su primer modelo de razonamiento propio, construido sin depender de OpenAI. Descubre sus capacidades en código, matemáticas y más.

2026-06-03 · 2 min