FinTradeBench: nuevo benchmark financiero para LLMs
Descubre FinTradeBench: evalúa el razonamiento financiero de LLMs combinando fundamentos y trading. ¿Qué modelos destacan?
Descubre FinTradeBench: evalúa el razonamiento financiero de LLMs combinando fundamentos y trading. ¿Qué modelos destacan?
Inclusion-of-Thoughts (IoT) estabiliza respuestas de LLMs en opción múltiple filtrando distractores, mejorando razonamiento e interpretabilidad con mínimo coste.
Descubre VentAgent, un marco jerárquico que usa LLM para arbitrar objetivos contrapuestos en ventilación para ARDS, ofreciendo interpretabilidad y seguridad.
Descubre cómo el nuevo SLM integra representaciones geométricas para lograr razonamiento espacial real en LLMs, superando métodos simbólicos tradicionales.
Descubre MemoryDocDataSet: un benchmark que desafía a la IA a combinar memoria conversacional y razonamiento en documentos largos. ¿Tu modelo supera la brecha?
¿Los modelos de texto a imagen realmente razonan o solo imitan? Analizamos la fidelidad del razonamiento en generación visual de texto y sus fallos semánticos.
Descubre cómo PivotTrace logra un rendimiento casi total con solo el 29% de datos etiquetados y una convergencia 2.75 veces más rápida en RLVR.
GeoMin optimiza RLVR semi-supervisado usando modelado geométrico. Logra +4.1% sobre los mejores y supera la supervisión completa con solo el 10% de datos etiquetados.
Los Anclajes de Relleno Dinámico (DIA) optimizan la generación con formato restringido, logrando avances zero-shot en GSM8K y MATH.
Descubre NoRA, el benchmark que evalúa si los modelos de IA pueden justificar acciones razonables en video en primera persona. Un paso hacia una IA más segura.
Automatiza la búsqueda de demostraciones en Isabelle/HOL con el Abduction Prover, que identifica conjeturas útiles mediante razonamiento abductivo. Acelera tu verificación formal.
Descubre DeliChess, un dataset innovador de diálogos grupales para resolver puzzles de ajedrez. Mejora la precisión mediante deliberación colaborativa.
Descubre cómo DAR mejora el razonamiento deóntico en IA usando arneses agénticos. Resultados sorprendentes en DeonticBench. ¡Lee más!
IGA alinea gradientes en ejemplos lógicamente isomorfos para destilar razonamiento robusto en LLMs, con hasta 14.3% más precisión y 4x consistencia lógica.
Descubre cómo el método pedagógico GASING entrena modelos de lenguaje en aritmética básica. Un GPT-2 pequeño alcanza más del 80% de precisión sin refuerzo. ¡Lee más!
Las trazas de razonamiento fallidas revelan fallos reparables sin leerlas. Aprende a diagnosticar y mejorar tus modelos.
Gemma 4 12B de Google: modelo open source multimodal que corre local en laptops 16GB. Analiza audio, video y texto con 256K de contexto. Ideal para privacidad y edge.
Microsoft presenta MAI-Thinking-1, su primer modelo de razonamiento propio, construido sin depender de OpenAI. Descubre sus capacidades en código, matemáticas y más.
Microsoft y OpenAI terminan su alianza: ahora compiten con nuevas herramientas de IA, superapp, agentes autónomos y más. Lee el análisis completo.
¿Sabías que los grafos visuales potencian el razonamiento de los LLMs? Un estudio revela cómo los andamios visuales superan al texto plano.