Rompiendo la maldición de la reversión en modelos de lenguaje autoregresivos
El Puente de Identidad: un simple ajuste en los datos de entrenamiento que rompe la maldición de la reversión en modelos de lenguaje. Logra un 50% de éxito.
El Puente de Identidad: un simple ajuste en los datos de entrenamiento que rompe la maldición de la reversión en modelos de lenguaje. Logra un 50% de éxito.
Descubre cómo REAL resuelve conflictos de conocimiento en preguntas visuales con pivotes de razonamiento, mejorando la precisión en VQA intensiva.
Descubre cómo los modelos de lenguaje afrontan el desafío LLM-WikiRace: navegar por Wikipedia para conectar conceptos. ¿Son capaces de planificar a largo plazo?
Descubre por qué los modelos de lenguaje visual fallan al razonar sobre transformaciones físicas. Un nuevo estudio con 112 modelos revela limitaciones críticas.
Descubre cómo el auto-bloqueo de información afecta el razonamiento activo de agentes LLM y cómo el método AREW lo mitiga, logrando mejoras de hasta 60 puntos.
FeynmanBench: 2000+ diagramas evalúan 19 LLMs. 70-95% en reconocimiento local, pero 13-17% en topología. Descubre las limitaciones.
Descubre UI-in-the-Loop (UILoop), nuevo paradigma que permite razonar sobre GUIs de forma interpretable, mejorando comprensión y acción.
Descubre cómo los PRA mejoran el razonamiento intensivo en conocimiento con recompensas paso a paso, logrando 81.9% en MedQA con Qwen3-4B.
Descubre RadAgent, el agente de IA que interpreta tomografías de tórax paso a paso, ofreciendo total transparencia y precisión. Mejora diagnósticos y confianza clínica.
KnowledgeBerg: benchmark que evalúa cobertura sistemática y razonamiento composicional en LLMs. Resultados clave sobre sus limitaciones.
Skill-MoE mejora el razonamiento de modelos de lenguaje combinando expertos por habilidades. Logra hasta un 8% más de precisión en benchmarks con un solo GPU.
Comparativa honesta de DeepSeek, Qwen, Kimi y GLM: precios, rendimiento y casos de uso reales. Encuentra el mejor modelo para tu proyecto.
Microsoft presenta MAI-Thinking-1, su primer modelo de IA con razonamiento avanzado. Entrenado desde cero con datos limpios, compite con líderes en ingeniería.
Aprende cómo T1 permite a modelos pequeños de IA verificar respuestas con herramientas externas, logrando rendimiento superior a modelos 8 veces mayores.
Descubre DSR-Bench, el benchmark que revela las limitaciones en razonamiento estructural de los LLM. ¡El mejor modelo solo obtiene 0.46/1!
Los dilemas éticos pueden ser un arma contra los LLMs. Descubre el ataque TRIAL y la defensa ERR que los protege.
Un nuevo marco de IA combina bases de datos textuales ligeras y LLM para planificar síntesis de nanomateriales, logrando resultados en solo tres iteraciones.
Descubre cómo MAPR usa recompensas predictivas para aumentar la precisión en modelos de razonamiento, acelerando el entrenamiento GRPO hasta 1.28x.
En TRMs, el razonamiento latente actúa como operador de mejora de política. Con RL y difusión, reducimos 18x los pasos.
Descubre cómo LatentMAS permite a agentes LLM colaborar directamente en el espacio latente, mejorando precisión hasta 14.6% y acelerando inferencia 4x sin necesidad de texto. Código abierto.