Verificación condicionada por confianza en RL en tiempo de prueba
Descubre cómo TTRL-CoCoV mejora Pass@k y Pass@1 en razonamiento complejo sin etiquetas, usando verificación condicionada por confianza.
Descubre cómo TTRL-CoCoV mejora Pass@k y Pass@1 en razonamiento complejo sin etiquetas, usando verificación condicionada por confianza.
Descubre TAO-RL, el nuevo marco que combina filtrado de trayectorias con exploración guiada por entropía para optimizar el razonamiento de LLMs con herramientas. Mejora la eficiencia y precisión.
¿Los modelos de razonamiento grandes expresan su confianza de forma fiel? Cuantificamos la calibración entre incertidumbre interna y verbalizada, revelando desa
Descubre cómo los embeddings de grafos aproximan la inferencia probabilística en SEL de forma eficiente, con garantías de sonido y velocidad.
Descubre DTKG, un marco que combina verificación de hechos y cadenas en grafos de conocimiento para responder preguntas multi-salto con alta precisión.
Descubre MemVerse, el marco de memoria multimodal que permite a los agentes de IA recordar, adaptarse y razonar sin olvido catastrófico. ¡Mejora el aprendizaje continuo!
MIND: nuevo marco de razonamiento activo para modelos multimodales. Emula el proceso humano entender-repensar-corregir. Logra SOTA.
Descubre cómo X-RAY mapea la capacidad de razonamiento de los LLMs usando sondas formales y calibradas, revelando asimetrías y fallos interpretables.
Descubre cómo el benchmark REL evalúa el razonamiento relacional en LLMs, revelando sus limitaciones en tareas de alta aridad en ciencias.
Descubre cómo EvoOR-Agent utiliza la coevolución de arquitecturas de agentes y razonamiento interpretable para optimizar procesos complejos con LLMs. Mejora el rendimiento y la interpretabilidad.
NVIDIA Cosmos 3 unifica razonamiento físico, generación de mundos y acciones en un solo modelo abierto. Ideal para robótica y vehículos autónomos.
WISE: Benchmark que evalúa conocimiento mundial en T2I. 1000 prompts en 25 subdominios, WiScore mide cultura, espacio-tiempo y ciencia.
Optimiza el razonamiento infinito-horizonte con InftyThink+ usando RL. Mejora precisión y eficiencia, superando limitaciones del chain-of-thought.
LatentChem: razonamiento químico con pensamiento latente. Logra 59.88% de victorias frente a CoT y 10x menos pasos. Optimización sin cadenas textuales.
Cómo adaptadores ligeros entrenados en pares vector-etiqueta logran autointerpretación que supera etiquetas y revela razonamiento implícito.
Evalúa la legibilidad débil-a-fuerte en modelos de razonamiento: cadenas de pensamiento claras para supervisión segura de IA.
Descubre cómo MOSAIC acelera hasta 2.5x los sistemas MoA en GPU, optimizando la carga de trabajo y manteniendo la precisión. Ideal para desarrolladores de IA.
FGRPO: fine-tuning privado de modelos de lenguaje con agregación adaptativa en datos no IID. Mejora el razonamiento sin exponer datos.
FGRPO optimiza modelos de razonamiento con agregación adaptativa en datos no IID, preservando privacidad.
Hidden-Align alinea estados ocultos verificados para mejorar el razonamiento en RL, logrando hasta 6.2 puntos de mejora en benchmarks.