ViCuR: Destilación multimodal on-policy con señales visuales recuperables
ViCuR mejora el razonamiento visual en destilación multimodal on-policy usando señales visuales recuperables, superando métodos en +1.19%.
ViCuR mejora el razonamiento visual en destilación multimodal on-policy usando señales visuales recuperables, superando métodos en +1.19%.
ViCuR usa pistas visuales recuperables para destilación on-policy multimodal, mejorando razonamiento sin sesgos de atajos. Resultados mejores en benchmarks.
Evaluamos 30 LLMs en la generación de especificaciones TLA+ correctas. Solo un 8.6% de precisión semántica. ¿Son fiables? Descúbrelo.
Los flujos contextuales representan la atención investigativa y mejoran la evaluación con razonamiento analógico. Un nuevo enfoque para entender su evolución.
MedReCo: un framework que permite a la IA razonar comparativamente entre imágenes radiológicas, mejorando diagnósticos y seguimientos. Resultados clínicos superiores.
DataCOPE descubre habilidades sin supervisión para agentes de análisis de datos, mejorando su rendimiento en informes un 9.7% y en razonamiento un 32.3%.
NF-CoT: razonamiento latente con flujos normalizadores para código eficiente y preciso. Supera a la cadena de pensamiento tradicional.
SARDI usa tokens de baja confianza para guiar recuperación en desruido. Logra alta precisión en preguntas multi-salto sin entrenamiento.
Descubre Soft Sequence Policy Optimization: un nuevo método off-policy que mejora la estabilidad y rendimiento en tareas de razonamiento y codificación para LLMs.
DynTS selecciona solo tokens clave en modelos de razonamiento grandes para reducir memoria y acelerar inferencia, manteniendo precisión. Optimiza eficiencia computacional.
Descubre cómo Octopus-8B logra autocorrección eficiente en VLMs mediante aumento de trayectorias, superando a otros modelos con un 1.0 de puntuación y menor tiempo de entrenamiento.
Descubre cómo BG-MCTS optimiza búsqueda en árbol con presupuesto fijo de tokens para razonamiento superior.
SA-AH-GRPO reduce la varianza un 3.6x y mejora la precisión en razonamiento matemático con descuento asimétrico por token. Resultados en GSM8K con Qwen.
Descubre cómo LEVANTE-bench compara modelos de IA con niños de 5 a 12 años en tareas cognitivas. ¿Son los VLMs más inteligentes que un niño de 5º grado?
Descubre cómo A4D revoluciona la planificación robótica al razonar sobre funcionalidades de objetos. Logra un 94% de precisión y 100x más rapidez. ¡Descúbrelo!
Descubre cómo los grafos causales y las cadenas contrafactuales revelan el razonamiento interno de los LLM, mejorando la transparencia y la interpretabilidad en tareas de clasificación.
Comprime trazas de razonamiento para destilar conocimiento. Reduce tokens de entrenamiento hasta 70% y acelera 7.6x con hasta 96% de precisión.
HoT-SSM combina hipergrafos dinámicos y modelos de estado para mejorar predicciones clínicas capturando interacciones complejas y dependencias temporales.
Descubre cómo MaxPO optimiza el post-entrenamiento de LLMs con una nueva línea base Leave-Two-Out que centra la ventaja y reduce la varianza del gradiente.
La IA erosiona la responsabilidad epistémica. PEEL propone un andamio semiótico usando Voyant Tools y Claude para restaurarla. Conoce las implicaciones.