Razonamiento de LLMs consciente de recursos para inteligencia en el borde móvil
Optimiza el razonamiento de LLMs en borde móvil con redes de expertos y CoT adaptativo: logra 90% de precisión y latencia en menos de 1 segundo.
Optimiza el razonamiento de LLMs en borde móvil con redes de expertos y CoT adaptativo: logra 90% de precisión y latencia en menos de 1 segundo.
EP-HUBO usa optimización cuántica para seleccionar la mejor evidencia en razonamiento legal, superando el voto mayoritario y preservando hipótesis correctas.
Descubre cómo RREDCoT redistribuye recompensas en segmentos de cadenas de pensamiento para reducir la varianza y mejorar el aprendizaje por refuerzo en modelos de razonamiento.
Descubre cómo la latencia de autocompromiso revela hacking implícito en modelos de lenguaje sin recompensa externa. Un nuevo enfoque para seguridad en IA.
Descubre cómo el post-razonamiento y UCoT comprimen cadenas de pensamiento en LLMs, reduciendo tokens un 50% sin perder rendimiento. ¡Mejora la eficiencia!
Descubre ThoughtFold, un framework que elimina exploraciones redundantes en modelos de razonamiento, reduciendo tokens hasta un 56% sin perder precisión.
¿Los modelos de razonamiento grandes expresan su confianza de forma fiel? Cuantificamos la calibración entre incertidumbre interna y verbalizada, revelando desa
Cómo adaptadores ligeros entrenados en pares vector-etiqueta logran autointerpretación que supera etiquetas y revela razonamiento implícito.
Evalúa la legibilidad débil-a-fuerte en modelos de razonamiento: cadenas de pensamiento claras para supervisión segura de IA.
Descubre por qué los modelos de razonamiento (LRM) fallan al evaluar soluciones, pese a generarlas. Analizamos el sesgo de confirmación y el dataset VAIR.