Ambigüedad en la predicción de errores con cuantificación de incertidumbre
Descubre cómo la ambigüedad afecta la predicción de errores en LLMs y cómo desenredarla mejora la precisión hasta en 10 puntos de PRR.
Descubre cómo la ambigüedad afecta la predicción de errores en LLMs y cómo desenredarla mejora la precisión hasta en 10 puntos de PRR.
SPADER utiliza aprendizaje por refuerzo con recompensas de exploración diversa para mejorar el recuerdo y F1 en QA multi-respuesta.
Descubre cómo CARE-RL mitiga conflictos entre dominios en LLMs con aprendizaje por refuerzo consciente de capacidades, con resultados superiores en benchmarks.
Los LLMs optimizados por resultados alcanzan altos benchmarks pero colapsan en razonamiento. Te explicamos la paradoja y cómo los modelos de recompensa de procesos la resuelven.
Descubre cómo la inferencia 2-bit en modelos de razonamiento genera fallos como bucles y cómo la planificación y rescate recuperan precisión hasta 87%.
Mejora la robustez de tus LLMs con DOPA, un marco que usa proxies OOD para recuperar demostraciones diversas y efectivas en entornos fuera de distribución.
Un marco de red teaming multidominio revela fallos críticos en seguridad y equidad de modelos médicos de IA, ocultos por métricas promedio.
Descubre cómo los LLMs reflejan la incertidumbre humana mediante alineación, calibración y patrones de activación. Un estudio clave para entender y combatir alucinaciones.
Descubre la paráfrasis generada por GPT-4o que mejora la traducción de lengua de señas en PHOENIX14T, pero revela límites en conjuntos extremos.
Descubre DTop-p MoE, un nuevo mecanismo de enrutamiento dinámico que aprende el umbral de probabilidad para controlar la esparcidad, superando a Top-k y Top-p fijo en modelos fundacionales.
ConSensus mejora la precisión de sensores multimodales un 7.1% usando fusión híbrida multiagente, robusta ante ruido y datos faltantes. ¡Entérate!
Descubre cómo la Teoría del Átomo define las unidades fundamentales de los LLM, logrando un 99.9% de fidelidad y 99.8% de estabilidad.
La optimización conjunta de capas en compresión de LLMs fracasa. El flujo residual desacopla las capas, haciendo clave la reconstrucción por capas.
Descubre cómo SSMoE aprovecha los autovectores de los expertos para un enrutamiento sin colapso, mejorando modelos SMoE sin entrenamiento adicional.
Descubre los desafíos de validar el razonamiento de los LLM: falta de falsabilidad, sesgos y opacidad. Guía para una ciencia más transparente.
Descubre NeUQI, un método de inicialización casi óptima para cuantización uniforme en LLMs. Mejora el rendimiento y reduce el consumo de memoria. ¡Lee más!
Descubre DTBench, un benchmark sintético para evaluar LLMs en extracción documento-tabla, probando razonamiento y resolución de conflictos.
Descubre cómo las transformaciones de probabilidad inducidas en tiempo de inferencia en LLMs siguen patrones log-ratio reproducibles. Un análisis empírico de 4,975 problemas.
Descubre cómo el entrenamiento secuencial de LLMs provoca colapso de representación y qué intervenciones pueden preservar la plasticidad y la generalización.