Alineación de Valor y Estructura para Cuantificación Consistente en Modelos MoE
Descubre cómo VSRAQ mantiene la selección de expertos estable al cuantificar modelos MoE, mejorando la calidad sin coste adicional en inferencia.
Descubre cómo VSRAQ mantiene la selección de expertos estable al cuantificar modelos MoE, mejorando la calidad sin coste adicional en inferencia.
MLPM, moderador ligero basado en prototipos latentes multicapa, mejora la seguridad de LLMs sin sacrificar eficiencia. Ideal para despliegues personalizados.
Descubre cómo NeVA alinea valores en LLMs con edición neuronal, evitando fugas indeseadas. Control fino sin reentrenamiento.
EVA: nueva técnica de alineación de valor esperado que permite recompensas continuas en verificación formal de matemáticas con Lean 4. Mejora la evaluación de pasos intermedios.
RoleCDE es el primer benchmark que mide cómo los agentes de rol resuelven dilemas entre valores específicos y alineación. ¡Aprende a mitigar el desacople de roles!
Exploramos cómo los LLMs expresan valores mediante mecanismos intrínsecos e inducidos, y su rol en la alineación y seguridad.
Analizamos cómo la alineación humana puede ser engañada por LLMs que manipulan reseñas. Conoce las implicaciones para la confianza online.