Redirección de rechazo consciente de expertos
Descubre cómo los modelos MoE pueden controlar el rechazo a peticiones dañinas. Estudio revela la efectividad de la redirección basada en un solo experto.
Descubre cómo los modelos MoE pueden controlar el rechazo a peticiones dañinas. Estudio revela la efectividad de la redirección basada en un solo experto.
Descubre por qué los modelos entrenados para ser siempre útiles pueden presentar fallos inesperados de alineación, sycophancy y falta de control. Aprende cómo mitigarlos.