#cmdp

CS-RLHF: Alineación Segura de LLMs con Optimización de Penalización Fija

Descubre CS-RLHF: alinea LLMs de forma segura con penalización fija, 5x más eficiente contra jailbreaks. ¡Seguridad certificable!

2026-06-11 · 2 min

Ver antes de colisionar: RL segura anticipatoria con modelos de lenguaje visual

Descubre cómo los modelos de lenguaje visual congelados permiten un RL anticipatorio que evita colisiones antes de que ocurran, superando métodos tradicionales.

2026-06-11 · 3 min

Entrenamiento eficiente de LLM con RL bajo discrepancia de caja negra

DCMDP reformula el RL para LLM corrigiendo la discrepancia train-inference. Mejora el rendimiento en modelos como Qwen-3 incluso con recursos limitados.

2026-06-09 · 2 min