#triggers

Patcher: Reparación post-hoc de modelos de lenguaje con puertas traseras

Descubre cómo Patcher repara modelos de lenguaje con puertas traseras usando solo un fallo reportado. Defensa práctica contra ataques de entrenamiento.

2026-06-03 · 2 min

La auditoría de políticas casi óptimas puede ser exponencialmente difícil

Descubre por qué auditar políticas casi óptimas en RL puede ser exponencialmente difícil. Analizamos cotas inferiores de consulta y la capacidad Rashomon.

2026-06-02 · 2 min