PaSBench-Video: benchmark de video para advertencias proactivas de seguridad
¿Pueden los modelos multimodales advertir peligros en video antes de que ocurran? PaSBench-Video pone a prueba su precisión temporal. Descubre los resultados.
¿Pueden los modelos multimodales advertir peligros en video antes de que ocurran? PaSBench-Video pone a prueba su precisión temporal. Descubre los resultados.
TRACE comprime evidencia de riesgo en trayectorias de agentes para mejorar la seguridad en tareas de largo plazo. ¡Alta precisión!
Descubre cómo SkillVetBench detecta amenazas ocultas con sandboxing y verificación runtime en ecosistemas de habilidades abiertas.