MCBench: Benchmark de seguridad multicontexto para LLMs Omni
Descubre MCBench, el primer benchmark multicontexto que evalúa la seguridad de modelos de lenguaje omni (visión, audio y texto). Revela sus limitaciones en razonamiento multimodal.
Descubre MCBench, el primer benchmark multicontexto que evalúa la seguridad de modelos de lenguaje omni (visión, audio y texto). Revela sus limitaciones en razonamiento multimodal.
Solo 2 de 8 modelos frontier rechazan tareas ofensivas. Presentamos el primer marco para definir cuándo los agentes de IA deben negarse en ciberseguridad.