OpenClawBench: Evaluación comparativa de anomalías del lado del proceso en trayectorias de ejecución de agentes en el mundo real
<meta name=description content=OpenClawBench: benchmark de anomalías en ejecuciones de agentes reales. Evalúa la robustez y seguridad de sistemas de IA ante comportamientos inesperados en entornos reales.>