Evaluación de agentes interactivos con un juez en línea generador de situaciones
Descubre el innovador método de juez en línea para evaluar agentes sociales generando situaciones, mejorando cobertura y fiabilidad.
Descubre el innovador método de juez en línea para evaluar agentes sociales generando situaciones, mejorando cobertura y fiabilidad.
Descubre cómo SRC mejora el entrenamiento de agentes web por imitación, reduciendo errores y aumentando diversidad. Resultados en WebArena-Infinity.
Las preguntas adaptativas y sondas del modelo del mundo permiten entrenar agentes de IA que explican su comportamiento y se adaptan a cambios.