CausalPhys: Evaluación de razonamiento físico causal en modelos de visión-lenguaje
Nuevo benchmark CausalPhys con 3,000 preguntas evalúa razonamiento causal en VLMs. Mejora precisión e interpretabilidad con aprendizaje causal.
Nuevo benchmark CausalPhys con 3,000 preguntas evalúa razonamiento causal en VLMs. Mejora precisión e interpretabilidad con aprendizaje causal.