CausalPhys: Evaluación de razonamiento físico causal en modelos de visión-lenguaje Nuevo benchmark CausalPhys con 3,000 preguntas evalúa razonamiento causal en VLMs. Mejora precisión e interpretabilidad con aprendizaje causal. 2026-06-06 · 2 min