Contaminación de preentrenamiento en benchmarks médicos de visión-lenguaje Auditamos benchmarks médicos de VLM y encontramos solapamiento de imágenes en SLAKE-En (19.8%) y señales de intercambiabilidad en Qwen2.5-VL. ¿Confías en tus modelos? 2026-06-10 · 2 min