Enseñar el método, no la respuesta: Destilación privilegiada multimodal Descubre cómo PTD-PO optimiza políticas multimodales sin revelar respuestas, mejorando el razonamiento complejo. 2026-06-08 · 3 min