Mejora de respuestas cardíacas en LLMs con recompensas de rúbrica y GRPO GRPO y recompensas de rúbrica mejoran respuestas cardíacas en LLMs pequeños: precisión sube a 50.2%, compitiendo con modelos 8x mayores. 2026-06-06 · 2 min