#recompensas de rúbrica

Mejora de respuestas cardíacas en LLMs con recompensas de rúbrica y GRPO

GRPO y recompensas de rúbrica mejoran respuestas cardíacas en LLMs pequeños: precisión sube a 50.2%, compitiendo con modelos 8x mayores.