¿Puede el entorno hablar? T²-GRPO en cuidado de demencia Descubre cómo T²-GRPO optimiza agentes cuidadores con recompensas del entorno, mejorando la atención en demencia con seguridad y eficiencia. 2026-06-17 · 2 min