#conservadores

Aprendizaje de Representación Multitarea para Bandidos Lineales Conservadores

Aprendizaje multitarea para bandidos lineales conservadores: optimiza recompensas respetando restricciones de seguridad. Enfoque novedoso.