Dropout-GRPO: Variabilidad estocástica para razonamiento latente continuo
Dropout-GRPO introduce variabilidad estocástica en razonamiento latente para mejorar el aprendizaje por refuerzo grupal. Resultados en GSM8K.
Dropout-GRPO introduce variabilidad estocástica en razonamiento latente para mejorar el aprendizaje por refuerzo grupal. Resultados en GSM8K.
Las redes neuronales pueden tener representaciones sin ambigüedad usando teoría de la información. Un estudio logra decodificar neuronas con 100% de precisión.
Descubre ULPS: un marco que integra LLM calibrados en RL para mejorar la eficiencia en entornos con recompensas escasas. Resultados prometedores en MiniGrid.
U-Cast, modelo probabilístico, entrena en 12 días y genera ensamble en 3 segundos, superando a GenCast e IFS con 10x menos cómputo.
CoilDrop-MRI: método auto-supervisado para reconstrucción de MRI sin datos completos. Supera a otros con dropout en bobinas, alcanzando calidad de supervisados.
Descubre cómo un enfoque híbrido bifurcado predice la vida útil de motores turbofán, caracterizando incertidumbres realistas para mantenimiento inteligente.