#preferencia

StepOPSD: Destilación de Preferencias en Línea Consciente de los Pasos para el Aprendizaje por Refuerzo de Agentes

StepOPSD: Destilación de preferencias online consciente de pasos para RL de agentes. Optimiza el aprendizaje por refuerzo con destilación paso a paso.

2026-05-27 · 3 min

CroCo: Ajuste de Preferencias Contrastivo Translingüístico en Auto-generaciones

2026-05-27 · 2 min

Aprendiendo de preferencias por pares: Una introducción al modelo de Bradley Terry

Aprende cómo el modelo Bradley-Terry analiza comparaciones por pares para predecir preferencias. Ideal para ranking y toma de decisiones.

2026-05-27 · 3 min

CompassDPO: Optimización Directa de Preferencias Controlada por Dinámica para un Alineamiento de Seguridad Robusto

2026-05-27 · 2 min

Uni-DPO: un paradigma unificado para la optimización dinámica de preferencias de LLMs

2026-05-27 · 2 min

Arrepentimiento bilateral independiente del tiempo para mercados de emparejamiento con entrevistas limitadas

Estudio del arrepentimiento bilateral atemporal en mercados de emparejamiento con entrevistas limitadas. Optimización de algoritmos de matching para reducir el regret.

2026-05-27 · 2 min