#optimización de preferencias

Minimización de arrepentimiento para aprendizaje de preferencias en LLMs

RePO minimiza el arrepentimiento para mejorar el aprendizaje de preferencias en LLMs. Resultados superiores en razonamiento y preferencias humanas. ¡Descúbrelo!

2026-06-16 · 1 min

PVminerLLM2: Mejora de la Extracción Estructurada de la Voz del Paciente

PVminerLLM2: nueva técnica de optimización de preferencias para extraer la voz del paciente con mayor precisión.

2026-06-16 · 2 min

SpeechLLM afinado para evaluación L2 multigranular y explicaciones

Aprende sobre el SpeechLLM que evalúa el nivel de L2 con precisión multigranular y genera razonamientos en lenguaje natural para mayor transparencia.

2026-06-16 · 2 min

Optimización Directa de Preferencias Autorregresiva

Descubre cómo ADPO integra el modelado autorregresivo para alinear LLMs con preferencias humanas de forma más eficiente.

2026-06-11 · 2 min

ADPO: Optimización Autoregresiva de Preferencias

Descubre cómo ADPO optimiza el alineamiento de modelos de lenguaje al integrar el modelado autoregresivo antes del modelo Bradley-Terry, mejorando la eficiencia.

2026-06-11 · 2 min

Alineación de LLMs con Preferencias mediante Dirección Residual

Descubre PaLRS, un método sin entrenamiento que alinea LLMs con preferencias humanas usando vectores de dirección residual. Mejora razonamiento y código sin costosos ajustes.

2026-06-11 · 2 min

Más allá del Golden Teacher: co-enseñanza LLM-GNN

Descubre cómo la co-enseñanza bidireccional entre LLM y GNN supera las limitaciones del aprendizaje con pocos ejemplos en grafos, mejorando la precisión un 7.86%.

2026-06-11 · 1 min

Análisis mecanicista de algoritmos de alineación en modelos de lenguaje

Descubrimos cómo seis algoritmos de alineación (PPO, DPO, SimPO, ORPO, GRPO, KTO) transforman internamente los modelos. Implicaciones para seguridad.

2026-06-10 · 2 min

Optimización de Preferencias Multiobjetivo para Modelos Generativos

MOPO optimiza preferencias multiobjetivo en modelos generativos, mejorando la alineación humana al equilibrar utilidad e inofensividad. ¡Conócelo!

2026-06-08 · 1 min

Prioridades estadísticas para preferencias implícitas en agentes personales

Un arnés local de prioridades estadísticas permite a agentes personales aprender preferencias implícitas, superando a la memoria tradicional.

2026-06-06 · 1 min

Macro: Explicaciones contrafácticas multilingües mejoradas con DPO

Descubre Macro: optimización de preferencias para explicaciones contrafácticas multilingües más válidas y mínimas. Mejora la transparencia de los LLMs.

2026-06-06 · 2 min

SoLoPO: Optimización de Preferencias de Corto a Largo en LLMs

Descubre cómo SoLoPO mejora la capacidad de los LLMs para manejar contextos largos mediante optimización de preferencias de corto a largo, logrando mayor eficiencia y precisión.

2026-06-04 · 3 min

SoLoPO: mejora el contexto largo en LLMs con optimización corto-largo

Descubre SoLoPO, un framework que mejora la capacidad de los LLMs para manejar contextos largos mediante optimización de preferencias corto-largo. Mayor eficiencia y precisión.

2026-06-04 · 1 min

ThoughtFold: Plegado de Cadenas de Razonamiento con Aprendizaje Introspectivo

Descubre ThoughtFold, un framework que elimina exploraciones redundantes en modelos de razonamiento, reduciendo tokens hasta un 56% sin perder precisión.

2026-06-03 · 2 min

MADPO: Optimización Adaptativa de Preferencias por Márgenes

Descubre MADPO, un método que utiliza un modelo de recompensa para ajustar dinámicamente el aprendizaje en la optimización de preferencias, superando las limitaciones de DPO.

2026-06-02 · 1 min