#preferencias

Aprendizaje de preferencias calibrado: ranking de etiquetas

Descubre cómo la calibración mejora la precisión en rankings de etiquetas y su aplicación en RLHF.

2026-06-01 · 3 min

Alineación de Referencia por Pares: Observable Ordinal a Nivel de Modelo

Descubre cómo medir la alineación de preferencias en modelos de lenguaje con un observable ordinal. Estadística simple y estimadores con concentración.

2026-06-01 · 1 min

Colapso de representación en el entrenamiento secuencial posterior de LLMs

Descubre cómo el entrenamiento secuencial de LLMs provoca colapso de representación y qué intervenciones pueden preservar la plasticidad y la generalización.

2026-06-01 · 2 min

Alineación federada de preferencias con prior Gumbel-Softmax

Descubre FedVPA-GP: un nuevo marco de aprendizaje federado que personaliza modelos de lenguaje alineando preferencias de usuarios sin exponer datos, superando e

2026-06-01 · 2 min

Cuándo y cómo la curación humana resulta contraproducente: Alineación de preferencias bajo el bucle de autoconsumo multimodelo

Riesgo del bucle de autoconsumo multimodelo en alineación de preferencias y curación humana. Descubre sus implicaciones.

2026-05-30 · 1 min

Razonamiento fiable con modelos de lenguaje grandes mediante satisfacibilidad máxima basada en preferencias

Cómo lograr razonamiento fiable en LLMs aplicando satisfacibilidad máxima basada en preferencias. Mejora precisión y coherencia en modelos de lenguaje.

2026-05-30 · 2 min

Adaptación de recompensa en contexto para modelado robusto de preferencias

2026-05-29 · 2 min

Razonamiento Importa: Mitigar la Alucinación en Modelos de Razonamiento Grandes Multimodales mediante Optimización de Preferencias Condicionada por el Razonamiento

2026-05-29 · 2 min

Cerrando la brecha entre estabilidad y expresividad: Escalado de datos sintéticos y alineación de preferencias para modelos de lenguaje hablado con recursos limitados

Descubre cómo los datos sintéticos y la alineación de preferencias optimizan modelos de habla con pocos recursos. Técnicas eficaces para mejorar la precisión y el rendimiento.

2026-05-29 · 2 min

StoryLens: Reescritura de Historias Alineada con Preferencias mediante Enriquecimiento Narrativo Consciente del Contexto

2026-05-29 · 2 min

Hipervolumen Esperado Moldeado por Preferencias y Mejora de R2: Cálculo Exacto y Monotonicidad

Cálculo exacto del hipervolumen esperado con preferencias y mejora R2. Estudio de monotonicidad para optimización multiobjetivo.

2026-05-28 · 2 min

Alineando los puntos de referencia de modelos de lenguaje con preferencias por pares

2026-05-28 · 2 min

AdaDPO: Optimización Directa de Preferencias Auto-Adaptativa con Actualizaciones de Gradiente Equilibradas

2026-05-28 · 3 min

Snowveil: Un marco para el descubrimiento descentralizado de preferencias

2026-05-28 · 2 min

Alineación multimodal y optimización de preferencias para la generación condicional de ARN sin entrenamiento previo

Alineación multimodal y optimización de preferencias para generar ARN sin entrenamiento. Una técnica novedosa que acelera la investigación en biología sintética y diseño de ARN.

2026-05-28 · 2 min

Agregación veraz de preferencias en línea para el ajuste fino de LLM en crowdsourcing móvil

2026-05-28 · 2 min

StepOPSD: Destilación de Preferencias en Línea Consciente de los Pasos para el Aprendizaje por Refuerzo de Agentes

StepOPSD: Destilación de preferencias online consciente de pasos para RL de agentes. Optimiza el aprendizaje por refuerzo con destilación paso a paso.

2026-05-27 · 3 min