#mpe · DeepCodeNews

Sesgo tras sesgo: recompensa mecánica en modelos de lenguaje

Los modelos de recompensa en IA tienen sesgos. La recompensa mecánica los mitiga con pocos datos. Optimiza la alineación de modelos de lenguaje.

2026-06-02 · 2 min

RL para diseño óptimo de experimentos en identificación de parámetros

Agente de RL optimiza señales de excitación para identificación de parámetros en sistemas mecatrónicos, superando métodos clásicos con solo 0.75% de violaciones

2026-06-02 · 2 min

Cómo los LLMs diseñan recompensas en RL cooperativo multiagente

Aprende cómo los LLMs mejoran el diseño de recompensas en RL cooperativo multiagente, logrando mayor rendimiento en Overcooked.

2026-06-02 · 2 min

EST-PRM: Pruebas de estrés a modelos de recompensa de proceso

EST-PRM pone a prueba la estabilidad de los modelos de recompensa de proceso ante transformaciones que distorsionan la calibración de recompensas.

2026-06-02 · 2 min

Solución In2AI: Atribución Retrasada de Recompensa en MindGames Arena

Descubre cómo In2AI revolucionó el entrenamiento multi-agente con atribución retrasada de recompensa, logrando que un modelo de 8B superara a GPT-5 en MindGames Arena.

2026-06-02 · 2 min

Co-Entrenamiento de Políticas y Modelado del Mundo para Agentes de Lenguaje

Descubre PaW: co-entrenamiento de políticas y modelado del mundo para agentes de lenguaje. Mejora el aprendizaje por refuerzo sin modificar la inferencia.

2026-06-02 · 2 min

Mitigando el sesgo perceptual en LLMs multimodales como jueces

Descubre cómo un nuevo método de perturbación perceptual y modelado de recompensa corrige el sesgo en evaluaciones de LLMs multimodales. Más preciso y alineado con humanos.

2026-06-02 · 1 min

LLMs discriminan estados clave para exploración multiagente eficiente

Descubre cómo LEMAE usa LLMs para identificar estados clave y acelerar la exploración multiagente, con menos redundancia. Resultados superiores en SMAC y MPE.

2026-06-02 · 2 min

CAST: Autoenseñanza no privilegiada con inversión de ventaja para GRPO

CAST optimiza el RLVR con autoenseñanza no privilegiada y asignación de ventajas token en grupos de varianza cero. Mejora el razonamiento.

2026-06-02 · 2 min

SDR: Recompensas de distancia de conjunto para informes radiológicos

Mejora la generación automática de informes de rayos X de tórax con recompensas Set-Distance. Resultados: +6.8% BERTScore, +7.82% RadGraph, +4.45% CheXbert.

2026-06-02 · 1 min

Latent Reward Steering: Marco Adaptativo para Comportamientos Cognitivos en LLMs

Descubre cómo Latent Reward Steering optimiza el razonamiento de LLMs al promover comportamientos cognitivos implícitos.

2026-06-02 · 3 min

Antes de que el modelo aprenda el error: fuzzing de verificadores RLVR

Descubre cómo el fuzzing de verificadores RLVR revela bugs antes de que el modelo los aprenda. Mejora la seguridad de tu IA con métricas clave.

2026-06-02 · 2 min

Alineación de Valor Esperado para Verificación Formal en Matemáticas

EVA: nueva técnica de alineación de valor esperado que permite recompensas continuas en verificación formal de matemáticas con Lean 4. Mejora la evaluación de pasos intermedios.

2026-06-02 · 1 min

La nueva imagen social: IA competente y proactiva en el trabajo

Una IA menos competente puede aumentar tu satisfacción laboral. Estudio revela impacto en percepción propia y de colegas en el trabajo.

2026-06-02 · 2 min

Cuando datos escasean: escalando modelos dispersos con entrenamiento repetido

Optimiza el escalado de modelos dispersos con datos limitados. Descubre leyes de escalado, saturación retardada y compensaciones clave.

2026-06-02 · 1 min

RLVR sin muestras ineficaces: POPO para razonamiento LLM

POPO elimina muestras ineficaces acelerando el fine-tuning de LLM para razonamiento matemático, planificación y geometría visual con menos rollouts.

2026-06-02 · 2 min

Optimización encadenada de modalidades en aprendizaje federado multimodal

Descubre cómo FedMChain optimiza el aprendizaje federado multimodal evitando la competencia entre modalidades y mejorando la precisión con menos comunicación.

2026-06-02 · 1 min

Repensando el rol de la temperatura en destilación de LLMs

La temperatura transforma la destilación de LLMs: a altas temperaturas, FKL supera a RKL. Aprende a optimizar la transferencia de conocimiento.

2026-06-02 · 2 min

Reconstrucción inversa de ebullición con HB-ARFM

Descubre cómo HB-ARFM reconstruye campos de temperatura y velocidad en ebullición a partir de observaciones parciales, superando limitaciones Markovianas.

2026-06-02 · 2 min

SPADER: Recompensas de Exploración con Diversidad para QA Multi-Respuesta

SPADER utiliza aprendizaje por refuerzo con recompensas de exploración diversa para mejorar el recuerdo y F1 en QA multi-respuesta.

2026-06-02 · 2 min