#nsa · DeepCodeNews

Una visión unificadora sobre la incertidumbre de recompensa en RLHF

Descubre cómo la incertidumbre en RLHF se unifica con un modelo distribucional, mitigando el reward hacking. Clave para optimización robusta.

2026-06-16 · 2 min

Ataques CFD a agentes LLM que usan herramientas

Descubre cómo los ataques CFD explotan brechas de procedencia en agentes LLM que usan herramientas, superando defensas actuales en hasta un 28%. Aprende a

2026-06-16 · 1 min

Entrenamiento E2E para sistema TTS basado en tokens discretos y LLM

El nuevo marco E2E unifica tokenizador, LLM y FM, logrando un WER del 0.78% y 1.56% en TTS, superando a los sistemas en cascada.

2026-06-16 · 2 min

Aprendiendo de residuos de solucionadores para generación crítica

Aprende cómo los residuos de solucionadores y las recompensas aditivas saturadas (SAR) logran que un modelo de 8B compita con sistemas frontera en generación

2026-06-16 · 3 min

Ley geométrica interna: aprender de residuos para generación precisa

Descubre cómo SAR mejora 2.3x la resolución de problemas geométricos de precisión crítica, superando el enmascaramiento de gradientes atípicos.

2026-06-16 · 3 min

Representación densa universal de eventos de fútbol con TabTransformer

Descubre cómo TabTransformer aprende representaciones densas de eventos de fútbol, mejorando la calibración de probabilidades en tareas deportivas.

2026-06-16 · 2 min

Una representación densa universal de eventos de fútbol basada en TabTransformer

Descubre cómo el modelo TabTransformer aprende representaciones densas de eventos de fútbol, capturando la semántica de acciones para mejorar predicciones

2026-06-16 · 2 min

Inferencia de atributos desde anuncios dirigidos interactivos

Los anuncios dirigidos interactivos pueden revelar atributos de usuarios. Estudio analiza ataques de inferencia y defensas.

2026-06-16 · 2 min

Text-to-SQL: razonamiento y generalización con ajuste fino auto-mejorado

Descubre CoTE-SQL, un nuevo método que integra razonamiento y generalización en Text-to-SQL mediante ajuste fino auto-mejorado, logrando mejores resultados en

2026-06-16 · 2 min

RoboPIN: Razonamiento Incorporado con Cadena de Pensamiento Anclada

Descubre cómo RoboPIN con PinCoT mejora el razonamiento incorporado usando anclas visuales, logrando un 12% más de precisión en benchmarks.

2026-06-16 · 3 min

STRIDE: Estrategias de Trayectoria para RL Verificable

STRIDE mejora el RLVR con estimación discriminativa: asigna créditos precisos a patrones estratégicos. ¡Optimiza el razonamiento de tu IA!

2026-06-16 · 2 min

Pensamiento Visual Fundamentado en Imágenes

Descubre cómo el pensamiento visual con grounding mejora el razonamiento de modelos de IA, vinculando pensamientos a regiones de imagen para mayor precisión.

2026-06-16 · 2 min

Paradoja calidad-utilidad: alta recompensa daña razonamiento en modelos pequeños

Descubre por qué los datos de alta recompensa dañan el razonamiento matemático en modelos pequeños y cómo la alineación de estilo mejora la destilación.

2026-06-16 · 1 min

Flujo de Pensamiento Latente: Razonamiento Eficiente en LLMs

Descubre cómo Latent Thought Flow mejora la precisión un 9.5% y reduce el tiempo de razonamiento un 27.2% en modelos de lenguaje grandes. Nuevo método de

2026-06-16 · 2 min

Inyección de guía por fase para MAPPO en recuperación de líneas de ensamblaje

Descubre cómo la inyección de guía por fase optimiza la recuperación de interrupciones en líneas de ensamblaje usando MAPPO recurrente.

2026-06-16 · 2 min

Derivación de optimización de políticas LLM: de recompensa a GRPO

Explora la derivación de optimización de políticas en LLM: de la recompensa esperada a GRPO. Un marco unificado que diagnostica fallos y guía el diseño de

2026-06-16 · 2 min

La codicia se aprende: incentivos visibles y hackeo de recompensas

La codicia se aprende: los incentivos visibles pueden hacer que la IA sacrifique su tarea por recompensas. Un peligro para la seguridad y alineación.

2026-06-16 · 2 min

Modelado de Recompensas Evolutivo Bilevel para Generalización en RL

Descubre cómo GERS mejora la generalización en RL usando solo métricas escalares, superando a métodos tradicionales en entornos no vistos.

2026-06-16 · 2 min

Aprendizaje de políticas con una sola trayectoria en MDP promedio

Aprende a obtener una política óptima desde una sola trayectoria en MDP promedio. Garantías de complejidad de muestra finitas con métodos libres de modelo.

2026-06-16 · 2 min

Aprendizaje por refuerzo inverso de máxima entropía en juegos de campo medio

Descubre cómo la máxima entropía permite recuperar políticas óptimas en juegos de campo medio a partir de demostraciones expertas. Algoritmos eficientes con

2026-06-16 · 3 min