#mpe · DeepCodeNews

Sintetizar y Recompensar: Aprendizaje por Refuerzo para Herramientas Multi-Paso

Descubre PROVE: recompensas programáticas para mejorar el uso de herramientas multi-paso en LLMs. Resultados en BFCL, tau2-bench y T-Eval.

2026-06-03 · 2 min

SHARP: ¿Quién merece la recompensa en sistemas multiagente?

Descubre SHARP: optimización con crédito Shapley para sistemas multiagente. Mejora resultados un 23% frente a métodos tradicionales. ¡Aprende más!

2026-06-03 · 2 min

Soluciona problemas de micrófono y cámara tras instalar FFmpeg

¿Micrófono o cámara no funcionan tras instalar FFmpeg? Solución paso a paso: deshabilita servicios, actualiza controladores y más. Recupera tu audio y video.

2026-06-03 · 2 min

Reino Unido obliga a Google a permitir exclusión de búsqueda con IA

La CMA del Reino Unido obliga a Google a dar control a editores sobre su contenido en funciones de IA como AI Overviews. Descubre los detalles.

2026-06-03 · 1 min

Reino Unido impone reglas a Google para proteger a los editores

La CMA impone nuevas reglas a Google Search: los editores podrán negociar y optar por no participar en AI Overviews. Descubre los detalles.

2026-06-03 · 2 min

CoMPAS3D: Dataset y Benchmark para Movimiento Interactivo en Robótica Social

Descubre CoMPAS3D, el dataset de captura de movimiento de salsa que permite evaluar robots humanoides en interacciones sociales con métricas objetivas.

2026-06-03 · 2 min

¿De quién es el nombre? II: Auditoría de recomendaciones de académicos con LLM

Descubre cómo evaluamos la recomendación de expertos académicos con LLM, analizando intervenciones como temperatura, RAG y sesgos. Resultados sorprendentes.

2026-06-03 · 3 min

CodeHacker: generación automatizada de pruebas para detectar vulnerabilidades

CodeHacker genera pruebas adversariales para detectar vulnerabilidades en soluciones de programación competitiva. Mejora benchmarks y entrena modelos de IA.

2026-06-03 · 2 min

RESCAST-100K: Dataset completo para predicción de carga y temperatura en hogares

Dataset RESCAST-100K: 100,000 hogares simulados para predicción de carga y temperatura. Ideal para transferencia de aprendizaje y adaptación de dominio.

2026-06-03 · 1 min

HARVE: Edición Robusta del Vector de Cabeza de Recompensa

Descubre HARVE, método sin entrenamiento que edita el vector de cabeza de recompensa para proteger modelos de lenguaje del hackeo, manteniendo su rendimiento.

2026-06-03 · 2 min

HARVE: Edición de Vector de Recompensa para Robustez ante Hacking

Descubre HARVE, un método sin entrenamiento que edita el vector de recompensa para eliminar el reward hacking en modelos de lenguaje. Mejora robustez sin perder capacidad.

2026-06-03 · 2 min

Alinear estados ocultos verificados mejora razonamiento en RL

Hidden-Align alinea estados ocultos verificados para mejorar el razonamiento en RL, logrando hasta 6.2 puntos de mejora en benchmarks.

2026-06-03 · 2 min

El acierto hace la fuerza: alinear estados ocultos para RL

Hidden-Align alinea estados ocultos en modelos de lenguaje, mejorando el razonamiento matemático hasta un 6.2% en benchmarks. Técnica innovadora de RL.

2026-06-03 · 2 min

Gobernanza multiagente para adaptación online de modelos termohidráulicos

Un sistema multiagente con validación por compuertas reduce un 19% el error en predicciones termohidráulicas bajo cambios de régimen operativo. Descubre cómo.

2026-06-03 · 3 min

GEAR: Mitigando la propagación de crédito falso en RL con rubricas

GEAR mitiga la propagación de crédito falso en RL con rubricas, logrando mejoras del 15.5% y reduciendo errores un 96.5%. Conoce cómo.

2026-06-03 · 3 min

Mitigación del Crédito Falso en RL con Rúbricas

GEAR soluciona la propagación de crédito falso en RL con rúbricas mediante agregación gráfica probabilística. Logra mejoras de hasta 15.5% en HealthBench, WritingBench y PLawBench.

2026-06-03 · 2 min

Skill-RM: Unificando Criterios Heterogéneos con Habilidades de Agente

Skill-RM unifica criterios heterogéneos usando habilidades de agente para optimizar LLMs en entrenamiento posterior. ¡Prueba el nuevo modelo!

2026-06-03 · 3 min

Métricas de equidad en DRL para descubrimiento de fármacos

Descubre cómo medir la equidad en deep reinforcement learning para descubrimiento de fármacos en salud, evaluando sesgos en datos, recompensas y diversidad química.

2026-06-03 · 3 min