SaliMory: Orquestando la memoria cognitiva para agentes conversacionales
SALIMORY: marco IA con recompensa por etapas para memoria cognitiva. Reduce fallos un 33% y supera en 10% a SOTA. Mejora personalización.
SALIMORY: marco IA con recompensa por etapas para memoria cognitiva. Reduce fallos un 33% y supera en 10% a SOTA. Mejora personalización.
EvalStop detecta y corrige sobreoptimización de recompensa en RLHF multiusuario con 98% precisión, mejora JCT 9% y reduce cómputo desperdiciado 22%.
Descubre cómo DistIL optimiza el aprendizaje por refuerzo usando retroalimentación rica (trazas, correcciones, autoevaluación) para mejorar en razonamiento, código y matemáticas.
Alinea modelos de lenguaje con preferencias implícitas usando razonamiento defensivo y aprendizaje por refuerzo. CDRA mejora personalización y seguridad.
AISP alinea LLMs en tiempo de prueba usando muestreo de importancia en pre-logits. Logra mayores recompensas que best-of-n sin fine-tuning.
Descubre cómo alinear tu LLM con preferencias sin función de enlace conocida usando un modelo semiparamétrico de índice único.
¿Sabías que los transformers pueden aprender a razonar con solo recompensas finales? Un nuevo estudio revela que los datos simples son la clave.
Descubre cómo el aprendizaje por refuerzo en contexto mejora la calidad del razonamiento en IA, asignando mayor peso a demostraciones efectivas.
EMTC mejora la consistencia temporal en memoria episódica para MARL cooperativo, superando cuellos de botella y logrando hasta un 28% de mejora en benchmarks.
Descubre cómo los modelos MoE dispersos aprenden expertos especializados e interpretables para modelar preferencias humanas personalizadas sin coste adicional d
Descubre cómo PivotTrace logra un rendimiento casi total con solo el 29% de datos etiquetados y una convergencia 2.75 veces más rápida en RLVR.
Aprende cómo el marco SCORE mejora informes de investigación mediante la co-evolución de generación y evaluación, superando recompensas fijas.
GeoMin optimiza RLVR semi-supervisado usando modelado geométrico. Logra +4.1% sobre los mejores y supera la supervisión completa con solo el 10% de datos etiquetados.
Descubre cómo el nuevo método de replay priorizado por ventaja mejora la eficiencia muestral en GRPO para LLMs, logrando +4.35% en benchmarks.
Aprende cómo CHERRL reproduce y detecta reward hacking en RL con rúbricas, identificando sesgos del juez LLM para entrenar IA más segura.
Descubre TikTok Pro Events, la nueva app de TikTok para la Copa Mundial 2026. Gana Stars, canjea por mercancía y dona. ¿Vale la pena descargarla?
Descubre cómo fusionar noticias largas con predicciones de series temporales usando modelos de recompensa para mayor precisión.
Aumenta un 3.7% la eficacia de agentes LLM con clarificación inteligente. Solo 0.3 interacciones extra. Optimiza tareas y reduce errores.
Descubre InfoMem, un mecanismo de recompensa que evalúa la utilidad de la memoria final para mejorar el rendimiento de los LLM en tareas de largo contexto.
Descubre ThoughtFold, un framework que elimina exploraciones redundantes en modelos de razonamiento, reduciendo tokens hasta un 56% sin perder precisión.