#oco · DeepCodeNews

PAWS: Aprendizaje por preferencias con ventajas ponderadas por segmentos

Descubre PAWS, un innovador método de aprendizaje por refuerzo basado en preferencias que mejora la asignación temporal de crédito usando ventajas por segmentos

2026-06-11 · 1 min

Estimación precisa de información mutua en datos de alta dimensión

Descubre cómo estimar información mutua en alta dimensión con redes neuronales, corrección de sesgo y confianza. Protocolo probado en imágenes reales.

2026-06-11 · 2 min

TAROT: Grafos semánticos adaptativos para aprendizaje tabular con pocos datos

Conoce TAROT: combina LLMs y redes de grafos con refinamiento adaptativo para aprendizaje tabular con pocos datos.

2026-06-11 · 4 min

Arquitectura del crítico: dual vs unificado en loco-manipulación humanoide

La arquitectura del crítico en RL para humanoides es clave: la crítica dual alcanza objetivos 3.5 veces más rápido y duplica la eficiencia frente a la unificada. Descubre por qué.

2026-06-11 · 2 min

Bluesky lanza 'comunidades' descentralizadas

Bluesky lanza 'comunidades' descentralizadas: espacios para conectar con personas que comparten tus intereses. Descubre cómo funcionan en el ecosistema AT Protocol.

2026-06-11 · 2 min

¿Qué sucede si falla el sistema en la automatización de procesos?

Descubre cómo las mejores prácticas de automatización gestionan fallas del sistema con detección, failover y comunicación. Minimiza el impacto.

2026-06-11 · 4 min

¿Qué ocurre si falla el sistema en un socio de transformación digital?

Ante una falla del sistema, un socio de transformación digital activa protocolos de respuesta y comunicación. Conoce el proceso de Q2BSTUDIO.

2026-06-10 · 2 min

¿Qué sucede si hay una falla del sistema en un socio de transformación digital?

¿Qué pasa si falla el sistema de tu socio de transformación digital? Protocolo de respuesta: detección, conmutación y comunicación para asegurar la continuidad.

2026-06-10 · 2 min

Creencias Superficiales en la Toma de Decisiones de los LLM

Descubre cómo los LLM muestran un comportamiento sistemático pero no pueden explicar sus propias decisiones. La superficialidad de sus creencias.

2026-06-10 · 1 min

CIAware-Bench: Benchmark de conciencia de intervención en LLMs

Descubre CIAware-Bench, el benchmark que mide si los LLMs de frontera detectan intervenciones de control. Resultados revelan baja conciencia y variabilidad entre modelos.

2026-06-10 · 3 min

Detectando brechas de conocimiento con IA conversacional y grafos

Descubre cómo un pipeline basado en IA y grafos curriculares analiza preguntas de estudiantes para detectar brechas de conocimiento y ayudar a los instructores a mejorar sus cursos.

2026-06-10 · 2 min

Unificar comunicaciones y actualizaciones locales en preentrenamiento de LLMs

GASLoC unifica comunicaciones y actualizaciones locales para preentrenar LLMs. Supera algoritmos descentralizados y compite con DiLoCo en eficiencia.

2026-06-10 · 2 min

GASLoC: unificando comunicaciones y actualizaciones locales para LLMs

GASLoC unifica comunicaciones y actualizaciones locales para preentrenar LLMs de forma eficiente, superando a DiLoCo en entornos heterogéneos.

2026-06-10 · 3 min

Ataques a detectores de texto automático conservan huellas estilísticas

Los ataques no borran huellas estilísticas. Un nuevo método de paráfrasis evade todos, pero el análisis multdocumento los distingue. Descúbrelo.

2026-06-10 · 2 min

MMD Guidance: Adaptación de distribución sin reentrenamiento

Descubre MMD Guidance, método sin entrenamiento que alinea modelos de difusión con datos de referencia y discrepancia máxima media. Ideal para pocos ejemplos.

2026-06-10 · 2 min

Dropout-GRPO: Variabilidad estocástica para razonamiento latente continuo

Dropout-GRPO introduce variabilidad estocástica en razonamiento latente para mejorar el aprendizaje por refuerzo grupal. Resultados en GSM8K.

2026-06-10 · 2 min

Resilient Write: Superficie de escritura duradera de seis capas

Descubre Resilient Write: protege escrituras de agentes LLM con seis capas: reduce 5x el tiempo de recuperación y 13x la autocorrección.

2026-06-09 · 3 min

UNIQ: Calibración Conformal para Conservadurismo Adaptativo en RL Offline

UNIQ: calibración conformal para RL offline con conservadurismo adaptativo. Mejora el rendimiento con bajo costo de memoria. ¡Descúbrelo!

2026-06-09 · 3 min

Rutas generativas autocoherentes vía transporte variacional aleatorio

Descubre cómo la autocoherencia en modelos generativos mejora la calidad y detecta fallos. Aprende el principio de control residual para optimizar tu IA.

2026-06-09 · 2 min

Refinamiento conservador de trayectorias con flujos contrafactuales

Refina trayectorias offline de forma conservadora con flujos contrafactuales. Mejora políticas a partir de datos históricos sin extrapolar. Resultados en D4RL.

2026-06-09 · 2 min