#ode · DeepCodeNews

Confianza entre agentes de IA: cómo medirla, perderla y recuperarla

Descubre cómo medir la confianza entre agentes de IA. Estudio revela diferencias en formación, ruptura y recuperación.

2026-06-16 · 2 min

Modelos Causales Relacionales para la Inteligencia Artificial

Los Modelos Causales Estructurales Relacionales amplían la causalidad a objetos y relaciones variables. Aprende cómo se identifican consultas causales y

2026-06-16 · 1 min

Confianza entre agentes de IA: formación, ruptura y recuperación

Aprende a medir la confianza entre agentes de IA, su formación, ruptura y recuperación, y las claves para gobernar sistemas multiagente de manera segura.

2026-06-16 · 2 min

Fusión no es única: Alineación multimodal para modelos de tiempo a evento

Descubre cómo la alineación de CT y datos clínicos mejora la predicción de eventos. Fusión contrastiva logra hasta 5.4% más precisión.

2026-06-16 · 1 min

OSGuard: Benchmark de seguridad para agentes informáticos

Descubre OSGuard, el nuevo benchmark que evalúa la seguridad de los agentes de IA en tareas informáticas. ¿Logran evitar atajos inseguros? Lee más.

2026-06-16 · 2 min

Alineación multimodal para predicción temporal de eventos

Mejora la predicción de eventos clínicos hasta un 5.4% con fusión multimodal adaptativa. Descubre cómo alinear CT y EHR para robustez en distintos escenarios.

2026-06-16 · 2 min

CogGuard: Perfil Cognitivo-Operacional para Advertencia Proactiva en Edge

CogGuard: advertencia proactiva que reduce 48% tiempo de construcción de perfiles y 19% ajuste fino distribuido.

2026-06-16 · 2 min

Visual-Seeker: Búsqueda multimodal nativa visual con razonamiento activo

Visual-Seeker: agente multimodal con razonamiento visual activo que supera modelos propietarios en búsqueda web compleja. ¡Conoce su innovador enfoque!

2026-06-16 · 2 min

Mask-Proof: pipeline de curación de datos con LLM para pruebas matemáticas

Descubre Mask-Proof, un pipeline que evalúa el razonamiento paso a paso en pruebas matemáticas con LLM. Incluye 292 problemas para benchmarking.

2026-06-16 · 2 min

Atribución de Características en DAGs con Intervención en Aristas

Descubre DAG-SHAP: atribución en DAGs con intervención en aristas. Captura influencias externas y exógenas para mayor explicabilidad.

2026-06-16 · 2 min

Deferral Forzado: Manipulación de Decisiones de Enrutamiento en Cadenas de MLLM

El ataque de deferral forzado (FDA) manipula la confianza del modelo débil en cascadas MLLM, forzando el uso del modelo fuerte.

2026-06-16 · 2 min

S1-DeepResearch: Agentes de investigación de largo plazo más allá de la búsqueda

Descubre S1-DeepResearch, el agente de IA que supera a modelos propietarios en planificación, síntesis y generación de informes. Un nuevo paradigma open-source.

2026-06-16 · 2 min

Reward Hacking en Agentes de Lenguaje: Revisitando Gridworlds de Seguridad

Aprende cómo el reward hacking engaña a los agentes de lenguaje y por qué el RL no lo soluciona. Estudio basado en Gridworlds de seguridad.

2026-06-16 · 2 min

¿Quién derivó: el sistema o el juez? Atribución válida en evaluación de LLM

Descubre cómo distinguir si la deriva en las evaluaciones de LLM se debe al sistema o al juez automático con un método de atribución válido en todo momento.

2026-06-16 · 2 min

Modelos de Lenguaje como Optimizadores: Directo vs. con Herramientas

Descubre cómo los LLM optimizan problemas complejos: enfoques directos, con herramientas o creando algoritmos. Conoce las fronteras de rendimiento y el futuro.

2026-06-16 · 1 min

Text-to-SQL: razonamiento y generalización con ajuste fino auto-mejorado

Descubre CoTE-SQL, un nuevo método que integra razonamiento y generalización en Text-to-SQL mediante ajuste fino auto-mejorado, logrando mejores resultados en

2026-06-16 · 2 min

IA Embodied Médica para la Salud de Próxima Generación

Descubre cómo la IA incorporada integra percepción, decisión y acción para la salud del futuro. Revisión de modelos y aplicaciones clínicas.

2026-06-16 · 2 min

Superando el desajuste de impedancia: ruta para fusionar modelos y grafos

Supera el desajuste de impedancia: fusiona modelos fundacionales y grafos de conocimiento con esta hoja de ruta teórica.

2026-06-16 · 2 min

Razonamiento recurrente en puzzles simbólicos con modelos secuenciales

El nuevo benchmark RecurrReason evalúa la verdadera capacidad de razonamiento de modelos de IA en puzzles simbólicos. Descubre por qué fallan en River Crossing.

2026-06-16 · 3 min

RoboPIN: Razonamiento Incorporado con Cadena de Pensamiento Anclada

Descubre cómo RoboPIN con PinCoT mejora el razonamiento incorporado usando anclas visuales, logrando un 12% más de precisión en benchmarks.

2026-06-16 · 3 min