#mod · DeepCodeNews

Garantía pre-despliegue agentes IA empresarial con ontología

Descubre cómo la simulación ontológica y certificación de confianza aseguran agentes IA empresarial antes del despliegue en sectores regulados.

2026-06-04 · 1 min

Consenso insuficiente: desacuerdo en trazas de razonamiento como señal

El consenso no basta. El desacuerdo en trazas de razonamiento es una señal valiosa para la representación del conocimiento en sistemas multiagente. Aplícalo en moderación de contenido.

2026-06-04 · 2 min

VAMPS: Benchmark de resolución matemática con gráficos

Descubre VAMPS, un benchmark que revela por qué los modelos de IA rinden mejor sin herramientas visuales al resolver problemas matemáticos. Resultados sorprendentes.

2026-06-04 · 2 min

¿Pueden los agentes generalistas automatizar la curación de datos?

Agentes generalistas automatizan la curación de datos: nuevo benchmark Curation-Bench muestra que superan métodos publicados con 10% del presupuesto.

2026-06-04 · 3 min

No todos los errores son iguales: asignación de cómputo según consecuencias

Asigna cómputo según el costo real de errores, no solo dificultad. Reduce pérdidas hasta 33% con método consciente de consecuencias.

2026-06-04 · 2 min

Desafío del meta-agente: ¿Pueden los agentes actuales ser autónomos?

Descubre el Meta-Agent Challenge (MAC): un benchmark que prueba si los agentes de IA pueden auto-desarrollarse. Resultados sorprendentes y riesgos.

2026-06-04 · 3 min

Neetyabhas: marco para políticas públicas con incertidumbre en modelos de agente

Descubre cómo Neetyabhas optimiza políticas públicas con incertidumbre y comportamiento. Un enfoque basado en IA.

2026-06-04 · 2 min

SCI-PRM: Un modelo de recompensa de proceso para verificación científica

Descubre cómo Sci-PRM, un modelo de recompensa consciente de herramientas, mejora la verificación científica en biología, química y física.

2026-06-04 · 2 min

MIRAGE: Agentes móviles con razonamiento implícito y modelos generativos

MIRAGE permite a agentes móviles razonar internamente sin largas cadenas, reduciendo tokens hasta un 75% y mejorando precisión en interfaces.

2026-06-04 · 2 min

FALSIFYBENCH: Evaluando razonamiento inductivo en LLMs con juegos de reglas

FALSIFYBENCH evalúa el razonamiento inductivo en LLMs, destacando que los modelos que buscan falsificar sus hipótesis obtienen mejores resultados.

2026-06-04 · 2 min

Vulnerabilidad en inferencia: más allá de la seguridad superficial

Descubre cómo la seguridad superficial en LLMs es superada por inyecciones en medio de la generación. Nuevo método alinea modelos en trayectorias para mayor robustez.

2026-06-04 · 2 min

BiasGRPO: mitigación de sesgos en alta varianza con optimización grupal

Descubre cómo BiasGRPO estabiliza la mitigación de sesgos con optimización grupal relativa, superando a DPO y PPO en benchmarks.

2026-06-04 · 3 min

Más allá de la equivalencia: inyección de restricciones para LLM en VRP

Aprende cómo la inyección de restricciones optimiza rutas con LLM, superando a Gemini y Claude. Nuevo verificador dual con 93% Pass@1.

2026-06-04 · 2 min

AICompanionBench: Evaluando la seguridad en asistentes de IA

Conoce AICompanionBench, benchmark público de conversaciones IA-humanas para evaluar seguridad en asistentes como Replika. Análisis de 20 LLMs.

2026-06-04 · 1 min

AutoLab: ¿Pueden los modelos frontier resolver tareas a largo plazo?

Descubre cómo AutoLab evalúa la capacidad de los modelos frontier en tareas de optimización a largo plazo mediante iteración y feedback. ¿Qué modelo persistirá?

2026-06-04 · 3 min

KINA: Nuevo benchmark de conocimiento para LLMs

Descubre KINA, el nuevo benchmark que evalúa el conocimiento de 42 modelos de IA en 261 disciplinas. Resultados: Gemini 3.1 lidera con 53.17%. ¡Infórmate!

2026-06-04 · 2 min

SpurAudio: Explorando atajos en clasificación few-shot de audio

Nuevo benchmark SpurAudio revela que modelos de audio con pocos ejemplos son sensibles a correlaciones espurias. Conoce las implicaciones para IA.

2026-06-04 · 2 min

Búsqueda Física Mejorada por Correlaciones

Descubre cómo la coincidencia de correlaciones temporales con restricciones físicas mejora la eficiencia de búsqueda. Un modelo minimalista revela el principio organizador.

2026-06-04 · 1 min

Campos de Ruido Radiado Neural para UUV en Escenas 3D

Predicción precisa del espectro de ruido de UUV en 3D usando campos neurales. Error promedio de 3.5 dB. Ideal para extrapolación.

2026-06-04 · 2 min

Estadísticas de tercer orden predicen cognición donde fallan modelos masivos

Modelos base del cerebro con billones de parámetros fallan en predecir cognición. Un análisis de tercer orden los supera sin GPU ni pretraining. ¡Descúbrelo!

2026-06-04 · 2 min