#agn · DeepCodeNews

TraceGraph: Paisajes de Decisión Compartidos para Trayectorias

Descubre cómo TraceGraph usa paisajes de decisión compartidos para diagnosticar y mejorar trayectorias de agentes IA en SWE-bench.

2026-06-01 · 2 min

Agnes AI: primer laboratorio de IA de Singapur en ranking global

Agnes AI, primer laboratorio de Singapur en el top 10 global de IA. Acceso gratuito a modelos de texto, imagen y video.

2026-06-01 · 3 min

Red Neuronal con Contexto Global para Segmentación de Tumores Cerebrales

El modelo GCSER-UNet alcanza un 94% Dice en TCGA LGG y 95% en BraTS 2020 para segmentación de tumores cerebrales. Descubre su innovadora atención global.

2026-06-01 · 2 min

Síntesis controlable de nódulos pulmonares con difusión latente

Nuevo modelo de difusión latente con regularización por histograma genera nódulos pulmonares realistas para mejorar diagnóstico del cáncer en TC.

2026-06-01 · 2 min

Mismo paciente, diferentes palabras: estabilidad semántica en LLMs clínicos

¿Los LLMs clínicos son inconsistentes ante cambios en las preguntas? Un estudio mide su estabilidad semántica y propone métricas para evaluarla.

2026-06-01 · 2 min

Verificación detallada con razonamiento diagnóstico para extracción de tripletes de sentimiento

FiVeD: verificación de grano fino para mejorar la extracción de tripletes de sentimiento. Aumenta F1 hasta 3.53. Ideal para sistemas de opinión.

2026-06-01 · 3 min

Diagnóstico de fiabilidad de LLM como juez con IRT

Descubre cómo diagnosticar la fiabilidad de los LLM como jueces usando la teoría de respuesta al ítem (IRT) para evaluar consistencia y alineación con expertos humanos.

2026-06-01 · 2 min

Auto-Discovery-Bench: Diagnóstico de seguimiento de estado estructurado

Descubre Auto-Discovery-Bench, un benchmark diagnóstico para evaluar la capacidad de agentes de IA de mantener y actualizar creencias estructuradas en descubrimiento interactivo guiado.

2026-06-01 · 3 min

Anatomía espectral de kernels cuánticos gaussianos

La entropía espectral de la matriz Gram gobierna el rendimiento de kernels cuánticos. Validado en hardware IBM Heron con errores medios del 2.7%.

2026-06-01 · 2 min

SDM-Q: Aprendizaje por refuerzo con coste para clasificación multi-ómica

Descubre cómo SDM-Q usa aprendizaje por refuerzo para clasificar enfermedades con menos datos ómicos, reduciendo costes y manteniendo precisión.

2026-06-01 · 2 min

¿Cuándo las predicciones multimodales son biológicamente válidas?

Descubre cómo DECAT evalúa si las predicciones multimodales en oncología están respaldadas por biología real o por confusores. Un marco post-hoc que revela sesgos ocultos.

2026-06-01 · 2 min

Diagnósticos de Cobertura Condicional para Predicción Conformal

Descubre cómo la métrica ERT diagnostica la cobertura condicional en predicción conformal usando clasificadores modernos para mayor potencia estadística.

2026-06-01 · 2 min

¿Qué límites de verdad del repositorio pierden los agentes de IA?

Descubre cómo los agentes de IA pierden la verdad del repositorio al reparar código. Casos reales de fallos en límites de verdad y cómo diagnosticarlos.

2026-06-01 · 3 min