#evidencia

Búsqueda Física Mejorada por Correlaciones

Descubre cómo la coincidencia de correlaciones temporales con restricciones físicas mejora la eficiencia de búsqueda. Un modelo minimalista revela el principio organizador.

2026-06-04 · 1 min

Razonamiento de calidad con aprendizaje por refuerzo en contexto

Descubre cómo el aprendizaje por refuerzo en contexto mejora la calidad del razonamiento en IA, asignando mayor peso a demostraciones efectivas.

2026-06-04 · 2 min

De trazas a confianza: Rastreo y procedencia en agentes LLM

Descubre cómo el rastreo de evidencia y procedencia permiten verificar, depurar y auditar agentes LLM para mayor confianza.

2026-06-04 · 1 min

Predicción de movilidad eficiente y basada en evidencia con agente LLM

Descubre cómo AgentMob, un agente basado en LLM sin entrenamiento, predice ubicaciones de forma adaptativa y eficiente, mejorando la precisión en movilidad urbana.

2026-06-04 · 2 min

AuditFlow: Entornos Simbólicos Ejecutables para Auditoría Financiera

AuditFlow logra 82.09% de precisión en verificación financiera, superando en 14.93 puntos a otros modelos. Framework multi-agente con entornos simbólicos.

2026-06-03 · 2 min

Reconstrucción de pérdidas por IA: del control al seguro con CER

El marco CER (control, evidencia, respuesta) permite reconstruir pérdidas mediadas por IA para reclamaciones de seguro. Ideal para riesgos de IA agentiva y generativa.

2026-06-03 · 2 min

Evidencia causal de representaciones de pila en modelos de contadores con transformers

Estudio revela que representaciones de pila en transformers son causalmente necesarias para lenguajes contadores. Evidencia empírica crucial.

2026-06-03 · 1 min

VulnAgent-R2: Auditoría multiagente calibrada para detección en repositorios

VulnAgent-R2 detecta vulnerabilidades en repositorios con auditoría multiagente calibrada, reduciendo costes y mejorando precisión. Descubre cómo.

2026-06-03 · 2 min

Ver Menos, Especificar Más: Presupuestos de Evidencia para VLA

Mejora la generalización de modelos VLA con S2: entrena al ejecutor con guías locales y presupuestos de evidencia visual. Logra 79% de éxito en tareas robóticas.

2026-06-03 · 2 min

WRIT: Trayectorias intensivas en escritura-lectura para agentes multi-turno

WRIT genera trayectorias sintéticas para entrenar agentes multi-turno con decisiones basadas en evidencia, y con solo 2K ejemplos supera a GPT-5.1.

2026-06-03 · 2 min

VistaHop: Evaluando razonamiento multi-salto para Visual DeepSearch

Descubre VistaHop, el benchmark que evalúa el razonamiento visual multi-salto. Solo el 24% de aciertos revela grandes desafíos para la IA.

2026-06-03 · 2 min

He contratado a cientos de personas: el rasgo que busco primero

Descubre el rasgo que he buscado en cientos de candidatos: la capacidad de ser persuadido por la evidencia, incluso cuando demuestra que estaban equivocados.

2026-06-03 · 2 min

DPsurv: Fusión evidencial de doble prototipo para predicción de supervivencia

DPsurv utiliza fusión evidencial de doble prototipo para predecir supervivencia en imágenes patológicas, ofreciendo interpretabilidad y medición de incertidumbr

2026-06-02 · 3 min

Agentes de IA: evidencia, no solo respuestas finales

¿Confías en el resumen de tu agente de IA? Descubre por qué necesitas paquetes de evidencia para auditar cambios reales en el código.

2026-06-02 · 2 min

TIGER: Mitigación de alucinaciones en generación multimodal

TIGER reduce alucinaciones en generación multimodal mediante enrutamiento gráfico de evidencia. Repara hechos falsos en imágenes, audio y video manteniendo la calidad.

2026-06-02 · 3 min

TRACE: Compresión de Riesgos en Trayectorias para Seguridad de Agentes

TRACE comprime evidencia de riesgo en trayectorias de agentes para mejorar la seguridad en tareas de largo plazo. ¡Alta precisión!

2026-06-02 · 3 min

Ryze: Síntesis de datos enriquecida con evidencia de papers biomédicos

Descubre Ryze, un sistema que automatiza la creación de datasets enriquecidos con evidencia visual a partir de papers biomédicos, superando a GPT-5.

2026-06-02 · 2 min

Mejora de procesos hospitalarios con Process Mining: caso COVID

Descubre cómo la minería de procesos transforma datos clínicos en información valiosa para optimizar la gestión hospitalaria, estandarizar triajes y planificar capacidades durante la pandemia.

2026-06-02 · 2 min

Plausibilidad no es predicción: evidencia contrastiva en perturbaciones con LLM

Los LLMs fallan al predecir efectos de perturbaciones celulares. CORE organiza evidencia contrastiva para mejorar la precisión hasta un 28.6%. Descubre cómo.

2026-06-02 · 1 min

Conectando Puntos: Evaluando Memoria Reflexiva en Diálogos Largos

Descubre cómo RefMem-Bench y REMIND evalúan y mejoran la memoria reflexiva en diálogos largos, superando la simple recuperación de hechos.

2026-06-02 · 2 min