#evidencia

VistaHop: Evaluando razonamiento multi-salto para Visual DeepSearch

Descubre VistaHop, el benchmark que evalúa el razonamiento visual multi-salto. Solo el 24% de aciertos revela grandes desafíos para la IA.

2026-06-03 · 2 min

He contratado a cientos de personas: el rasgo que busco primero

Descubre el rasgo que he buscado en cientos de candidatos: la capacidad de ser persuadido por la evidencia, incluso cuando demuestra que estaban equivocados.

2026-06-03 · 2 min

DPsurv: Fusión evidencial de doble prototipo para predicción de supervivencia

DPsurv utiliza fusión evidencial de doble prototipo para predecir supervivencia en imágenes patológicas, ofreciendo interpretabilidad y medición de incertidumbr

2026-06-02 · 3 min

Agentes de IA: evidencia, no solo respuestas finales

¿Confías en el resumen de tu agente de IA? Descubre por qué necesitas paquetes de evidencia para auditar cambios reales en el código.

2026-06-02 · 2 min

TIGER: Mitigación de alucinaciones en generación multimodal

TIGER reduce alucinaciones en generación multimodal mediante enrutamiento gráfico de evidencia. Repara hechos falsos en imágenes, audio y video manteniendo la calidad.

2026-06-02 · 3 min

TRACE: Compresión de Riesgos en Trayectorias para Seguridad de Agentes

TRACE comprime evidencia de riesgo en trayectorias de agentes para mejorar la seguridad en tareas de largo plazo. ¡Alta precisión!

2026-06-02 · 3 min

Ryze: Síntesis de datos enriquecida con evidencia de papers biomédicos

Descubre Ryze, un sistema que automatiza la creación de datasets enriquecidos con evidencia visual a partir de papers biomédicos, superando a GPT-5.

2026-06-02 · 2 min

Mejora de procesos hospitalarios con Process Mining: caso COVID

Descubre cómo la minería de procesos transforma datos clínicos en información valiosa para optimizar la gestión hospitalaria, estandarizar triajes y planificar capacidades durante la pandemia.

2026-06-02 · 2 min

Plausibilidad no es predicción: evidencia contrastiva en perturbaciones con LLM

Los LLMs fallan al predecir efectos de perturbaciones celulares. CORE organiza evidencia contrastiva para mejorar la precisión hasta un 28.6%. Descubre cómo.

2026-06-02 · 1 min

Conectando Puntos: Evaluando Memoria Reflexiva en Diálogos Largos

Descubre cómo RefMem-Bench y REMIND evalúan y mejoran la memoria reflexiva en diálogos largos, superando la simple recuperación de hechos.

2026-06-02 · 2 min

Mutación de prompts con doble retroalimentación para documentos de evidencia

HOPM: mutación de prompts con doble retroalimentación mejora documentos de evidencia +11% en tasa de victorias. Estudio de caso.

2026-06-02 · 3 min

TechGraphRAG: Marco RAG con agentes y grafos para literatura técnica

Marco RAG con agentes y grafos que analiza literatura técnica en 13 pasos autónomos, verifica citas y busca evidencia externa. Ideal para investigadores.

2026-06-02 · 3 min

Expertos hiperbólicos y priorizados por evidencia en LVLMs

Descubre AsyMoE: nueva arquitectura para LVLMs que reduce alucinaciones y mejora eficiencia con expertos hiperbólicos y priorización de evidencia.

2026-06-02 · 2 min

Priors de LLM con puerta de evidencia para optimización bayesiana multiobjetivo

Usa LLM como expertos en optimización bayesiana multiobjetivo calibrando dinámicamente su confianza con un mecanismo de puerta de evidencia. Mejora la robustez.

2026-06-02 · 2 min

TCAR-Gen: Recuperación Temporal con Fusión de Evidencia

Descubre TCAR-Gen, un nuevo marco que combina redes neuronales de grafos, fusión temporal y razonamiento en árbol para responder preguntas complejas sobre casos criminales históricos.

2026-06-02 · 3 min

Ver antes de acordar: alineando consenso multiagente con evidencia visual

Alinea la evidencia visual de múltiples agentes para consenso preciso en VQA. EAGLE: sin entrenamiento, resultados confiables.

2026-06-01 · 1 min

Caracterización empírica de transformaciones de probabilidad en LLMs

Descubre cómo las transformaciones de probabilidad inducidas en tiempo de inferencia en LLMs siguen patrones log-ratio reproducibles. Un análisis empírico de 4,975 problemas.

2026-06-01 · 2 min

Cómo la compilación centrada en datos elimina alucinaciones numéricas en FinQA

Descubre cómo DCRC, un compilador centrado en datos, elimina las alucinaciones numéricas en sistemas de preguntas financieras online, mejorando precisión y auditabilidad.

2026-06-01 · 2 min

¿Cómo lograr el compromiso para la pista de auditoría y la trazabilidad?

Aprende las claves para fortalecer el compromiso en la pista de auditoría y trazabilidad, mejorando la transparencia y el control de tus procesos.

2026-05-31 · 1 min