#evidencia

IA versus especialistas en cefaleas: evaluación en resúmenes clínicos

¿Son los expertos humanos mejores que la IA para resumir literatura clínica? Un estudio con 10 especialistas en cefaleas y tres LLMs revela diferencias clave y preferencias.

2026-06-06 · 2 min

FIDES: Señales de Evidencia para Conflictos en RAG

FIDES mejora la fidelidad en RAG al detectar conflictos token a token, sin entrenamiento. Logra hasta 94% de fidelidad en modelos de 70B. Descubre cómo.

2026-06-06 · 2 min

Percepción Activa de Video: Búsqueda Iterativa de Evidencia para Video Largo

Descubre cómo AVP reduce un 81% el tiempo de inferencia y mejora la precisión al entender videos largos buscando evidencia clave.

2026-06-06 · 3 min

Evaluación multi-LLM con ontología de hipótesis en procesamiento predictivo

Descubre cómo un consejo de LLMs locales evalúa hipótesis en neurociencia usando ontologías, revelando acuerdos y dispersión en la literatura.

2026-06-06 · 3 min

MARDoc: Agente de Refinamiento con Memoria para QA Multimodal

Descubre MARDoc, un innovador marco de agente con memoria estructurada que mejora la precisión en QA de documentos largos multimodales. Reduce ruido y optimiza razonamiento.

2026-06-06 · 1 min

EGTR-Review: Revisión científica con evidencia y destilación multiagente

Descubre cómo EGTR-Review revoluciona la revisión por pares: reduce costes y mejora la trazabilidad con destilación multiagente basada en evidencia.

2026-06-06 · 2 min

Alerta temprana de fallos: evidencia escasa en diálogos y agentes LLM

Descubre cómo predecir fallos en diálogos y agentes LLM usando solo evidencia escasa. Método basado en atención mejora precisión y reduce costos de entrenamiento.

2026-06-05 · 1 min

Alerta temprana de fallos con evidencia escasa en diálogos y agentes LLM

Descubre cómo identificar fallos en diálogos y agentes LLM con solo información parcial. Nuestro método de atención mejora la precisión temprana hasta un 42%.

2026-06-05 · 3 min

EVIDENT: cómo seleccionar la mejor arquitectura neural para glucosa

Descubre EVIDENT, un innovador marco de selección de arquitecturas neurales basado en evidencia para predecir glucosa con precisión incluso con datos escasos.

2026-06-05 · 2 min

Crédito denso insuficiente: Optimización calibrada por evidencia para agentes LLM

ECPO calibra el crédito de acciones intermedias en agentes LLM, mejorando el rendimiento en ALFWorld y WebShop hasta un 7% con solo 0.1% de sobrecarga.

2026-06-05 · 2 min

Búsqueda Física Mejorada por Correlaciones

Descubre cómo la coincidencia de correlaciones temporales con restricciones físicas mejora la eficiencia de búsqueda. Un modelo minimalista revela el principio organizador.

2026-06-04 · 1 min

Razonamiento de calidad con aprendizaje por refuerzo en contexto

Descubre cómo el aprendizaje por refuerzo en contexto mejora la calidad del razonamiento en IA, asignando mayor peso a demostraciones efectivas.

2026-06-04 · 2 min

De trazas a confianza: Rastreo y procedencia en agentes LLM

Descubre cómo el rastreo de evidencia y procedencia permiten verificar, depurar y auditar agentes LLM para mayor confianza.

2026-06-04 · 1 min

Predicción de movilidad eficiente y basada en evidencia con agente LLM

Descubre cómo AgentMob, un agente basado en LLM sin entrenamiento, predice ubicaciones de forma adaptativa y eficiente, mejorando la precisión en movilidad urbana.

2026-06-04 · 2 min

AuditFlow: Entornos Simbólicos Ejecutables para Auditoría Financiera

AuditFlow logra 82.09% de precisión en verificación financiera, superando en 14.93 puntos a otros modelos. Framework multi-agente con entornos simbólicos.

2026-06-03 · 2 min

Reconstrucción de pérdidas por IA: del control al seguro con CER

El marco CER (control, evidencia, respuesta) permite reconstruir pérdidas mediadas por IA para reclamaciones de seguro. Ideal para riesgos de IA agentiva y generativa.

2026-06-03 · 2 min

Evidencia causal de representaciones de pila en modelos de contadores con transformers

Estudio revela que representaciones de pila en transformers son causalmente necesarias para lenguajes contadores. Evidencia empírica crucial.

2026-06-03 · 1 min

VulnAgent-R2: Auditoría multiagente calibrada para detección en repositorios

VulnAgent-R2 detecta vulnerabilidades en repositorios con auditoría multiagente calibrada, reduciendo costes y mejorando precisión. Descubre cómo.

2026-06-03 · 2 min

Ver Menos, Especificar Más: Presupuestos de Evidencia para VLA

Mejora la generalización de modelos VLA con S2: entrena al ejecutor con guías locales y presupuestos de evidencia visual. Logra 79% de éxito en tareas robóticas.

2026-06-03 · 2 min

WRIT: Trayectorias intensivas en escritura-lectura para agentes multi-turno

WRIT genera trayectorias sintéticas para entrenar agentes multi-turno con decisiones basadas en evidencia, y con solo 2K ejemplos supera a GPT-5.1.

2026-06-03 · 2 min