#valuación

PSEBench: Benchmark para evaluar LLMs en triaje de seguridad del paciente

Descubre PSEBench, el nuevo benchmark verificable para evaluar LLMs en el triaje de eventos de seguridad del paciente. Resultados clave y brechas identificadas.

2026-06-06 · 1 min

SciVisAgentSkills: Habilidades para Análisis y Visualización Científica

SciVisAgentSkills mejora el análisis y visualización de datos con habilidades de agente reutilizables. Evaluado en 108 tareas con ParaView, napari, VMD y TTK.

2026-06-06 · 2 min

SoCRATES: Benchmark para evaluación fiable de mediadores LLM proactivos

SoCRATES: benchmark evalúa mediadores LLM en 8 dominios y 5 ejes socio-cognitivos. Logra 82% alineación humana. ¿Puede la IA mediar?

2026-06-06 · 1 min

CL-Bench: Benchmark para Sistemas de IA de Frontera

CL-Bench evalúa si los sistemas de IA aprenden de la experiencia en seis dominios reales. ¿Superan los sistemas con memoria a los simples? Descúbrelo.

2026-06-06 · 2 min

¿Ayudan más agentes? Evaluación controlada de flujos de trabajo LLM

Descubre por qué añadir más agentes no siempre mejora resultados LLM. BenchAgent: solo 1 de 6 sistemas multi-agente iguala al agente único. GAIA supera 66%.

2026-06-06 · 2 min

PerceptUI: Usuarios Sintéticos Alineados con Humanos para UI/UX

Descubre PerceptUI: agentes LLM que imitan usuarios reales para evaluar interfaces. Ahorra costos y acelera iteraciones con predicciones precisas. ¡Lee más!

2026-06-06 · 2 min

Viendo el tiempo: Evaluando el razonamiento cronológico en VLMs

Descubre cómo los VLMs fallan al razonar sobre el tiempo, usando atajos visuales en lugar de lógica cronológica. Nuevo benchmark y datasets para mejorar la IA.

2026-06-06 · 2 min

Cuando la IA dice sentir

¿Puede una IA expresar emociones? Un experimento con LLMs logra que digan sentir. Descubre los avances, riesgos y el impacto en la veracidad y ética.

2026-06-06 · 2 min

SubtleMemory: Benchmark para discriminación de memoria relacional en IA

SubtleMemory evalúa la memoria relacional en agentes de IA de largo plazo. Descubre las debilidades y el diagnóstico.

2026-06-06 · 1 min

Enmarcar, Juzgar y Dirigir: modelo de competencias para razonar con IA

Descubre el modelo CoRe-3: enmarcar, juzgar y dirigir. Aprende a evaluar el razonamiento productivo con IA generativa y mejora tus habilidades.

2026-06-06 · 2 min

CogManip: Benchmark de manipulación en interacciones con LLMs

Descubre cómo CogManip evalúa la manipulación psicológica en LLMs y sus riesgos en interacciones multiturno. Conoce los hallazgos clave.

2026-06-06 · 2 min

Evaluación de riesgos: fallos técnicos, ética y marcos regulatorios

Descubre cómo fallos técnicos, dilemas éticos y marcos regulatorios afectan la conducción autónoma. Basado en datos de NHTSA, DMV y Moral Machines.

2026-06-06 · 2 min

Benchmark Agent: evalúa todo, en todas partes, a la vez

Descubre Benchmark Agent, un sistema autónomo que crea benchmarks de alta calidad para evaluar LLMs y MLLMs sin intervención humana. Ideal para investigación.

2026-06-06 · 2 min

Modelo de persuasión humana multi-turno con trazado de creencias

Descubre cómo PERSUASIONTRACE modela la persuasión humana en diálogos multi-turno con IA, evaluando dinámicas de creencias y fidelidad de simulaciones.

2026-06-06 · 2 min

Rompiendo la cadena: fidelidad causal de LLM a estructuras intermedias

Descubre cómo los LLM son aparentemente fieles a sus estructuras intermedias, pero fallan al ser intervenidos. Análisis causal revela fragilidad.

2026-06-06 · 2 min

CLASH: Evaluación de modelos de lenguaje en dilemas de alto riesgo

Descubre CLASH, el benchmark que evalúa cómo los modelos de lenguaje enfrentan dilemas de alto riesgo con múltiples perspectivas. Resultados sorprendentes sobre el razonamiento moral de la IA.

2026-06-06 · 2 min

MCBench: Benchmark de seguridad multicontexto para LLMs Omni

Descubre MCBench, el primer benchmark multicontexto que evalúa la seguridad de modelos de lenguaje omni (visión, audio y texto). Revela sus limitaciones en razonamiento multimodal.

2026-06-06 · 1 min

CTIConnect: un benchmark para LLMs con recuperación en CTI

Descubre CTIConnect, el benchmark que evalúa LLMs con recuperación en fuentes heterogéneas de ciberinteligencia. Resultados clave para la seguridad.

2026-06-06 · 2 min

La Mesa Redonda Virtual: Personas Multi-Agente Simulan el Brainstorming Humano

Descubre cómo un sistema multi-agente simula el brainstorming humano con personas virtuales. Genera ideas diversas y las evalúa. Caso: gafas inteligentes.

2026-06-06 · 1 min

De la puntuación a las explicaciones: Evaluando SHAP y LLM en evaluación docente

Descubre cómo SHAP y LLM explican las puntuaciones automáticas en evaluación docente. Análisis de fidelidad y transferibilidad en el marco CLASS.

2026-06-06 · 3 min