#valuación

Benchmark Agent: evalúa todo, en todas partes, a la vez

Descubre Benchmark Agent, un sistema autónomo que crea benchmarks de alta calidad para evaluar LLMs y MLLMs sin intervención humana. Ideal para investigación.

2026-06-06 · 2 min

Modelo de persuasión humana multi-turno con trazado de creencias

Descubre cómo PERSUASIONTRACE modela la persuasión humana en diálogos multi-turno con IA, evaluando dinámicas de creencias y fidelidad de simulaciones.

2026-06-06 · 2 min

Rompiendo la cadena: fidelidad causal de LLM a estructuras intermedias

Descubre cómo los LLM son aparentemente fieles a sus estructuras intermedias, pero fallan al ser intervenidos. Análisis causal revela fragilidad.

2026-06-06 · 2 min

CLASH: Evaluación de modelos de lenguaje en dilemas de alto riesgo

Descubre CLASH, el benchmark que evalúa cómo los modelos de lenguaje enfrentan dilemas de alto riesgo con múltiples perspectivas. Resultados sorprendentes sobre el razonamiento moral de la IA.

2026-06-06 · 2 min

MCBench: Benchmark de seguridad multicontexto para LLMs Omni

Descubre MCBench, el primer benchmark multicontexto que evalúa la seguridad de modelos de lenguaje omni (visión, audio y texto). Revela sus limitaciones en razonamiento multimodal.

2026-06-06 · 1 min

CTIConnect: un benchmark para LLMs con recuperación en CTI

Descubre CTIConnect, el benchmark que evalúa LLMs con recuperación en fuentes heterogéneas de ciberinteligencia. Resultados clave para la seguridad.

2026-06-06 · 2 min

La Mesa Redonda Virtual: Personas Multi-Agente Simulan el Brainstorming Humano

Descubre cómo un sistema multi-agente simula el brainstorming humano con personas virtuales. Genera ideas diversas y las evalúa. Caso: gafas inteligentes.

2026-06-06 · 1 min

De la puntuación a las explicaciones: Evaluando SHAP y LLM en evaluación docente

Descubre cómo SHAP y LLM explican las puntuaciones automáticas en evaluación docente. Análisis de fidelidad y transferibilidad en el marco CLASS.

2026-06-06 · 3 min

Sesgo geográfico y diversidad en la evaluación de IA

Descubre cómo el sesgo geográfico afecta la evaluación de la IA y qué estrategias existen para garantizar diversidad y equidad en los modelos generativos.

2026-06-06 · 3 min

Evaluación federada asíncrona con similitud de estrategias para IBN en IIoT

Descubre cómo FEIBN combina LLMs y aprendizaje federado para evaluar estrategias en IIoT, reduciendo costes y mejorando eficiencia.

2026-06-06 · 3 min

Diversidad geográfica en representaciones de IA en imágenes

Descubre cómo la diversidad geográfica en imágenes de IA revela sesgos: modelos antiguos más diversos y riesgo de estereotipos.

2026-06-06 · 1 min

SAGE: Gobernanza y Evaluación Escalable de IA

Descubre SAGE, el framework que combina juicio humano y LLM para evaluar la relevancia en búsquedas a gran escala, con 92% menos costo y +0.25% de usuarios activos en LinkedIn.

2026-06-06 · 2 min

Contaminación en tiempo de búsqueda en agentes de investigación profunda

Descubre cómo la contaminación en búsqueda infla el rendimiento de agentes de IA en benchmarks. Aprende a detectarla y mitigarla.

2026-06-06 · 1 min

ECI: Información Contrastiva Efectiva para Evaluar Negativos Difíciles

Descubre cómo ECI clasifica fuentes negativas sin entrenamiento, mejorando la recuperación densa en modelos como DistilBERT y Contriever. Basado en arXiv.

2026-06-06 · 2 min

Desfase fronterizo: auditoría de la tergiversación en evaluaciones de IA

Un estudio analiza 112,303 registros y revela que las evaluaciones académicas de IA están atrasadas hasta 1.4 generaciones de modelos. Descubre el 'publication elicitation gap'.

2026-06-06 · 3 min

ReasoningFlow: Estructuras discursivas en trazas de LLM

ReasoningFlow revela patrones discursivos en trazas de LLM, mejorando la transparencia y el análisis del razonamiento automático.

2026-06-06 · 2 min

ADK Arena: Evaluando Kits de Agentes con LLM como Desarrollador

Descubre cómo el LLM como desarrollador evalúa 51 frameworks de agentes. Costos variables y ningún dominante: hasta el 80% de tareas resueltas.

2026-06-06 · 2 min

ArcANE: ¿Los agentes de rol actúan según su arco narrativo?

ArcANE evalúa si los agentes de rol mantienen la coherencia psicológica según el arco narrativo, en situaciones nuevas. Mejora tus modelos con este benchmark.

2026-06-06 · 3 min

TensorBench: Evaluando agentes de código en framework tensorial con compilador

Descubre TensorBench, un nuevo benchmark que evalúa agentes de código en un framework de tensores basado en compilador. Resultados clave y tasas de éxito.

2026-06-06 · 3 min

Benchmarks en Leipzig: 100 preguntas matemáticas para IA

Un grupo de 49 matemáticos creó 100 preguntas de nivel investigador. Los LLMs más avanzados resolvieron 98 de ellas. Descubre los resultados del taller 'Benchmarks in Leipzig'.

2026-06-06 · 2 min