#evaluación

El último píxel visible: sondeando percepción fina en VLMs

Nuevo benchmark FineSightBench revela que la percepción fina en VLMs satura a 12px y el razonamiento visual es limitado.

2026-06-16 · 2 min

Coherencia Tensa: Señal de Falla Previa en Agentes de Código

Descubre cómo la coherencia tensa revela fallos inminentes en agentes de IA. Un detector con 94% de precisión identifica cuándo un agente ignora sus propias

2026-06-16 · 2 min

Más allá de los benchmarks en inglés: evaluación clínica de LLM en portugués

ClinicalBr, el primer benchmark bilingüe para evaluar LLM clínicos en portugués. Analizamos la brecha entre inglés y portugués en diagnóstico y tratamiento.

2026-06-16 · 3 min

El último píxel visible: probando la percepción fina en VLMs

¿Qué tan pequeño puede percibir un VLM? FineSightBench revela que la percepción se satura a 12px, pero el razonamiento sigue limitado.

2026-06-16 · 2 min

Ilusiones del estándar de oro: análisis masivo de evaluación de texto largo

Descubre cómo un análisis masivo de 2,084 papers revela las ilusiones del estándar de oro en evaluación humana de texto generado.

2026-06-16 · 3 min

El resumen automático no ha muerto

¿Los resúmenes de IA son mejores que los humanos? Un estudio revela que los humanos aún ganan en fidelidad y veracidad. Descubre por qué el resumen no ha

2026-06-16 · 2 min

Sci-Rho: Benchmark simbólico multilingüe para STEM

¿Qué tan robustos son los VLMs ante problemas STEM en varios idiomas? Sci-Rho te lo muestra con un benchmark simbólico multilingüe y visual.

2026-06-16 · 3 min

Fortalecimiento de benchmarks de agentes con bucles hacker-fixer

Descubre cómo el bucle hacker-fixer protege benchmarks de agentes contra reward hacking, eliminando el 100% de exploits en KernelBench. Una solución

2026-06-16 · 2 min

ATM: Matriz para Diagnosticar Modelos del Mundo Latente

ATM te permite diagnosticar y mejorar modelos del mundo latente con una matriz de transferencia que acelera la evaluación más de 100x, sin necesidad de

2026-06-16 · 3 min

SEF-CLGC en SemEval-2026: Impacto de la Notación Lógica en Modelos de Lenguaje

Descubre cómo SEF-CLGC combina notación lógica y SLMs para evaluar razonamiento en IA, reduciendo sesgo y logrando 27.80% de contenido.

2026-06-16 · 2 min

Red-Teaming culturalmente adaptado: análisis comparativo en Asia

La traducción directa subestima riesgos en LLMs. Este análisis en 4 idiomas asiáticos muestra cómo el red-teaming culturalmente adaptado revela amenazas reales.

2026-06-16 · 2 min

Metric Match: selección de subconjuntos para fiabilidad de LLM

Metric Match: método de selección de subconjuntos que reduce un 32.5% las anotaciones humanas al evaluar fiabilidad de jueces LLM. Ahorra miles en casos

2026-06-16 · 2 min

OSGuard: Evaluando la Seguridad de Agentes Informáticos

Descubre OSGuard, el benchmark que evalúa la seguridad de agentes de IA en tareas de computación, detectando acciones inseguras incluso si cumplen el objetivo.

2026-06-16 · 2 min

Metric Match: Selección de subconjuntos para evaluar la fiabilidad de LLM

Metric Match reduce un 32% las anotaciones humanas para evaluar fiabilidad de jueces LLM, mejorando precisión y ahorrando costos.

2026-06-16 · 2 min

OSGuard: Benchmark de seguridad para agentes informáticos

Descubre OSGuard, el nuevo benchmark que evalúa la seguridad de los agentes de IA en tareas informáticas. ¿Logran evitar atajos inseguros? Lee más.

2026-06-16 · 2 min

Agentes LLM conscientes del riesgo para datos geoespaciales

Aprende cómo los agentes LLM con conciencia de riesgo recuperan datos geoespaciales y se defienden de ataques adversariales.

2026-06-16 · 2 min

Agentes LLM conscientes del riesgo para recuperación de datos geoespaciales

Agentes LLM conscientes del riesgo recuperan datos geoespaciales usando consultas en lenguaje natural. Evaluación adversarial.

2026-06-16 · 2 min

TSQA irregular: ciencia de datos agentica verificable

Descubre IRTS-ToolBench: 1700 preguntas para evaluar LLMs en series temporales irregulares. Razonamiento con herramientas para ciencia de datos agentica.

2026-06-16 · 3 min

Mask-Proof: pipeline de curación de datos con LLM para pruebas matemáticas

Descubre Mask-Proof, un pipeline que evalúa el razonamiento paso a paso en pruebas matemáticas con LLM. Incluye 292 problemas para benchmarking.

2026-06-16 · 2 min

CODA-BENCH: Evaluación de agentes autónomos en tareas de datos

Evalúa agentes de código con CODA-BENCH: 1009 tareas en entornos de datos masivos. Solo el 61% de éxito actual. Descubre las brechas en inteligencia artificial.

2026-06-16 · 2 min