#valuación

Reevaluando el aprendizaje continuo con pocos ejemplos

La evaluación con pocos ejemplos revela nuevas perspectivas sobre estabilidad y plasticidad en aprendizaje continuo. El meta-aprendizaje mejora la adaptación.

2026-06-03 · 1 min

Autoevaluación Agrupada: Método Simple para Incertidumbre en LLMs

Aprende cómo la autoevaluación por clusters permite a los LLMs medir su incertidumbre con solo dos muestras, mejorando la confiabilidad de sus respuestas.

2026-06-03 · 3 min

Expresión fiel de confianza en modelos de razonamiento grandes

¿Los modelos de razonamiento grandes expresan su confianza de forma fiel? Cuantificamos la calibración entre incertidumbre interna y verbalizada, revelando desa

2026-06-03 · 3 min

AlphaEval: Marco de evaluación integral y eficiente para minería de alfas

Descubre AlphaEval, marco de evaluación unificado y sin backtesting para minería de alfas. Evalúa poder predictivo, estabilidad, robustez y más. ¡Open source!

2026-06-03 · 2 min

El primer día del agente: Evaluando aprendizaje, exploración y planificación

Descubre EvoEnv, el nuevo benchmark que evalúa a los agentes IA en entornos laborales dinámicos: planificación, exploración y aprendizaje continuo.

2026-06-03 · 2 min

PieArena: Ranking y Perfil de Agentes de Lenguaje en Negociaciones Realistas

PieArena mide la capacidad de negociación de los LLMs en escenarios reales. GPT-5 iguala o supera a humanos en este benchmark.

2026-06-03 · 2 min

Hacia una ciencia de la confiabilidad de agentes de IA

12 métricas clave para evaluar la confiabilidad real de agentes de IA: consistencia, robustez, predictibilidad, seguridad. Más allá del éxito aparente.

2026-06-03 · 1 min

X-RAY: Mapeo del razonamiento en LLMs con sondas formales

Descubre cómo X-RAY mapea la capacidad de razonamiento de los LLMs usando sondas formales y calibradas, revelando asimetrías y fallos interpretables.

2026-06-03 · 1 min

Evaluación del razonamiento relacional en LLMs con REL

Descubre cómo el benchmark REL evalúa el razonamiento relacional en LLMs, revelando sus limitaciones en tareas de alta aridad en ciencias.

2026-06-03 · 2 min

Generando confianza en la optimización de caja negra: un marco integral para la explicabilidad

Mejora la transparencia en optimización de caja negra con IEMSO: métricas inclusivas que explican el proceso de surrogate optimization y aumentan la confianza.

2026-06-03 · 2 min

WISE: Evaluación semántica con conocimiento mundial en T2I

WISE: Benchmark que evalúa conocimiento mundial en T2I. 1000 prompts en 25 subdominios, WiScore mide cultura, espacio-tiempo y ciencia.

2026-06-03 · 2 min

CoMPAS3D: Dataset y Benchmark para Movimiento Interactivo en Robótica Social

Descubre CoMPAS3D, el dataset de captura de movimiento de salsa que permite evaluar robots humanoides en interacciones sociales con métricas objetivas.

2026-06-03 · 2 min

Cómputo de inferencia calibrado por distribución para LLM como juez

Descubre cómo el cómputo de inferencia calibrado por distribución mejora la fiabilidad de LLM como juez, reduciendo errores y superando métodos tradicionales de votación.

2026-06-03 · 2 min

Planificar, Verificar y Completar: Decodificación Paralela en Modelos de Difusión

Descubre PVF, un nuevo método de decodificación paralela para modelos de difusión que reduce hasta un 65% las evaluaciones de función sin perder precisión.

2026-06-03 · 1 min

CodeHacker: generación automatizada de pruebas para detectar vulnerabilidades

CodeHacker genera pruebas adversariales para detectar vulnerabilidades en soluciones de programación competitiva. Mejora benchmarks y entrena modelos de IA.

2026-06-03 · 2 min

Burlar al camaleón: desacoplamiento contrafáctico para cambios en streaming

Descubre cómo el método LPCD burla a los atacantes 'camaleón' que cambian tácticas en streaming, usando desacoplamiento contrafáctico para evaluar riesgos.

2026-06-03 · 3 min

Gate AI: Metodología y resultados de evaluación de seguridad en LLM

Descubre la metodología rigurosa de Gate AI para evaluar detectores de inyección y jailbreaks en LLM con umbral único y 16 benchmarks. Resultados sin sesgos.

2026-06-03 · 1 min

Alucinaciones sintéticas, ganancias reales: negativos duros para mitigar FIM

Descubre cómo los modelos frontera generan alucinaciones sintéticas como negativos duros para entrenar modelos de código y reducir alucinaciones +18.8%.

2026-06-03 · 2 min

IdEst: Evaluando Representaciones SSL con Dimensión Intrínseca

Descubre cómo IdEst, basado en dimensión intrínseca, evalúa representaciones SSL de forma eficiente, reduciendo costos computacionales y sin necesidad de etiquetas.

2026-06-03 · 3 min

IdEst: dimensión intrínseca para evaluar representaciones SSL

IdEst evalúa representaciones SSL con dimensión intrínseca: métrica geométrica que correlaciona con el rendimiento downstream. Ahorra tiempo en evaluación.

2026-06-03 · 1 min