#humana

HLL: ¿Pueden los agentes superar la última barrera de verificación humana?

¿Son los agentes multimodales capaces de pasar la última línea de verificación? El nuevo benchmark HLL expone sus limitaciones frente a CAPTCHAs interactivos.

2026-06-02 · 2 min

Modelado de preferencias para generar humor según la audiencia

Descubre cómo un sistema de IA ganó el reto SemEval-2026 generando chistes según preferencias de la audiencia usando modelado de preferencias.

2026-06-02 · 2 min

IA y música: ¿cómo deberían los Grammy adaptarse?

El CEO de los Grammy revela cómo la IA está omnipresente en los estudios y cómo la academia planea adaptar sus reglas. ¿Puede la IA ganar un Grammy?

2026-06-02 · 2 min

GLIDE: Inferencia basada en predicciones para evaluar sistemas GenAI

GLIDE: biblioteca Python que combina anotaciones humanas y predicciones de LLM para evaluar sistemas GenAI y agentes sin sesgo, ahorrando costos de anotación.

2026-06-01 · 3 min

Los LLM se acercan a la religión. Cuidado con quienes lo explotan

El Papa advierte sobre la IA en su encíclica, mientras un estudio pide incluir perspectivas religiosas. ¿Está la IA convirtiéndose en una nueva fe?

2026-06-01 · 4 min

Reinterpretando los umbrales de seguridad como umbrales de disparo neuronal

Reinterpreta umbrales de seguridad como disparos neuronales con SNN para alinear evaluación de riesgos con el frenado humano.

2026-06-01 · 2 min

Arquitectura de runtime de agente LLM con alcance organizacional para ciberseguridad regulada

Descubre la arquitectura de runtime de agentes LLM con alcance organizacional para SOCs financieros, con auditoría, supervisión humana y seguridad integrada.

2026-06-01 · 2 min

Alineación humana, calibración y patrones en la incertidumbre de LLMs

Descubre cómo los LLMs reflejan la incertidumbre humana mediante alineación, calibración y patrones de activación. Un estudio clave para entender y combatir alucinaciones.

2026-06-01 · 2 min

Diagnóstico de fiabilidad de LLM como juez con IRT

Descubre cómo diagnosticar la fiabilidad de los LLM como jueces usando la teoría de respuesta al ítem (IRT) para evaluar consistencia y alineación con expertos humanos.

2026-06-01 · 2 min

LH-Bench: evaluación de agentes de largo plazo en tareas empresariales subjetivas

Aprende cómo LH-Bench evalúa agentes autónomos en tareas subjetivas empresariales con rúbricas expertas y validación humana.

2026-06-01 · 2 min

Refinamiento de pose humana mediante aprendizaje basado en ángulos articulares

Descubre cómo el método JAR, basado en ángulos articulares y redes recurrentes, refina la estimación de pose humana corrigiendo errores y suavizando trayectoria

2026-06-01 · 2 min

Alineación humana y calibración de incertidumbre en LLMs

Descubre cómo las medidas de incertidumbre en tiempo de inferencia se alinean con la incertidumbre humana y mejoran la calibración en grandes modelos de lenguaje.

2026-06-01 · 2 min