#taxonomía

Convierte especificaciones en evaluaciones para cualquier agente con ASSERT

ASSERT transforma especificaciones en lenguaje natural en evaluaciones ejecutables para agentes de IA. Pruebas más rápidas, precisas y auditables.

2026-06-10 · 4 min

La capa faltante en la taxonomía de modelos del mundo de Fei-Fei Li

La taxonomía de Fei-Fei Li define tres tipos de modelos del mundo, pero omite la capa esencial: la representación interna. ¡Descúbrelo!

2026-06-10 · 2 min

La capa faltante en la taxonomía de modelos del mundo de Fei-Fei Li

Fei-Fei Li propone una taxonomía de modelos del mundo, pero omite la representación interna. Descubre por qué la simulación es el verdadero pilar.

2026-06-10 · 2 min

FailureScope: Diagnóstico conductual de debilidades en modelos de lenguaje

FailureScope identifica debilidades en modelos de lenguaje mediante clustering conductual. Mejora la evaluación en benchmarks, diálogos y ataques adversariales.

2026-06-10 · 2 min

Más allá de los FLOPs: Evaluación de la aceleración real del pruning de LLM con taxonomía GEMM

Nueva taxonomía GEMM revela los límites prácticos del pruning en LLM. La poda estática y dinámica dominan según la pérdida de calidad. Resultados clave para acelerar inferencia.

2026-06-09 · 1 min

Detección de Anomalías en Ciberseguridad con Redes de Grafos Heterogéneos

Explora el estado del arte de las HGNN para detección de anomalías en ciberseguridad. Taxonomía, benchmarks y desafíos clave.

2026-06-09 · 2 min

Anything2Skill: Conocimiento externo en habilidades reutilizables

Descubre cómo Anything2Skill transforma conocimiento externo en habilidades ejecutables para agentes, mejorando RAG con tasas de éxito del 98%.

2026-06-09 · 3 min

Autoexplicabilidad en sistemas adaptativos y auto-organizativos: estado y retos

Autoexplicabilidad en sistemas complejos: estado, niveles y retos. Revisión sistemática que establece la base para sistemas que se explican a sí mismos.

2026-06-09 · 2 min

Sistema de extracción dinámico y autoevolutivo

Descubre DySECT, un sistema de extracción dinámico que aprende continuamente. Mejora la precisión integrando conocimiento y razonamiento gráfico.

2026-06-08 · 1 min

Ranking Bradley-Terry para sistemas de recomendación

Descubre cómo el modelo Bradley-Terry ofrece rankings justos y robustos para comparar algoritmos de recomendación según las características del dataset.

2026-06-08 · 2 min

Taxonomía de fallos runtime en servidores MCP

Primera taxonomía empírica de fallos runtime en servidores MCP. Basada en 837 hilos y validada por 55 desarrolladores, identifica 73 tipos de fallos.

2026-06-06 · 2 min

Taxonomía de fallos en tiempo de ejecución en servidores MCP

Descubre la primera taxonomía de fallos en servidores MCP. 837 hilos analizados y encuesta a 55 desarrolladores revelan los 27 subtipos de fallos runtime.

2026-06-06 · 1 min

Almieyar-Oryx-BloomBench: Evaluación cognitiva bilingüe de VLMs

BloomBench: el primer benchmark bilingüe para evaluar cognitivamente modelos de visión-lenguaje. Asimetrías clave entre árabe e inglés.

2026-06-05 · 2 min

BloomBench: Benchmark bilingüe multimodal para evaluación cognitiva de VLMs

Descubre BloomBench, benchmark bilingüe (árabe-inglés) que evalúa la capacidad cognitiva de modelos visión-lenguaje. Revela brechas en memoria y creatividad.

2026-06-05 · 1 min

Actualización de la taxonomía de fallos en sistemas de IA agentiva

Actualizamos la taxonomía de fallos en sistemas de IA agentiva con 7 nuevos modos, basados en 12 meses de red teaming. Descubre cómo proteger tus agentes.

2026-06-05 · 2 min

Del prompt al proceso: taxonomía y comparativa de frameworks

Descubre cómo seis frameworks transforman los prompts en procesos estructurados para agentes de desarrollo de IA. Taxonomía, evaluación y recomendaciones.

2026-06-04 · 2 min

Cuando RLHF falla: taxonomía de reward hacking, colapso y manipulación

Descubre cómo clasificar y predecir fallos en RLHF como reward hacking y colapso. Estudio empírico con PPO y DPO que revela dinámicas ocultas.

2026-06-03 · 2 min

HiFi-KPI: Dataset jerárquico para KPIs financieros

Descubre HiFi-KPI, el dataset con 1.65M de párrafos y 198k etiquetas jerárquicas para extraer KPIs de informes financieros. Modelos de IA alcanzan 0.906 F1 en clasificación.

2026-06-03 · 2 min