#benchmarks

Leyes de Escalado de Respuesta a Ítems: Una Teoría de Medición para Escalado Neuronal

IRSL integra la Teoría de Respuesta al Ítem para estimar escalado neuronal con solo 50 preguntas, reduciendo datos un 99.9%.

2026-06-09 · 3 min

La brecha sim-to-real de los agentes con modelos fundacionales

Descubre cómo la brecha sim-to-real afecta a los agentes con modelos fundacionales y cómo una perspectiva unificada de MDP puede mejorar su robustez en aplicaciones reales.

2026-06-08 · 2 min

Actúa como un investigador real: benchmarks para LLMs y agentes

Descubre AARRI-Bench, el benchmark que mide si los agentes de IA pueden pensar como investigadores humanos. El mejor modelo solo alcanza un 68.3% de éxito.

2026-06-08 · 2 min

Colaboración multiagente: ¿cuándo ayuda? Perspectiva de entropía

La perspectiva de entropía revela cuándo colaborar: un solo agente supera al sistema multiagente en el 43% de los casos. Entropy Judger mejora la precisión.

2026-06-08 · 2 min

Benchmarks sintéticos sobreestiman el escalado Forward-Forward

Descubre por qué los benchmarks sintéticos exageran el escalado de Forward-Forward. El estudio revela un techo real en ImageNet-100 frente a backpropagation.

2026-06-08 · 1 min

TALAN: Adaptación Latente Alineada a Tareas para Post-Entrenamiento de LLMs

TALAN mejora el post-entrenamiento de LLMs: razonamiento y código sin perder fortalezas. Solo 1% parámetros extra. ¡Descubre!

2026-06-08 · 2 min

RASFT: Ajuste Fino Adaptativo con Rollout para Razonamiento

Descubre RASFT, un nuevo método de fine-tuning que combina supervisión experta con rollouts adaptativos para mejorar el razonamiento en modelos de lenguaje. Res

2026-06-08 · 2 min

MoDA: Adaptador de modulación para anclaje visual fino en MLLMs instructivos

Descubre MoDA, un adaptador ligero que mejora el anclaje visual en MLLMs mediante modulación por canal. Logra hasta +12 puntos en MMVP. ¡Código abierto!

2026-06-08 · 2 min

¿Puede el software que convierte mejorar la eficiencia energética?

Descubre cómo el software que convierte integra IoT y automatización para reducir el consumo energético. Ahorra costos y cumple tus objetivos de sostenibilidad.

2026-06-07 · 2 min

APIs de captura vs Chrome Headless: benchmarks, costos y marco de decisión

Comparativa real de costos y rendimiento entre APIs de captura y Chrome Headless. Elige la mejor opción para tu proyecto con nuestro marco de decisión.

2026-06-07 · 3 min

Estabilidad vs. Manipulabilidad: Robustez en Jueces de IA

¿Son confiables los jueces de IA? Este estudio revela que aunque estables, pueden revertirse con desafíos posteriores, afectando rankings y preferencias humanas.

2026-06-06 · 3 min

¿Ayudan más agentes? Evaluación controlada de flujos de trabajo LLM

Descubre por qué añadir más agentes no siempre mejora resultados LLM. BenchAgent: solo 1 de 6 sistemas multi-agente iguala al agente único. GAIA supera 66%.

2026-06-06 · 2 min

Benchmark Agent: evalúa todo, en todas partes, a la vez

Descubre Benchmark Agent, un sistema autónomo que crea benchmarks de alta calidad para evaluar LLMs y MLLMs sin intervención humana. Ideal para investigación.

2026-06-06 · 2 min

LoRi: Destilación de Bajo Rango para Razonamiento Implícito

Descubre LoRi: destilación de bajo rango que mejora el razonamiento implícito en LLMs, acercándose a cadenas de pensamiento explícitas.

2026-06-06 · 2 min

Corrigiendo dependencia de prompts en benchmarks LLM: modelo bayesiano con clustering

Descubre cómo un modelo bayesiano jerárquico con clustering corrige la dependencia de prompts en benchmarks de LLM, mejorando métricas de rendimiento hasta un 73%.

2026-06-06 · 2 min

OG-MAR: Alineamiento cultural de LLMs mediante ontología y multiagentes

OG-MAR alinea LLMs con valores culturales usando ontología y multiagentes. Mejora transparencia y precisión.

2026-06-06 · 2 min

Contaminación en tiempo de búsqueda en agentes de investigación profunda

Descubre cómo la contaminación en búsqueda infla el rendimiento de agentes de IA en benchmarks. Aprende a detectarla y mitigarla.

2026-06-06 · 1 min

LoRi: Destilación de Bajo Rango para Razonamiento Implícito

Descubre LoRi, un método que utiliza destilación de bajo rango para mejorar el razonamiento implícito en modelos de lenguaje, superando a técnicas anteriores.

2026-06-06 · 2 min

Análisis transversal de seguridad en IA encarnada para tareas de largo plazo

Descubre cómo garantizar la seguridad en IA encarnada para tareas de largo plazo. Analizamos planificación, políticas y ejecución en manipulación robótica.

2026-06-06 · 3 min

Benchmarks en Leipzig: 100 preguntas matemáticas para IA

Un grupo de 49 matemáticos creó 100 preguntas de nivel investigador. Los LLMs más avanzados resolvieron 98 de ellas. Descubre los resultados del taller 'Benchmarks in Leipzig'.

2026-06-06 · 2 min