#llms

Resultados de APIEval-20: lo que nos sorprendió y lo que significa

Analizamos 7 sistemas de IA en APIEval-20: desde LLMs hasta agentes de código. Sorprendentes hallazgos sobre detección de bugs y consistencia. ¡Descúbrelo!

2026-06-03 · 3 min

No apuestes, GAMBLe: Marco analítico para sistemas de investigación con IA

Descubre cómo el marco GAMBLe analiza sistemas de investigación con IA, revelando que combinaciones adecuadas mejoran rendimiento hasta 67% y eficiencia 39x.

2026-06-03 · 1 min

GTBench: Benchmarck curricular para evaluar LLMs en teoría de grafos

Nuevo benchmark curricular GTBench evalúa LLMs como asistentes en teoría de grafos. GPT-5 lidera, Llama falla.

2026-06-03 · 2 min

Destilación de reglas ASP desde LLMs para VQA neurosimbolico

Aprende a destilar reglas de programación lógica desde LLMs para VQA interpretable, con solo pocos ejemplos. Alternativa eficiente al aprendizaje de reglas tradicional.

2026-06-03 · 1 min

WaterSIC: Cuantización lineal casi óptima (teoría de la información)

WaterSIC: algoritmo de cuantización casi óptimo que supera a GPTQ. Nuevo récord en LLMs Llama y Qwen para 1-4 bits. ¡Mejora la eficiencia!

2026-06-03 · 2 min

SAIL: Intérpretes Abstractos Sólidos con LLMs

Descubre cómo SAIL utiliza LLMs para sintetizar transformadores abstractos sólidos y precisos en verificación de redes neuronales. Un avance en interpretación abstracta automática.

2026-06-03 · 2 min

Social Caption: Evaluación de la comprensión social en modelos multimodales

Descubre Social Caption: evaluando la comprensión social de modelos multimodales. Tres dimensiones clave: inferencia, análisis holístico y dirigido.

2026-06-03 · 2 min

Repensando descomposiciones tensoriales en compresión post-entrenamiento de LLMs

Descubre por qué descomposiciones tensoriales tienen limitaciones en la compresión de LLMs y cómo afectan a modelos densos y MoE. Análisis teórico y práctico.

2026-06-03 · 2 min

Aprende de tus errores: Self-Play en árbol para LLMs de código seguro

Descubre cómo Tree-like Self-Play mejora la seguridad en código generado por IA, reduciendo vulnerabilidades en un 24.5% y transfiriendo principios entre lenguajes.

2026-06-03 · 2 min

CauTion: Cuándo confiar en los LLMs para descubrimiento causal

Descubre CauTion, un marco que integra LLMs y algoritmos estadísticos para descubrimiento causal con alta precisión y robustez. Ideal para científicos de datos.

2026-06-03 · 3 min

Optimización con herramientas y entropía para RL agente eficiente

Descubre TAO-RL, el nuevo marco que combina filtrado de trayectorias con exploración guiada por entropía para optimizar el razonamiento de LLMs con herramientas. Mejora la eficiencia y precisión.

2026-06-03 · 3 min

Autoevaluación Agrupada: Método Simple para Incertidumbre en LLMs

Aprende cómo la autoevaluación por clusters permite a los LLMs medir su incertidumbre con solo dos muestras, mejorando la confiabilidad de sus respuestas.

2026-06-03 · 3 min

Mezcla de agentes sin entrenamiento para resumir documentos con LLMs y grafos

Descubre cómo un framework sin entrenamiento combina LLMs y grafos de conocimiento para resumir múltiples documentos con alta precisión y adaptabilidad.

2026-06-03 · 2 min

SEFT: Ajuste fino disperso para LLMs con evolución de la dispersión

Descubre SEFT, un método de ajuste fino que permite a los LLMs dispersos evolucionar su estructura manteniendo eficiencia. Supera a métodos existentes.

2026-06-03 · 2 min

PieArena: Ranking y Perfil de Agentes de Lenguaje en Negociaciones Realistas

PieArena mide la capacidad de negociación de los LLMs en escenarios reales. GPT-5 iguala o supera a humanos en este benchmark.

2026-06-03 · 2 min

Evaluación del razonamiento relacional en LLMs con REL

Descubre cómo el benchmark REL evalúa el razonamiento relacional en LLMs, revelando sus limitaciones en tareas de alta aridad en ciencias.

2026-06-03 · 2 min

Optimización automatizada con agentes en coevolución y razonamiento interpretable

Descubre cómo EvoOR-Agent utiliza la coevolución de arquitecturas de agentes y razonamiento interpretable para optimizar procesos complejos con LLMs. Mejora el rendimiento y la interpretabilidad.

2026-06-03 · 2 min