Resultados de APIEval-20: lo que nos sorprendió y lo que significa
Analizamos 7 sistemas de IA en APIEval-20: desde LLMs hasta agentes de código. Sorprendentes hallazgos sobre detección de bugs y consistencia. ¡Descúbrelo!
Analizamos 7 sistemas de IA en APIEval-20: desde LLMs hasta agentes de código. Sorprendentes hallazgos sobre detección de bugs y consistencia. ¡Descúbrelo!
Descubre cómo el marco GAMBLe analiza sistemas de investigación con IA, revelando que combinaciones adecuadas mejoran rendimiento hasta 67% y eficiencia 39x.
Nuevo benchmark curricular GTBench evalúa LLMs como asistentes en teoría de grafos. GPT-5 lidera, Llama falla.
Aprende a destilar reglas de programación lógica desde LLMs para VQA interpretable, con solo pocos ejemplos. Alternativa eficiente al aprendizaje de reglas tradicional.
WaterSIC: algoritmo de cuantización casi óptimo que supera a GPTQ. Nuevo récord en LLMs Llama y Qwen para 1-4 bits. ¡Mejora la eficiencia!
Descubre cómo SAIL utiliza LLMs para sintetizar transformadores abstractos sólidos y precisos en verificación de redes neuronales. Un avance en interpretación abstracta automática.
Descubre Social Caption: evaluando la comprensión social de modelos multimodales. Tres dimensiones clave: inferencia, análisis holístico y dirigido.
Descubre por qué descomposiciones tensoriales tienen limitaciones en la compresión de LLMs y cómo afectan a modelos densos y MoE. Análisis teórico y práctico.
Descubre cómo Tree-like Self-Play mejora la seguridad en código generado por IA, reduciendo vulnerabilidades en un 24.5% y transfiriendo principios entre lenguajes.
Descubre CauTion, un marco que integra LLMs y algoritmos estadísticos para descubrimiento causal con alta precisión y robustez. Ideal para científicos de datos.
Descubre TAO-RL, el nuevo marco que combina filtrado de trayectorias con exploración guiada por entropía para optimizar el razonamiento de LLMs con herramientas. Mejora la eficiencia y precisión.
Aprende cómo la autoevaluación por clusters permite a los LLMs medir su incertidumbre con solo dos muestras, mejorando la confiabilidad de sus respuestas.
Descubre cómo un framework sin entrenamiento combina LLMs y grafos de conocimiento para resumir múltiples documentos con alta precisión y adaptabilidad.
Descubre SEFT, un método de ajuste fino que permite a los LLMs dispersos evolucionar su estructura manteniendo eficiencia. Supera a métodos existentes.
PieArena mide la capacidad de negociación de los LLMs en escenarios reales. GPT-5 iguala o supera a humanos en este benchmark.
Descubre cómo el benchmark REL evalúa el razonamiento relacional en LLMs, revelando sus limitaciones en tareas de alta aridad en ciencias.
Descubre cómo EvoOR-Agent utiliza la coevolución de arquitecturas de agentes y razonamiento interpretable para optimizar procesos complejos con LLMs. Mejora el rendimiento y la interpretabilidad.
Los LLMs tienden a modernizar textos históricos. Descubre cómo el marco HAV con sistemas multiagente restaura la precisión documental. Lee más.
Aprende cómo SeSE cuantifica la incertidumbre en LLMs usando teoría estructural para evitar alucinaciones. Mejora la fiabilidad de tus modelos.
Descubre cómo la linealidad relacional en modelos de lenguaje predice alucinaciones. Un nuevo estudio revela claves para entender fallos en IA.