Evaluación de LLMs para formalización matemática en Lean
Descubre qué modelos de LLM son más efectivos para generar pruebas formales en Lean 4. Gemini y Claude lideran, pero Nemotron es el más eficiente.
Descubre qué modelos de LLM son más efectivos para generar pruebas formales en Lean 4. Gemini y Claude lideran, pero Nemotron es el más eficiente.
Descubre por qué los LLMs corrigen errores ajenos pero no los propios: un artefacto del chat-template que revela una ilusión de autocorrección.
Descubre cuándo los agentes conversacionales con IA deben integrar memorias sensibles y cómo la evaluación RBI-Eval revela sesgos en modelos como GPT y Claude.
Vortex es un sistema que acelera el diseño de algoritmos de atención dispersa, logrando hasta 3.46x más rendimiento en LLMs. Ideal para agentes de IA que buscan optimizar la inferencia.
Descubre Benchmark Agent, un sistema autónomo que crea benchmarks de alta calidad para evaluar LLMs y MLLMs sin intervención humana. Ideal para investigación.
Con Synapse, enruta herramientas federadas entre LLMs heterogéneos sin compartir datos, con privacidad diferencial y precisión casi sin pérdida.
Descubre cómo optimizar la planificación clásica con grounding parcial semántico mediante LLMs. Reduce acciones y objetos irrelevantes, agilizando el proceso.
Optimiza tus modelos de lenguaje con CMPQ: cuantización de precisión mixta por canal que ahorra memoria y mejora el rendimiento en dispositivos edge.
Descubre por qué el decodificado contrastivo no mitiga alucinaciones en MLLMs según nueva investigación. Las mejoras en POPE son engañosas. ¡Entra para más!
GRPO y recompensas de rúbrica mejoran respuestas cardíacas en LLMs pequeños: precisión sube a 50.2%, compitiendo con modelos 8x mayores.
Descubre MCBench, el primer benchmark multicontexto que evalúa la seguridad de modelos de lenguaje omni (visión, audio y texto). Revela sus limitaciones en razonamiento multimodal.
Descubre CTIConnect, el benchmark que evalúa LLMs con recuperación en fuentes heterogéneas de ciberinteligencia. Resultados clave para la seguridad.
Descubre cómo FEIBN combina LLMs y aprendizaje federado para evaluar estrategias en IIoT, reduciendo costes y mejorando eficiencia.
OG-MAR alinea LLMs con valores culturales usando ontología y multiagentes. Mejora transparencia y precisión.
Descubre cómo un consejo de LLMs locales evalúa hipótesis en neurociencia usando ontologías, revelando acuerdos y dispersión en la literatura.
La abliteración elimina la negativa en LLMs de código, permitiendo inyectar vulnerabilidades como SQL injection. Resultados en Qwen2.5-Coder.
Descubre cómo los LLMs enfrentan el reto de comprender y generar música clásica del sur de Asia, con ragas y talas. Resultados de un estudio pionero.
Un grupo de 49 matemáticos creó 100 preguntas de nivel investigador. Los LLMs más avanzados resolvieron 98 de ellas. Descubre los resultados del taller 'Benchmarks in Leipzig'.
Descubre cómo las cabezas CoRe en LLMs multimodales logran eficiencia: al eliminar solo el 5% se degrada el rendimiento, pero su uso acelera la inferencia. Una clave para la optimización.
Descubre GenTI, el primer benchmark que usa LLMs para generar reglas IDPS automáticas. Mejora detección de ataques desconocidos hasta un 87.4%.