MA-ProofBench: Evaluación de LLMs en demostración de teoremas de análisis
Descubre MA-ProofBench, el primer benchmark para demostración de teoremas en análisis matemático. LLMs solo logran 16% en nivel básico y 5% en PhD.
Descubre MA-ProofBench, el primer benchmark para demostración de teoremas en análisis matemático. LLMs solo logran 16% en nivel básico y 5% en PhD.
Descubre Affordance20Q, el benchmark que pone a prueba el razonamiento de la IA sobre propiedades físicas sin revelar objetos. ¿Superarán los LLMs este desafío?
Affordance20Q: un benchmark que desafía a las LLMs a identificar objetos por sus propiedades físicas jugando a 20 preguntas. ¿Pueden razonar sin ver el nombre?
WorkflowView usa LLMs para convertir secuencias de acciones en flujos de trabajo interpretables. Logra alta precisión en reconstrucción de tareas y predicción de abandono con privacidad.
Descubre cómo los LLMs con prompting superan a modelos supervisados en clasificación Bloom. Conoce una interfaz ligera para docentes.
Descubre cómo los LLMs con prompts superan a los modelos supervisados en clasificación de preguntas educativas según Bloom. Un estudio con 5 datasets y una interfaz ligera para docentes.
Editar una sola neurona elimina bucles de repetición en LLMs como Gemma 4, pero no soluciona la falta de conocimiento. Resultados clave.
Nuevo marco de dos etapas adapta el IAT a LLMs para separar cumplimiento de consistencia. Revela que la interferencia asociativa varía entre modelos.
Descubre MeEvo, un innovador framework que combina evolución natural y metacognitiva para diseñar heurísticas automáticas con LLMs, mejorando eficiencia y estabilidad en problemas complejos.
Descubre cómo un sistema de cinco agentes reduce en un 53% las alucinaciones médicas de los LLMs al verificar fármacos prohibidos. Mejora la seguridad clínica.
¿Poda o entrenar desde cero para LLMs pequeños? Este estudio compara ambos métodos bajo distintos presupuestos de tokens y revela cuándo conviene cada uno.
Descubre cómo los modelos de lenguaje multilingües representan las lenguas: separabilidad, jerarquías y efectos no deseados entre idiomas. Implicaciones para IA confiable.
Descubre cómo dos LLMs mejoran mutuamente mediante destilación conjunta y retroalimentación entre pares, logrando una mejora Pareto en múltiples dominios.
Descubre NeST, un método de alineación de seguridad para LLMs que reduce ataques de jailbreak del 44.5% al 1.1% con solo 0.4M parámetros.
Descubre Sentinel, un método ligero de compresión de contexto para LLMs que usa patrones de atención. Logra hasta 5x de compresión en QA sin perder rendimiento.
Descubre cómo QES permite ajustar finamente modelos cuantizados con alta precisión y bajo costo, superando métodos tradicionales de optimización.
¿Sabías que los LLMs olvidan instrucciones? Descubre cómo un formato saliente recupera el cumplimiento. 8000+ prompts.
Descubre cómo X-OPD cierra la brecha entre modelos de habla y texto mediante destilación multimodal, mejorando la precisión sin perder capacidades.
Descubre por qué un LMS en un bot de Telegram supera a las apps tradicionales: mayor retención, menos fricción y desarrollo en semanas.
Descubre cómo los LLMs permiten una moderación de contenido precisa y escalable. Aprende estrategias prácticas para detectar contenido dañino con IA.