FLIPS: Huellas de instancias para LLMs mediante secuencias pseudoaleatorias
Descubre FLIPS, un método que identifica configuraciones de LLMs con un 96% de precisión, clave para la regulación de IA.
Descubre FLIPS, un método que identifica configuraciones de LLMs con un 96% de precisión, clave para la regulación de IA.
Evaluamos 6 LLMs en reparación de dispositivos reales. ¿Son fiables? Descubre sus aciertos, errores y riesgos de seguridad. Resultados en inglés y bengalí.
FlexRank extrae submodelos de capacidad variable de modelos sin reentrenar. Optimiza costos y rendimiento para despliegue adaptativo a todo presupuesto.
ParisKV: recuperación de caché KV para LLMs largos, hasta 44x más rápido y robusto ante deriva. Optimiza tu inferencia.
Descubre cómo la nueva capa TTC integra control óptimo en LLMs, mejorando el razonamiento matemático hasta un 27.8% en benchmarks como MATH-500. Una innovación
Eso-LMs: modelos de lenguaje que combinan AR y MDM con atención causal y caché KV, permitiendo generación paralela e inferencia eficiente. Nuevo estado del arte.
ReasonBENCH revela: la inestabilidad en el razonamiento de LLMs no es ruido, es estructura. Un solo test puede engañar. ¡Evalúa con distribuciones!
La estructura permite a los LLMs localizar errores y autocorregirse. Thought-ICS logra un 20-40% de mejora.
FeynmanBench: 2000+ diagramas evalúan 19 LLMs. 70-95% en reconocimiento local, pero 13-17% en topología. Descubre las limitaciones.
KnowledgeBerg: benchmark que evalúa cobertura sistemática y razonamiento composicional en LLMs. Resultados clave sobre sus limitaciones.
Los dilemas éticos pueden ser un arma contra los LLMs. Descubre el ataque TRIAL y la defensa ERR que los protege.
Descubre T-POP, personalización rápida de LLMs sin reentrenamiento usando preferencias en línea y bandidos duelistas.
Los benchmarks actuales no revelan las fallas de los métodos de RL en LLMs. Descubre el OPG y principios para evaluar la generalización.
Descubre cómo los ataques adversariales entre generaciones de LLMs Gemma revelan que la seguridad no mejora de forma constante. Gemma 3 es más vulnerable que Gemma 2 y 4.
Mitiga alucinaciones en LLMs con soft prompts: un método ligero que mejora la precisión y fomenta la abstención responsable. Ideal para aplicaciones críticas.
Descubre la auto-mejora en localización de objetos pequeños con LVLMs usando atención: hasta 19% de mejora sin ajuste fino.
Descubre cómo el Anclaje de Contexto Resonante (RCA) reduce alucinaciones en LLMs sin sacrificar fluidez, una técnica ligera de inferencia.
Descubre VERA, un framework de inferencia variacional que genera prompts adversariales para identificar vulnerabilidades en LLMs sin reoptimización.
Descubre LLMSynthor: genera datos sintéticos realistas alineados con estadísticas reales usando LLMs. Ideal para ciencias sociales y urbanismo.
Descubre cómo el unlearning deja huellas detectables en los LLMs a través de sus salidas. Un nuevo riesgo para la privacidad y la ciberseguridad.