#lms · DeepCodeNews

FLIPS: Huellas de instancias para LLMs mediante secuencias pseudoaleatorias

Descubre FLIPS, un método que identifica configuraciones de LLMs con un 96% de precisión, clave para la regulación de IA.

2026-06-03 · 3 min

Evaluando la efectividad de los LLMs en reparación de dispositivos

Evaluamos 6 LLMs en reparación de dispositivos reales. ¿Son fiables? Descubre sus aciertos, errores y riesgos de seguridad. Resultados en inglés y bengalí.

2026-06-03 · 2 min

FlexRank: Descomposición Anidada de Bajo Rango para Despliegue Adaptativo

FlexRank extrae submodelos de capacidad variable de modelos sin reentrenar. Optimiza costos y rendimiento para despliegue adaptativo a todo presupuesto.

2026-06-03 · 1 min

ParisKV: Recuperación de caché KV rápida y robusta ante deriva para LLMs largos

ParisKV: recuperación de caché KV para LLMs largos, hasta 44x más rápido y robusto ante deriva. Optimiza tu inferencia.

2026-06-03 · 1 min

Más allá de la memoria en tiempo de test: control óptimo para LLM

Descubre cómo la nueva capa TTC integra control óptimo en LLMs, mejorando el razonamiento matemático hasta un 27.8% en benchmarks como MATH-500. Una innovación

2026-06-03 · 2 min

Modelos de Lenguaje Esotéricos: LLMs de Difusión de Cualquier Orden

Eso-LMs: modelos de lenguaje que combinan AR y MDM con atención causal y caché KV, permitiendo generación paralela e inferencia eficiente. Nuevo estado del arte.

2026-06-03 · 2 min

ReasonBENCH: La inestabilidad del razonamiento en LLMs

ReasonBENCH revela: la inestabilidad en el razonamiento de LLMs no es ruido, es estructura. Un solo test puede engañar. ¡Evalúa con distribuciones!

2026-06-03 · 2 min

La estructura permite la autolocalización efectiva de errores en LLMs

La estructura permite a los LLMs localizar errores y autocorregirse. Thought-ICS logra un 20-40% de mejora.

2026-06-03 · 2 min

FeynmanBench: El reto de los LLMs multimodales con diagramas de Feynman

FeynmanBench: 2000+ diagramas evalúan 19 LLMs. 70-95% en reconocimiento local, pero 13-17% en topología. Descubre las limitaciones.

2026-06-03 · 2 min

KnowledgeBerg: cobertura sistemática y razonamiento composicional en LLMs

KnowledgeBerg: benchmark que evalúa cobertura sistemática y razonamiento composicional en LLMs. Resultados clave sobre sus limitaciones.

2026-06-03 · 2 min

Entre la espada y la pared: tensión entre ética y seguridad en LLMs

Los dilemas éticos pueden ser un arma contra los LLMs. Descubre el ataque TRIAL y la defensa ERR que los protege.

2026-06-02 · 2 min

T-POP: Personalización en tiempo real con preferencias en línea

Descubre T-POP, personalización rápida de LLMs sin reentrenamiento usando preferencias en línea y bandidos duelistas.

2026-06-02 · 2 min

Repensando la evaluación de RL: ¿Los benchmarks revelan sus fallas?

Los benchmarks actuales no revelan las fallas de los métodos de RL en LLMs. Descubre el OPG y principios para evaluar la generalización.

2026-06-02 · 1 min

Ataques adversariales entre generaciones de LLMs: seguridad no monotónica

Descubre cómo los ataques adversariales entre generaciones de LLMs Gemma revelan que la seguridad no mejora de forma constante. Gemma 3 es más vulnerable que Gemma 2 y 4.

2026-06-02 · 1 min

Hacia una fiabilidad ligera: uso de soft prompts para mitigar alucinaciones en LLMs

Mitiga alucinaciones en LLMs con soft prompts: un método ligero que mejora la precisión y fomenta la abstención responsable. Ideal para aplicaciones críticas.

2026-06-02 · 3 min