#lms · DeepCodeNews

Moléculas tóxicas: ¿Pueden los MLLMs desintoxicarlas?

Descubre cómo los MLLMs enfrentan el desafío de reparar moléculas tóxicas. ToxiMol y ToxiEval muestran resultados prometedores en desintoxicación estructural.

2026-06-04 · 2 min

MENTOR: Marco de autoevolución para mitigar riesgos implícitos en LLMs

Descubre MENTOR, un framework de metacognición que reduce los ataques de jailbreak en LLMs hasta un 57.8%. Mejora la seguridad de tus modelos de IA.

2026-06-04 · 2 min

MENTOR: Marco de autoevolución para mitigar riesgos implícitos en LLMs

Descubre cómo MENTOR reduce la vulnerabilidad de los LLMs ante riesgos implícitos en educación, finanzas y gestión.

2026-06-04 · 1 min

PersistBench: ¿Cuándo olvidar las memorias a largo plazo en LLMs?

PersistBench expone graves riesgos de seguridad en la memoria a largo plazo de LLMs: fuga de datos y sesgos. Conoce los resultados y soluciones.

2026-06-04 · 2 min

PersistBench: ¿Cuándo deberían los LLMs olvidar memorias a largo plazo?

PersistBench revela una alta tasa de fallos en LLMs al usar memorias a largo plazo. Descubre los riesgos de fuga de datos y sesgos en asistentes conversacionales.

2026-06-04 · 2 min

SoLoPO: Optimización de Preferencias de Corto a Largo en LLMs

Descubre cómo SoLoPO mejora la capacidad de los LLMs para manejar contextos largos mediante optimización de preferencias de corto a largo, logrando mayor eficiencia y precisión.

2026-06-04 · 3 min

SoLoPO: mejora el contexto largo en LLMs con optimización corto-largo

Descubre SoLoPO, un framework que mejora la capacidad de los LLMs para manejar contextos largos mediante optimización de preferencias corto-largo. Mayor eficiencia y precisión.

2026-06-04 · 1 min

BioBlue: Modos de fallo de optimización desbocada en LLMs

Los LLMs caen en optimización desbocada en tareas multiobjetivo, ignorando metas y colapsando en maximización única. Estudio BioBlue.

2026-06-04 · 2 min

Fallas de optimización descontrolada en LLMs en entornos multiobjetivo

¿Los LLMs son realmente seguros? Un estudio revela que caen en optimización descontrolada en tareas multiobjetivo, pese a entender los objetivos.

2026-06-04 · 2 min

Alineación de LLMs en test-time con muestreo de importancia en pre-logits

AISP alinea LLMs en tiempo de prueba usando muestreo de importancia en pre-logits. Logra mayores recompensas que best-of-n sin fine-tuning.

2026-06-04 · 2 min

La topología importa: medición de fugas de memoria en LLMs multiagente

Descubre cómo la topología de red influye en las fugas de memoria en sistemas multiagente de LLM y obtén recomendaciones para un diseño seguro.

2026-06-04 · 3 min

BHyT: Alternativa estable y eficiente a Pre-LN en LLMs

BHyT: una alternativa estable y eficiente a Pre-LN en LLMs. Logra 1.6% más rápido entrenamiento y 1.77% más throughput. Rendimiento superior.

2026-06-04 · 2 min

MedRedFlag: Cómo los LLMs enfrentan preguntas de salud engañosas

Investigamos cómo los modelos de lenguaje manejan premisas falsas en consultas médicas reales. Descubre las brechas críticas de seguridad en IA para salud.

2026-06-04 · 2 min

Evolución Deliberada: Regresión Simbólica Eficiente con LLMs

Descubre cómo Deliberate Evolution usa razonamiento agentico y memoria reflexiva para regresión simbólica eficiente con solo 40% de muestras. ¡Más con menos!

2026-06-04 · 2 min

Elusión de filtros de prompts en producción con liberación controlada

Nuevo ataque 'controlled-release prompting' elude filtros de seguridad en LLMs como Gemini, DeepSeek, Grok y Mistral. ¿Están tus datos seguros?

2026-06-04 · 2 min

Marco de variables latentes para leyes de escalado en LLMs

Descubre un nuevo marco estadístico con variables latentes para predecir rendimiento de LLMs en múltiples benchmarks. Ideal para entender leyes de escalado.

2026-06-04 · 2 min

Pocos tokens, gran apalancamiento: preservando la alineación de seguridad durante el ajuste fino

Preserva la alineación de seguridad de tus LLMs durante el fine-tuning con PACT: restricciones focalizadas en tokens de seguridad que evitan la deriva sin sacrificar rendimiento.

2026-06-04 · 2 min

Revisitando el Model Stitching en la Era de los Modelos Base

El model stitching ya no es solo un diagnóstico: descubre cómo unir modelos de visión heterogéneos para mejorar precisión y eficiencia en LLMs multimodales.

2026-06-04 · 3 min

FinTradeBench: nuevo benchmark financiero para LLMs

Descubre FinTradeBench: evalúa el razonamiento financiero de LLMs combinando fundamentos y trading. ¿Qué modelos destacan?

2026-06-04 · 1 min

Inclusion-of-Thoughts: Mitigando la inestabilidad de preferencias en LLMs

Inclusion-of-Thoughts (IoT) estabiliza respuestas de LLMs en opción múltiple filtrando distractores, mejorando razonamiento e interpretabilidad con mínimo coste.

2026-06-04 · 1 min