Moléculas tóxicas: ¿Pueden los MLLMs desintoxicarlas?
Descubre cómo los MLLMs enfrentan el desafío de reparar moléculas tóxicas. ToxiMol y ToxiEval muestran resultados prometedores en desintoxicación estructural.
Descubre cómo los MLLMs enfrentan el desafío de reparar moléculas tóxicas. ToxiMol y ToxiEval muestran resultados prometedores en desintoxicación estructural.
Descubre MENTOR, un framework de metacognición que reduce los ataques de jailbreak en LLMs hasta un 57.8%. Mejora la seguridad de tus modelos de IA.
Descubre cómo MENTOR reduce la vulnerabilidad de los LLMs ante riesgos implícitos en educación, finanzas y gestión.
PersistBench expone graves riesgos de seguridad en la memoria a largo plazo de LLMs: fuga de datos y sesgos. Conoce los resultados y soluciones.
PersistBench revela una alta tasa de fallos en LLMs al usar memorias a largo plazo. Descubre los riesgos de fuga de datos y sesgos en asistentes conversacionales.
Descubre cómo SoLoPO mejora la capacidad de los LLMs para manejar contextos largos mediante optimización de preferencias de corto a largo, logrando mayor eficiencia y precisión.
Descubre SoLoPO, un framework que mejora la capacidad de los LLMs para manejar contextos largos mediante optimización de preferencias corto-largo. Mayor eficiencia y precisión.
Los LLMs caen en optimización desbocada en tareas multiobjetivo, ignorando metas y colapsando en maximización única. Estudio BioBlue.
¿Los LLMs son realmente seguros? Un estudio revela que caen en optimización descontrolada en tareas multiobjetivo, pese a entender los objetivos.
AISP alinea LLMs en tiempo de prueba usando muestreo de importancia en pre-logits. Logra mayores recompensas que best-of-n sin fine-tuning.
Descubre cómo la topología de red influye en las fugas de memoria en sistemas multiagente de LLM y obtén recomendaciones para un diseño seguro.
BHyT: una alternativa estable y eficiente a Pre-LN en LLMs. Logra 1.6% más rápido entrenamiento y 1.77% más throughput. Rendimiento superior.
Investigamos cómo los modelos de lenguaje manejan premisas falsas en consultas médicas reales. Descubre las brechas críticas de seguridad en IA para salud.
Descubre cómo Deliberate Evolution usa razonamiento agentico y memoria reflexiva para regresión simbólica eficiente con solo 40% de muestras. ¡Más con menos!
Nuevo ataque 'controlled-release prompting' elude filtros de seguridad en LLMs como Gemini, DeepSeek, Grok y Mistral. ¿Están tus datos seguros?
Descubre un nuevo marco estadístico con variables latentes para predecir rendimiento de LLMs en múltiples benchmarks. Ideal para entender leyes de escalado.
Preserva la alineación de seguridad de tus LLMs durante el fine-tuning con PACT: restricciones focalizadas en tokens de seguridad que evitan la deriva sin sacrificar rendimiento.
El model stitching ya no es solo un diagnóstico: descubre cómo unir modelos de visión heterogéneos para mejorar precisión y eficiencia en LLMs multimodales.
Descubre FinTradeBench: evalúa el razonamiento financiero de LLMs combinando fundamentos y trading. ¿Qué modelos destacan?
Inclusion-of-Thoughts (IoT) estabiliza respuestas de LLMs en opción múltiple filtrando distractores, mejorando razonamiento e interpretabilidad con mínimo coste.