#lms · DeepCodeNews

Mejora de respuestas cardíacas en LLMs con recompensas de rúbrica y GRPO

GRPO y recompensas de rúbrica mejoran respuestas cardíacas en LLMs pequeños: precisión sube a 50.2%, compitiendo con modelos 8x mayores.

2026-06-06 · 2 min

MCBench: Benchmark de seguridad multicontexto para LLMs Omni

Descubre MCBench, el primer benchmark multicontexto que evalúa la seguridad de modelos de lenguaje omni (visión, audio y texto). Revela sus limitaciones en razonamiento multimodal.

2026-06-06 · 1 min

CTIConnect: un benchmark para LLMs con recuperación en CTI

Descubre CTIConnect, el benchmark que evalúa LLMs con recuperación en fuentes heterogéneas de ciberinteligencia. Resultados clave para la seguridad.

2026-06-06 · 2 min

Evaluación federada asíncrona con similitud de estrategias para IBN en IIoT

Descubre cómo FEIBN combina LLMs y aprendizaje federado para evaluar estrategias en IIoT, reduciendo costes y mejorando eficiencia.

2026-06-06 · 3 min

OG-MAR: Alineamiento cultural de LLMs mediante ontología y multiagentes

OG-MAR alinea LLMs con valores culturales usando ontología y multiagentes. Mejora transparencia y precisión.

2026-06-06 · 2 min

Evaluación multi-LLM con ontología de hipótesis en procesamiento predictivo

Descubre cómo un consejo de LLMs locales evalúa hipótesis en neurociencia usando ontologías, revelando acuerdos y dispersión en la literatura.

2026-06-06 · 3 min

Dispuesta pero incapaz: Abliteración en LLMs de código

La abliteración elimina la negativa en LLMs de código, permitiendo inyectar vulnerabilidades como SQL injection. Resultados en Qwen2.5-Coder.

2026-06-06 · 3 min

Explorando LLMs para la comprensión y generación de música del sur de Asia

Descubre cómo los LLMs enfrentan el reto de comprender y generar música clásica del sur de Asia, con ragas y talas. Resultados de un estudio pionero.

2026-06-06 · 2 min

Benchmarks en Leipzig: 100 preguntas matemáticas para IA

Un grupo de 49 matemáticos creó 100 preguntas de nivel investigador. Los LLMs más avanzados resolvieron 98 de ellas. Descubre los resultados del taller 'Benchmarks in Leipzig'.

2026-06-06 · 2 min

Cabezas CoRe: eficiencia estructural en LLMs multimodales

Descubre cómo las cabezas CoRe en LLMs multimodales logran eficiencia: al eliminar solo el 5% se degrada el rendimiento, pero su uso acelera la inferencia. Una clave para la optimización.

2026-06-06 · 2 min

GenTI: Evaluación de LLMs para Generación Autónoma de Reglas IDPS

Descubre GenTI, el primer benchmark que usa LLMs para generar reglas IDPS automáticas. Mejora detección de ataques desconocidos hasta un 87.4%.

2026-06-06 · 3 min

LLMCodec: Adaptando códecs de video para comprimir LLMs

Descubre LLMCodec, que usa códecs de video para comprimir LLMs con alta precisión. Reduce perplejidad 1.5x y mejora precisión en tareas sin fine-tuning.

2026-06-06 · 3 min

Contextos densos: la densidad léxica limita el contexto efectivo en LLMs

La densidad léxica, un factor ignorado, reduce drásticamente el rendimiento de los LLMs en contextos largos. Descubre cómo afecta tus aplicaciones de IA.

2026-06-06 · 2 min

Memorización en LLMs: ¿capacidad o propensión?

¿Los LLMs filtran datos de entrenamiento? Este estudio revela la diferencia entre capacidad y propensión, mostrando que los modelos rara vez revelan datos en escenarios no adversariales.

2026-06-06 · 2 min

El punto ciego de la evaluación: teoría estereológica para benchmarks de LLMs

Descubre cómo la teoría estereológica expone puntos ciegos en benchmarks de LLMs, revelando que el ranking puede ser engañoso. Aprende a identificar evaluaciones irreemplazables.

2026-06-05 · 3 min

Errorquake: Distribuciones de severidad de errores en LLMs abiertos

El benchmark Errorquake-10k muestra que la severidad de errores difiere en LLMs con igual precisión. Una métrica clave para evaluar modelos de IA.

2026-06-05 · 2 min

Almieyar-Oryx-BloomBench: Evaluación cognitiva bilingüe de VLMs

BloomBench: el primer benchmark bilingüe para evaluar cognitivamente modelos de visión-lenguaje. Asimetrías clave entre árabe e inglés.

2026-06-05 · 2 min

Localización de ambigüedad en prompts de LLMs con atribución por sonda

PRIG localiza ambigüedad en prompts de LLMs con atribución por sonda. Supera a GPT-5.4. ¡Mejora tus prompts ahora!

2026-06-05 · 3 min

BloomBench: Benchmark bilingüe multimodal para evaluación cognitiva de VLMs

Descubre BloomBench, benchmark bilingüe (árabe-inglés) que evalúa la capacidad cognitiva de modelos visión-lenguaje. Revela brechas en memoria y creatividad.

2026-06-05 · 1 min

SlotGCG: explotando vulnerabilidad posicional en LLMs para ataques

SlotGCG mejora ataques jailbreak en LLMs explotando vulnerabilidades posicionales. Logra un 14% más de éxito y 42% más robustez frente a defensas.

2026-06-05 · 3 min