#llms

LLMCodec: Adaptando códecs de video para comprimir LLMs

Descubre LLMCodec, que usa códecs de video para comprimir LLMs con alta precisión. Reduce perplejidad 1.5x y mejora precisión en tareas sin fine-tuning.

2026-06-06 · 3 min

Contextos densos: la densidad léxica limita el contexto efectivo en LLMs

La densidad léxica, un factor ignorado, reduce drásticamente el rendimiento de los LLMs en contextos largos. Descubre cómo afecta tus aplicaciones de IA.

2026-06-06 · 2 min

Memorización en LLMs: ¿capacidad o propensión?

¿Los LLMs filtran datos de entrenamiento? Este estudio revela la diferencia entre capacidad y propensión, mostrando que los modelos rara vez revelan datos en escenarios no adversariales.

2026-06-06 · 2 min

El punto ciego de la evaluación: teoría estereológica para benchmarks de LLMs

Descubre cómo la teoría estereológica expone puntos ciegos en benchmarks de LLMs, revelando que el ranking puede ser engañoso. Aprende a identificar evaluaciones irreemplazables.

2026-06-05 · 3 min

Errorquake: Distribuciones de severidad de errores en LLMs abiertos

El benchmark Errorquake-10k muestra que la severidad de errores difiere en LLMs con igual precisión. Una métrica clave para evaluar modelos de IA.

2026-06-05 · 2 min

Localización de ambigüedad en prompts de LLMs con atribución por sonda

PRIG localiza ambigüedad en prompts de LLMs con atribución por sonda. Supera a GPT-5.4. ¡Mejora tus prompts ahora!

2026-06-05 · 3 min

SlotGCG: explotando vulnerabilidad posicional en LLMs para ataques

SlotGCG mejora ataques jailbreak en LLMs explotando vulnerabilidades posicionales. Logra un 14% más de éxito y 42% más robustez frente a defensas.

2026-06-05 · 3 min

¿Pueden los LLMs escribir especificaciones TLA+ correctas?

Evaluamos 30 LLMs en la generación de especificaciones TLA+ correctas. Solo un 8.6% de precisión semántica. ¿Son fiables? Descúbrelo.

2026-06-05 · 1 min

IR3DE: Router Lineal para Grandes Modelos de Lenguaje

IR3DE: router lineal que selecciona el mejor modelo experto para cada prompt, logrando 98.4% de rendimiento sin reentrenamiento. Optimiza tus inferencias.

2026-06-05 · 1 min

Solo indexas una vez: atención dispersa entre capas con enrutamiento compartido

Optimiza la inferencia de LLMs con CLSA: atención dispersa entre capas que comparte índices de enrutamiento, logrando hasta 7.6x de aceleración en decodificación.

2026-06-05 · 3 min

Defensas durante el entrenamiento contra desalineación emergente en LLMs

Descubre cómo proteger modelos de lenguaje contra desalineación emergente en fine-tuning. Analizamos técnicas de regularización para mantener la alineación.

2026-06-05 · 2 min

¿Las MLLMs entienden cómo el diseño UI guía al usuario?

Descubre WiserUI-Bench, el benchmark que evalúa si las MLLMs realmente comprenden cómo el diseño UI/UX influye en el comportamiento del usuario a través de pruebas A/B reales.

2026-06-05 · 1 min

SHALA-LLM: Manejo Inteligente de Etiquetas Ambiguas en Alineación de LLMs

Descubre cómo SHALA-LLM usa aprendizaje por refuerzo para gestionar etiquetas ambiguas en alineamiento de LLMs, mejorando precisión y acuerdo entre anotadores.

2026-06-05 · 2 min

Optimización Adaptativa de Rollouts para Post-Entrenamiento con RL

Descubre CERO, método adaptativo que optimiza rollouts en post-entrenamiento de LLMs. Supera a GRPO en razonamiento matemático. ¡Eficiencia mejorada!

2026-06-05 · 3 min

Meta-aprendizaje para enrutar LLMs según preferencias de costo-rendimiento

Optimiza el uso de modelos de lenguaje: MetaRouter utiliza meta-aprendizaje para personalizar el enrutamiento según tus necesidades, reduciendo costes sin sacrificar rendimiento.

2026-06-05 · 2 min

SMAC-Talk: Extensión en lenguaje natural del desafío multiagente de StarCraft para LLMs

Descubre cómo SMAC-Talk extiende el desafío multiagente de StarCraft con un canal de comunicación en lenguaje natural para evaluar agentes LLM, incluyendo escenarios de engaño.

2026-06-04 · 2 min

Razonamiento Científico con LLMs para Decisiones basadas en Simulación

Aprende cómo MechSim permite a los LLMs razonar sobre simuladores, logrando explicaciones transparentes y decisiones más fiables en entornos críticos.

2026-06-04 · 3 min

FALSIFYBENCH: Evaluando razonamiento inductivo en LLMs con juegos de reglas

FALSIFYBENCH evalúa el razonamiento inductivo en LLMs, destacando que los modelos que buscan falsificar sus hipótesis obtienen mejores resultados.

2026-06-04 · 2 min

Vulnerabilidad en inferencia: más allá de la seguridad superficial

Descubre cómo la seguridad superficial en LLMs es superada por inyecciones en medio de la generación. Nuevo método alinea modelos en trayectorias para mayor robustez.

2026-06-04 · 2 min

R-APS: Búsqueda Adversarial Pareto Reflexiva para Diseño Restringido

R-APS: combina razonamiento composicional y meta-aprendizaje para diseño restringido, mejorando robustez y eficiencia. ¡Descúbrelo!

2026-06-04 · 2 min