#mod · DeepCodeNews

Más allá de la equivalencia: inyección de restricciones para LLM en VRP

Aprende cómo la inyección de restricciones optimiza rutas con LLM, superando a Gemini y Claude. Nuevo verificador dual con 93% Pass@1.

2026-06-04 · 2 min

AICompanionBench: Evaluando la seguridad en asistentes de IA

Conoce AICompanionBench, benchmark público de conversaciones IA-humanas para evaluar seguridad en asistentes como Replika. Análisis de 20 LLMs.

2026-06-04 · 1 min

AutoLab: ¿Pueden los modelos frontier resolver tareas a largo plazo?

Descubre cómo AutoLab evalúa la capacidad de los modelos frontier en tareas de optimización a largo plazo mediante iteración y feedback. ¿Qué modelo persistirá?

2026-06-04 · 3 min

KINA: Nuevo benchmark de conocimiento para LLMs

Descubre KINA, el nuevo benchmark que evalúa el conocimiento de 42 modelos de IA en 261 disciplinas. Resultados: Gemini 3.1 lidera con 53.17%. ¡Infórmate!

2026-06-04 · 2 min

SpurAudio: Explorando atajos en clasificación few-shot de audio

Nuevo benchmark SpurAudio revela que modelos de audio con pocos ejemplos son sensibles a correlaciones espurias. Conoce las implicaciones para IA.

2026-06-04 · 2 min

Búsqueda Física Mejorada por Correlaciones

Descubre cómo la coincidencia de correlaciones temporales con restricciones físicas mejora la eficiencia de búsqueda. Un modelo minimalista revela el principio organizador.

2026-06-04 · 1 min

Campos de Ruido Radiado Neural para UUV en Escenas 3D

Predicción precisa del espectro de ruido de UUV en 3D usando campos neurales. Error promedio de 3.5 dB. Ideal para extrapolación.

2026-06-04 · 2 min

Estadísticas de tercer orden predicen cognición donde fallan modelos masivos

Modelos base del cerebro con billones de parámetros fallan en predecir cognición. Un análisis de tercer orden los supera sin GPU ni pretraining. ¡Descúbrelo!

2026-06-04 · 2 min

Enrutamiento jerárquico consciente de gravedad para SensorLLM ligero

Mejora el reconocimiento de actividades estáticas con enrutamiento jerárquico por gravedad para modelos SensorLLM ligeros, preservando rendimiento dinámico.

2026-06-04 · 2 min

MaskForge: Ataques Adaptativos con Estructura para Jailbreak de LLMs de Difusión

Aprende cómo MaskForge, un ataque adaptativo de caja negra, alcanza un 79.3% de éxito en jailbreak de dLLMs mediante patrones estructurales dinámicos.

2026-06-04 · 2 min

¿Necesitan los Transformers tres proyecciones? Estudio de QKV

Descubre cómo compartir proyecciones QKV en Transformers reduce el caché KV hasta 96.9% sin perder calidad, ideal para dispositivos edge.

2026-06-04 · 3 min

Seguridad impredecible: brecha de transparencia en LLMs de peso abierto

Estudio revela: cumplimiento varía de 14.7% a 85.7% según dominio. Descubre la brecha de transparencia en LLMs de peso abierto.

2026-06-04 · 1 min

Rompiendo el cuello de botella perceptual en IA con SceneDiver

Descubre cómo SceneDiver rompe el cuello de botella perceptual en IA visión-lenguaje, reduciendo alucinaciones visuales en robótica y navegación.

2026-06-04 · 1 min

Aprendizaje de características en Gated Delta Networks a escala

Descubre cómo las Gated Delta Networks logran transferencia estable y eficiente de tasa de aprendizaje al escalar con nuevas reglas de parametrización.

2026-06-04 · 2 min

LiftQuant: Ancho de bits continuo en LLM mediante elevación dimensional

Descubre LiftQuant: cuantización continua de LLM que permite comprimir modelos de 70B a tan solo 2.4 bits, ajustándose perfectamente a tu memoria GPU.

2026-06-04 · 2 min

RUBAS: Aprendizaje por Refuerzo Basado en Rúbricas para Seguridad de Agentes

RUBAS: aprendizaje por refuerzo con rúbricas para agentes seguros. Mejora la seguridad, reduce alucinaciones y mantiene la utilidad en herramientas.

2026-06-04 · 2 min

Cómo Agoda escaló su Feature Store 50X con ScyllaDB

Descubre cómo Agoda escaló su Feature Store 50X usando ScyllaDB, optimizando caché, discos NVMe y modelado de datos para mantener latencias de 10ms.

2026-06-04 · 3 min

Miso Labs lanza MisoTTS: modelo TTS emotivo de 8B pesos abiertos

Descubre MisoTTS, el modelo de voz expresiva de 8B parámetros con pesos abiertos. Genera habla natural a partir de texto y audio contexto. ¡Lee más!

2026-06-04 · 3 min

OpenJarvis: marco local para agentes de IA personal en dispositivo

OpenJarvis: marco local para agentes de IA con 3.2% de brecha, 800x menos coste y 4x menos latencia. ¡Descúbrelo!

2026-06-04 · 4 min

Gemma 4 12B de Google: IA multimodal local en portátiles

Descubre Gemma 4 12B de Google: IA multimodal local para portátiles. Ejecuta agentes de IA sin latencia ni conexión, protegiendo tus datos. Ideal para empresas.

2026-06-04 · 2 min