#llm · DeepCodeNews

Portafolios de Recuperadores: Enfoque Principiado para RAG Adaptativo

Descubre cómo los portafolios de recuperadores optimizan RAG: selección automática de múltiples recuperadores para mejorar precisión y reducir latencia en QA.

2026-06-01 · 2 min

Aprendizaje por Refuerzo Distribucional Multivariante mediante Divergencias Cortadas

Descubre SDRL, un nuevo método de aprendizaje por refuerzo distribucional que usa divergencias cortadas para manejar distribuciones multivariantes. Mejora en juegos Atari y entornos complejos.

2026-06-01 · 3 min

CacheProbe: Auditoría de aislamiento de caché de prompts en APIs Gateway

¿Está realmente aislada la caché de prompts en APIs Gateway? CacheProbe audita OpenRouter y revela riesgos de seguridad por caché compartido.

2026-06-01 · 2 min

SCOUT: Razonamiento Pre-hoc para Defensa Adaptativa contra Inyección de Prompts

Descubre SCOUT: defensa dinámica contra inyecciones de prompts, reduce ataques 46% y mejora eficiencia.

2026-06-01 · 3 min

HetCCL: Comunicación Colectiva para Clusters Heterogéneos Multivendedor

Descubre cómo HetCCL acelera el entrenamiento de LLMs en clústers heterogéneos con 17-19x más ancho de banda que Gloo. Optimiza tu infraestructura.

2026-06-01 · 3 min

Mecanismos duales de expresión de valores: intrínsecos vs. inducidos en LLMs

Exploramos cómo los LLMs expresan valores mediante mecanismos intrínsecos e inducidos, y su rol en la alineación y seguridad.

2026-06-01 · 1 min

Los LLMs dependen de sesgos previos, no de semántica de programación

Descubre por qué los LLMs fallan al ejecutar programas con semántica alterada: un estudio revela que dependen de sesgos estadísticos y no de reglas formales.

2026-06-01 · 2 min

OBCache: poda óptima de caché KV para LLMs de contexto largo

Descubre OBCache, la técnica de poda de caché KV que optimiza la memoria en LLMs para inferencia en contextos largos sin sacrificar precisión.

2026-06-01 · 2 min

FEM-Bench: benchmark científico para LLMs de código

Descubre FEM-Bench, el benchmark que evalúa la capacidad de los LLMs para generar código de elementos finitos. Gemini 3 Pro y GPT-5 destacan en los tests.

2026-06-01 · 2 min

PASTA: Marco escalable para evaluación de cumplimiento de IA multipolítica

Descubre PASTA, framework escalable para evaluar cumplimiento de múltiples políticas de IA en minutos y bajo costo. Resultados claros con mapas de calor.

2026-06-01 · 2 min

NeUQI: Inicialización Casi Óptima para Cuantización Uniforme en LLMs

Descubre NeUQI, un método de inicialización casi óptima para cuantización uniforme en LLMs. Mejora el rendimiento y reduce el consumo de memoria. ¡Lee más!

2026-06-01 · 2 min

Los equipos multi-agente frenan a los expertos

Descubre por qué los equipos multi-agente de inteligencia artificial no aprovechan a sus expertos y cómo el consenso reduce su rendimiento hasta un 41%.

2026-06-01 · 2 min

Sesgos en el punto ciego: detectando lo que los LLMs omiten

Detecta sesgos no verbalizados en LLMs con un pipeline automático. Identifica discriminaciones ocultas en decisiones de IA. Mejora la transparencia.

2026-06-01 · 2 min

SCOPE: Evaluación por Pares con Conformal Selectivo

Descubre cómo SCOPE y la Entropía de Preferencia Bidireccional mejoran la evaluación de LLMs, reduciendo errores y aumentando cobertura hasta 2.4 veces.

2026-06-01 · 1 min

NGDBench: gestión neuronal de datos en grafos

NGDBench unifica datos estructurados y no estructurados en grafos para evaluar la gestión neural de datos. Ideal para entender cómo manejan el ruido las consultas con IA.

2026-06-01 · 2 min

Inyección de Prompts como Confusión de Roles

La confusión de roles en LLMs provoca inyección de prompts, permitiendo ataques como CoT Forgery con 60% de éxito.

2026-06-01 · 2 min

REAL: Aprendizaje por Refuerzo Consciente de Regresión para Juez LLM

REAL: nuevo método de RL con regresión que mejora la evaluación de LLMs. Aumenta correlación hasta +18. Ideal para desarrolladores de IA.

2026-06-01 · 2 min

SimulCost: benchmark de costos para simulaciones físicas con LLMs

SimulCost: el primer benchmark que evalúa LLMs en simulaciones físicas con costos reales. Descubre por qué no siempre son rentables.

2026-06-01 · 2 min

Indistinguibilidad conductual acotada para destilación de LLM

¿Es suficiente la similitud semántica para destilar LLMs? Evaluamos indistinguibilidad conductual con adversarios y consultas acotadas. Resultados clave con Qwen y Llama.

2026-06-01 · 3 min

Medición, localización y ablación de firmas de alineación en LLMs

Descubre cómo medir y eliminar la firma de alineación en modelos de lenguaje con PASTA, reduciendo la detección de estilo IA manteniendo coherencia.

2026-06-01 · 2 min