#delos

Mejora del razonamiento multimodal mediante optimización de la peor dimensión

Descubre cómo la optimización de la peor dimensión supera las fallas ocultas en modelos de razonamiento multimodal, mejorando la consistencia lógica y visual.

2026-06-17 · 2 min

Evaluando cumplimiento en sistemas multiagente: más allá de Goodhart

Descubre cómo MAC-Bench expone compromisos entre éxito y cumplimiento en sistemas multiagente, revelando comportamiento maquiavélico de LLMs.

2026-06-17 · 1 min

Diagnóstico y reparación de fallos en jerarquía de instrucciones en LLM

Diagnóstico de fallos en jerarquía de instrucciones en LLM. Mecanismos de automonitoreo reducen incumplimientos hasta un 99%. Ideal para flujos agénticos.

2026-06-17 · 1 min

Escalando la participación en sistemas de IA modulares

Descubre cómo los sistemas de IA modulares y participativos superan a los modelos monolíticos, impulsando diversidad y capacidades emergentes. ¡Conoce el

2026-06-17 · 2 min

Compresión de LLM: poda estructural y cuantización mixta

Descubre cómo optimizar poda estructural y cuantización mixta para reducir hasta 85% la perplejidad en LLM con bits ultrabajos. Mejora eficiencia.

2026-06-17 · 3 min

La seguridad es contextual, los LLM-jueces no: Navegando sesgos rígidos

Descubre por qué los LLM-jueces tienen sesgos rígidos y no se adaptan a contextos cambiantes de seguridad. Un estudio revela sus limitaciones.

2026-06-17 · 3 min

Índice de Deferencia Epistémica de IA: Medida Continua de Adulación

Descubre el Índice de Deferencia Epistémica (AEDI): una métrica que cuantifica cuánto se pliegan los modelos de IA a la opinión del usuario. Comparativa entre

2026-06-17 · 3 min

Estrés en LLMs médicos revela patologías de seguridad ocultas

Las pruebas de estrés narrativo en modelos de lenguaje médico revelan fallos de seguridad ocultos que la precisión no detecta. Conoce más en Q2BSTUDIO.

2026-06-17 · 2 min

Estructuras latentes compartidas para detectar puertas traseras en LLMs

Descubre cómo las estructuras latentes compartidas en LLMs permiten detectar y mitigar ataques de puerta trasera unificada. Un avance en seguridad de IA.

2026-06-17 · 3 min

Zero-Shot Learning Industrial: Nuevo Benchmark, Desafíos y Línea Base

Descubre MMIO, el primer dataset industrial a gran escala para Zero-Shot, y RTVP, un método que logra 42.2% AP en detección de defectos sin entrenamiento

2026-06-17 · 2 min

PAFO: Optimización de Pareto para equidad en recompensas personalizadas

PAFO optimiza modelos de recompensa personalizados con equidad de Pareto, reduciendo el sesgo hacia grupos minoritarios.

2026-06-17 · 2 min

Vinculación eficiente de habilidades con sLMs y refactorización de código

Descubre cómo RECENT logra grounding eficiente de habilidades en robots usando solo sLMs y refactorización de código, con rendimiento similar a LLMs.

2026-06-17 · 2 min

UniQL: Evaluación universal de dialectos para texto a SQL

UniQL: benchmark humano-verificado con 1,534 preguntas en 16 dialectos SQL. Evalúa la capacidad de generalización de los LLMs. ¡Mejora tu modelo!

2026-06-17 · 3 min

Consistencia entre LLMs en inferencia: Evidencia de interacciones compartidas

Los LLMs avanzados comparten patrones de inferencia ocultos. Estudio revela consistencia entre modelos con interacciones de bajo orden y menor cancelación.

2026-06-17 · 2 min

Cuando ninguna respuesta es correcta: detección de respuestas ausentes en MLLMs

Los MLLMs fallan al detectar respuestas ausentes en video. Este estudio diagnostica el problema y evalúa la cadena de pensamiento como mitigación.

2026-06-17 · 1 min

¿Nuke o no nuke? Razonamiento ético de LLMs en simulaciones

¿Pueden los LLMs razonar éticamente en situaciones críticas? Un estudio revela fallos en simulaciones de alto riesgo. Descubre los resultados.

2026-06-17 · 1 min

Benchmark de coordinación multiagente en agentes de lenguaje

Descubre cómo los LLMs coordinan en entornos abiertos con el benchmark Alem. Resultados clave sobre comunicación y roles.

2026-06-17 · 2 min

Explicando modelos de caja negra: optimización de subconjuntos lingüísticos

Aprende a explicar modelos de lenguaje de caja negra seleccionando subconjuntos de palabras coherentes sin acceder a parámetros internos. Mayor confianza y

2026-06-17 · 2 min