#delos

¿Qué hotel recomienda la IA? Auditoría de señales en selección hotelera

Auditoría algorítmica revela cómo los LLM recomiendan hoteles: precio y calificación mandan, pero el orden de lista influye como si costara 12€/noche.

2026-06-16 · 2 min

Fusión post-hoc insuficiente: Fusión many-shot con equilibrio de pérdida

METIS: fusión many-shot con equilibrio de pérdida para superar interferencia entre tareas y evitar borrado de información. Mejora la peor tarea.

2026-06-16 · 1 min

Fusión post-hoc insuficiente: Fusión multi-tiro con equilibrio de pérdida

Descubre cómo METIS supera la fusión post-hoc de modelos de lenguaje, evitando la interferencia entre tareas y mejorando el rendimiento multi-tarea. Aprende

2026-06-16 · 1 min

Kairos: Un Stack Nativo de Modelos del Mundo para IA Física

Descubre Kairos, el stack nativo de modelos del mundo para IA física. Aprende de datos heterogéneos, mantiene estados persistentes y ejecuta en hardware real

2026-06-16 · 3 min

ARB4WM: Benchmark adversarial para modelos del mundo en control continuo

Evalúa la robustez adversarial de tus modelos del mundo con ARB4WM. Este benchmark unificado revela vulnerabilidades en control continuo y cómo defenderte.

2026-06-16 · 3 min

CoffeeBench: Benchmark para Agentes LLM de Largo Plazo en Economías Multiagente

CoffeeBench: ¿Pueden los agentes LLM gestionar una empresa de café por 90 días? Este benchmark revela diferencias clave entre modelos. ¡Descubre los resultados!

2026-06-16 · 3 min

Modelos mundiales médicos: estados, dinámicas e intervenciones

Descubre cómo los modelos mundiales médicos simulan la evolución de enfermedades y guían intervenciones clínicas personalizadas. Una revisión de la IA en salud.

2026-06-16 · 4 min

Skill-to-LoRA: De habilidades a comportamientos para agentes LLM

Descubre Skill-to-LoRA: convierte instrucciones de agentes LLM en módulos de comportamiento entrenables, mejorando precisión y reduciendo tokens. Optimiza tus

2026-06-16 · 2 min

OpenClaw-Skill: Búsqueda Colectiva en Árbol de Habilidades para LLMs

Descubre cómo OpenClaw-Skill construye un árbol de habilidades colectivas para mejorar la planificación y el uso de herramientas en LLMs agentivos. ¡Aprende

2026-06-16 · 2 min

Seguridad adaptativa: activar conciencia latente en modelos de razonamiento

Descubre cómo los modelos de razonamiento activan su conciencia de seguridad latente con SFT y DPO, reduciendo ataques hasta un 36%.

2026-06-16 · 2 min

Razonamiento de LLM con pocas etiquetas: marco semisupervisado con verificador ligero

Descubre cómo un marco semisupervisado con verificador ligero permite que los LLM aprendan a razonar con solo unas pocas etiquetas, logrando precisión

2026-06-16 · 2 min

GIST-CMTF: Inferencia de estado objetivo para filtrado de herramientas

Descubre cómo GIST-CMTF mejora la precisión de agentes LLM al inferir estados objetivo, reduciendo errores de ejecución del 19.4% al 2.5% con un 97% de éxito.

2026-06-16 · 2 min

Inferencia y Auditorías Bayesianas en Evaluaciones Públicas de IA

Descubre cómo la inferencia bayesiana y las auditorías de decisiones permiten verificar la validez de evaluaciones públicas de modelos de IA avanzados.

2026-06-16 · 2 min

MiroBench: Evaluando el realismo en simulaciones de discusiones reales con IA

Descubre MiroBench, un benchmark que evalúa si los agentes de IA replican fielmente las dinámicas de discusiones reales en Reddit. ¿Son realmente realistas?

2026-06-16 · 3 min

RAMS: Cambio de modelo condicionado por detección y recursos

RAMS optimiza la detección de objetos en el borde con cambio de modelo adaptativo. Mejora la precisión VRU un 47% bajo presión de recursos en Raspberry Pi y

2026-06-16 · 2 min

¿Tienen emociones los grandes modelos de lenguaje?

¿Los grandes modelos de lenguaje pueden tener emociones? Un estudio de Anthropic sobre Claude sugiere emociones funcionales. Analizamos la evidencia y el

2026-06-16 · 2 min

MMLongEmbed: Evaluación de modelos de embeddings multimodales en contextos largos

MMLongEmbed: el primer benchmark para evaluar modelos de embeddings multimodales en escenarios de contexto largo. Descubre sus hallazgos clave.

2026-06-16 · 1 min

¿Mis datos de visión-lenguaje entrenaron tu IA? MINT Demo 2

Descubre MINT Demo 2, una herramienta para auditar si tus datos de visión-lenguaje fueron usados en entrenar modelos de IA. Hasta 90% de precisión.

2026-06-16 · 2 min

Semantic DLM+: Equilibrio sesgo-varianza en modelos de difusión

SemDLM+ mejora modelos de difusión de lenguaje al equilibrar sesgo y varianza en el diseño del kernel de transición, logrando generación de texto diversa y

2026-06-16 · 3 min

DiRecT: Planificación segura con modelos de difusión y horizonte deslizante

Descubre DiRecT, un algoritmo de planificación segura sin entrenamiento que aplica restricciones solo a la trayectoria final, mejorando seguridad y rendimiento

2026-06-16 · 1 min