#delos

AlignAtt4LLM: Traducción simultánea con LLMs decoder-only

AlignAtt4LLM logra traducción simultánea inglés-alemán/italiano con baja latencia aplicando AlignAtt en LLMs solo decodificador. Resultados superiores.

2026-06-03 · 3 min

Expresión fiel de confianza en modelos de razonamiento grandes

¿Los modelos de razonamiento grandes expresan su confianza de forma fiel? Cuantificamos la calibración entre incertidumbre interna y verbalizada, revelando desa

2026-06-03 · 3 min

Modelos de lenguaje: dormir para auto-modificarse y consolidar recuerdos

Descubre cómo los modelos de lenguaje pueden mejorar su memoria y aprender de forma continua imitando el sueño humano, con técnicas de destilación y ensueño.

2026-06-03 · 3 min

SEFT: Ajuste fino disperso para LLMs con evolución de la dispersión

Descubre SEFT, un método de ajuste fino que permite a los LLMs dispersos evolucionar su estructura manteniendo eficiencia. Supera a métodos existentes.

2026-06-03 · 2 min

MIND: Marco de razonamiento discriminativo integrado para modelos multimodales

MIND: nuevo marco de razonamiento activo para modelos multimodales. Emula el proceso humano entender-repensar-corregir. Logra SOTA.

2026-06-03 · 2 min

El primer día del agente: Evaluando aprendizaje, exploración y planificación

Descubre EvoEnv, el nuevo benchmark que evalúa a los agentes IA en entornos laborales dinámicos: planificación, exploración y aprendizaje continuo.

2026-06-03 · 2 min

Perspectivas éticas al humanizar chatbots con inteligencia artificial

Analizamos las perspectivas éticas sobre humanizar chatbots con IA: riesgos de dependencia, engaño y oportunidades para inclusión y bienestar.

2026-06-03 · 2 min

PieArena: Ranking y Perfil de Agentes de Lenguaje en Negociaciones Realistas

PieArena mide la capacidad de negociación de los LLMs en escenarios reales. GPT-5 iguala o supera a humanos en este benchmark.

2026-06-03 · 2 min

X-RAY: Mapeo del razonamiento en LLMs con sondas formales

Descubre cómo X-RAY mapea la capacidad de razonamiento de los LLMs usando sondas formales y calibradas, revelando asimetrías y fallos interpretables.

2026-06-03 · 1 min

Evaluación del razonamiento relacional en LLMs con REL

Descubre cómo el benchmark REL evalúa el razonamiento relacional en LLMs, revelando sus limitaciones en tareas de alta aridad en ciencias.

2026-06-03 · 2 min

Typhoon: Estrategia de enmascaramiento adaptativo para modelos de lenguaje

Typhoon propone un enmascaramiento basado en gradientes para modelos de lenguaje. ¿Supera al enmascaramiento aleatorio? Los resultados no muestran mejoras significativas.

2026-06-03 · 2 min

PINNfluence: Interpretando PINNs mediante funciones de influencia

Descubre cómo PINNfluence interpreta las redes neuronales físicas informadas usando funciones de influencia para diagnosticar su comportamiento.

2026-06-03 · 2 min

Align-KD: destilando conocimiento de alineación multimodal para VLMs móviles

Descubre Align-KD, técnica que destila conocimiento de alineación multimodal de VLMs grandes a modelos móviles, mejorando precisión en 6 benchmarks.

2026-06-03 · 2 min

ReaLM: Cuantificación Residual para Unir Grafos de Conocimiento y LLMs

Descubre cómo ReaLM usa cuantificación residual para alinear embeddings de grafos de conocimiento con LLMs, logrando rendimiento estado del arte.

2026-06-03 · 2 min

Sesgos de raza y género en LLMs: auditoría en 41 profesiones

Auditamos 1.5 millones de perfiles generados por IA: descubre los sesgos raciales y de género en 41 ocupaciones. Resultados reveladores.

2026-06-03 · 2 min

NVIDIA Cosmos 3: modelo unificado de razonamiento físico, mundos y acciones

NVIDIA Cosmos 3 unifica razonamiento físico, generación de mundos y acciones en un solo modelo abierto. Ideal para robótica y vehículos autónomos.

2026-06-03 · 4 min

RTX Spark: laptops básicas o estaciones premium?

RTX Spark de Nvidia divide el mercado de PC con IA: laptops básicas vs estaciones premium. Descubre su impacto y precio.

2026-06-03 · 3 min

Bancos británicos acceden a GPT-5.5 de OpenAI tras veto de Anthropic

Bancos británicos obtienen GPT-5.5 de OpenAI tras exclusión de Anthropic. ¿Cómo afecta la rivalidad entre IA a la ciberseguridad de infraestructuras críticas?

2026-06-03 · 2 min

La codicia es buena: perspectiva unificadora de generación guiada

Descubre cómo la perspectiva codiciosa unifica dos técnicas de guía en generación. Ahorra cómputo sin perder precisión. Ideal para modelos de difusión.

2026-06-03 · 2 min

Rex: Familia de solvers Runge-Kutta exponenciales reversibles

Descubre Rex: solvers reversibles para ODE/SDE con precisión casi de máquina en generación y edición de imágenes.

2026-06-03 · 1 min