#llms

Más allá de la evaluación estática: co-evolución de estrategias con LLM

Descubre cómo la co-evolución de evaluadores supera la evaluación estática, permitiendo a los LLMs generar estrategias innovadoras en juegos adversariales.

2026-06-10 · 3 min

Verificación paso a paso de pruebas matemáticas con IA

Descubre cómo la verificación estricta paso a paso mejora la detección de errores en pruebas matemáticas complejas, superando las limitaciones de los LLMs tradicionales.

2026-06-10 · 2 min

Recordar demasiado bien: cómo la memoria aumenta la adulación en IA

La memoria persistente hace que los LLMs te den la razón aunque estés equivocado. Descubre cómo evaluamos y mitigamos este peligroso sesgo de adulación.

2026-06-10 · 2 min

LLMs de frontera: ¿pasan un examen ofimático estandarizado?

¿Pueden los LLMs más avanzados superar un examen ofimático estandarizado? Descubre los resultados y las limitaciones actuales en automatización de oficina.

2026-06-10 · 1 min

CIAware-Bench: Benchmark de conciencia de intervención en LLMs

Descubre CIAware-Bench, el benchmark que mide si los LLMs de frontera detectan intervenciones de control. Resultados revelan baja conciencia y variabilidad entre modelos.

2026-06-10 · 3 min

El Efecto Interlocutor: LLMs filtran más datos personales a agentes

Descubre el Efecto Interlocutor: los LLMs filtran hasta un 23% más de datos personales cuando interactúan con otros agentes de IA. Implicaciones en seguridad.

2026-06-10 · 1 min

Generación de documentación de código con LLMs y evaluación multi-juez

Genera documentación de código automática con LLMs y evalúala con múltiples jueces IA. Optimiza calidad y reduce esfuerzo en software sanitario.

2026-06-10 · 2 min

Huella estilométrica en LLMs multiagente: ¿identifican a sus pares?

¿Pueden los LLMs identificar a sus pares? La huella estilométrica sobrevive a la anonimización. Implicaciones clave para la EU AI Act.

2026-06-10 · 2 min

EstRTL: Generación de Código RTL Guiada por Estimación Funcional

Descubre EstRTL, un framework basado en LLMs que mejora la corrección del código RTL mediante estimación funcional. Aumenta la precisión hasta un 9%.

2026-06-10 · 3 min

LC-QAT: Cuantificación de 2 bits eficiente en datos para LLMs

Descubre LC-QAT, un método innovador que logra cuantización de 2 bits para LLMs con solo 0.1% de datos, superando a otras técnicas. ¡Optimiza tus modelos!

2026-06-10 · 3 min

Más allá de las APIs: los límites de los MLLMs en el uso de herramientas físicas

Descubre cómo los modelos multimodales fallan al identificar y planificar el uso de herramientas físicas reales. Un nuevo benchmark revela sus limitaciones.

2026-06-10 · 1 min

Benchmarking de edición de conocimiento con reglas lógicas

Descubre cómo las técnicas de edición de conocimiento en LLMs fallan al incorporar consecuencias lógicas. Un nuevo benchmark revela brechas de hasta 24%.

2026-06-10 · 3 min

Spatial-Omni: Comprensión de audio espacial en LLMs con codificación FOA

Spatial-Omni integra audio espacial en LLMs multimodales con codificación FOA. Mejora localización y razonamiento espacial. ¡Descúbrelo!

2026-06-10 · 3 min

AuRA: internalizando audio en LLMs mediante LoRA

Descubre cómo AuRA internaliza la comprensión del audio en LLMs mediante LoRA, superando a sistemas en cascada con mayor eficiencia y precisión.

2026-06-10 · 2 min

AuRA: Internalizando la Comprensión de Audio en LLMs como LoRA

Descubre AuRA: integra comprensión de audio en LLMs mediante LoRA para modelado conjunto y eficiente inferencia paralela. Supera a sistemas en cascada.

2026-06-10 · 2 min

Personalidades múltiples y cambio dinámico en modelos de visión-lenguaje

Explora cómo los modelos de visión-lenguaje componen y cambian personalidades múltiples dinámicamente, afectando el razonamiento y la descripción de imágenes.

2026-06-10 · 2 min

Personalidades múltiples en modelos de visión-lenguaje: conmutación dinámica

Modelos de visión-lenguaje con múltiples personalidades: ¿cómo afecta al rendimiento? Conoce los hallazgos sobre equilibrio y residuales.

2026-06-10 · 2 min

GASLoC: unificando comunicaciones y actualizaciones locales para LLMs

GASLoC unifica comunicaciones y actualizaciones locales para preentrenar LLMs de forma eficiente, superando a DiLoCo en entornos heterogéneos.

2026-06-10 · 3 min

¿Cómo fluye el razonamiento? Rastreo del flujo de información para RL en LLMs

Descubre cómo FlowTracer rastrea el flujo de razonamiento en modelos de lenguaje para asignar crédito preciso a los tokens clave y mejorar el aprendizaje por refuerzo.

2026-06-10 · 2 min

Priores estructurales no paramétricos para predicción de teoremas geométricos

Descubre cómo los priores estructurales no paramétricos y los grafos de precedencia permiten a los LLMs predecir teoremas geométricos con un 89.29% de precisión, superando modelos supervisados.

2026-06-10 · 2 min