#llms

Evaluación de LLMs para formalización matemática en Lean

Descubre qué modelos de LLM son más efectivos para generar pruebas formales en Lean 4. Gemini y Claude lideran, pero Nemotron es el más eficiente.

2026-06-06 · 2 min

La ilusión de la autocorrección: los LLMs corrigen a otros pero no a sí mismos

Descubre por qué los LLMs corrigen errores ajenos pero no los propios: un artefacto del chat-template que revela una ilusión de autocorrección.

2026-06-06 · 3 min

¿Cuándo debe callar la memoria? Límites de uso en agentes conversacionales

Descubre cuándo los agentes conversacionales con IA deben integrar memorias sensibles y cómo la evaluación RBI-Eval revela sesgos en modelos como GPT y Claude.

2026-06-06 · 2 min

Vortex: Atención dispersa eficiente y programable para agentes de IA

Vortex es un sistema que acelera el diseño de algoritmos de atención dispersa, logrando hasta 3.46x más rendimiento en LLMs. Ideal para agentes de IA que buscan optimizar la inferencia.

2026-06-06 · 1 min

Benchmark Agent: evalúa todo, en todas partes, a la vez

Descubre Benchmark Agent, un sistema autónomo que crea benchmarks de alta calidad para evaluar LLMs y MLLMs sin intervención humana. Ideal para investigación.

2026-06-06 · 2 min

Synapse: Enrutamiento Federado de Herramientas con Compendios Tipados

Con Synapse, enruta herramientas federadas entre LLMs heterogéneos sin compartir datos, con privacidad diferencial y precisión casi sin pérdida.

2026-06-06 · 2 min

Grounding Parcial Semántico mediante LLMs

Descubre cómo optimizar la planificación clásica con grounding parcial semántico mediante LLMs. Reduce acciones y objetos irrelevantes, agilizando el proceso.

2026-06-06 · 3 min

Cuantización de Precisión Mixta por Canal para Grandes Modelos de Lenguaje

Optimiza tus modelos de lenguaje con CMPQ: cuantización de precisión mixta por canal que ahorra memoria y mejora el rendimiento en dispositivos edge.

2026-06-06 · 2 min

El mito del decodificado contrastivo contra alucinaciones en MLLMs

Descubre por qué el decodificado contrastivo no mitiga alucinaciones en MLLMs según nueva investigación. Las mejoras en POPE son engañosas. ¡Entra para más!

2026-06-06 · 2 min

Mejora de respuestas cardíacas en LLMs con recompensas de rúbrica y GRPO

GRPO y recompensas de rúbrica mejoran respuestas cardíacas en LLMs pequeños: precisión sube a 50.2%, compitiendo con modelos 8x mayores.

2026-06-06 · 2 min

MCBench: Benchmark de seguridad multicontexto para LLMs Omni

Descubre MCBench, el primer benchmark multicontexto que evalúa la seguridad de modelos de lenguaje omni (visión, audio y texto). Revela sus limitaciones en razonamiento multimodal.

2026-06-06 · 1 min

CTIConnect: un benchmark para LLMs con recuperación en CTI

Descubre CTIConnect, el benchmark que evalúa LLMs con recuperación en fuentes heterogéneas de ciberinteligencia. Resultados clave para la seguridad.

2026-06-06 · 2 min

Evaluación federada asíncrona con similitud de estrategias para IBN en IIoT

Descubre cómo FEIBN combina LLMs y aprendizaje federado para evaluar estrategias en IIoT, reduciendo costes y mejorando eficiencia.

2026-06-06 · 3 min

OG-MAR: Alineamiento cultural de LLMs mediante ontología y multiagentes

OG-MAR alinea LLMs con valores culturales usando ontología y multiagentes. Mejora transparencia y precisión.

2026-06-06 · 2 min

Evaluación multi-LLM con ontología de hipótesis en procesamiento predictivo

Descubre cómo un consejo de LLMs locales evalúa hipótesis en neurociencia usando ontologías, revelando acuerdos y dispersión en la literatura.

2026-06-06 · 3 min

Dispuesta pero incapaz: Abliteración en LLMs de código

La abliteración elimina la negativa en LLMs de código, permitiendo inyectar vulnerabilidades como SQL injection. Resultados en Qwen2.5-Coder.

2026-06-06 · 3 min

Explorando LLMs para la comprensión y generación de música del sur de Asia

Descubre cómo los LLMs enfrentan el reto de comprender y generar música clásica del sur de Asia, con ragas y talas. Resultados de un estudio pionero.

2026-06-06 · 2 min

Benchmarks en Leipzig: 100 preguntas matemáticas para IA

Un grupo de 49 matemáticos creó 100 preguntas de nivel investigador. Los LLMs más avanzados resolvieron 98 de ellas. Descubre los resultados del taller 'Benchmarks in Leipzig'.

2026-06-06 · 2 min

Cabezas CoRe: eficiencia estructural en LLMs multimodales

Descubre cómo las cabezas CoRe en LLMs multimodales logran eficiencia: al eliminar solo el 5% se degrada el rendimiento, pero su uso acelera la inferencia. Una clave para la optimización.

2026-06-06 · 2 min

GenTI: Evaluación de LLMs para Generación Autónoma de Reglas IDPS

Descubre GenTI, el primer benchmark que usa LLMs para generar reglas IDPS automáticas. Mejora detección de ataques desconocidos hasta un 87.4%.

2026-06-06 · 3 min