#llms

Reevaluación psicométrica de LLMs: autoinformes y comportamiento

Descubre cuándo autoinformes de LLMs predicen su comportamiento. Estudio revela que Teoría del Comportamiento Planificado supera al Big Five en coherencia.

2026-06-12 · 4 min

MLUBench: Evaluación del desaprendizaje continuo en MLLMs

MLUBench: benchmark para desaprendizaje continuo en MLLMs. Revela grave degradación acumulativa. LUMoE mitiga el problema preservando la alineación multimodal.

2026-06-12 · 2 min

Iterando hacia una mejor búsqueda: marco de simulación de dos agentes

Descubre cómo un marco de simulación de dos agentes evalúa arquitecturas de búsqueda agentiva en e-commerce, mejorando calidad y reduciendo fallos en un 62%

2026-06-12 · 3 min

ReCal: Calibración de recompensas para enrutamiento de LLMs con RL

ReCal calibra recompensas para enrutamiento de LLMs con RL, mejorando asignación de crédito y reduciendo sesgos. Aumenta rendimiento y estabilidad.

2026-06-12 · 1 min

PI-Hunter: Red-Teaming Automatizado para Revelar Inyecciones de Prompt

Descubre cómo PI-Hunter automatiza la auditoría de agentes de IA para detectar y localizar inyecciones de prompt ocultas, mejorando la seguridad de tus sistemas.

2026-06-12 · 2 min

Más allá de resolver: UOJ-Bench para evaluar generación, hacking y reparación

UOJ-Bench evalúa LLMs en programación competitiva: generación, hacking y reparación. En una prueba, fallan en detectar >50% errores; con escalado superan >90%.

2026-06-12 · 2 min

TWLA: Cuantización post-entrenamiento pesos ternarios y activaciones de bajo bit

Descubre cómo TWLA, mediante cuantización post-entrenamiento, reduce el tamaño y acelera la inferencia de LLMs usando pesos ternarios y activaciones de 4 bits.

2026-06-12 · 2 min

TWLA: Cuantización con pesos ternarios y activaciones de 4 bits

TWLA permite cuantizar LLMs a pesos ternarios y activaciones de 4 bits, reduciendo el costo de inferencia sin perder precisión.

2026-06-12 · 2 min

WildIFEval: Instrucciones complejas para LLMs en escenarios reales

Descubre WildIFEval: 7,000 instrucciones reales con múltiples restricciones. ¿Cómo siguen las instrucciones los LLMs? Benchmark y análisis detallado.

2026-06-12 · 1 min

Jerarquía emocional emergente en modelos de lenguaje

Descubre cómo los modelos de lenguaje crean jerarquías emocionales que imitan la psicología humana y revelan sesgos sociales. Un estudio fascinante sobre IA y emociones.

2026-06-12 · 1 min

Atribución de autoría en textos generados por IA multilingües

Descubre cómo identificar el autor (humano o IA) de textos en múltiples idiomas. Un estudio revela los retos de la atribución multilingüe con LLMs.

2026-06-12 · 2 min

CuMA: Mezcla de adaptadores para alinear LLMs a valores culturales dispersos

CuMA alinea modelos de lenguaje a valores culturales usando mezcla de adaptadores, evitando el colapso medio y preservando la pluralidad cultural.

2026-06-12 · 2 min

Fin-RATE: benchmark de análisis financiero para LLMs en informes SEC

Descubre Fin-RATE, un benchmark realista que mide la capacidad de los LLMs para analizar informes financieros de la SEC, detectando errores clave.

2026-06-12 · 2 min

PaLMR: Razonamiento Visual Fiel mediante Alineación Multimodal

PaLMR alinea procesos de razonamiento visual en modelos multimodales, reduciendo alucinaciones y mejorando fidelidad. Logra resultados de vanguardia en HallusionBench, MMMU, MathVista y MathVerse.

2026-06-12 · 1 min

SupraBench: un benchmark para química supramolecular

Descubre cómo SupraBench evalúa LLMs en tareas fundamentales de química supramolecular. Un benchmark innovador para predecir afinidades y más.

2026-06-12 · 2 min

Una página contaminada basta: contaminación en recomendadores generativos

Una sola página contaminada engaña a los LLMs haciéndolos promover productos falsos. El benchmark FORGE revela una vulnerabilidad del 73% en tres páginas.

2026-06-12 · 3 min