#modelo

Restricciones auxiliares para el seguimiento de instrucciones en LRMs

Reduce violaciones de restricciones en un 39% con CRGC. Mejora el seguimiento de instrucciones en modelos de razonamiento.

2026-06-03 · 3 min

Sesgo de género en triaje médico con LLM: mismos síntomas, urgencia desigual

Estudio revela que los LLM como GPT y Gemini subestiman la urgencia de mujeres jóvenes con síntomas neurológicos, replicando sesgos humanos.

2026-06-03 · 2 min

Benchmark para diagnosticar brechas de conocimiento en LLMs con APIs

¿Cómo detectan los LLMs sus carencias al usar APIs? NovelAPIBench ofrece un diagnóstico detallado en 6 categorías. Aprende qué funciona mejor.

2026-06-03 · 3 min

Más que respuestas: Evaluación verificable del razonamiento químico paso a paso

Evalúa el razonamiento químico de los LLMs con ChemCoTBench-V2, un benchmark verificable paso a paso que detecta fallos en la lógica ocultos tras respuestas correctas.

2026-06-03 · 2 min

Code-on-Graph: Razonamiento Programático con LLMs

Descubre Code-on-Graph, framework que combina LLMs y grafos de conocimiento para razonamiento programático flexible. Supera limitaciones de precisión y escalabilidad.

2026-06-03 · 2 min

Persistencia de subobjetivos en razonamiento latente jerárquico

Descubre cómo la persistencia moderada de subobjetivos (periodos de 3 a 6 pasos) mejora el razonamiento latente jerárquico.

2026-06-03 · 2 min

Calificación automática de C++ con BART y rúbricas

Descubre cómo mejora la calificación automática de tareas C++ con BART y rúbricas: menor error y distribuciones de notas más realistas.

2026-06-03 · 2 min

PyraMathBench: Evaluando y mejorando capacidad matemática en LLMs

Descubre PyraMathBench: evalúa y mejora la capacidad matemática de los LLMs con 32,505 preguntas y técnicas como SOLVE e IRPO.

2026-06-03 · 1 min

Estructura de razonamiento de los grandes modelos de lenguaje

Un nuevo benchmark de acertijos lógicos revela la estructura oculta del razonamiento en modelos de IA, más allá de la precisión.

2026-06-03 · 2 min

scTranslation: benchmark completo para traducción multiómica unicelular

scTranslation: benchmark integral para traducción multiómica unicelular. Evalúa modelos con datasets y métricas, analizando selección de características y pocos ejemplos. ¡Descubre insights clave!

2026-06-03 · 2 min

Tokens de Percepción Imaginativa Mejoran Razonamiento Espacial

Los Tokens de Percepción Imaginativa (IPT) mejoran el razonamiento espacial en modelos multimodales sin generar imágenes. Aumento del 3.4% en precisión en conteo multivista.

2026-06-03 · 1 min

TRAP: Secuestro del razonamiento CoT en VLA mediante parches adversariales

Descubre cómo TRAP usa parches adversariales para secuestrar razonamiento CoT en robots VLA y provocar comportamientos peligrosos. Vulnerabilidad crítica en IA.

2026-06-03 · 3 min

IdiomX: Benchmark multilingüe para comprensión y recuperación de modismos

IdiomX es un benchmark multilingüe con 190K ejemplos para evaluar comprensión, recuperación e interpretación de modismos en inglés, árabe y francés.

2026-06-03 · 3 min

ReLoRA: Adaptación rápida reutilizando conocimiento para servicios LLM

ReLoRA acelera la reutilización de adaptadores LoRA para servicios LLM en evolución, reduciendo tiempos de preparación hasta 8.9x y mejorando precisión un 4.6%.

2026-06-03 · 2 min

Difusión tabular guiada por geometría

GATD revoluciona la síntesis de datos tabulares usando supervisión geométrica: reduce errores hasta 27% con 3.5x menos parámetros. Ideal para privacidad y aumentación.

2026-06-03 · 2 min

Construyendo Mejores Oráculos de Activación

Descubre cómo mejoramos los Oráculos de Activación: reducimos alucinaciones y vaguedad. Presentamos AObrench, el primer conjunto de evaluación completo.

2026-06-03 · 2 min

Samudra 2: Escalando emuladores oceánicos en resoluciones

Samudra 2: emulador oceánico neural que escala resoluciones para proyecciones climáticas precisas. Ejecuta en una GPU, reduce errores y captura remolinos.

2026-06-03 · 3 min

FSA-GRPO: Cómo entrenar LLMs auditivos con pocos ejemplos

Descubre cómo FSA-GRPO entrena modelos auditivos con aprendizaje por refuerzo para mejorar el reconocimiento de voz usando pocos ejemplos.

2026-06-03 · 1 min

Modelos oscilatorios de espacio de estados como sesgos inductivos para PINNs

Optimiza la solución de EDP con modelos oscilatorios: mayor precisión, menor memoria. ¡Descubre cómo!

2026-06-03 · 2 min

Mejorando predicción de PPIs con embeddings multimodales jerárquicos de motivos

Aprende sobre MMM-PPI, un innovador modelo que integra secuencia, estructura y función para predecir interacciones proteína-proteína con precisión superior.

2026-06-03 · 2 min