Restricciones auxiliares para el seguimiento de instrucciones en LRMs
Reduce violaciones de restricciones en un 39% con CRGC. Mejora el seguimiento de instrucciones en modelos de razonamiento.
Reduce violaciones de restricciones en un 39% con CRGC. Mejora el seguimiento de instrucciones en modelos de razonamiento.
Estudio revela que los LLM como GPT y Gemini subestiman la urgencia de mujeres jóvenes con síntomas neurológicos, replicando sesgos humanos.
¿Cómo detectan los LLMs sus carencias al usar APIs? NovelAPIBench ofrece un diagnóstico detallado en 6 categorías. Aprende qué funciona mejor.
Evalúa el razonamiento químico de los LLMs con ChemCoTBench-V2, un benchmark verificable paso a paso que detecta fallos en la lógica ocultos tras respuestas correctas.
Descubre Code-on-Graph, framework que combina LLMs y grafos de conocimiento para razonamiento programático flexible. Supera limitaciones de precisión y escalabilidad.
Descubre cómo la persistencia moderada de subobjetivos (periodos de 3 a 6 pasos) mejora el razonamiento latente jerárquico.
Descubre cómo mejora la calificación automática de tareas C++ con BART y rúbricas: menor error y distribuciones de notas más realistas.
Descubre PyraMathBench: evalúa y mejora la capacidad matemática de los LLMs con 32,505 preguntas y técnicas como SOLVE e IRPO.
Un nuevo benchmark de acertijos lógicos revela la estructura oculta del razonamiento en modelos de IA, más allá de la precisión.
scTranslation: benchmark integral para traducción multiómica unicelular. Evalúa modelos con datasets y métricas, analizando selección de características y pocos ejemplos. ¡Descubre insights clave!
Los Tokens de Percepción Imaginativa (IPT) mejoran el razonamiento espacial en modelos multimodales sin generar imágenes. Aumento del 3.4% en precisión en conteo multivista.
Descubre cómo TRAP usa parches adversariales para secuestrar razonamiento CoT en robots VLA y provocar comportamientos peligrosos. Vulnerabilidad crítica en IA.
IdiomX es un benchmark multilingüe con 190K ejemplos para evaluar comprensión, recuperación e interpretación de modismos en inglés, árabe y francés.
ReLoRA acelera la reutilización de adaptadores LoRA para servicios LLM en evolución, reduciendo tiempos de preparación hasta 8.9x y mejorando precisión un 4.6%.
GATD revoluciona la síntesis de datos tabulares usando supervisión geométrica: reduce errores hasta 27% con 3.5x menos parámetros. Ideal para privacidad y aumentación.
Descubre cómo mejoramos los Oráculos de Activación: reducimos alucinaciones y vaguedad. Presentamos AObrench, el primer conjunto de evaluación completo.
Samudra 2: emulador oceánico neural que escala resoluciones para proyecciones climáticas precisas. Ejecuta en una GPU, reduce errores y captura remolinos.
Descubre cómo FSA-GRPO entrena modelos auditivos con aprendizaje por refuerzo para mejorar el reconocimiento de voz usando pocos ejemplos.
Optimiza la solución de EDP con modelos oscilatorios: mayor precisión, menor memoria. ¡Descubre cómo!
Aprende sobre MMM-PPI, un innovador modelo que integra secuencia, estructura y función para predecir interacciones proteína-proteína con precisión superior.