Detección de cambios de régimen en Tesoro con datos no estructurados
Mejora la detección de cambios de régimen en el mercado de Tesoro combinando actas FOMC con LLMs y pruebas estadísticas. F1=0.82, detección en el mismo día. Descubre cómo.
Mejora la detección de cambios de régimen en el mercado de Tesoro combinando actas FOMC con LLMs y pruebas estadísticas. F1=0.82, detección en el mismo día. Descubre cómo.
Descubre cómo los modelos de lenguaje aprenden a ser deshonestos y cómo detectarlo con representaciones lineales. Estudio multimodelo revela patrones.
Descubre cómo reestructurar la comunicación entre robots mejora un 47% el rendimiento, frente al 9% de escalar modelos. Estudio con 10 robots reales.
Descubre cómo el modelo DSFM genera fMRI realista usando transformada wavelet y flujo espectral para mejorar la identificación de trastornos cerebrales.
Explora cómo los debates entre LLMs mejoran la verdad colectiva, basado en la teoría argumentativa del razonamiento. Un enfoque innovador en IA.
El framework NumLeak expone cómo los modelos de IA memorizan datos de benchmarks públicos. Una amenaza para la evaluación y la seguridad.
CodeGolf Bench: benchmark dinámico para evaluar LLMs en generación de código conciso en 60 lenguajes. Modelos de razonamiento lideran en eficiencia.
Descubre cómo los LLM actúan como ingenieros de datos autónomos para especializar modelos, logrando mejoras de rendimiento de hasta 57%.
Un experimento con cosmología histórica revela cómo la adaptación de dominio cambia los marcos explicativos en modelos de lenguaje.
Descubre cómo la calibración mejora la precisión en rankings de etiquetas y su aplicación en RLHF.
La vulnerabilidad de los LLMs ante inyecciones de prompt no depende solo de la superficie, sino del par modelo-superficie. Estudio revela puntos ciegos.
Descubre si los embeddings generalistas o específicos son mejores para la búsqueda de códigos clínicos en varios idiomas. Estudio empírico con datos sintéticos y mejoras en recall.
¿Los VLMs saben cuándo abstenerse? Un estudio revela que fallan en preguntas espaciales con oclusión o ambigüedad, respondiendo con exceso de confianza. Descubre por qué.
Descubre cómo VLM3 revoluciona el aprendizaje 3D usando modelos de lenguaje visual estándar, superando a modelos expertos sin arquitecturas complejas.
Descubre ImmigrationQA, un dataset con 17,058 preguntas sobre ley migratoria de EE.UU. y cómo adaptamos Llama 3.2 con LoRA para mejorar respuestas legales.
La métrica CSS revela perfiles ocultos de capacidad en LLMs y agentes clínicos, detectando puntos ciegos de seguridad que las métricas tradicionales pasan por alto.
Rationalize: un marco de roles complementarios (Explorador-Guía, etc.) para alinear razonamiento humano e IA. Descubre cómo mejora la comprensión compartida.
PInVerify es un nuevo benchmark offline que evalúa agentes encarnados en la verificación activa de objetos con atributos finos. Descubre cómo funciona y sus resultados con MLLMs.
COFT reduce sesgos en LLMs hasta un 55% sin reentrenar, preservando calidad y razonamiento justo. Método auditado.
¿Los LLMs clínicos son inconsistentes ante cambios en las preguntas? Un estudio mide su estabilidad semántica y propone métricas para evaluarla.