Decodificando la intención de cruce peatonal con modelos de visión y lenguaje
Investigación que utiliza modelos de lenguaje y visión para predecir intención de cruce peatonal desde vídeos egocéntricos, con un 14.5% más de precisión.
Investigación que utiliza modelos de lenguaje y visión para predecir intención de cruce peatonal desde vídeos egocéntricos, con un 14.5% más de precisión.
Descubre cómo SEF-CLGC combina notación lógica y SLMs para evaluar razonamiento en IA, reduciendo sesgo y logrando 27.80% de contenido.
Descubre Uni-E, una energía unificada para decodificación invariante e independiente en modelos de difusión. Corrige desviaciones.
La traducción directa subestima riesgos en LLMs. Este análisis en 4 idiomas asiáticos muestra cómo el red-teaming culturalmente adaptado revela amenazas reales.
Descubre cómo los modelos EEG preentrenados filtran atributos incluso con defensas como DP-SGD. Auditoría cross-encoder revela fugas persistentes. ¡Lee el
El nuevo marco E2E unifica tokenizador, LLM y FM, logrando un WER del 0.78% y 1.56% en TTS, superando a los sistemas en cascada.
EgoTactile: benchmark y difusión condicional para estimar presión de agarre en objetos cotidianos desde video egocéntrico. Aplicaciones en VR y robótica.
Aprende cómo los residuos de solucionadores y las recompensas aditivas saturadas (SAR) logran que un modelo de 8B compita con sistemas frontera en generación
Descubre cómo SAR mejora 2.3x la resolución de problemas geométricos de precisión crítica, superando el enmascaramiento de gradientes atípicos.
Conan-embedding-v3 fusiona modelos específicos para recuperación omni-modal, resuelve deriva del proyector, logra récords en MMEB y MAEB.
Conan-embedding-v3: fusión de especialistas y solución a la deriva del proyector para recuperación omni-modal líder en MMEB y MAEB.
Descubre cómo definir una buena explicación en IA y por qué es difícil explicar los outputs de los modelos de lenguaje. Clave para la transparencia.
Modelos causales relacionales para IA: razonamiento sobre intervenciones y generalización a objetos no vistos. Aprende su implementación con redes neuronales.
Descubre cómo definir una buena explicación según la filosofía y la IA, y por qué es tan difícil explicar los outputs de los LLMs. Aprende sobre explicaciones
Descubre cómo medir la confianza entre agentes de IA. Estudio revela diferencias en formación, ruptura y recuperación.
Los Modelos Causales Estructurales Relacionales amplían la causalidad a objetos y relaciones variables. Aprende cómo se identifican consultas causales y
Aprende a medir la confianza entre agentes de IA, su formación, ruptura y recuperación, y las claves para gobernar sistemas multiagente de manera segura.
Descubre cómo la alineación de CT y datos clínicos mejora la predicción de eventos. Fusión contrastiva logra hasta 5.4% más precisión.
Descubre OSGuard, el nuevo benchmark que evalúa la seguridad de los agentes de IA en tareas informáticas. ¿Logran evitar atajos inseguros? Lee más.
Mejora la predicción de eventos clínicos hasta un 5.4% con fusión multimodal adaptativa. Descubre cómo alinear CT y EHR para robustez en distintos escenarios.