Desafío del meta-agente: ¿Pueden los agentes actuales ser autónomos?
Descubre el Meta-Agent Challenge (MAC): un benchmark que prueba si los agentes de IA pueden auto-desarrollarse. Resultados sorprendentes y riesgos.
Descubre el Meta-Agent Challenge (MAC): un benchmark que prueba si los agentes de IA pueden auto-desarrollarse. Resultados sorprendentes y riesgos.
Descubre cómo Neetyabhas optimiza políticas públicas con incertidumbre y comportamiento. Un enfoque basado en IA.
Descubre cómo Sci-PRM, un modelo de recompensa consciente de herramientas, mejora la verificación científica en biología, química y física.
MIRAGE permite a agentes móviles razonar internamente sin largas cadenas, reduciendo tokens hasta un 75% y mejorando precisión en interfaces.
FALSIFYBENCH evalúa el razonamiento inductivo en LLMs, destacando que los modelos que buscan falsificar sus hipótesis obtienen mejores resultados.
Descubre cómo la seguridad superficial en LLMs es superada por inyecciones en medio de la generación. Nuevo método alinea modelos en trayectorias para mayor robustez.
Descubre cómo BiasGRPO estabiliza la mitigación de sesgos con optimización grupal relativa, superando a DPO y PPO en benchmarks.
Aprende cómo la inyección de restricciones optimiza rutas con LLM, superando a Gemini y Claude. Nuevo verificador dual con 93% Pass@1.
Conoce AICompanionBench, benchmark público de conversaciones IA-humanas para evaluar seguridad en asistentes como Replika. Análisis de 20 LLMs.
Descubre cómo AutoLab evalúa la capacidad de los modelos frontier en tareas de optimización a largo plazo mediante iteración y feedback. ¿Qué modelo persistirá?
Descubre KINA, el nuevo benchmark que evalúa el conocimiento de 42 modelos de IA en 261 disciplinas. Resultados: Gemini 3.1 lidera con 53.17%. ¡Infórmate!
Nuevo benchmark SpurAudio revela que modelos de audio con pocos ejemplos son sensibles a correlaciones espurias. Conoce las implicaciones para IA.
Descubre cómo la coincidencia de correlaciones temporales con restricciones físicas mejora la eficiencia de búsqueda. Un modelo minimalista revela el principio organizador.
Predicción precisa del espectro de ruido de UUV en 3D usando campos neurales. Error promedio de 3.5 dB. Ideal para extrapolación.
Modelos base del cerebro con billones de parámetros fallan en predecir cognición. Un análisis de tercer orden los supera sin GPU ni pretraining. ¡Descúbrelo!
Mejora el reconocimiento de actividades estáticas con enrutamiento jerárquico por gravedad para modelos SensorLLM ligeros, preservando rendimiento dinámico.
Aprende cómo MaskForge, un ataque adaptativo de caja negra, alcanza un 79.3% de éxito en jailbreak de dLLMs mediante patrones estructurales dinámicos.
Descubre cómo compartir proyecciones QKV en Transformers reduce el caché KV hasta 96.9% sin perder calidad, ideal para dispositivos edge.
Estudio revela: cumplimiento varía de 14.7% a 85.7% según dominio. Descubre la brecha de transparencia en LLMs de peso abierto.
Descubre cómo SceneDiver rompe el cuello de botella perceptual en IA visión-lenguaje, reduciendo alucinaciones visuales en robótica y navegación.