DSAEval: Evaluación de agentes de ciencia de datos en problemas reales
Descubre DSAEval, benchmark con 641 problemas reales que evalúa agentes de IA. Resultados: Claude-Sonnet-4.5 lidera en rendimiento.
Descubre DSAEval, benchmark con 641 problemas reales que evalúa agentes de IA. Resultados: Claude-Sonnet-4.5 lidera en rendimiento.
Xiaomi lanza MiMo Code, asistente de código IA open-source que vence a Claude Code en tareas largas. Gratis y con memoria persistente.
Descubre el Baseus Picogo AC22, el banco de energía más pequeño con carga de 45W y cable USB-C integrado. ¡Ahora a solo $29.99 en Amazon! Perfecto para viajar.
Apple integra Gemini en sus modelos AFM para potenciar Siri AI, pero con servidores propios y de Google. ¿Qué significa para tu privacidad?
SVoT mejora el razonamiento espacial en modelos multimodales mediante visualización verificable de estados intermedios con aprendizaje por refuerzo, logrando hasta un 65% más de precisión.
ProcessThinker mejora el razonamiento multimodal mediante recompensas de proceso paso a paso, sin entrenar un PRM. Supera en benchmarks de video.
Aplica la regla de alcance mínimo para mantener la documentación de IA limpia y evitar la deriva contextual. Optimiza la sincronización de agentes con artefactos precisos.
Descubre ConsistencyPlanner, un marco de planificación en tiempo real para conducción autónoma que usa modelos de consistencia para un muestreo multimodal eficiente y seguro.
Descubre cómo DMIL descompone y adapta interacciones multimodales para lograr un rendimiento superior en IA. Aprendizaje dinámico basado en teoría de la información.
Descubre cómo DMIL descompone las interacciones multimodales para un aprendizaje más preciso y adaptativo. Un enfoque innovador basado en teoría de la información.
LUCID enseña a robots tareas complejas viendo videos de internet. Aprendizaje escalable sin costosas demostraciones. ¡Zero-shot a nuevos objetos!
CVS selecciona datos de alta calidad para SFT multimodal sin entrenamiento. Mejora un 3.5% usando solo el 10% de los datos y reduce costos un 44%.
Descubre CVS: método sin entrenamiento para seleccionar datos de SFT visión-lenguaje, mejorando rendimiento un 4.8% con solo 15% de datos.
Descubre MiDiGap, un método de aprendizaje robótico que aprende políticas complejas con solo 5 demostraciones en menos de un minuto. ¡Resultados líderes en manipulación!
Descubre NGT, método ligero que aprende por imitación con solo 20 transiciones y sin pretraining. Perfecto para tareas complejas como humanoides.
Descubre OpenVTON-Bench, el nuevo benchmark con 100K imágenes de alta resolución para evaluar probadores virtuales con métrica multimodal fiable.
GLACIER integra gráficos, SMILES y descriptores fisicoquímicos para predecir propiedades moleculares con alta eficiencia. Código abierto.
IAPO: un algoritmo de RL que mejora la capacidad de llamar a herramientas en agentes multimodales pequeños, logrando un 3% más de precisión en VQA.
Aumenta un 3% la precisión en VQA con IAPO, algoritmo RL que alinea la atribución de entrada en agentes multimodales pequeños. ¡Descubre cómo!
Descubre FronTalk, benchmark para generación de código front-end con feedback multimodal. Conoce el olvido en modelos y la solución AceCoder.