Detección de intrusiones IoT con SMOTE y evaluación multi-modelo
Mejora la detección de intrusiones IoT con SMOTE y evaluación multi-modelo. Alcanza F1 de 0.9989 usando Random Forest en datos de potencia.
Mejora la detección de intrusiones IoT con SMOTE y evaluación multi-modelo. Alcanza F1 de 0.9989 usando Random Forest en datos de potencia.
Descubre cómo la alineación temporal mejora la evaluación de generación de talking heads, ofreciendo métricas más robustas y justas para comparar modelos.
Descubre 3DCodeBench, el benchmark que evalúa agentes de IA en modelado 3D procedural vía código. Resultados, fallos comunes y mejoras con escalado en tiempo de prueba.
Descubre cómo el idioma de un paciente puede cambiar las recomendaciones de emergencia de los LLM, revelando sesgos geográficos implícitos. Un estudio con Gemini 3.5 Flash.
Descubre TECCI, el nuevo benchmark que revela cómo los editores de imágenes con IA fallan en tareas complejas. Resultados sorprendentes y análisis detallado.
BenchEvolver transforma benchmarks saturados en problemas de código más difíciles, mejorando evaluación de IA con evolución centrada en soluciones.
Descubre cómo las fronteras de Pareto y la optimización automatizada revelan rendimientos superiores en entrenamiento certificado.
Descubre cómo el uso guiado de LLMs en estadística mejora el aprendizaje autónomo y la calibración del conocimiento, superando el simple acceso a la IA.
Descubre Dr. DocBench, el benchmark que expone las limitaciones de los modelos actuales en el análisis de documentos expertos con 65k anotaciones en 52 dominios.
Descubre cómo la selección de prompts con Maximum Independent Set reduce hasta un 48% el costo de evaluar LLMs en benchmarks, manteniendo rankings consistentes.
HOPM: mutación de prompts con doble retroalimentación mejora documentos de evidencia +11% en tasa de victorias. Estudio de caso.
TimeSage-MT evalúa la capacidad de agentes IA en análisis de series temporales a lo largo de múltiples turnos. Descubre sus debilidades en memoria y toma de decisiones.
Descubre los límites de los grandes modelos de lenguaje al interpretar el significado pragmático de respuestas no verbales. Un estudio revela caídas de precisión de hasta el 60%.
Un estudio revela que combinar datos reales y sintéticos con un cronograma de entrenamiento específico aumenta la precisión en detección de manos con guantes, clave para seguridad laboral.
StressDream optimiza el ruido de modelos de video para generar futuros plausibles y críticos. Evalúa y mejora políticas robóticas identificando fallos.
PlanarBench evalúa la capacidad de los LLMs para dibujar grafos planos en ASCII. Descubre cómo el número de aristas predice el rendimiento de 91 modelos.
Descubre por qué las métricas de ranking como AP y FPR-95 fallan en evaluar la asignación correcta de objetos en múltiples vistas. La normalización Sinkhorn como solución.
Descubre SUPREME, framework open-source que acelera evaluación de desaprendizaje en imágenes usando múltiples GPUs. Reproducible y eficiente.
Mejora la reescritura de textos cortos con Phi Silica. Aprende a aplicar fine-tuning para mayor fidelidad semántica y menos alucinaciones. ¡Resultados sorprendentes!
Descubre por qué la edición de parámetros en LLMs daña capacidades clave. Evidencia empírica muestra que la recuperación supera a la edición paramétrica.