ChessMimic: Predicción de Movimientos, Tiempo y Resultados en Ajedrez Blitz
ChessMimic predice movimientos, tiempo y resultados en ajedrez blitz, superando a Maia-2 en todos los rangos Elo. ¡Demo online!
ChessMimic predice movimientos, tiempo y resultados en ajedrez blitz, superando a Maia-2 en todos los rangos Elo. ¡Demo online!
¿Los modelos de texto a imagen realmente razonan o solo imitan? Analizamos la fidelidad del razonamiento en generación visual de texto y sus fallos semánticos.
SFMambaNet integra frecuencia espectral y Mamba para poda de correspondencias, superando a métodos GNN con eficiencia lineal. ¡Descúbrelo!
Descubre cómo PivotTrace logra un rendimiento casi total con solo el 29% de datos etiquetados y una convergencia 2.75 veces más rápida en RLVR.
Aprende cómo el marco SCORE mejora informes de investigación mediante la co-evolución de generación y evaluación, superando recompensas fijas.
GeoMin optimiza RLVR semi-supervisado usando modelado geométrico. Logra +4.1% sobre los mejores y supera la supervisión completa con solo el 10% de datos etiquetados.
Los Anclajes de Relleno Dinámico (DIA) optimizan la generación con formato restringido, logrando avances zero-shot en GSM8K y MATH.
Descubre cómo el nuevo método de replay priorizado por ventaja mejora la eficiencia muestral en GRPO para LLMs, logrando +4.35% en benchmarks.
Multi-SPIN acelera la generación de tokens combinando modelos pequeños en dispositivos con LLM en servidores edge. Mejora el goodput hasta un 88%.
Estudio evalúa gemelos digitales basados en LLMs y microdatos. La calidad mejora con profundidad de información, alcanzando 78.8% de precisión en respuestas.
Descubre QuBLAST, un framework que reduce el tamaño de LLMs hasta un 45% mediante cuantización por bloques y escalado de activaciones, sin perder rendimiento.
Aumenta la precisión de segmentación médica con predictor de cajas ligero integrado en MedSAM. Resultados: Dice 0.89-0.98 en múltiples modalidades.
Descubre los resultados de la reproducibilidad de Vul-RAG: un estudio sobre detección de vulnerabilidades con RAG y modelos open-weight. ¿Realmente mejoran?
Archi: marco de agentes de IA para el CMS del CERN. Integra documentación, datos históricos y monitoreo en vivo para apoyar a operadores técnicos.
Aprende cómo el método LA-LQR dirige modelos de video reduciendo contenido dañino sin perder calidad. Control óptimo lineal de orden reducido.
Descubre NoRA, el benchmark que evalúa si los modelos de IA pueden justificar acciones razonables en video en primera persona. Un paso hacia una IA más segura.
Descubre LifeSkill, un marco de co-evolución que mejora habilidades en agentes de IA durante la inferencia. Aumenta un 7% el rendimiento en tareas largas.
DiverAge: envejecimiento facial fiable y pluralista con guía de identidad entre edades. Preserva la identidad, genera diversidad. Ideal para biometría y forense.
Descubre cómo OGKD mejora la precisión en modelos médicos al respetar relaciones entre clases. Resultados superiores en 11 datasets.
SharedRequest protege la privacidad de tus consultas en LLMs sin afectar rendimiento. Mejora utilidad 20% y reduce costos 5x. ¡Descúbrelo!