#modelo

ChessMimic: Predicción de Movimientos, Tiempo y Resultados en Ajedrez Blitz

ChessMimic predice movimientos, tiempo y resultados en ajedrez blitz, superando a Maia-2 en todos los rangos Elo. ¡Demo online!

2026-06-04 · 2 min

Evaluando la fidelidad del razonamiento en generación visual de texto

¿Los modelos de texto a imagen realmente razonan o solo imitan? Analizamos la fidelidad del razonamiento en generación visual de texto y sus fallos semánticos.

2026-06-04 · 2 min

SFMambaNet: Frecuencia Espectral para Poda de Correspondencias

SFMambaNet integra frecuencia espectral y Mamba para poda de correspondencias, superando a métodos GNN con eficiencia lineal. ¡Descúbrelo!

2026-06-04 · 2 min

Smart Picks en la oscuridad: RLVR eficiente con trazado metacognitivo

Descubre cómo PivotTrace logra un rendimiento casi total con solo el 29% de datos etiquetados y una convergencia 2.75 veces más rápida en RLVR.

2026-06-04 · 3 min

Investigación profunda auto-evolutiva mediante generación y evaluación conjunta

Aprende cómo el marco SCORE mejora informes de investigación mediante la co-evolución de generación y evaluación, superando recompensas fijas.

2026-06-04 · 1 min

GeoMin: Modelado Geométrico para RLVR Semi-Supervisado Eficiente

GeoMin optimiza RLVR semi-supervisado usando modelado geométrico. Logra +4.1% sobre los mejores y supera la supervisión completa con solo el 10% de datos etiquetados.

2026-06-04 · 2 min

Anclajes de Relleno Dinámico para Generación con Formato Restringido

Los Anclajes de Relleno Dinámico (DIA) optimizan la generación con formato restringido, logrando avances zero-shot en GSM8K y MATH.

2026-06-04 · 2 min

Replay de experiencia a nivel de rollout para GRPO

Descubre cómo el nuevo método de replay priorizado por ventaja mejora la eficiencia muestral en GRPO para LLMs, logrando +4.35% en benchmarks.

2026-06-04 · 2 min

Multi-SPIN: inferencia especulativa multiacceso para generación cooperativa de tokens en el borde

Multi-SPIN acelera la generación de tokens combinando modelos pequeños en dispositivos con LLM en servidores edge. Mejora el goodput hasta un 88%.

2026-06-04 · 1 min

Personalidades sintéticas: precisión de LLMs con microdatos

Estudio evalúa gemelos digitales basados en LLMs y microdatos. La calidad mejora con profundidad de información, alcanzando 78.8% de precisión en respuestas.

2026-06-04 · 3 min

QuBLAST: Cuantización con Compresión por Bloques y Escalado de Activaciones

Descubre QuBLAST, un framework que reduce el tamaño de LLMs hasta un 45% mediante cuantización por bloques y escalado de activaciones, sin perder rendimiento.

2026-06-04 · 3 min

Mejora de MedSAM con predictor de cajas ligero para segmentación médica

Aumenta la precisión de segmentación médica con predictor de cajas ligero integrado en MedSAM. Resultados: Dice 0.89-0.98 en múltiples modalidades.

2026-06-04 · 3 min

Revisitando Vul-RAG: Detección de vulnerabilidades RAG con modelos abiertos

Descubre los resultados de la reproducibilidad de Vul-RAG: un estudio sobre detección de vulnerabilidades con RAG y modelos open-weight. ¿Realmente mejoran?

2026-06-04 · 2 min

Archi: Operaciones Agentivas en el Experimento CMS

Archi: marco de agentes de IA para el CMS del CERN. Integra documentación, datos históricos y monitoreo en vivo para apoyar a operadores técnicos.

2026-06-04 · 3 min

Direccionamiento de activaciones en modelos de video con control óptimo reducido

Aprende cómo el método LA-LQR dirige modelos de video reduciendo contenido dañino sin perder calidad. Control óptimo lineal de orden reducido.

2026-06-04 · 4 min

NoRA: Evaluación de razonamiento normativo visual en primera persona

Descubre NoRA, el benchmark que evalúa si los modelos de IA pueden justificar acciones razonables en video en primera persona. Un paso hacia una IA más segura.

2026-06-04 · 3 min

Aprendiendo mientras actúan: co-evolución para agentes de aprendizaje continuo

Descubre LifeSkill, un marco de co-evolución que mejora habilidades en agentes de IA durante la inferencia. Aumenta un 7% el rendimiento en tareas largas.

2026-06-04 · 2 min

DiverAge: Envejecimiento Facial Fiable con Guía de Identidad entre Edades

DiverAge: envejecimiento facial fiable y pluralista con guía de identidad entre edades. Preserva la identidad, genera diversidad. Ideal para biometría y forense.

2026-06-04 · 2 min