DDOR: Pruebas y Reparación del Sobrerrechazo en LLMs
Descubre DDOR, un marco automatizado para detectar y reparar el sobrerrechazo en LLMs, mejorando su usabilidad sin sacrificar la seguridad. Explicabilidad y pruebas escalables.
Descubre DDOR, un marco automatizado para detectar y reparar el sobrerrechazo en LLMs, mejorando su usabilidad sin sacrificar la seguridad. Explicabilidad y pruebas escalables.
Descubre cómo Taiji optimiza recomendaciones industriales con LLM, equilibrando semántica e IDs de usuario. Resultados reales en Kuaishou.
Descubre q0: primitivas para preentrenar con hiper-épocas. Genera una población de modelos diversos que logran menor pérdida de validación con hasta 4.6x menos épocas.
¿Los modelos de razonamiento grandes expresan su confianza de forma fiel? Cuantificamos la calibración entre incertidumbre interna y verbalizada, revelando desa
Descubre DTKG, un marco que combina verificación de hechos y cadenas en grafos de conocimiento para responder preguntas multi-salto con alta precisión.
Los mercados tokenizados necesitan protecciones en cadena, no guardianes centralizados. Descubre cómo lograr adopción masiva sin sacrificar la descentralización.
Pi Agent con Gemini Enterprise automatiza tu cadena de suministro: planificación autónoma en 60 segundos. Alinea ventas, finanzas y operaciones sin reuniones. Solicita demo.
El backlog de la NVD supera 27,000 vulnerabilidades sin procesar. Descubre cómo adaptar la gestión de vulnerabilidades a un ritmo insostenible.
LatentChem: razonamiento químico con pensamiento latente. Logra 59.88% de victorias frente a CoT y 10x menos pasos. Optimización sin cadenas textuales.
Cómo adaptadores ligeros entrenados en pares vector-etiqueta logran autointerpretación que supera etiquetas y revela razonamiento implícito.
Evalúa la legibilidad débil-a-fuerte en modelos de razonamiento: cadenas de pensamiento claras para supervisión segura de IA.
FGRPO: fine-tuning privado de modelos de lenguaje con agregación adaptativa en datos no IID. Mejora el razonamiento sin exponer datos.
Descubre cómo la profundidad del razonamiento en cadena afecta la generalización en modelos de lenguaje. Teoría asintótica y fases de mejora exponencial.
La heterogeneidad cognitiva en LLM (DeepSeek, GPT) afecta cadenas de suministro. La simulación revela sesgos y cómo compartir información mitiga ineficiencias.
ALAR reduce hasta un 84.6% los tokens en agentes LLM, usando razonamiento latente en rutina y explícito solo cuando es necesario. Eficiencia y precisión mejoradas.
SLAT: recorte adaptativo por segmentos reduce un 50% la longitud del razonamiento CoT sin perder precisión.
CoSR descubre progresivamente leyes físicas desde datos, imitando el método científico. Aplicaciones en turbulencia, flujos y aerodinámica.
Descubre un método asintóticamente óptimo para pruebas secuenciales en cadenas de Markov. Mejora límites inferiores y aplicaciones en MCMC y MDPs.
Modelos de Markov neuronales inspeccionables mejoran predicción de series no estacionarias. Reducción del 5.6% en discrepancia. ¡Descubre cómo!
Paquete npm codexui-android roba tokens de autenticación de OpenAI Codex en ataque a cadena de suministro. Conoce los detalles y cómo protegerte.