TinyJudge: alineación de restricciones no verificables con conjuntos ligeros
TinyJudge alinea modelos de lenguaje con restricciones no verificables usando conjuntos ligeros de especialistas. Logra un 10% de rendimiento y 3x velocidad.
TinyJudge alinea modelos de lenguaje con restricciones no verificables usando conjuntos ligeros de especialistas. Logra un 10% de rendimiento y 3x velocidad.
Descubre cómo los LLMs logran extraer el consenso científico en un campo complejo como la superconductividad de alta temperatura. Un estudio revelador.
Descubre TLVS, un método de control de sensibilidad visual por token que reduce alucinaciones en modelos de visión-lenguaje sin afectar contenido veraz.
Descubre cómo los LLMs y agentes inteligentes automatizan la generación y optimización de kernels GPU, superando limitaciones humanas. Revisión exhaustiva de métodos, datasets y desafíos futuros.
Descubre DMLRank: evaluación no paramétrica de LLMs con datos de preferencia. Ranking robusto con incertidumbre cuantificada.
Descubre cómo los LLMs muestran una transición de fase al variar la temperatura, generando textos con patrones de ley de potencia como el lenguaje natural.
Acelera el entrenamiento de LLMs con paralelismo de contexto flexible. Logra hasta 2.24x de velocidad incluso con datos heterogéneos.
Descubre TN-gram: un módulo de memoria compacto que mejora LLMs al compartir factores latentes entre embeddings de N-gramas con menos parámetros.
Los LLMs pueden ocultar secretos mediante esteganografía. La detección con sondas lineales se evade, pero se restaura con recontextualización.
Ejecutar dos LLMs en una Mini PC suena bien, pero los benchmarks revelan un cuello de botella de memoria que lo hace contraproducente.
El decreto de Trump sobre IA promete seguridad, pero ¿es solo un gesto vacío? Analizamos sus deficiencias y la realidad.
Estudio revela cómo el contexto modifica geométricamente las representaciones de verdad en LLMs. Cambios direccionales y de magnitud separan verdad de falsedad.
DyCP poda dinámicamente el contexto en diálogos extensos con LLMs, reduciendo costes de inferencia sin perder precisión. Optimiza tus modelos.
Descubre cómo ReD (Reset and Discard) mejora la inferencia de LLMs a presupuesto fijo, aumentando la cobertura de respuestas correctas y reduciendo costos en tokens y USD.
Descubre cómo Robust-U1 permite a los MLLMs auto-recuperar imágenes corruptas, mejorando la comprensión visual con aprendizaje por refuerzo y alcanzando resultados líderes.
Descubre GlobeAudio, el primer benchmark multilingüe y multicultural para evaluar modelos de audio-lenguaje en condiciones realistas. Resultados sorprendentes.
Descubre cómo detectar alineación propietaria en modelos de lenguaje sin un estándar de referencia. Un marco comparativo para auditar sesgos y políticas ocultas.
¿Los modelos de lenguaje pequeños realmente aprenden de sus errores? Un estudio revela que solo mejoran un 4.4% y que más razonamiento puede empeorarlos.
EinSort: ordenando índices para tensorizar LLMs. Descubre estructuras de rango bajo y comprime pesos y KV-cache con mejor calidad. ¡Optimiza tus modelos!
Aprende cómo CAHL alinea planificador y ejecutor en LLMs con herramientas, mejorando el rendimiento en tareas complejas.