Precio sombra del razonamiento: asignación óptima de presupuesto para LLMs
Descubre CLEAR optimiza la asignación de presupuesto en inferencia de LLMs, logrando hasta 3x más precisión que asignación uniforme con recursos limitados.
Descubre CLEAR optimiza la asignación de presupuesto en inferencia de LLMs, logrando hasta 3x más precisión que asignación uniforme con recursos limitados.
Descubre cómo las instrucciones transforman las representaciones internas de la IA. Un estudio revela la geometría detrás del comportamiento inducido.
Descubre cómo fusionar noticias largas con predicciones de series temporales usando modelos de recompensa para mayor precisión.
Descubre cómo el marco TBS separa el razonamiento privado de la expresión pública en simulaciones multiagente, analizando la dinámica del silencio.
Explora ClinicalMC, el benchmark que evalúa LLMs en la toma de decisiones clínicas multicurso. Conoce los resultados y su impacto en la salud.
El marco PRPF optimiza la intervención de agentes móviles proactivos al percibir antes de razonar, reduciendo falsos positivos y mejorando la eficiencia. Descubre cómo.
Aprende a destilar reglas de programación lógica desde LLMs para VQA interpretable, con solo pocos ejemplos. Alternativa eficiente al aprendizaje de reglas tradicional.
¿Puede un modelo transmitir activaciones a otro? En nuestro experimento con Pythia, la alineación no basta para comunicación causal. Resultado negativo.
Descubre InfoMem, un mecanismo de recompensa que evalúa la utilidad de la memoria final para mejorar el rendimiento de los LLM en tareas de largo contexto.
Descubre cómo StepFinder identifica la causa raíz de fallos en sistemas multi-agente con un marco semántico temporal, reduciendo tiempos de inferencia un 79%.
Conoce la primera definición formal y meta-modelo para la Teoría de la Mente en IA, basada en psicología y neurociencia.
Descubre ThoughtFold, un framework que elimina exploraciones redundantes en modelos de razonamiento, reduciendo tokens hasta un 56% sin perder precisión.
Aprende cómo un gateway de orquestación SLM enruta peticiones en mundos virtuales a servicios de IA distribuidos, sin modificar el cliente.
Reduce violaciones de restricciones en un 39% con CRGC. Mejora el seguimiento de instrucciones en modelos de razonamiento.
Estudio revela que los LLM como GPT y Gemini subestiman la urgencia de mujeres jóvenes con síntomas neurológicos, replicando sesgos humanos.
¿Cómo detectan los LLMs sus carencias al usar APIs? NovelAPIBench ofrece un diagnóstico detallado en 6 categorías. Aprende qué funciona mejor.
Evalúa el razonamiento químico de los LLMs con ChemCoTBench-V2, un benchmark verificable paso a paso que detecta fallos en la lógica ocultos tras respuestas correctas.
Descubre Code-on-Graph, framework que combina LLMs y grafos de conocimiento para razonamiento programático flexible. Supera limitaciones de precisión y escalabilidad.
Descubre cómo la persistencia moderada de subobjetivos (periodos de 3 a 6 pasos) mejora el razonamiento latente jerárquico.
Descubre cómo mejora la calificación automática de tareas C++ con BART y rúbricas: menor error y distribuciones de notas más realistas.