Sistemas auto-evolutivos: el rol de la interacción humano-agente
Descubre cómo el marco ANCHOR utiliza supervisión humana para estabilizar agentes auto-evolutivos, previniendo degradación sin afectar rendimiento.
Descubre cómo el marco ANCHOR utiliza supervisión humana para estabilizar agentes auto-evolutivos, previniendo degradación sin afectar rendimiento.
Descubre cómo ReLAT cierra el bucle del razonamiento latente usando reconstrucción en tiempo de prueba, mejorando precisión en matemáticas un 73.3% en AIME 2024
Descubre ALMANAC, el primer dataset con anotaciones de modelos mentales para mejorar la colaboración entre humanos y agentes de IA. ¡Mejora tus agentes ahora!
Descubre Benchmark Agent, un sistema autónomo que crea benchmarks de alta calidad para evaluar LLMs y MLLMs sin intervención humana. Ideal para investigación.
¿Puede una IA entender tu carrete de fotos? Conoce camroll-agent, un asistente que responde preguntas visuales personales con memoria jerárquica. Dataset de 50 usuarios.
Descubre LoRi: destilación de bajo rango que mejora el razonamiento implícito en LLMs, acercándose a cadenas de pensamiento explícitas.
CoT-Space explica el escalado interno del pensamiento lento en IA. Aprende cómo el aprendizaje por refuerzo optimiza las trayectorias de razonamiento en LLMs.
ReTreVal permite a LLMs aprender entre problemas durante la inferencia, mejorando el razonamiento sin ajuste fino. Logra 85.8% en MATH-500 y 54.4% en MMLU-Pro.
Drive-KD destila conocimiento multi-profesor para VLMs en conducción autónoma: menor uso de GPU, mayor throughput y rendimiento superior en planificación.
Descubre cómo los LLM son aparentemente fieles a sus estructuras intermedias, pero fallan al ser intervenidos. Análisis causal revela fragilidad.
Descubre InfoDensity, un nuevo método de recompensa que optimiza el razonamiento de LLMs, reduciendo verbosidad y mejorando precisión y eficiencia.
GRPO y recompensas de rúbrica mejoran respuestas cardíacas en LLMs pequeños: precisión sube a 50.2%, compitiendo con modelos 8x mayores.
Descubre CLASH, el benchmark que evalúa cómo los modelos de lenguaje enfrentan dilemas de alto riesgo con múltiples perspectivas. Resultados sorprendentes sobre el razonamiento moral de la IA.
Descubre MCBench, el primer benchmark multicontexto que evalúa la seguridad de modelos de lenguaje omni (visión, audio y texto). Revela sus limitaciones en razonamiento multimodal.
Descubre MGRN, una red de razonamiento multigranular que mejora la inferencia de lenguaje natural imitando el proceso cognitivo humano. Resultados superiores en benchmarks.
A2RAG: marco adaptativo para recuperación con grafos que reduce costos y mejora precisión en preguntas complejas. +11% recall, 50% menos tokens.
OG-MAR alinea LLMs con valores culturales usando ontología y multiagentes. Mejora transparencia y precisión.
Un agente de IA personal responde preguntas visuales sobre tu galería. El dataset Camroll y agente Camroll-Agent con memoria jerárquica.
Descubre LoRi, un método que utiliza destilación de bajo rango para mejorar el razonamiento implícito en modelos de lenguaje, superando a técnicas anteriores.
ReasoningFlow revela patrones discursivos en trazas de LLM, mejorando la transparencia y el análisis del razonamiento automático.