MetaEvo: Metaoptimización para la evolución de agentes con experiencia
MetaEvo permite a los agentes de IA mejorar su razonamiento aprendiendo de la experiencia mediante metaoptimización. Dos fases para una evolución continua.
MetaEvo permite a los agentes de IA mejorar su razonamiento aprendiendo de la experiencia mediante metaoptimización. Dos fases para una evolución continua.
Descubre CrowdMath, un dataset de discusiones matemáticas colaborativas que revela la brecha de la IA en razonamiento científico.
EP-HUBO usa optimización cuántica para seleccionar la mejor evidencia en razonamiento legal, superando el voto mayoritario y preservando hipótesis correctas.
Descubre cómo PTD-PO optimiza políticas multimodales sin revelar respuestas, mejorando el razonamiento complejo.
Descubre cómo DyCon reduce el sobrepensamiento en modelos de razonamiento grandes sin perder precisión, adaptándose dinámicamente a la dificultad.
Modelos de IA de frontera razonan sin cadena de pensamiento. Su horizonte temporal se duplica cada año. ¡Podría superar los 7 minutos en 2028!
Descubre DuMate-DeepResearch, un sistema multiagente auditable con búsqueda recursiva y razonamiento por rúbricas que logra el mejor rendimiento en deep research.
Descubre AARRI-Bench, el benchmark que mide si los agentes de IA pueden pensar como investigadores humanos. El mejor modelo solo alcanza un 68.3% de éxito.
La perspectiva de entropía revela cuándo colaborar: un solo agente supera al sistema multiagente en el 43% de los casos. Entropy Judger mejora la precisión.
Identifica fallos en modelos de lenguaje mediante firmas a nivel de token: errores comprometidos y persistentes. Aprende a mejorar la detección y autocoherencia.
CAF-Gen: sistema multiagente que enriquece argumentos mediante colaboración creador-revisor. Supera limitaciones de un solo paso y mejora el modelado argumentativo.
Descubre FLIGHT VLA: la arquitectura asíncrona que permite a los drones razonar y controlar su vuelo con precisión fina.
Aprende cómo los modelos de razonamiento seleccionan entre millones de etiquetas usando una estrategia de destilación mecanicista en dos fases.
Descubre TRUE: un marco que unifica verificación ejecutable, diagramas DAG de regiones factibles y análisis causal de fallos para hacer el razonamiento de los LLM más interpretable y confiable.
Descubre cómo la asimetría de estabilidad entre el razonamiento interno y las respuestas externas revela el engaño en LLMs, y cómo una nueva regularización lo mitiga sin perder capacidad.
MCERF logra un +41% de precisión en evaluación de documentos de ingeniería con recuperación multimodal. Descubre el nuevo marco.
Descubre cómo los LLMs pueden ejecutar programas dinámicos de capas, saltando o repitiendo, para mejorar precisión y eficiencia en razonamiento matemático.
TALAN mejora el post-entrenamiento de LLMs: razonamiento y código sin perder fortalezas. Solo 1% parámetros extra. ¡Descubre!
Descubre RASFT, un nuevo método de fine-tuning que combina supervisión experta con rollouts adaptativos para mejorar el razonamiento en modelos de lenguaje. Res
El modelado de mundo agéntico revoluciona el control de redes 6G, simulando escenarios futuros en tiempo casi real con mayor precisión y velocidad.