ToMAP: Persuasores LLM con conciencia del oponente
Descubre cómo ToMAP, un modelo de 3B parámetros, supera a GPT-4o en persuasión usando Teoría de la Mente. Aumenta efectividad un 39.4%.
Descubre cómo ToMAP, un modelo de 3B parámetros, supera a GPT-4o en persuasión usando Teoría de la Mente. Aumenta efectividad un 39.4%.
Nuevo marco OncoReason alinea LLMs con razonamiento clínico para predicción de supervivencia robusta e interpretable. Mejora F1 un 6% y reduce MAE un 12%.
ForesightKV optimiza la evicción de caché KV en modelos de razonamiento, superando métodos previos con la mitad del presupuesto y aprendizaje combinado.
Las sondas de razonamiento en circuitos booleanos con bucle ofrecen garantías estadísticas óptimas sin depender del tamaño del grafo. ¡Descubre más!
SmartThinker calibra la longitud de cadena de pensamiento logrando hasta 52.5% de compresión y mejora de precisión en modelos de lenguaje grandes.
Descubre d2, un marco de razonamiento para modelos de difusión que mejora el rendimiento en tareas lógicas y matemáticas, superando a RL tradicional.
Aprende cómo la teoría centrada en tareas y currículos fáciles a difíciles permiten la auto-mejora iterativa de LLMs con garantías de rendimiento.
Descubre ARTIST, el sistema que optimiza el razonamiento en series temporales seleccionando segmentos clave. Mejora la precisión un 6.46% con aprendizaje por refuerzo.
Descubre cómo el autoencoder disperso a nivel de paso (SSAE) desentraña el razonamiento de los LLMs, revelando información sobre corrección y lógica. Ideal para interpretabilidad en IA.
Conoce el benchmark TAD para conducción autónoma. Scene-CoT y TCogMap mejoran la comprensión temporal de VLMs hasta un 17.72% sin entrenamiento.
Descubre cómo la diversidad de opiniones y la confianza calibrada mejoran el debate entre agentes de IA, superando al voto mayoritario.
Descubre cómo la parada bayesiana óptima permite obtener respuestas consistentes de LLM usando menos muestras, ahorrando hasta un 50% en costos de inferencia.
Descubre cuándo y cuánto imaginar en razonamiento espacial visual. AVIC optimiza el uso de modelos del mundo, superando a GPT-4o con menos recursos.
El nuevo método CPT mejora el equilibrio entre razonamiento y metacognición en LLMs, logrando +2.2 puntos en matemáticas y +5.2 en F1 de abstención. Descubre cómo.
Descubre ATLAS, un framework donde un orquestador decide cómo escalar el razonamiento de LLMs en tiempo de prueba, mejorando precisión con menos llamadas API.
LookWise mejora el razonamiento visual detallado en modelos multimodales sin entrenamiento, logrando 4x más velocidad y mayor precisión en benchmarks. ¡Descúbrelo!
Descubre DyLLM, un marco de inferencia sin entrenamiento que acelera hasta 9.6x los LLMs de difusión seleccionando solo tokens relevantes. Ideal para razonamiento y código.
PaintBench: benchmark determinista para edición visual precisa en IA. Evalúa 20 operaciones con métricas exactas. Descubre la baja precisión actual.
ES-Merging fusiona modelos multimodales biológicos usando señales de embedding, mejorando razonamiento cruzado y preservación.
Los LLM de frontera fallan en rotación mental incluso con ayuda externa. Estudio: solo 62.5% de precisión. Descubre por qué carecen de primitivas visuales.