#modelo

Precio sombra del razonamiento: asignación óptima de presupuesto para LLMs

Descubre CLEAR optimiza la asignación de presupuesto en inferencia de LLMs, logrando hasta 3x más precisión que asignación uniforme con recursos limitados.

2026-06-03 · 1 min

Descomponiendo cómo el prompting guía el comportamiento

Descubre cómo las instrucciones transforman las representaciones internas de la IA. Un estudio revela la geometría detrás del comportamiento inducido.

2026-06-03 · 3 min

De noticias extensas a pronósticos exactos: Fusión importancia y reflexión PRM

Descubre cómo fusionar noticias largas con predicciones de series temporales usando modelos de recompensa para mayor precisión.

2026-06-03 · 2 min

Piensa Antes de Hablar: De la Evaluación a la Expresión Pública

Descubre cómo el marco TBS separa el razonamiento privado de la expresión pública en simulaciones multiagente, analizando la dinámica del silencio.

2026-06-03 · 1 min

ClinicalMC: Benchmark para la toma de decisiones clínicas multicurso con LLMs

Explora ClinicalMC, el benchmark que evalúa LLMs en la toma de decisiones clínicas multicurso. Conoce los resultados y su impacto en la salud.

2026-06-03 · 2 min

Percepción antes de razonar: marco PRPF para agentes móviles

El marco PRPF optimiza la intervención de agentes móviles proactivos al percibir antes de razonar, reduciendo falsos positivos y mejorando la eficiencia. Descubre cómo.

2026-06-03 · 2 min

Destilación de reglas ASP desde LLMs para VQA neurosimbolico

Aprende a destilar reglas de programación lógica desde LLMs para VQA interpretable, con solo pocos ejemplos. Alternativa eficiente al aprendizaje de reglas tradicional.

2026-06-03 · 1 min

Resultado negativo: transferencia de activación entre modelos Pythia

¿Puede un modelo transmitir activaciones a otro? En nuestro experimento con Pythia, la alineación no basta para comunicación causal. Resultado negativo.

2026-06-03 · 2 min

InfoMem: Agentes de Memoria con Ganancia de Información Condicionada a Respuestas

Descubre InfoMem, un mecanismo de recompensa que evalúa la utilidad de la memoria final para mejorar el rendimiento de los LLM en tareas de largo contexto.

2026-06-03 · 3 min

StepFinder: marco semántico temporal para atribución de fallos en multi-agentes

Descubre cómo StepFinder identifica la causa raíz de fallos en sistemas multi-agente con un marco semántico temporal, reduciendo tiempos de inferencia un 79%.

2026-06-03 · 3 min

Definición formal y meta-modelo para una teoría de la mente en máquinas

Conoce la primera definición formal y meta-modelo para la Teoría de la Mente en IA, basada en psicología y neurociencia.

2026-06-03 · 2 min

ThoughtFold: Plegado de Cadenas de Razonamiento con Aprendizaje Introspectivo

Descubre ThoughtFold, un framework que elimina exploraciones redundantes en modelos de razonamiento, reduciendo tokens hasta un 56% sin perder precisión.

2026-06-03 · 2 min

Del prompt al servicio: gateway de orquestación SLM para mundos virtuales

Aprende cómo un gateway de orquestación SLM enruta peticiones en mundos virtuales a servicios de IA distribuidos, sin modificar el cliente.

2026-06-03 · 2 min

Restricciones auxiliares para el seguimiento de instrucciones en LRMs

Reduce violaciones de restricciones en un 39% con CRGC. Mejora el seguimiento de instrucciones en modelos de razonamiento.

2026-06-03 · 3 min

Sesgo de género en triaje médico con LLM: mismos síntomas, urgencia desigual

Estudio revela que los LLM como GPT y Gemini subestiman la urgencia de mujeres jóvenes con síntomas neurológicos, replicando sesgos humanos.

2026-06-03 · 2 min

Benchmark para diagnosticar brechas de conocimiento en LLMs con APIs

¿Cómo detectan los LLMs sus carencias al usar APIs? NovelAPIBench ofrece un diagnóstico detallado en 6 categorías. Aprende qué funciona mejor.

2026-06-03 · 3 min

Más que respuestas: Evaluación verificable del razonamiento químico paso a paso

Evalúa el razonamiento químico de los LLMs con ChemCoTBench-V2, un benchmark verificable paso a paso que detecta fallos en la lógica ocultos tras respuestas correctas.

2026-06-03 · 2 min

Code-on-Graph: Razonamiento Programático con LLMs

Descubre Code-on-Graph, framework que combina LLMs y grafos de conocimiento para razonamiento programático flexible. Supera limitaciones de precisión y escalabilidad.

2026-06-03 · 2 min

Persistencia de subobjetivos en razonamiento latente jerárquico

Descubre cómo la persistencia moderada de subobjetivos (periodos de 3 a 6 pasos) mejora el razonamiento latente jerárquico.

2026-06-03 · 2 min

Calificación automática de C++ con BART y rúbricas

Descubre cómo mejora la calificación automática de tareas C++ con BART y rúbricas: menor error y distribuciones de notas más realistas.

2026-06-03 · 2 min