#modelos

Rationalize: Alineación Humano-IA mediante Razonamiento Semántico

Rationalize: un marco de roles complementarios (Explorador-Guía, etc.) para alinear razonamiento humano e IA. Descubre cómo mejora la comprensión compartida.

2026-06-01 · 3 min

PInVerify: benchmark offline para verificación activa de instancias

PInVerify es un nuevo benchmark offline que evalúa agentes encarnados en la verificación activa de objetos con atributos finos. Descubre cómo funciona y sus resultados con MLLMs.

2026-06-01 · 2 min

COFT: Razonamiento Justo con Cadena de Pensamiento en LLMs

COFT reduce sesgos en LLMs hasta un 55% sin reentrenar, preservando calidad y razonamiento justo. Método auditado.

2026-06-01 · 2 min

Mismo paciente, diferentes palabras: estabilidad semántica en LLMs clínicos

¿Los LLMs clínicos son inconsistentes ante cambios en las preguntas? Un estudio mide su estabilidad semántica y propone métricas para evaluarla.

2026-06-01 · 2 min

LARK: Selección de trayectorias de razonamiento basada en aprendibilidad

Descubre LARK: selecciona trayectorias de razonamiento basadas en la aprendibilidad del estudiante para una destilación eficiente. ¡Optimiza tus modelos!

2026-06-01 · 1 min

EUDAIMONIA: Evaluando dinámicas indeseables en IA

Descubre EUDAIMONIA, el benchmark que revela cómo los LLMs más avanzados fallan en dinámicas sociales. ¿Protegen tu bienestar? Entra y conoce los resultados.

2026-06-01 · 2 min

Ataques automáticos a agentes de IA de ingeniería inversa

Descubre cómo ataques adversariales mediante algoritmos genéticos pueden engañar a agentes de IA en ingeniería inversa, ocultando código malicioso en binarios.

2026-06-01 · 1 min

CobSeg: Modelado de Límites de Coherencia para Segmentación de Diálogos

CobSeg mejora la segmentación de temas en diálogos sin LLM. Reduce errores en benchmarks. Ideal para apps humano-IA.

2026-06-01 · 2 min

Alineación humana, calibración y patrones en la incertidumbre de LLMs

Descubre cómo los LLMs reflejan la incertidumbre humana mediante alineación, calibración y patrones de activación. Un estudio clave para entender y combatir alucinaciones.

2026-06-01 · 2 min

Ver antes de acordar: alineando consenso multiagente con evidencia visual

Alinea la evidencia visual de múltiples agentes para consenso preciso en VQA. EAGLE: sin entrenamiento, resultados confiables.

2026-06-01 · 1 min

Modelado latente de compañeros en modelos mundiales para MARL

¿Cómo mejoran los modelos mundiales con teoría de la mente la coordinación multiagente en entornos parcialmente observables?

2026-06-01 · 2 min

Aumento de paráfrasis en destino para traducción de lengua de señas con LLMs

Descubre la paráfrasis generada por GPT-4o que mejora la traducción de lengua de señas en PHOENIX14T, pero revela límites en conjuntos extremos.

2026-06-01 · 2 min

Espada, escudo y talón de Aquiles: sesgo lingüístico en LLM para navegación

Descubre cómo la estructura lingüística y los sesgos en los LLM afectan la navegación espacial. La topología protege, la semántica puede engañar.

2026-06-01 · 2 min

Disponibilidad de habilidades en agentes LLM: estudio SkillsBench

Según SkillsBench, la disponibilidad de habilidades en agentes LLM mejora el éxito en tareas hasta 36%. La granularidad apenas afecta.

2026-06-01 · 1 min

DOA: Política sin entrenamiento para traducción simultánea de formato largo

Nueva política DOA permite traducción simultánea sin entrenamiento. Baja latencia, calidad cercana a offline con SpeechLLMs.

2026-06-01 · 3 min

Verificación detallada con razonamiento diagnóstico para extracción de tripletes de sentimiento

FiVeD: verificación de grano fino para mejorar la extracción de tripletes de sentimiento. Aumenta F1 hasta 3.53. Ideal para sistemas de opinión.

2026-06-01 · 3 min

Pronosticadores GPU: Modelos de lenguaje como sustitutos selectivos

Los LLMs pueden pronosticar el rendimiento de kernels GPU funcionando como sustitutos selectivos. Esto permite explorar más candidatos y hallar kernels más rápidos con menor costo de medición.

2026-06-01 · 2 min

Ampliando el ASR conversacional húngaro: Corpus BEA-Dialogue+

El nuevo corpus BEA-Dialogue+ ofrece 200 horas de conversaciones naturales transcritas para ASR en húngaro. Con SOT se logran mejoras significativas en WER y CER. ¡Potencia tus sistemas de diálogo!

2026-06-01 · 1 min

Si los LLM tienen atributos humanos, también Age of Empires II

¿Son realmente humanos los LLM? Un estudio demuestra que atribuirles moralidad o comprensión es tan válido como hacerlo con Age of Empires II. Descubre por qué.

2026-06-01 · 1 min

Modelos visuales suprimen género femenino en imágenes ambiguas

Investigación revela que VLMs suprimen representaciones femeninas en imágenes ambiguas, incluso en ocupaciones estereotipadas femeninas. Conoce la métrica LALS.

2026-06-01 · 2 min