#artefacto

Psicometría en SLMs: artefactos de prompt, no constructos psicológicos

Descubre por qué los SLMs miden artefactos de prompt, no rasgos psicológicos. Un estudio revela cómo los sesgos de cumplimiento dominan las evaluaciones.

2026-06-03 · 2 min

Autointerpretación: adaptadores ligeros entrenados en pares vector-etiqueta

Cómo adaptadores ligeros entrenados en pares vector-etiqueta logran autointerpretación que supera etiquetas y revela razonamiento implícito.

2026-06-03 · 2 min

WebRISE: Evaluación de Estados por Requisitos en Artefactos Web MLLM

WebRISE: nuevo benchmark evalúa estados y transiciones en artefactos web generados por MLLM. La calidad visual no es suficiente. Descubre más.

2026-06-03 · 2 min

La ilusión de generalización en modelos de lenguaje tabulares

¿Son realmente efectivos los modelos de lenguaje tabulares? Nuestra reevaluación de Tabula-8B muestra que la generalización se debe a artefactos de evaluación, no a aprendizaje real.

2026-06-03 · 2 min

Construcción de datasets robóticos como proceso de compilación de artefactos

Descubre cómo Bagzel, basado en Bazel, acelera hasta 386x la creación de datasets robóticos, garantizando reproducibilidad y eficiencia en proyectos de IA y robótica.

2026-06-02 · 2 min

El aprendizaje subliminal es un artefacto de LoRA

El aprendizaje subliminal en modelos de lenguaje es un artefacto de LoRA: un fenómeno frágil que depende del rango y contexto, y desaparece con fine-tuning completo.

2026-06-02 · 2 min

¿Pueden los agentes LLM sostener dinámicas organizacionales a largo plazo?

Descubre cómo TaskWeave permite a agentes LLM simular dinámicas organizacionales coherentes durante un año usando memoria estructurada. Optimiza la planificación y ejecución en entornos empresariales.

2026-06-02 · 2 min

Supresión de atajos en falsificaciones para detección generalizable de deepfakes

El marco S^3 suprime atajos específicos de falsificación para lograr detección de deepfakes generalizable y robusta, mejorando el rendimiento en nuevos métodos de ataque.

2026-06-02 · 2 min

¿Qué límites de verdad del repositorio pierden los agentes de IA?

Descubre cómo los agentes de IA pierden la verdad del repositorio al reparar código. Casos reales de fallos en límites de verdad y cómo diagnosticarlos.

2026-06-01 · 3 min

Ancla: Mitigando la Deriva de Artefactos en la Generación de Benchmarks de Agentes

2026-05-28 · 2 min