Experimentación LLM: Optimizando mi agente de diario
En este artículo resumo una serie de experimentos prácticos que realicé mientras desarrollaba un agente de diario basado en modelos LLM, con el objetivo de extraer temas, sentimiento y resúmenes estructurados en formato JSON para su uso en una aplicación real.
Motivación y objetivo: cuando uso modelos conversacionales para escribir mi diario, las entradas mezclan temas como carrera, salud, familia, hobbies y amigos. Quise automatizar la detección de temas y el análisis de sentimiento para poder organizar cada conversación, crear chats temáticos y visualizar la evolución de estados a lo largo del tiempo.
Creación del dataset: para no usar datos personales generé de forma sintética 30 conversaciones clasificadas en tres niveles de dificultad. Los ejemplos incluyeron conversaciones cortas y claras, conversaciones medianas con sentimientos matizados y conversaciones largas con temas múltiples y detalles irrelevantes. Cada muestra tiene como salida objetivo un objeto JSON con campos topics, sentiment y summary.
Estrategias probadas: comparé dos enfoques de extracción estructurada y dos modelos. El primer enfoque fue basado en instrucciones detalladas en el prompt, pidiendo estrictamente un JSON limpio. El segundo fue un enfoque con esquema o schema enforced, donde se define una herramienta o esquema de parámetros que obliga a respetar tipos, enums y estructura. Los modelos evaluados fueron gpt-4o y gpt-4o-mini.
Métricas de evaluación: validación sintáctica del JSON, detección correcta de temas frente a la lista predefinida career hobby family health friends, y calidad del resumen evaluada mediante otro LLM que actúa como juez. Además registré latencia y costos para comparar rendimiento y aplicabilidad práctica.
Resultados clave: el enfoque con esquema obtuvo la mayor robustez en validez de JSON y en precisión de temas. Con gpt-4o el esquema fue la variante ganadora en todas las métricas, incluyendo la calidad de resumen y la menor latencia promedio. El método basado en instrucciones mostró mayor variabilidad y problemas puntuales como envolturas en markdown que rompían la validez JSON.
Hallazgos detallados: la estrategia de prompting fue tan importante o más que la potencia bruta del modelo. Con un esquema bien definido incluso modelos más ligeros como gpt-4o-mini logran alta fiabilidad. Detecté además que el evaluador LLM usado como juez puede ser estricto y merece refinamiento para evitar penalizar resúmenes aceptables.
Lecciones prácticas: para proyectos reales que requieran extracción estructurada conviene diseñar un esquema de salida y validar formatos en la capa de prompt o mediante herramientas de function calling cuando la API lo permite. Siempre revisar manualmente los datos generados por IA antes de usarlos en producción. Automatizar tests y métricas evita sorpresas en despliegues a escala.
Sobre Q2BSTUDIO: en Q2BSTUDIO ponemos en producción soluciones que combinan investigación y buenas prácticas de ingeniería. Somos especialistas en desarrollo de software a medida y ofrecemos servicios de inteligencia artificial para empresas, creando agentes IA personalizados que integran análisis de texto, clasificación temática y generación de resúmenes. Si busca llevar su idea a una aplicación real podemos ayudar con el desarrollo de aplicaciones a medida y sistemas a producción.
Además ofrecemos experiencia en ciberseguridad y pentesting para proteger datos sensibles durante todo el ciclo de vida de la aplicación. También acompañamos la adopción de servicios cloud aws y azure para escalabilidad y despliegue seguro. Para proyectos de analítica y visualización trabajamos con servicios inteligencia de negocio y Power BI como herramientas clave para extraer valor de los datos.
Si su objetivo es incorporar inteligencia artificial a procesos internos, automatizar clasificación de textos o desplegar agentes IA que mejoren la interacción con usuarios o empleados, en Q2BSTUDIO diseñamos soluciones integrales que combinan software a medida, integraciones cloud y controles de seguridad. Conozca nuestras opciones de consultoría en soluciones de inteligencia artificial.
Conclusión: experimentar con distintos prompts, esquemas y modelos es imprescindible para optimizar un agente de diario que entregue salidas estructuradas y fiables. La estrategia de prompting y la definición de esquema marcan la diferencia entre una integración robusta y una integración costosa en tiempo de limpieza y validación. Para proyectos empresariales que requieran agentes IA, procesamiento de lenguaje y BI, Q2BSTUDIO ofrece la experiencia necesaria para diseñar, desarrollar y asegurar la solución.
Palabras clave integradas: aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA, power bi
Comentarios