Por qué la inteligencia artificial no puede escribir buenos tests de dramaturgos (y cómo solucionarlo)
Este artículo explica por qué los asistentes de inteligencia artificial tienen dificultades para escribir tests robustos con Playwright y presenta una solución práctica basada en descubrimiento progresivo de la estructura DOM. En muchas sesiones de autoría asistida por IA los agentes generan selectores posicionales frágiles como getByRole(button, { name: Add to Cart }).nth(8) o recorren padres con locator(..).locator(..) porque los snapshots de accesibilidad omiten contenedores no semánticos que actúan como anclas estructurales. El resultado son pruebas que rompen con refactors, diferencias de hidratación o contenido dinámico.
La estrategia que proponemos incluye dos capas complementarias de divulgación progresiva para evitar sobrecarga de información y enseñar al modelo a componer consultas estructurales útiles. Capa 1: Exploraci n progresiva del DOM mediante tres primitivas pensadas para ser baratas en tokens y deterministas: resolve_container, inspect_pattern y extract_anchors. Cada llamada devuelve hechos estructurales concretos y compactos que permiten a un LLM construir entendimiento paso a paso, con costes del orden de miles de tokens en lugar de decenas de miles de tokens que gasta un volcado completo de DOM. Capa 2: Configuraci n del asistente de IA que ense a los modelos qu herramientas usar y c mo componerlas. En lugar de cargar una guia monol tica, la configuraci n se revela progresivamente: metadatos livianos, instrucciones nucleares cuando se activan y gu as detalladas solo si son necesarias.
Por qu son necesarias estas capas El arbol de accesibilidad es excelente para mantener una visi n semantic y centrada en el usuario, pero por dise o elimina atributos de implementaci n como data-testid, id o ciertas clases, y aplana envoltorios de maquetaci n. Un snapshot de accesibilidad puede mostrar multiples botones Add to Cart en contenedores gen ricos sin indicar d nde est el data-testid que permitir a un selector estable. Sin esa informaci n no hay manera, ni con el mejor prompt, de generar getByTestId(product-card) porque el atributo no est presente en la entrada. Dar al LLM el DOM completo tampoco es pr ctico: ventanas de contexto gigantes elevan el coste y degradan la se al a ruido, lo que provoca alucinaciones y selectores incorrectos.
La soluci n pragm tica que describimos combina un snapshot accesible similar al de Playwright MCP con un mapeo ref a nodo DOM que act a como punto de entrada para exploraciones estructurales. Las tres primitivas funcionan as: resolve_container(ref) devuelve la cadena de ancestros hasta body con atributos estables detectables; inspect_pattern(ref, nivel) muestra los hijos del contenedor en ese nivel para identificar patrones repetidos como tarjetas o filas; extract_anchors(ref, nivel) realiza un escaneo acotado para extraer encabezados, labels, elementos con nombres, data-testid y otros anclas nicas.
Con ese flujo un agente LLM inicia desde el snapshot sem ntico, pide resolve_container sobre el ref objetivo, si detecta un contenedor repetido pide inspect_pattern para confirmar el patr n y finalmente extrae anclas nicas con extract_anchors para construir un selector rol primero y con alcance de contenedor. El coste en tokens por exploraci n suele estar cerca de 2 a 3k en escenarios reales, frente a 50k o m s de un dump completo. Adem s, al devolver hechos estructurales crudos en vez de interpretaciones, las herramientas permanecen generales y evitamos heur sticas no deseadas que el modelo no puede anular.
Otra pieza clave es enseñar al modelo a componer las primitivas. Herramientas, por s solas, no garantizan buena composici n: muchos modelos fuertes llamaban a resolve_container y luego ignoraban atributos valiosos o saltaban inspect_pattern y generaban nth. Por eso la segunda capa emplea configuraci n del asistente que introduce progresivamente instrucciones de composici n, patrones de selector y pr cticas recomendadas. Esto reduce el coste de conocimiento permanente de decenas de miles de tokens a una peque a carga inicial y solo expone gu as adicionales bajo demanda.
Aspectos de implementaci n pr cticos La implementaci n que mejor funciona en desarrollo es CDP-first usando Puppeteer y mundos aislados para inyectar un puente que recorra el DOM siguiendo las normas ARIA y genere un mapa ref a nodo. El c digo de an lisis corre en un contexto aislado dentro del navegador para evitar interferencias con el JavaScript de la aplicaci n y para mantener consistencia en queries complejas. La arquitectura tambi n utiliza contextos de navegador incognito para aislar roles en pruebas multiusuario, lo que facilita flujos E2E complejos sin fugas de sesi n entre admin, proveedor y cliente.
Principios de dise o para APIs orientadas al LLM Aprendimos que las APIs que enfrentan LLMs prefieren primitivas predictibles y de bajo nivel frente a abstracciones opinadas. Devolver hechos puros (tags, atributos, conteo de hijos, outline textual breve) y dejar la estrategia al modelo guiado por la configuraci n produce mayor generalizaci n y flexibilidad. Adem s, la eficiencia en tokens permite una iteraci n r pida: cuando consultar cuesta poco, se explora m s, se descubren patrones y la calidad de los selectores mejora r pidamente.
Limitaciones y preguntas abiertas Verdex es una capa de autor a en tiempos de desarrollo, no un reemplazo de Playwright para ejecuci n. Modelos muy d biles pueden seguir teniendo problemas para componer correctamente aunque la configuraci n ayuda mucho. La selecci n de primitivas y el presupuesto de tokens por paso fueron resultado de iteraci n emp rica; cabe investigar si otras descomposiciones o asignaciones de presupuesto funcionan mejor. El tratamiento de iframes se hace mediante expansi n diferida con refs calificados por frame para manejar contenido embebido y restricciones cross origin.
Lecciones para equipos de desarrollo y empresas que quieran aplicar esto Si su organizaci n quiere mejorar la autor a de pruebas asistida por IA y reducir fragilidad, conviene invertir en mapeos ref a DOM y en reglas de composici n progresiva. En Q2BSTUDIO, empresa de desarrollo de software y aplicaciones a medida, aplicamos estos principios para crear soluciones que combinan software a medida, inteligencia artificial y buenas pr cticas de seguridad. Nuestro equipo dise a arquitecturas que integran agentes IA para autor a de pruebas, servicios cloud aws y azure, servicios inteligencia de negocio y estrategias de ciberseguridad para proteger el ciclo de vida del desarrollo.
Si su objetivo es optimizar pruebas E2E, modernizar aplicaciones legacy o implantar agentes IA que trabajen con reglas de composici n robustas, en Q2BSTUDIO ofrecemos consultor a y desarrollo a medida. Conecte con nuestros servicios de inteligencia artificial a trav s de Servicios de inteligencia artificial o explore soluciones de aplicaciones y software a medida en aplicaciones a medida. Tambi n podemos integrar capacidades de power bi y servicios inteligencia de negocio para cerrar el ciclo entre datos, automatizaci n y pruebas automatizadas.
Palabras clave integradas en contexto para mejorar posicionamiento incluyen aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi. Si desea un estudio de caso, prueba de concepto o asistencia para implantar esta arquitectura en su pipeline de pruebas, contacte con Q2BSTUDIO y le ayudamos a llevar autor a asistida por IA a un nivel pr ctico y sostenible.
Comentarios