OpenAI lanzó Atlas y lo mató con una extensión de Chrome: resumen y cómo lo replicamos con una extensión más ligera y accesible

OpenAI presentó recientemente ChatGPT Atlas, un fork de Chromium con capacidades agentic integradas y una interfaz reconstruida con SwiftUI, AppKit y Metal. Aunque la experiencia visual es cuidada, las capacidades fundamentales ya están disponibles desde la web de ChatGPT. En realidad no hace falta un navegador completo nuevo para obtener agentes IA en el navegador: una extensión de Chrome bien diseñada puede ofrecer más flexibilidad y facilidad de distribución.

Por qué una extensión de Chrome es la opción adecuada: las extensiones pueden capturar pantallas de la pestaña activa, inyectar JavaScript en cualquier página, escuchar eventos de navegación, crear UI dentro del navegador y ejecutar acciones con permisos elevados sin alterar la configuración del usuario. Además son fáciles de distribuir, se actualizan automáticamente y funcionan en cualquier sistema donde esté Chrome, lo que reduce la barrera de entrada frente a mantener un fork de Chromium.

Arquitectura esencial en pocas líneas: la extensión típica consta de un manifest que declara permisos y puntos de entrada, un background que actúa como service worker y coordinador, un content script que se inyecta en las páginas para ejecutar acciones, y una sidepanel que ofrece la interfaz conversacional. Con esta base se puede construir un agente que combine dos modos de trabajo: computer use para automatizar la interacción visual con páginas y un router de herramientas para delegar tareas a APIs externas.

Elección del LLM y coste: existieron varias opciones como OpenAI y Anthropic pero con APIs de pago y sin capa gratuita suficiente para facilitar forks y experimentación abierta. Google Gemini ofrece una capa gratuita generosa para ciertos modelos, lo que facilita pruebas y despliegues iniciales sin costes elevados. Esa disponibilidad hace viable que desarrolladores y empresas prueben integraciones de agentes IA sin quedarse rápidamente bloqueados por el coste.

Bucle de computer use resumido: 1 capturar un screenshot de la pestaña activa como la vista del agente, 2 enviar la imagen junto al DOM y la intención al modelo, 3 el modelo devuelve una función de acción con coordenadas o selectores, 4 el background reenvía a content script, 5 el content script ejecuta la acción en la página y dibuja un indicador visual para confianza, 6 repetir con nueva captura hasta completar la tarea. Este enfoque es iterativo y adaptativo, no un guion fijo.

Acciones que el content script puede simular: clics encontrados por elementFromPoint, rellenado de campos con tipeo carácter a carácter para disparar eventos en frameworks como React, scroll, pulsaciones de teclas, combinaciones, arrastrar y soltar y hover para activar menús. Implementar tipeo realista y focus correcto fue clave para que aplicaciones modernas respondan como si fuera un humano interactuando.

Permisos críticos y particularidades MV3: la extensión necesita permisos como sidePanel, storage, tabs, history, bookmarks, webNavigation, scripting y contextMenus. Un punto sutil fue que el panel lateral no siempre puede capturar screenshots directamente, por lo que hay que consultar la pestaña activa y usar el windowId correcto desde el background. También hay que ajustar manifest y patrones según Manifest V3 para evitar errores al empaquetar.

Router de herramientas para acciones externas: muchas tareas no requieren interacción visual y se delegan a APIs especializadas, por ejemplo enviar un mensaje a Slack, crear un issue en GitHub o procesar correo en Gmail. Un router de herramientas permite descubrir APIs relevantes, gestionar autenticación y ejecutar las llamadas necesarias en paralelo cuando procede. Combinar computer use y el router multiplica las posibilidades del agente.

Errores habituales y cómo evitarlos: comprobar las guías del proveedor de computer use para permisos y guardrails antes de depurar largo tiempo, asegurarse del contexto correcto entre sidepanel, background y content script, y ajustar la manifest para MV3 son atajos que evitan horas de debugging. Otra lección práctica fue preferir capturar pantallas desde el background especificando la pestaña activa en lugar de intentar hacerlo desde el contexto del panel lateral.

Repositorio y prueba rápida: el proyecto de referencia está open source bajo el nombre open chatgpt atlas para quien quiera estudiar el código y adaptarlo a sus necesidades. Para probarlo localmente se clona el repo, se instalan dependencias, se construye el paquete y se carga la carpeta resultante en chrome://extensions en modo desarrollador. Después basta pegar la clave de Gemini en ajustes y pedir al agente que haga tareas sencillas como clicar un botón de búsqueda.

Q2BSTUDIO y cómo podemos ayudar: en Q2BSTUDIO somos una empresa de desarrollo de software y aplicaciones a medida especializada en inteligencia artificial, ciberseguridad y servicios cloud. Ofrecemos soluciones de software a medida orientadas a empresas que quieren integrar agentes IA en sus flujos, automatizar procesos o desplegar soluciones escalables en AWS y Azure. Si necesita crear una aplicación o servicio que aproveche agentes IA y automatización, podemos ayudar desde la arquitectura hasta la implementación y la seguridad operativa. Conoce nuestros servicios de desarrollo de aplicaciones y software a medida en Desarrollo de aplicaciones y software multiplataforma y descubre nuestras capacidades en inteligencia artificial para empresas en Inteligencia artificial.

Palabras clave y posicionamiento: este artículo destaca conceptos relevantes como aplicaciones a medida, software a medida, inteligencia artificial, ciberseguridad, servicios cloud aws y azure, servicios inteligencia de negocio, ia para empresas, agentes IA y power bi para ayudar a mejorar la visibilidad en búsquedas relacionadas. Si su organización quiere explorar pilotos con agentes IA dentro del navegador o integrar procesos automatizados y pipelines de datos para power bi y BI, en Q2BSTUDIO tenemos experiencia práctica para llevar el proyecto a producción.

Conclusión: Atlas demuestra una dirección clara en navegadores con agentes IA, pero no es necesario reinventar el navegador para explotar esas capacidades. Con una extensión bien construida se puede conseguir automatización visual, orquestación con APIs externas y distribución sencilla. Si quiere convertir esa idea en una solución productiva y segura, contacte con Q2BSTUDIO para diseñar una solución de software a medida que incluya integración de agentes IA, ciberseguridad y despliegue en la nube.