Sesión de preguntas y respuestas en vivo con Anthropic sobre Opus 4.5 - Resumen
Organizamos una mesa redonda en vivo sobre Claude Opus 4.5 y aquí tienes un resumen de lo que discutimos y aprendimos. Dos días después de un webinar técnico celebrado apenas tres horas tras el lanzamiento de Opus 4.5 decidimos abrir el formato y sentarnos a dialogar en conjunto; además invitamos a Marius del equipo de Applied AI en Anthropic para responder las preguntas más frecuentes sobre este modelo de frontera.
Los números hablan por sí solos y también la experiencia práctica. En noviembre de 2024 Claude Sonnet 3.5 alcanzó 49% en SWE Bench Verified, una referencia centrada en resolución de bugs en entornos reales. En noviembre de 2025 Opus 4.5 superó 80% por primera vez, pero no se trata solo de puntuaciones: los modelos ahora captan la intención con mucha más naturalidad. Antes era casi necesario saber diseñar prompts como un experto; hoy muchas veces el modelo infiere lo que querías decir aunque no lo hayas expresado con precisión.
Las capacidades para desarrollo front end han dado un salto: con un solo prompt es posible generar aplicaciones funcionales con interfaces estéticas y diferenciadas, alejándose del aspecto genérico que veíamos hace meses. Al mismo tiempo, existe un exceso de opciones: aparecen nuevos modelos casi semanalmente y eso plantea preguntas prácticas sobre cuál elegir y cómo evaluar cuando métricas como SWE Bench se acercan al máximo.
Como dijo Brendan del equipo Kilo la experiencia cambia: la pericia en sintaxis importa menos y la pericia en la ingeniería del software importa más. Arquitectura, direccionamiento y claridad de objetivos son lo que separa un código asistido por IA efectivo de uno pobre. En la mesa redonda comparamos el uso de Opus como una figura semejante a un desarrollador junior: entusiasta y constante, pero a veces confidente respecto a respuestas incorrectas. Para desarrolladores junior la consecuencia es que la sintaxis pierde protagonismo y el juicio de ingeniería se vuelve el factor crítico; para líderes de ingeniería significa orientar decisiones y validar resultados más que enseñar cada detalle sintáctico.
Varios ponentes como Simon Willison y Theo de T3 usaron Opus 4.5 para refactorizar grandes bases de código. El modelo no reemplazó su criterio senior sino que amplificó su capacidad de decidir y ejecutar con mayor rapidez y precisión. Nuestra recomendación práctica es usar Opus para planificación y modelos más económicos para ejecución: los modelos de frontera son excelentes en razonamiento a largo plazo y en tomar decisiones inteligentes, pero una vez definida una especificación sólida, modelos menos costosos pueden implementar el plan correctamente. Marius sugirió empezar con Opus para estimar el coste real de la tarea y no solo el coste por prompt; la eficiencia en tokens a lo largo de varias iteraciones puede justificar el uso del modelo más caro. Si se construyen agentes, conviene apoyarse en Opus porque decisiones iniciales más inteligentes reducen el número de interacciones y ahorran tokens.
Marius explicó además avances internos relevantes: en tareas de larga duración Opus superó sesiones de 30 horas que antes realizábamos con Sonnet 4.5; la ventana de contexto de 200K tokens no es un límite definitivo sino una forma de organizar la secuencia, y Anthropic espera ampliar esa capacidad hacia 1M de tokens. Las nuevas funciones de uso avanzado de herramientas, como programmatic tool calling y tool search, cambian el juego para agentes que manejan grandes volúmenes de datos, evitando la contaminación de la ventana de contexto con logs y métricas masivas. Un dato llamativo es que Opus 4.5 superó la prueba interna para ingenieros senior en Anthropic, mejor que cualquier candidato humano, lo que resulta a la vez inquietante y emocionante.
Respondimos preguntas del público que incluyen recomendaciones de prompting y ahorro de costes. Resumen de consejos prácticos: limpiar y estructurar los prompts para Opus porque sigue la intención y puede fallar si recibe instrucciones contradictorias; descomponer tareas grandes en subtareas concretas en vez de enviar prompts masivos y vagos; elegir Architect para crear planes y Orchestrator para distribuir el trabajo entre agentes y modos. En especial Opus 4.5 trae mejoras significativas para construir agentes autónomos integrados con múltiples APIs y herramientas gracias a tool search y llamada programática de herramientas, así como a una nueva función de effort para gestionar prioridades.
En Q2BSTUDIO, empresa de desarrollo de software y aplicaciones a medida, somos especialistas en inteligencia artificial, ciberseguridad y servicios cloud aws y azure, y aplicamos estas tendencias directamente en soluciones reales para empresas. Ofrecemos desde desarrollo de aplicaciones y software a medida hasta servicios de inteligencia de negocio y Power BI, pasando por automatización de procesos y diseño de agentes IA para casos de uso empresariales. Si quieres ver ejemplos de nuestros proyectos de desarrollo de aplicaciones puedes visitar desarrollo de aplicaciones y software multiplataforma y para soluciones de inteligencia artificial y servicios a empresas consulta Inteligencia Artificial para empresas. Integrar agentes IA, IA para empresas y plataformas de Power BI forma parte de nuestra oferta para maximizar valor y automatización sin descuidar la seguridad y la gobernanza.
Para concluir, la evolución hacia modelos como Opus 4.5 cambia el rol del profesional técnico: más enfoque en diseño, validación y decisiones estratégicas; menos en detalles sintácticos. En Q2BSTUDIO seguiremos creando contenido y recursos que ayuden a los equipos a entender qué modelo usar, cuánto tiempo dejarlo trabajar antes de revisar y cuál es la herramienta adecuada para cada tarea. Mantente atento a futuros eventos y materiales donde profundizaremos en cómo aplicar estas capacidades en proyectos reales de software a medida, ciberseguridad y servicios cloud.
Comentarios