Flujo de trabajo de Claude Code Agency: Cómo ejecutamos proyectos en 2025
Resumen Ejecutivo
Ejecutamos una agencia web headless donde Claude Code maneja el 60-70% del trabajo de implementación que solía requerir un equipo completo. Nuestro costo por MVP bajó de $35,000-$50,000 a $8,000-$15,000. El tiempo hasta el primer despliegue pasó de 6-8 semanas a 10-18 días. Pero la IA no reemplazó todo--reemplazó tareas específicas y bien delimitadas. Aquí está lo que funciona, lo que no, y por qué seguimos pagando a humanos.
Tabla de Contenidos
- Por Qué Reconstruimos Nuestra Agencia Alrededor de Claude Code
- ¿Cómo Se Ve Realmente un Flujo de Trabajo de Agencia con Claude Code?
- Lo Que la IA Maneja en Nuestros Proyectos
- Lo Que Todavía Contratamos Humanos Para Hacer
- Números Reales: Costo por MVP y Tiempo hasta Despliegue
- Nuestra Configuración de Proyecto con Claude Code
- ¿Es la Empresa de una Persona de Mil Millones Real?
- Lo Que Todavía No Funciona
- Cómo Definimos el Alcance de Proyectos de Clientes Ahora
- Las Matemáticas del Fundador: Desglose de Horas por Semana
- Preguntas Frecuentes
Por Qué Reconstruimos Nuestra Agencia Alrededor de Claude Code
No fue planeado. A finales de 2024, éramos una tienda de desarrollo headless de 4 personas facturando $150/hora por trabajo con Next.js y CMS headless. Para marzo de 2025, después de integrar Claude Code--específicamente Claude 3.5 Sonnet inicialmente, ahora Claude 4 Sonnet--en cada proyecto, dos de esos roles habían cambiado fundamentalmente. No fueron eliminados. Cambiaron. Un desarrollador senior se convirtió en ingeniero de dirección de IA a tiempo completo. El otro se cambió completamente a revisión de código y arquitectura.
El catalizador: un proyecto Sanity + Next.js 14 donde usamos Claude Code para generar la capa de esquema completa, consultas GROQ, construir 14 plantillas de página y escribir el pipeline de despliegue. Lo que habría sido 120 horas facturables llegó a 34. Nos miramos el uno al otro y dijimos: "Necesitamos reestructurar todo."
Ese es el origen honesto. No una gran estrategia. Un proyecto que terminó demasiado rápido.
¿Cómo Se Ve Realmente un Flujo de Trabajo de Agencia con Claude Code?
Aquí está una semana típica en una construcción activa de cliente:
Lunes: Arquitectura + Inicio
- Yo: 2 horas definiendo arquitectura de componentes, modelo de datos, contratos de API
- Yo: 1 hora escribiendo instrucciones de proyecto CLAUDE.md (más sobre esto abajo)
- Claude Code: genera andamio inicial del proyecto, instala dependencias, configura modo estricto de TypeScript, configura linting
Martes-Jueves: Sprint de Construcción
- Yo: 1-2 horas por día revisando salida de Claude Code, detectando errores, redirigiendo
- Claude Code: 6-8 tareas por día--componentes de página, rutas de API, definiciones de esquema CMS, funciones de utilidad, archivos de prueba
- Yo: pivotes de arquitectura, decisiones complejas de gestión de estado, hilos de Slack de cliente
Viernes: Integración + Aseguramiento de Calidad
- Yo: 3-4 horas de aseguramiento de calidad manual, auditoría de accesibilidad, pruebas de rendimiento
- Claude Code: corrección de errores identificados en QA, escritura de pruebas faltantes, generación de documentación
- Yo: preparación de demostración de cliente, despliegue a staging
Total de horas humanas por semana en una construcción activa: 18-24. Reducido de 35-45 en nuestro flujo de trabajo previo a la IA.
Lo Que la IA Maneja en Nuestros Proyectos
Aquí está el inventario específico de tareas--cosas que Claude Code hace en proyectos reales de clientes cada semana:
Generación de Código (70-80% automatizado)
- Componentes React/Next.js: Diseños de página, componentes de UI basados en especificaciones de Figma descritas en indicaciones, manejadores de formularios
- Esquemas CMS: tipos de esquema Sanity, modelos de contenido Contentful como scripts de migración, configuraciones de colecciones Payload CMS
- Rutas de API: Manejadores de Ruta Next.js, procedimientos tRPC, puntos finales de webhook
- Operaciones de base de datos: cambios de esquema Prisma, archivos de migración, scripts de siembra
- Tipos TypeScript: Generación de tipos desde respuestas de API, esquemas de validación Zod, paquetes de tipo compartido
Auditorías de Código (ahorra 4-6 horas/semana)
- Revisión de bases de código existentes antes de proyectos de refactor
- Identificación de dependencias no utilizadas, código muerto, inconsistencias de tipo
- Generación de informes de auditoría con referencias específicas de archivo:línea
Borradores de Contenido (ahorra 3-5 horas/semana)
- Respuestas a RFP y propuestas técnicas
- Documentación de proyecto y archivos README
- Explicaciones técnicas orientadas al cliente
- Borradores iniciales de SOW (siempre revisados y reescritos por humanos)
Pruebas (ahorra 5-8 horas/semana)
- Pruebas unitarias Vitest para funciones de utilidad
- Andamios de pruebas e2e Playwright
- Generación de datos de prueba y fixtures
- Identificación de casos extremos que podríamos pasar por alto
Lo Que Todavía Contratamos Humanos Para Hacer
| Tarea | Por Qué la IA No Puede Hacerlo (Todavía) | A Quién Contratamos | Costo Típico |
|---|---|---|---|
| Estrategia de marca | Requiere comprender la posición de mercado del cliente, competidores, psicología del cliente a un nivel en el que la IA alucina | Estratega de marca contratista | $3,000-$8,000/proyecto |
| Dirección de redacción | Tono, voz y arquitectura de persuasión requieren juicio humano | Redactor autónomo | $2,000-$5,000/proyecto |
| Llamadas de ventas | Los clientes quieren hablar con una persona que entienda su negocio | Lo hacemos nosotros | Nuestro tiempo |
| Diseño visual | Trabajo en Figma, dirección artística, sistemas de diseño | Diseñador contratista | $4,000-$12,000/proyecto |
| DevOps complejo | Configuraciones Kubernetes, despliegues multi-región, CI/CD para industrias reguladas | Ingeniero DevOps contratista | $150-$200/hora |
| Revisión legal | Contratos, MSA, cláusulas de PI | Abogado | $350-$500/hora |
| Auditorías de accesibilidad | Las herramientas automatizadas detectan el 30-40% de los problemas; las pruebas reales con lector de pantalla necesitan un humano | Especialista A11y | $1,500-$3,000/auditoría |
| Investigación de usuario | Hablar con usuarios reales, sintetizar retroalimentación | Investigador UX | $100-$150/hora |
Esas son 8 categorías donde los humanos son innegociables.
Números Reales: Costo por MVP y Tiempo hasta Despliegue
Aquí están los números reales de nuestros últimos 6 proyectos de cliente (Q1-Q2 2025), anonimizados:
| Proyecto | Stack | Estimado Legado | Real Asistido por IA | Tiempo hasta Despliegue |
|---|---|---|---|---|
| Sitio de marketing SaaS | Next.js 15 + Sanity v3 | $38,000 | $11,500 | 12 días |
| Escaparate de comercio electrónico | Next.js 15 + Shopify Storefront API | $52,000 | $18,200 | 18 días |
| Portafolio/CMS para agencia creativa | Astro 5 + Payload CMS 3.0 | $28,000 | $8,400 | 10 días |
| MVP de panel SaaS | Next.js 15 + Supabase + Prisma | $45,000 | $14,800 | 16 días |
| Rediseño de sitio sin fines de lucro | Next.js 14 + Contentful | $32,000 | $9,200 | 11 días |
| Sitio de documentación de desarrollador | Astro 5 + MDX + Algolia | $22,000 | $7,600 | 8 días |
"Estimado legado" es lo que habríamos cotizado en 2023 con nuestra estructura de equipo anterior. "Real asistido por IA" es lo que el cliente pagó en 2025.
Reducción de costo: 62%. Tiempo hasta primer despliegue: 12.5 días.
Todos estos son proyectos en nuestra zona óptima--sitios CMS headless y aplicaciones Next.js. Los sistemas RBAC empresariales, aplicaciones colaborativas en tiempo real, o cualquier cosa que implique sistemas distribuidos complejos se vería diferente.
Nuestra Configuración de Proyecto con Claude Code
Cada proyecto comienza con un archivo CLAUDE.md en la raíz del repositorio. Esta es la cosa más impactante que hemos hecho para mejorar la calidad del resultado de la IA. Aquí está nuestra estructura de plantilla:
# Proyecto: [Nombre del Cliente]
## Stack Tecnológico
- Framework: Next.js 15.1 (App Router)
- CMS: Sanity v3.72
- Estilos: Tailwind CSS v4.0
- Lenguaje: TypeScript 5.7 (strict mode)
- Gestor de paquetes: pnpm 9.x
- Node: 22 LTS
## Decisiones de Arquitectura
- Toda obtención de datos en Server Components
- Componentes cliente solo para interactividad
- Consultas GROQ colocadas con componentes de página
- Sin exportaciones barrel
- Prefiere exportaciones nombradas
## Convenciones de Código
- Usa utilidad `cn()` para clases condicionales (ya en lib/utils.ts)
- Límites de error a nivel de segmento de ruta
- Todas las imágenes a través de next/image con dimensiones explícitas
- Los formularios usan react-hook-form + zod
## Estructura de Archivos
[salida de árbol del directorio src/]
## Restricciones Conocidas
- Cliente requiere WCAG 2.2 AA
- Debe soportar IE-- solo bromeaba. Chrome 120+, Safari 17+, Firefox 121+
- Objetivo de despliegue: Vercel (plan Pro, us-east-1)
## NO Hagas
- Instales nuevas dependencias sin preguntar
- Crees archivos fuera de src/
- Uses exportaciones predeterminadas (excepto para páginas/layouts de Next.js)
- Escribas CSS fuera de clases de Tailwind
Este archivo elimina aproximadamente el 40% de los incidentes "Claude se salió de las rieles". Sin él, obtienes código genérico que no coincide con los patrones de tu proyecto. Con él, Claude Code genera componentes que parecen escritos por tu equipo.
También usamos claude --dangerously-skip-permissions durante fases de andamio (nunca en ramas de producción) y cambiamos al modo de aprobación interactiva una vez que pasamos la configuración inicial. Costo por proyecto en uso de API: típicamente $40-$120 para una construcción completa, ejecutando en Claude 4 Sonnet.
¿Es la Empresa de una Persona de Mil Millones Real?
No. Pero es un experimento mental que revela algo real sobre dónde estamos.
La pieza de Evartology en Substack--"Cómo Ejecutar una Empresa Solo en 2026"--presenta un stack impresionante: IA para ingeniería, marketing, ventas, operaciones, incluso contratación. Es un manual bien organizado, y estoy de acuerdo con aproximadamente el 60% del mismo. Las partes sobre usar IA para borradores de contenido, generación de código y documentación operativa coinciden con nuestra experiencia. Pero la pieza subestima la irreductibilidad de la confianza. Los clientes no compran código. Compran confianza en que alguien entiende su problema. Eso es algo humano.
La pieza de Henry (henrythe9th en Substack) sobre un fundador único que se "clonó" a sí mismo con agentes de IA es más fundamentada. El ejemplo específico de usar IA para manejar clasificación de soporte al cliente y respuestas de primer borrador resuena--hacemos algo similar con borradores de propuestas técnicas. Pero el encuadre de "clonación" lo vende de más. Lo que realmente sucedió es delegación de tareas a IA. No clonaste tu juicio. Externalizaste tu mecanografía.
El resumen ejecutivo de Nate sobre negocios de una persona toca los datos de Carta que muestran un porcentaje creciente de startups de fundadores únicos. Eso es real. Los datos de Carta de principios de 2025 mostraron que las incorporaciones únicas tendían al alza. Pero una empresa incorporada de forma única en Carta no es lo mismo que una empresa operada de forma única. La mayoría de esos fundadores contratan contratistas, agencias (como la nuestra) y roles fraccionales. Están solos en la tabla de capitalización, no solos en la práctica.
Nuestra opinión: la versión realista de esto no es una persona haciendo mil millones de dólares. Es una persona (o un equipo muy pequeño) haciendo $1M-$5M en ingresos con márgenes del 70-80%, manejando el trabajo que solía requerir 8-12 personas. Eso no es una fantasía. Lo estamos viendo suceder. Pero requiere competencia en IA, experiencia en dominio y una red profesional existente. No solo una suscripción a ChatGPT.
Lo Que Todavía No Funciona
1. Refactorizaciones Complejas Multi-Archivo
Claude Code puede refactorizar un archivo brillantemente. Pero cuando necesitas cambios coordinados en 15+ archivos--digamos, cambiar un modelo de datos que toca rutas de API, componentes, tipos, pruebas y esquemas CMS simultáneamente--pierde coherencia alrededor del archivo 8-10. Hemos tenido que introduce dependencias circulares rota, olvida actualizar importaciones en archivos que tocó anteriormente en la sesión, y omite silenciosamente archivos. Nuestra solución: dividir refactorizaciones en lotes de 3-4 archivos y verificar entre cada uno.
2. Diseño a Código desde Figma
A pesar del bombo, generar componentes de calidad de producción desde diseños de Figma sigue siendo una tarea de precisión del 60% como máximo. Claude Code (o cualquier LLM) no puede ver tu archivo de Figma directamente. Estás describiendo diseños en palabras o pegando capturas de pantalla. El resultado obtiene la estructura aproximadamente correcta pero pierde espaciado, puntos de ruptura responsivos y estados de interacción. Seguimos teniendo a un humano traducir diseños a componentes, luego usamos Claude Code para expandir variantes y estados.
3. Optimización de Rendimiento
Claude Code te dirá que agregues React.memo() y llama eso un día. El trabajo real de rendimiento--identificar renderizaciones innecesarias a través de perfilado de React DevTools, optimizar consultas GROQ analizando planes de ejecución de Sanity, reducir CLS auditando scripts de terceros--requiere observación humana del comportamiento en tiempo de ejecución. La IA no puede perfilar tu aplicación.
4. Depuración de Problemas en Producción
Cuando algo se rompe a las 2 AM y el error es un timeout de Vercel Edge Runtime críptico, Claude Code puede sugerir posibilidades. Pero no puede mirar tu panel de Datadog, correlacionar el tiempo con un despliegue, verificar si la caché de CDN fue purgada, o darse cuenta de que el problema es en realidad un retraso de propagación de DNS de una transferencia de dominio que sucedió hace 48 horas. La depuración en producción está cargada de contexto y los contextos de ventana de IA son aún demasiado estrechos.
5. Cualquier Cosa que Requiera Juicio Visual
¿Es esta animación demasiado rápida? ¿Se siente bien esta combinación de colores para una marca de lujo? ¿El espacio en blanco está equilibrado? Claude Code tiene cero opiniones aquí. No preguntes.
6. Coherencia de Sesión de Larga Duración
Después de aproximadamente 45-60 minutos de trabajo continuo en una única sesión de Claude Code, notamos degradación de calidad. Comienza a repetir patrones de anteriormente en la sesión incluso cuando el contexto ha cambiado. Olvida restricciones del CLAUDE.md. Reiniciamos sesiones cada 45 minutos como regla. Este es un impuesto de productividad real--probablemente 20-30 minutos de tiempo de reorientación por día.
Cómo Definimos el Alcance de Proyectos de Clientes Ahora
Nuestro proceso de definición de alcance cambió fundamentalmente. Aquí está el antes y después:
Antes (2023)
- Llamada de descubrimiento (1 hora)
- Discusión interna de arquitectura (2 horas)
- SOW detallado con estimaciones por hora por característica (4-6 horas)
- Ciclo de revisión del cliente (1-2 semanas)
- Contrato firmado → inicio
Después (2025)
- Llamada de descubrimiento (45 minutos)
- Claude Code genera borrador de SOW a partir de notas de llamada (15 minutos de indicaciones)
- Reviso y reescribo el SOW (1 hora)
- Construimos una prueba de concepto desechable del desafío técnico más difícil usando Claude Code (2-3 horas)
- El alcance ahora se basa en datos reales de implementación, no conjeturas
- Revisión del cliente (3-5 días)
- Contrato firmado → inicio
El paso 4 es la diferencia clave. Solíamos estimar "Integración de API Shopify Storefront: 40 horas" basado en experiencia. Ahora realmente construimos una versión aproximada en 2-3 horas y sabemos que son 22 horas con asistencia de IA. Nuestras estimaciones están dentro del 15% de los reales. Solían estar dentro de 30-40%.
Esto nos cuesta 3-4 horas de trabajo de pre-venta no facturado por proyecto. Pero nuestra tasa de cierre fue de ~35% a ~55% porque los clientes ven un prototipo funcionando antes de firmar.
Las Matemáticas del Fundador: Desglose de Horas por Semana
Aquí está cómo mi semana realmente se desglosa como fundador de agencia usando Claude Code:
| Actividad | Horas/Semana | ¿Asistido por IA? |
|---|---|---|
| Llamadas de cliente y Slack | 6 | No |
| Arquitectura y decisiones técnicas | 5 | Parcialmente (Claude Code para investigación) |
| Revisión de código de salida de IA | 8 | No |
| Dirección de sesiones de Claude Code | 6 | N/A (esto ES el trabajo de IA) |
| Ops de negocio (facturación, contratos, planificación) | 3 | Parcialmente (borradores) |
| Ventas y propuestas | 3 | Parcialmente (borradores iniciales) |
| Aseguramiento de calidad y pruebas manuales | 3 | No |
| Aprendizaje y mantenerse actualizado | 2 | No |
| Total | 36 |
36 horas a la semana. No 80. No 20. Y eso es dirigiendo una agencia haciendo $60K-$80K/mes en ingresos con 2 proyectos de cliente activos en cualquier momento.
Pre-IA, esta misma salida requería 3.5 FTE y mis semanas de 50 horas. Las matemáticas son reales. Pero nota: 22 de esas 36 horas son completamente trabajo humano. La IA no eliminó trabajo. Cambió la relación de pensamiento a mecanografía.
Preguntas Frecuentes
¿Cuánto cuesta Claude Code por mes para trabajo de agencia? Gastamos aproximadamente $180-$300/mes en uso de API de Claude en Claude Code en todos los proyectos. Esto es en el modelo Claude 4 Sonnet. Los costos de proyecto individual oscilan entre $40-$120 dependiendo del alcance y conteo de sesión.
¿Puede Claude Code reemplazar a un desarrollador junior? Reemplaza la salida de un desarrollador junior pero no el rol. Alguien todavía necesita dirigir, revisar y corregir el trabajo de la IA. Ese alguien necesita juicio a nivel senior. El código generado por IA sin revisión experta envía errores más rápido.
¿Cuál es el mejor CMS para emparejar con un flujo de trabajo de Claude Code? Sanity v3, porque sus definiciones de esquema son archivos TypeScript que Claude Code genera excepcionalmente bien. Payload CMS 3.0 es un segundo cercano. Contentful funciona pero su API de gestión es más compleja para que la IA trabaje de manera confiable.
¿Funciona Claude Code para desarrollo de aplicaciones móviles? Lo hemos usado para proyectos React Native (Expo SDK 52) con resultados decentes para generación de componentes y configuración de navegación. Lucha más con la configuración de módulos nativos y depuración específica de plataforma. Aproximadamente el 40-50% de ganancia de productividad vs. 60-70% para proyectos web.
¿Cómo manejas preocupaciones de PI de cliente con código generado por IA? Nuestro MSA incluye una cláusula estableciendo que todos los resultados son trabajo producto original independientemente de herramientas utilizadas. Los términos de Anthropic (a partir de junio de 2025) otorgan a los usuarios derechos sobre salidas. No enviamos datos propietarios de cliente a la API--solo patrones de código e implementaciones genéricas.
¿Qué sucede cuando Claude Code genera código incorrecto? Sucede en aproximadamente el 15-20% de las tareas. Nuestro flujo de trabajo contabiliza esto con revisión obligatoria de código humano en cada PR. Modos de falla comunes: genéricos TypeScript incorrectos, patrones de API obsoletos de datos de entrenamiento, y manejo de errores faltante para casos extremos. Presupuestamos tiempo de revisión en cada estimación.