Claude Code Agency Workflow: Wie wir 2025 Projekte durchführen
Zusammenfassung
Wir betreiben eine Headless-Web-Agentur, in der Claude Code 60-70% der Implementierungsarbeit übernimmt, die früher ein ganzes Team benötigte. Unsere Kosten pro MVP sanken von $35.000-$50.000 auf $8.000-$15.000. Die Zeit bis zur ersten Bereitstellung verkürzte sich von 6-8 Wochen auf 10-18 Tage. Aber AI hat nicht alles ersetzt – sie hat spezifische, gut definierte Aufgaben ersetzt. Hier ist, was funktioniert, was nicht, und wofür wir Menschen bezahlen.
Inhaltsverzeichnis
- Warum wir unsere Agentur um Claude Code umstrukturiert haben
- Wie sieht ein Claude-Code-Agentur-Workflow wirklich aus?
- Was AI in unseren Projekten übernimmt
- Wofür wir noch Menschen einstellen
- Echte Zahlen: Kosten pro MVP und Zeit bis zur Bereitstellung
- Unsere Claude-Code-Projekt-Einrichtung
- Ist das Eins-Person-Milliarden-Dollar-Unternehmen real?
- Was noch nicht funktioniert
- Wie wir Client-Projekte jetzt scopen
- Die Gründer-Mathematik: Stunden pro Woche – Aufschlüsselung
- FAQ
Warum wir unsere Agentur um Claude Code umstrukturiert haben
Wir haben dies nicht geplant. Ende 2024 waren wir eine 4-köpfige Headless-Dev-Boutique, die $150/Stunde für Next.js und Headless-CMS-Arbeit abrechnet. Bis März 2025 hatten sich nach der Integration von Claude Code – zunächst Claude 3.5 Sonnet, jetzt Claude 4 Sonnet – in jedes Projekt zwei dieser Rollen fundamental verändert. Nicht eliminiert. Verändert. Ein Senior Dev wurde ein hauptamtlicher KI-gestützter Engineer. Der andere wechselte vollständig zu Code-Review und Architektur.
Der Katalysator: ein Sanity + Next.js 14-Projekt, bei dem wir Claude Code verwendeten, um die gesamte Schema-Schicht zu strukturieren, GROQ-Queries zu generieren, 14 Seiten-Templates zu erstellen und die Deployment-Pipeline zu schreiben. Was 120 abrechenbare Stunden hätte sein sollen, kam mit 34 Stunden aus. Wir schauten uns an und sagten: „Wir müssen alles umstrukturieren."
Das ist der ehrliche Ursprung. Keine großartige Strategie. Ein Projekt, das zu schnell fertig wurde.
Wie sieht ein Claude-Code-Agentur-Workflow wirklich aus?
Hier ist eine typische Woche bei einem aktiven Client-Projekt:
Montag: Architektur + Kickoff
- Ich: 2 Stunden Komponentenarchitektur, Datenmodell, API-Verträge definieren
- Ich: 1 Stunde CLAUDE.md-Projektanweisungen schreiben (mehr dazu weiter unten)
- Claude Code: generiert initialen Projekt-Scaffold, installiert Dependencies, konfiguriert TypeScript-Strict-Modus, richtet Linting ein
Dienstag–Donnerstag: Build-Sprint
- Ich: 1-2 Stunden pro Tag Claude-Code-Output überprüfen, Fehler fangen, umlenken
- Claude Code: 6-8 Tasks pro Tag – Seiten-Komponenten, API-Routes, CMS-Schema-Definitionen, Utility-Funktionen, Test-Dateien
- Ich: Architektur-Pivots, komplexe State-Management-Entscheidungen, Client-Slack-Threads
Freitag: Integration + QA
- Ich: 3-4 Stunden manuelles QA, Accessibility-Audit, Performance-Testing
- Claude Code: Behebung von in QA identifizierten Bugs, Schreiben fehlender Tests, Generieren von Dokumentation
- Ich: Client-Demo-Vorbereitung, Bereitstellung auf Staging
Gesamtstunden pro Woche bei einem aktiven Build: 18-24. Runter von 35-45 in unserem Pre-AI-Workflow.
Was AI in unseren Projekten übernimmt
Hier ist das spezifische Task-Inventar – Dinge, die Claude Code jede Woche an echten Client-Projekten macht:
Code-Generierung (70-80% automatisiert)
- React/Next.js-Komponenten: Seiten-Layouts, UI-Komponenten aus Figma-Specs in Prompts beschrieben, Form-Handler
- CMS-Schemas: Sanity-Schema-Typen, Contentful-Content-Modelle als Migration-Skripte, Payload-CMS-Collection-Configs
- API-Routes: Next.js Route Handlers, tRPC-Prozeduren, Webhook-Endpoints
- Datenbankoperationen: Prisma-Schema-Änderungen, Migration-Dateien, Seed-Skripte
- TypeScript-Typen: Generieren von Typen aus API-Responses, Zod-Validierungsschemas, gemeinsame Type-Packages
Code-Audits (spart 4-6 Stunden/Woche)
- Überprüfung vorhandener Codebases vor Refactor-Projekten
- Identifikation ungenutzter Dependencies, Dead Code, Type-Inkonsistenzen
- Generieren von Audit-Reports mit spezifischen file:line-Referenzen
Inhalts-Entwürfe (spart 3-5 Stunden/Woche)
- RFP-Antworten und technische Vorschläge
- Projekt-Dokumentation und README-Dateien
- Client-gerichtete technische Erklärungen
- SOW-Erste-Entwürfe (immer von Menschen überprüft und umgeschrieben)
Testing (spart 5-8 Stunden/Woche)
- Vitest Unit-Tests für Utility-Funktionen
- Playwright E2E-Test-Scaffolds
- Test-Datengenerierung und Fixtures
- Edge-Case-Identifikation, die wir übersehen könnten
Wofür wir noch Menschen einstellen
| Task | Warum AI das (noch) nicht kann | Wen wir einstellen | Typische Kosten |
|---|---|---|---|
| Brand-Strategie | Erfordert Verständnis der Marktposition des Clients, Konkurrenten, Kundenpsychologie auf einem Niveau, bei dem AI halluziniert | Contract Brand Strategist | $3.000-$8.000/Projekt |
| Copy-Richtung | Tonalität, Stimme und Persuasions-Architektur erfordern menschliches Urteilsvermögen | Freelance-Copywriter | $2.000-$5.000/Projekt |
| Sales-Calls | Clients wollen mit einer Person sprechen, die ihr Geschäft versteht | Wir machen das selbst | Unsere Zeit |
| Visuelles Design | Figma-Arbeit, Art-Direction, Design-Systeme | Contract Designer | $4.000-$12.000/Projekt |
| Komplexe DevOps | Kubernetes-Configs, Multi-Region-Deployments, CI/CD für regulierte Branchen | Contract DevOps Engineer | $150-$200/Stunde |
| Rechtliche Überprüfung | Verträge, MSAs, IP-Klauseln | Anwalt | $350-$500/Stunde |
| Accessibility-Audits | Automatisierte Tools erfassen 30-40% der Probleme; echtes Screen-Reader-Testing benötigt einen Menschen | A11y-Spezialist | $1.500-$3.000/Audit |
| Nutzerforschung | Mit echten Nutzern sprechen, Feedback synthetisieren | UX-Researcher | $100-$150/Stunde |
Das sind 8 Kategorien, bei denen Menschen unverzichtbar sind.
Echte Zahlen: Kosten pro MVP und Zeit bis zur Bereitstellung
Hier sind echte Zahlen aus unseren letzten 6 Client-Projekten (Q1-Q2 2025), anonymisiert:
| Projekt | Stack | Legacy-Schätzung | AI-gestützte Aktualität | Zeit bis Bereitstellung |
|---|---|---|---|---|
| SaaS-Marketing-Site | Next.js 15 + Sanity v3 | $38.000 | $11.500 | 12 Tage |
| E-Commerce-Storefront | Next.js 15 + Shopify Storefront API | $52.000 | $18.200 | 18 Tage |
| Portfolio/CMS für Kreativ-Agentur | Astro 5 + Payload CMS 3.0 | $28.000 | $8.400 | 10 Tage |
| SaaS-Dashboard MVP | Next.js 15 + Supabase + Prisma | $45.000 | $14.800 | 16 Tage |
| Nonprofit-Site-Redesign | Next.js 14 + Contentful | $32.000 | $9.200 | 11 Tage |
| Developer-Docs-Site | Astro 5 + MDX + Algolia | $22.000 | $7.600 | 8 Tage |
„Legacy-Schätzung" ist das, was wir 2023 mit unserer alten Teamstruktur angeboten hätten. „AI-gestützte Aktualität" ist das, was der Client 2025 bezahlte.
Kostenreduktion: 62%. Zeit bis zur ersten Bereitstellung: 12,5 Tage.
Das sind alles Projekte in unserem Sweet Spot – Headless-CMS-Sites und Next.js-Anwendungen. Enterprise-RBAC-Systeme, echtzeitkollaborative Apps oder alles, das komplexe verteilte Systeme umfasst, würde anders aussehen.
Unsere Claude-Code-Projekt-Einrichtung
Jedes Projekt beginnt mit einer CLAUDE.md-Datei im Repo-Root. Dies ist das einzeln wirkungsvollste Ding, das wir getan haben, um die AI-Output-Qualität zu verbessern. Hier ist unsere Template-Struktur:
# Projekt: [Client-Name]
## Tech Stack
- Framework: Next.js 15.1 (App Router)
- CMS: Sanity v3.72
- Styling: Tailwind CSS v4.0
- Sprache: TypeScript 5.7 (strict mode)
- Package Manager: pnpm 9.x
- Node: 22 LTS
## Architektur-Entscheidungen
- Alle Datenbeschaffung in Server-Komponenten
- Client-Komponenten nur für Interaktivität
- GROQ-Queries co-located mit Seiten-Komponenten
- Keine Barrel-Exports
- Bevorzuge benannte Exports
## Code-Konventionen
- Verwende `cn()` Utility für bedingte Klassen (bereits in lib/utils.ts)
- Error Boundaries auf Route-Segment-Ebene
- Alle Bilder über next/image mit expliziten Dimensionen
- Formulare verwenden react-hook-form + zod
## Dateistruktur
[tree output of src/ directory]
## Bekannte Constraints
- Client erfordert WCAG 2.2 AA
- Muss unterstützen IE-- nur Spaß. Chrome 120+, Safari 17+, Firefox 121+
- Deploy-Ziel: Vercel (Pro-Plan, us-east-1)
## Tue NICHT
- Neue Dependencies installieren ohne zu fragen
- Dateien außerhalb von src/ erstellen
- Default Exports verwenden (außer für Next.js pages/layouts)
- CSS außerhalb von Tailwind-Klassen schreiben
Diese Datei eliminiert ungefähr 40% der „Claude ist aus dem Ruder gelaufen"-Vorfälle. Ohne sie bekommst du generischen Code, der nicht zu den Mustern deines Projekts passt. Mit ihr generiert Claude Code Komponenten, die aussehen, als hätte dein Team sie geschrieben.
Wir verwenden auch claude --dangerously-skip-permissions während Scaffold-Phasen (niemals in Production-Branches) und wechseln zum interaktiven Genehmigungsmodus, sobald wir über die anfängliche Einrichtung hinaus sind. Kosten pro Projekt in API-Nutzung: typischerweise $40-$120 für einen vollständigen Build, laufend auf Claude 4 Sonnet.
Ist das Eins-Person-Milliarden-Dollar-Unternehmen real?
Nein. Aber es ist ein Gedankenexperiment, das etwas Echtes über unsere aktuelle Situation enthüllt.
Evartology's Piece auf Substack – „How to Run a Company Alone in 2026" – legt eine beeindruckende Sammlung vor: AI für Engineering, Marketing, Sales, Operations, sogar Hiring. Es ist ein gut organisierter Playbook, und ich stimme etwa 60% davon zu. Die Teile über die Verwendung von AI für Content-Entwürfe, Code-Generierung und operationale Docs entsprechen unserer Erfahrung. Aber das Piece unterschätzt die Unverzichtbarkeit von Vertrauen. Clients kaufen nicht Code. Sie kaufen Zuversicht, dass jemand ihr Problem versteht. Das ist eine menschliche Sache.
Henry's Piece (henrythe9th auf Substack) über einen Solo-Founder, der sich mit AI-Agents „geklont" hat, ist geerderter. Das spezifische Beispiel der Verwendung von AI zur Bewältigung von Customer-Support-Triage und First-Draft-Responses resoniert – wir machen etwas Ähnliches mit technischen Proposal-Entwürfen. Aber die Rahmung des „Klonens" überverkauft es. Was wirklich passiert ist, ist Task-Delegation an AI. Du hast dein Urteilsvermögen nicht geklont. Du hast dein Tippen ausgelagert.
Nate's Executive Briefing über One-Person-Businesses berührt die Carta-Daten, die einen wachsenden Prozentsatz von Solo-Founder-Startups zeigen. Das ist real. Carta's Daten von früh 2025 zeigten Solo-Incorporations im Aufwärtstrend. Aber ein solo-incorporiertes Unternehmen auf Carta ist nicht dasselbe wie ein solo-betriebenes Unternehmen. Die meisten dieser Founder stellen Contractors, Agenturen (wie wir) und fraktionale Rollen ein. Sie sind solo auf dem Cap Table, nicht solo in der Praxis.
Unsere Sichtweise: Die realistische Version davon ist nicht eine Person, die eine Milliarde Dollar macht. Es ist eine Person (oder ein sehr kleines Team), die $1M-$5M Umsatz macht, mit 70-80% Margen, die die Arbeit macht, die früher 8-12 Menschen benötigte. Das ist keine Fantasie. Wir sehen es passieren. Aber es erfordert AI-Kompetenz, Domain-Expertise und ein bestehendes professionelles Netzwerk. Nicht nur ein ChatGPT-Abonnement.
Was noch nicht funktioniert
1. Komplexe Multi-File-Refactors
Claude Code kann einen einzelnen File großartig refaktorieren. Aber wenn du koordinierte Änderungen über 15+ Dateien benötigst – sagen wir, ein Datenmodell zu ändern, das API-Routes, Komponenten, Typen, Tests und CMS-Schemas berührt – verliert es die Kohärenz bei Datei 8-10. Wir haben es beobachtet, wie es brechende zirkuläre Abhängigkeiten einführt, Imports in Dateien vergisst, die es früher in der Session berührt hat, und Dateien stillschweigend überspringt. Unser Workaround: Refactors in 3-4 Datei-Batches aufteilen und zwischen jedem verifizieren.
2. Design-zu-Code von Figma
Trotz des Hypes ist die Generierung produktionsqualitativer Komponenten aus Figma-Designs immer noch eine 60%-Genauigkeitsaufgabe im besten Fall. Claude Code (oder ein LLM) kann deine Figma-Datei nicht direkt sehen. Du beschreibst Layouts in Worten oder klebst Screenshots ein. Die Ausgabe bekommt die Struktur ungefähr richtig, aber verpasst Abstände, responsive Breakpoints und Interaction-States. Wir lassen immer noch einen Menschen Designs in Komponenten übersetzen, dann verwenden wir Claude Code, um Varianten und States auszufüllen.
3. Performance-Optimierung
Claude Code wird dir sagen, React.memo() hinzufügen und fertig. Echte Performance-Arbeit – Identifikation unnötiger Re-Renders durch React DevTools Profiling, Optimierung von GROQ-Queries durch Analyse der Sanity-Ausführungspläne, Reduktion von CLS durch Audit von Third-Party-Scripts – erfordert menschliche Beobachtung des Runtime-Verhaltens. AI kann deine App nicht profilen.
4. Debugging von Production-Problemen
Wenn etwas um 2 Uhr morgens bricht und der Fehler ein kryptisches Vercel Edge Runtime Timeout ist, kann Claude Code Möglichkeiten vorschlagen. Aber es kann nicht auf dein Datadog-Dashboard schauen, das Timing mit einem Deploy korrelieren, überprüfen, ob der CDN-Cache gelöscht wurde, oder erkennen, dass das Problem eigentlich eine DNS-Propagierungsverzögerung aus einer Domain-Übertragung ist, die vor 48 Stunden passiert ist. Production-Debugging ist kontextintensiv und AI-Context-Fenster sind immer noch zu eng.
5. Alles, das visuelles Urteilsvermögen erfordert
Ist diese Animation zu schnell? Fühlt sich diese Farbkombination richtig für eine Luxury-Marke an? Ist der Whitespace ausgewogen? Claude Code hat null Meinungen hier. Frag nicht.
6. Long-Running Session Coherence
Nach etwa 45-60 Minuten kontinuierlicher Arbeit in einer einzelnen Claude-Code-Sitzung beobachten wir Qualitätsdegradation. Es beginnt, Muster von früher in der Sitzung zu wiederholen, auch wenn sich der Kontext geändert hat. Es vergisst Constraints aus der CLAUDE.md. Wir starten Sessions alle 45 Minuten neu als Regel. Das ist eine echte Produktivitätssteuer – wahrscheinlich 20-30 Minuten Reorientierungszeit pro Tag.
Wie wir Client-Projekte jetzt scopen
Unser Scoping-Prozess hat sich fundamental verändert. Hier ist das Vorher und Nachher:
Vorher (2023)
- Discovery-Call (1 Stunde)
- Interne Architektur-Diskussion (2 Stunden)
- Detailliertes SOW mit stundengenauen Schätzungen pro Feature (4-6 Stunden)
- Client-Review-Zyklus (1-2 Wochen)
- Unterzeichneter Vertrag → Kickoff
Nachher (2025)
- Discovery-Call (45 Minuten)
- Claude Code generiert SOW-Ersten-Entwurf aus Call-Notizen (15 Minuten Prompting)
- Ich überprüfe und schreibe das SOW um (1 Stunde)
- Wir bauen einen Wegwerf-Proof-of-Concept der schwierigsten technischen Herausforderung mit Claude Code (2-3 Stunden)
- Scope wird jetzt auf Grundlage von echten Implementierungsdaten bestimmt, nicht Vermutungen
- Client-Review (3-5 Tage)
- Unterzeichneter Vertrag → Kickoff
Schritt 4 ist der Schlüsselunterschied. Wir schätzten früher „Shopify Storefront API-Integration: 40 Stunden" basierend auf Erfahrung. Jetzt bauen wir tatsächlich eine grobe Version in 2-3 Stunden und wissen, dass es 22 Stunden mit AI-Unterstützung sind. Unsere Schätzungen liegen innerhalb von 15% der Ist-Werte. Sie waren früher innerhalb von 30-40%.
Dies kostet uns 3-4 Stunden unbezahlte Pre-Sales-Arbeit pro Projekt. Aber unsere Close-Rate ging von ~35% auf ~55%, weil Clients einen funktionierenden Prototype vor der Unterzeichnung sehen.
Die Gründer-Mathematik: Stunden pro Woche – Aufschlüsselung
Hier ist meine Woche als Agentur-Founder, der Claude Code verwendet, wirklich aufgeschlüsselt:
| Aktivität | Stunden/Woche | AI-gestützt? |
|---|---|---|
| Client-Calls und Slack | 6 | Nein |
| Architektur und technische Entscheidungen | 5 | Teilweise (Claude Code für Forschung) |
| Code-Review von AI-Output | 8 | Nein |
| Leitung von Claude-Code-Sitzungen | 6 | N/A (das IST die AI-Arbeit) |
| Business Ops (Invoicing, Verträge, Planung) | 3 | Teilweise (Entwürfe) |
| Sales und Proposals | 3 | Teilweise (Erste Entwürfe) |
| Manuelles QA und Testing | 3 | Nein |
| Lernen und aktuell bleiben | 2 | Nein |
| Gesamt | 36 |
36 Stunden pro Woche. Nicht 80. Nicht 20. Und das ist bei der Führung einer Agentur mit $60K-$80K/Monat Umsatz mit 2 aktiven Client-Projekten gleichzeitig.
Pre-AI erforderte diese gleiche Output 3,5 FTEs und meine 50-Stunden-Wochen. Die Mathematik ist real. Aber beachte: 22 dieser 36 Stunden sind immer noch vollständig menschliche Arbeit. AI hat Arbeit nicht eliminiert. Sie hat das Verhältnis von Denken zu Tippen verändert.
FAQ
Wie viel kostet Claude Code pro Monat für Agentur-Arbeit?
Wir geben ungefähr $180-$300/Monat für Claude API-Nutzung für Claude Code über alle Projekte aus. Das ist beim Claude 4 Sonnet Modell. Einzelne Projekt-Kosten reichen von $40-$120 abhängig von Umfang und Session-Anzahl.
Kann Claude Code einen Junior Developer ersetzen?
Sie ersetzt die Output eines Junior Developers, aber nicht die Rolle. Jemand muss immer noch die AI lenken, überprüfen und korrigieren. Dieser Jemand benötigt Senior-Level-Urteilsvermögen. AI-generierter Code ohne Expert-Review versendet Bugs schneller.
Was ist das beste CMS für einen Claude-Code-Workflow?
Sanity v3, weil seine Schema-Definitionen TypeScript-Dateien sind, die Claude Code außergewöhnlich gut generiert. Payload CMS 3.0 ist ein enger Zweiter. Contentful funktioniert, aber seine Management API ist komplexer für die zuverlässige Zusammenarbeit mit AI.
Funktioniert Claude Code für Mobile-App-Entwicklung?
Wir haben es für React Native (Expo SDK 52) Projekte mit anständigen Ergebnissen für Component-Generierung und Navigation-Setup verwendet. Es kämpft mehr mit nativer Modul-Konfiguration und Platform-spezifischem Debugging. Ungefähr 40-50% Produktivitätsgewinne vs. 60-70% für Web-Projekte.
Wie handhabt ihr Client-IP-Bedenken mit AI-generiertem Code?
Unser MSA enthält eine Klausel, die besagt, dass alle Liefergegenstände Original-Arbeit sind, unabhängig vom verwendeten Tool. Anthropic's Terms (ab Juni 2025) gewähren Nutzern Rechte auf Outputs. Wir senden keine Client-Proprietär-Daten an die API – nur Code-Muster und generische Implementierungen.
Was passiert, wenn Claude Code falschen Code generiert?
Es passiert auf ungefähr 15-20% der Tasks. Unser Workflow trägt dem mit obligatorischem menschlichen Code-Review auf jedem PR Rechnung. Häufige Fehlermodi: inkorrekte TypeScript-Generics, veraltete API-Muster aus Trainingsdaten und fehlende Error-Behandlung für Edge Cases. Wir planen Review-Zeit in jede Schätzung ein.