Zusammenfassung

Wir betreiben eine Headless-Web-Agentur, in der Claude Code 60-70% der Implementierungsarbeit übernimmt, die früher ein ganzes Team benötigte. Unsere Kosten pro MVP sanken von $35.000-$50.000 auf $8.000-$15.000. Die Zeit bis zur ersten Bereitstellung verkürzte sich von 6-8 Wochen auf 10-18 Tage. Aber AI hat nicht alles ersetzt – sie hat spezifische, gut definierte Aufgaben ersetzt. Hier ist, was funktioniert, was nicht, und wofür wir Menschen bezahlen.

Inhaltsverzeichnis

Warum wir unsere Agentur um Claude Code umstrukturiert haben

Wir haben dies nicht geplant. Ende 2024 waren wir eine 4-köpfige Headless-Dev-Boutique, die $150/Stunde für Next.js und Headless-CMS-Arbeit abrechnet. Bis März 2025 hatten sich nach der Integration von Claude Code – zunächst Claude 3.5 Sonnet, jetzt Claude 4 Sonnet – in jedes Projekt zwei dieser Rollen fundamental verändert. Nicht eliminiert. Verändert. Ein Senior Dev wurde ein hauptamtlicher KI-gestützter Engineer. Der andere wechselte vollständig zu Code-Review und Architektur.

Der Katalysator: ein Sanity + Next.js 14-Projekt, bei dem wir Claude Code verwendeten, um die gesamte Schema-Schicht zu strukturieren, GROQ-Queries zu generieren, 14 Seiten-Templates zu erstellen und die Deployment-Pipeline zu schreiben. Was 120 abrechenbare Stunden hätte sein sollen, kam mit 34 Stunden aus. Wir schauten uns an und sagten: „Wir müssen alles umstrukturieren."

Das ist der ehrliche Ursprung. Keine großartige Strategie. Ein Projekt, das zu schnell fertig wurde.

Wie sieht ein Claude-Code-Agentur-Workflow wirklich aus?

Hier ist eine typische Woche bei einem aktiven Client-Projekt:

Montag: Architektur + Kickoff

  • Ich: 2 Stunden Komponentenarchitektur, Datenmodell, API-Verträge definieren
  • Ich: 1 Stunde CLAUDE.md-Projektanweisungen schreiben (mehr dazu weiter unten)
  • Claude Code: generiert initialen Projekt-Scaffold, installiert Dependencies, konfiguriert TypeScript-Strict-Modus, richtet Linting ein

Dienstag–Donnerstag: Build-Sprint

  • Ich: 1-2 Stunden pro Tag Claude-Code-Output überprüfen, Fehler fangen, umlenken
  • Claude Code: 6-8 Tasks pro Tag – Seiten-Komponenten, API-Routes, CMS-Schema-Definitionen, Utility-Funktionen, Test-Dateien
  • Ich: Architektur-Pivots, komplexe State-Management-Entscheidungen, Client-Slack-Threads

Freitag: Integration + QA

  • Ich: 3-4 Stunden manuelles QA, Accessibility-Audit, Performance-Testing
  • Claude Code: Behebung von in QA identifizierten Bugs, Schreiben fehlender Tests, Generieren von Dokumentation
  • Ich: Client-Demo-Vorbereitung, Bereitstellung auf Staging

Gesamtstunden pro Woche bei einem aktiven Build: 18-24. Runter von 35-45 in unserem Pre-AI-Workflow.

Was AI in unseren Projekten übernimmt

Hier ist das spezifische Task-Inventar – Dinge, die Claude Code jede Woche an echten Client-Projekten macht:

Code-Generierung (70-80% automatisiert)

  • React/Next.js-Komponenten: Seiten-Layouts, UI-Komponenten aus Figma-Specs in Prompts beschrieben, Form-Handler
  • CMS-Schemas: Sanity-Schema-Typen, Contentful-Content-Modelle als Migration-Skripte, Payload-CMS-Collection-Configs
  • API-Routes: Next.js Route Handlers, tRPC-Prozeduren, Webhook-Endpoints
  • Datenbankoperationen: Prisma-Schema-Änderungen, Migration-Dateien, Seed-Skripte
  • TypeScript-Typen: Generieren von Typen aus API-Responses, Zod-Validierungsschemas, gemeinsame Type-Packages

Code-Audits (spart 4-6 Stunden/Woche)

  • Überprüfung vorhandener Codebases vor Refactor-Projekten
  • Identifikation ungenutzter Dependencies, Dead Code, Type-Inkonsistenzen
  • Generieren von Audit-Reports mit spezifischen file:line-Referenzen

Inhalts-Entwürfe (spart 3-5 Stunden/Woche)

  • RFP-Antworten und technische Vorschläge
  • Projekt-Dokumentation und README-Dateien
  • Client-gerichtete technische Erklärungen
  • SOW-Erste-Entwürfe (immer von Menschen überprüft und umgeschrieben)

Testing (spart 5-8 Stunden/Woche)

  • Vitest Unit-Tests für Utility-Funktionen
  • Playwright E2E-Test-Scaffolds
  • Test-Datengenerierung und Fixtures
  • Edge-Case-Identifikation, die wir übersehen könnten

Wofür wir noch Menschen einstellen

Task Warum AI das (noch) nicht kann Wen wir einstellen Typische Kosten
Brand-Strategie Erfordert Verständnis der Marktposition des Clients, Konkurrenten, Kundenpsychologie auf einem Niveau, bei dem AI halluziniert Contract Brand Strategist $3.000-$8.000/Projekt
Copy-Richtung Tonalität, Stimme und Persuasions-Architektur erfordern menschliches Urteilsvermögen Freelance-Copywriter $2.000-$5.000/Projekt
Sales-Calls Clients wollen mit einer Person sprechen, die ihr Geschäft versteht Wir machen das selbst Unsere Zeit
Visuelles Design Figma-Arbeit, Art-Direction, Design-Systeme Contract Designer $4.000-$12.000/Projekt
Komplexe DevOps Kubernetes-Configs, Multi-Region-Deployments, CI/CD für regulierte Branchen Contract DevOps Engineer $150-$200/Stunde
Rechtliche Überprüfung Verträge, MSAs, IP-Klauseln Anwalt $350-$500/Stunde
Accessibility-Audits Automatisierte Tools erfassen 30-40% der Probleme; echtes Screen-Reader-Testing benötigt einen Menschen A11y-Spezialist $1.500-$3.000/Audit
Nutzerforschung Mit echten Nutzern sprechen, Feedback synthetisieren UX-Researcher $100-$150/Stunde

Das sind 8 Kategorien, bei denen Menschen unverzichtbar sind.

Echte Zahlen: Kosten pro MVP und Zeit bis zur Bereitstellung

Hier sind echte Zahlen aus unseren letzten 6 Client-Projekten (Q1-Q2 2025), anonymisiert:

Projekt Stack Legacy-Schätzung AI-gestützte Aktualität Zeit bis Bereitstellung
SaaS-Marketing-Site Next.js 15 + Sanity v3 $38.000 $11.500 12 Tage
E-Commerce-Storefront Next.js 15 + Shopify Storefront API $52.000 $18.200 18 Tage
Portfolio/CMS für Kreativ-Agentur Astro 5 + Payload CMS 3.0 $28.000 $8.400 10 Tage
SaaS-Dashboard MVP Next.js 15 + Supabase + Prisma $45.000 $14.800 16 Tage
Nonprofit-Site-Redesign Next.js 14 + Contentful $32.000 $9.200 11 Tage
Developer-Docs-Site Astro 5 + MDX + Algolia $22.000 $7.600 8 Tage

„Legacy-Schätzung" ist das, was wir 2023 mit unserer alten Teamstruktur angeboten hätten. „AI-gestützte Aktualität" ist das, was der Client 2025 bezahlte.

Kostenreduktion: 62%. Zeit bis zur ersten Bereitstellung: 12,5 Tage.

Das sind alles Projekte in unserem Sweet Spot – Headless-CMS-Sites und Next.js-Anwendungen. Enterprise-RBAC-Systeme, echtzeitkollaborative Apps oder alles, das komplexe verteilte Systeme umfasst, würde anders aussehen.

Unsere Claude-Code-Projekt-Einrichtung

Jedes Projekt beginnt mit einer CLAUDE.md-Datei im Repo-Root. Dies ist das einzeln wirkungsvollste Ding, das wir getan haben, um die AI-Output-Qualität zu verbessern. Hier ist unsere Template-Struktur:

# Projekt: [Client-Name]

## Tech Stack
- Framework: Next.js 15.1 (App Router)
- CMS: Sanity v3.72
- Styling: Tailwind CSS v4.0
- Sprache: TypeScript 5.7 (strict mode)
- Package Manager: pnpm 9.x
- Node: 22 LTS

## Architektur-Entscheidungen
- Alle Datenbeschaffung in Server-Komponenten
- Client-Komponenten nur für Interaktivität
- GROQ-Queries co-located mit Seiten-Komponenten
- Keine Barrel-Exports
- Bevorzuge benannte Exports

## Code-Konventionen
- Verwende `cn()` Utility für bedingte Klassen (bereits in lib/utils.ts)
- Error Boundaries auf Route-Segment-Ebene
- Alle Bilder über next/image mit expliziten Dimensionen
- Formulare verwenden react-hook-form + zod

## Dateistruktur
[tree output of src/ directory]

## Bekannte Constraints
- Client erfordert WCAG 2.2 AA
- Muss unterstützen IE-- nur Spaß. Chrome 120+, Safari 17+, Firefox 121+
- Deploy-Ziel: Vercel (Pro-Plan, us-east-1)

## Tue NICHT
- Neue Dependencies installieren ohne zu fragen
- Dateien außerhalb von src/ erstellen
- Default Exports verwenden (außer für Next.js pages/layouts)
- CSS außerhalb von Tailwind-Klassen schreiben

Diese Datei eliminiert ungefähr 40% der „Claude ist aus dem Ruder gelaufen"-Vorfälle. Ohne sie bekommst du generischen Code, der nicht zu den Mustern deines Projekts passt. Mit ihr generiert Claude Code Komponenten, die aussehen, als hätte dein Team sie geschrieben.

Wir verwenden auch claude --dangerously-skip-permissions während Scaffold-Phasen (niemals in Production-Branches) und wechseln zum interaktiven Genehmigungsmodus, sobald wir über die anfängliche Einrichtung hinaus sind. Kosten pro Projekt in API-Nutzung: typischerweise $40-$120 für einen vollständigen Build, laufend auf Claude 4 Sonnet.

Ist das Eins-Person-Milliarden-Dollar-Unternehmen real?

Nein. Aber es ist ein Gedankenexperiment, das etwas Echtes über unsere aktuelle Situation enthüllt.

Evartology's Piece auf Substack – „How to Run a Company Alone in 2026" – legt eine beeindruckende Sammlung vor: AI für Engineering, Marketing, Sales, Operations, sogar Hiring. Es ist ein gut organisierter Playbook, und ich stimme etwa 60% davon zu. Die Teile über die Verwendung von AI für Content-Entwürfe, Code-Generierung und operationale Docs entsprechen unserer Erfahrung. Aber das Piece unterschätzt die Unverzichtbarkeit von Vertrauen. Clients kaufen nicht Code. Sie kaufen Zuversicht, dass jemand ihr Problem versteht. Das ist eine menschliche Sache.

Henry's Piece (henrythe9th auf Substack) über einen Solo-Founder, der sich mit AI-Agents „geklont" hat, ist geerderter. Das spezifische Beispiel der Verwendung von AI zur Bewältigung von Customer-Support-Triage und First-Draft-Responses resoniert – wir machen etwas Ähnliches mit technischen Proposal-Entwürfen. Aber die Rahmung des „Klonens" überverkauft es. Was wirklich passiert ist, ist Task-Delegation an AI. Du hast dein Urteilsvermögen nicht geklont. Du hast dein Tippen ausgelagert.

Nate's Executive Briefing über One-Person-Businesses berührt die Carta-Daten, die einen wachsenden Prozentsatz von Solo-Founder-Startups zeigen. Das ist real. Carta's Daten von früh 2025 zeigten Solo-Incorporations im Aufwärtstrend. Aber ein solo-incorporiertes Unternehmen auf Carta ist nicht dasselbe wie ein solo-betriebenes Unternehmen. Die meisten dieser Founder stellen Contractors, Agenturen (wie wir) und fraktionale Rollen ein. Sie sind solo auf dem Cap Table, nicht solo in der Praxis.

Unsere Sichtweise: Die realistische Version davon ist nicht eine Person, die eine Milliarde Dollar macht. Es ist eine Person (oder ein sehr kleines Team), die $1M-$5M Umsatz macht, mit 70-80% Margen, die die Arbeit macht, die früher 8-12 Menschen benötigte. Das ist keine Fantasie. Wir sehen es passieren. Aber es erfordert AI-Kompetenz, Domain-Expertise und ein bestehendes professionelles Netzwerk. Nicht nur ein ChatGPT-Abonnement.

Was noch nicht funktioniert

1. Komplexe Multi-File-Refactors

Claude Code kann einen einzelnen File großartig refaktorieren. Aber wenn du koordinierte Änderungen über 15+ Dateien benötigst – sagen wir, ein Datenmodell zu ändern, das API-Routes, Komponenten, Typen, Tests und CMS-Schemas berührt – verliert es die Kohärenz bei Datei 8-10. Wir haben es beobachtet, wie es brechende zirkuläre Abhängigkeiten einführt, Imports in Dateien vergisst, die es früher in der Session berührt hat, und Dateien stillschweigend überspringt. Unser Workaround: Refactors in 3-4 Datei-Batches aufteilen und zwischen jedem verifizieren.

2. Design-zu-Code von Figma

Trotz des Hypes ist die Generierung produktionsqualitativer Komponenten aus Figma-Designs immer noch eine 60%-Genauigkeitsaufgabe im besten Fall. Claude Code (oder ein LLM) kann deine Figma-Datei nicht direkt sehen. Du beschreibst Layouts in Worten oder klebst Screenshots ein. Die Ausgabe bekommt die Struktur ungefähr richtig, aber verpasst Abstände, responsive Breakpoints und Interaction-States. Wir lassen immer noch einen Menschen Designs in Komponenten übersetzen, dann verwenden wir Claude Code, um Varianten und States auszufüllen.

3. Performance-Optimierung

Claude Code wird dir sagen, React.memo() hinzufügen und fertig. Echte Performance-Arbeit – Identifikation unnötiger Re-Renders durch React DevTools Profiling, Optimierung von GROQ-Queries durch Analyse der Sanity-Ausführungspläne, Reduktion von CLS durch Audit von Third-Party-Scripts – erfordert menschliche Beobachtung des Runtime-Verhaltens. AI kann deine App nicht profilen.

4. Debugging von Production-Problemen

Wenn etwas um 2 Uhr morgens bricht und der Fehler ein kryptisches Vercel Edge Runtime Timeout ist, kann Claude Code Möglichkeiten vorschlagen. Aber es kann nicht auf dein Datadog-Dashboard schauen, das Timing mit einem Deploy korrelieren, überprüfen, ob der CDN-Cache gelöscht wurde, oder erkennen, dass das Problem eigentlich eine DNS-Propagierungsverzögerung aus einer Domain-Übertragung ist, die vor 48 Stunden passiert ist. Production-Debugging ist kontextintensiv und AI-Context-Fenster sind immer noch zu eng.

5. Alles, das visuelles Urteilsvermögen erfordert

Ist diese Animation zu schnell? Fühlt sich diese Farbkombination richtig für eine Luxury-Marke an? Ist der Whitespace ausgewogen? Claude Code hat null Meinungen hier. Frag nicht.

6. Long-Running Session Coherence

Nach etwa 45-60 Minuten kontinuierlicher Arbeit in einer einzelnen Claude-Code-Sitzung beobachten wir Qualitätsdegradation. Es beginnt, Muster von früher in der Sitzung zu wiederholen, auch wenn sich der Kontext geändert hat. Es vergisst Constraints aus der CLAUDE.md. Wir starten Sessions alle 45 Minuten neu als Regel. Das ist eine echte Produktivitätssteuer – wahrscheinlich 20-30 Minuten Reorientierungszeit pro Tag.

Wie wir Client-Projekte jetzt scopen

Unser Scoping-Prozess hat sich fundamental verändert. Hier ist das Vorher und Nachher:

Vorher (2023)

  1. Discovery-Call (1 Stunde)
  2. Interne Architektur-Diskussion (2 Stunden)
  3. Detailliertes SOW mit stundengenauen Schätzungen pro Feature (4-6 Stunden)
  4. Client-Review-Zyklus (1-2 Wochen)
  5. Unterzeichneter Vertrag → Kickoff

Nachher (2025)

  1. Discovery-Call (45 Minuten)
  2. Claude Code generiert SOW-Ersten-Entwurf aus Call-Notizen (15 Minuten Prompting)
  3. Ich überprüfe und schreibe das SOW um (1 Stunde)
  4. Wir bauen einen Wegwerf-Proof-of-Concept der schwierigsten technischen Herausforderung mit Claude Code (2-3 Stunden)
  5. Scope wird jetzt auf Grundlage von echten Implementierungsdaten bestimmt, nicht Vermutungen
  6. Client-Review (3-5 Tage)
  7. Unterzeichneter Vertrag → Kickoff

Schritt 4 ist der Schlüsselunterschied. Wir schätzten früher „Shopify Storefront API-Integration: 40 Stunden" basierend auf Erfahrung. Jetzt bauen wir tatsächlich eine grobe Version in 2-3 Stunden und wissen, dass es 22 Stunden mit AI-Unterstützung sind. Unsere Schätzungen liegen innerhalb von 15% der Ist-Werte. Sie waren früher innerhalb von 30-40%.

Dies kostet uns 3-4 Stunden unbezahlte Pre-Sales-Arbeit pro Projekt. Aber unsere Close-Rate ging von ~35% auf ~55%, weil Clients einen funktionierenden Prototype vor der Unterzeichnung sehen.

Die Gründer-Mathematik: Stunden pro Woche – Aufschlüsselung

Hier ist meine Woche als Agentur-Founder, der Claude Code verwendet, wirklich aufgeschlüsselt:

Aktivität Stunden/Woche AI-gestützt?
Client-Calls und Slack 6 Nein
Architektur und technische Entscheidungen 5 Teilweise (Claude Code für Forschung)
Code-Review von AI-Output 8 Nein
Leitung von Claude-Code-Sitzungen 6 N/A (das IST die AI-Arbeit)
Business Ops (Invoicing, Verträge, Planung) 3 Teilweise (Entwürfe)
Sales und Proposals 3 Teilweise (Erste Entwürfe)
Manuelles QA und Testing 3 Nein
Lernen und aktuell bleiben 2 Nein
Gesamt 36

36 Stunden pro Woche. Nicht 80. Nicht 20. Und das ist bei der Führung einer Agentur mit $60K-$80K/Monat Umsatz mit 2 aktiven Client-Projekten gleichzeitig.

Pre-AI erforderte diese gleiche Output 3,5 FTEs und meine 50-Stunden-Wochen. Die Mathematik ist real. Aber beachte: 22 dieser 36 Stunden sind immer noch vollständig menschliche Arbeit. AI hat Arbeit nicht eliminiert. Sie hat das Verhältnis von Denken zu Tippen verändert.

FAQ

Wie viel kostet Claude Code pro Monat für Agentur-Arbeit?

Wir geben ungefähr $180-$300/Monat für Claude API-Nutzung für Claude Code über alle Projekte aus. Das ist beim Claude 4 Sonnet Modell. Einzelne Projekt-Kosten reichen von $40-$120 abhängig von Umfang und Session-Anzahl.

Kann Claude Code einen Junior Developer ersetzen?

Sie ersetzt die Output eines Junior Developers, aber nicht die Rolle. Jemand muss immer noch die AI lenken, überprüfen und korrigieren. Dieser Jemand benötigt Senior-Level-Urteilsvermögen. AI-generierter Code ohne Expert-Review versendet Bugs schneller.

Was ist das beste CMS für einen Claude-Code-Workflow?

Sanity v3, weil seine Schema-Definitionen TypeScript-Dateien sind, die Claude Code außergewöhnlich gut generiert. Payload CMS 3.0 ist ein enger Zweiter. Contentful funktioniert, aber seine Management API ist komplexer für die zuverlässige Zusammenarbeit mit AI.

Funktioniert Claude Code für Mobile-App-Entwicklung?

Wir haben es für React Native (Expo SDK 52) Projekte mit anständigen Ergebnissen für Component-Generierung und Navigation-Setup verwendet. Es kämpft mehr mit nativer Modul-Konfiguration und Platform-spezifischem Debugging. Ungefähr 40-50% Produktivitätsgewinne vs. 60-70% für Web-Projekte.

Wie handhabt ihr Client-IP-Bedenken mit AI-generiertem Code?

Unser MSA enthält eine Klausel, die besagt, dass alle Liefergegenstände Original-Arbeit sind, unabhängig vom verwendeten Tool. Anthropic's Terms (ab Juni 2025) gewähren Nutzern Rechte auf Outputs. Wir senden keine Client-Proprietär-Daten an die API – nur Code-Muster und generische Implementierungen.

Was passiert, wenn Claude Code falschen Code generiert?

Es passiert auf ungefähr 15-20% der Tasks. Unser Workflow trägt dem mit obligatorischem menschlichen Code-Review auf jedem PR Rechnung. Häufige Fehlermodi: inkorrekte TypeScript-Generics, veraltete API-Muster aus Trainingsdaten und fehlende Error-Behandlung für Edge Cases. Wir planen Review-Zeit in jede Schätzung ein.