Waarom we onze eigen blogpijplijn hebben gebouwd met Claude, GPT-4o en Winston AI
De meeste bureaus outsourcen hun content of huren een junior writer in om SEO-posts uit te braken die klinken alsof ze door een broodrooster zijn gegenereerd. Wij hebben dat geprobeerd. Het werkte niet. Dus hebben we iets anders gebouwd -- een multi-model AI-pipeline die artikelen concept, humaniseert, scoort en publiceert in een tempo dat geen enkele schrijver alleen zou kunnen halen, terwijl we een kwaliteitsnorm handhaven die werkelijk weerspiegelt hoe we over webontwikkeling denken.
Dit is het verhaal van hoe we 91 artikelen in onder drie maanden hebben gepubliceerd, de specifieke tools en modellen die we samen hebben gekoppeld, en elke lelijke les die we onderweg hebben geleerd.
Inhoudsopgave
- Het Probleem Met Bureau Content
- Architectuur Van Onze Blog Pipeline
- Waarom Claude Opus 4 Voor Eerste Concepten
- De GPT-4o Humanizer Pass
- Winston AI Detectie En De 85% Drempel
- De Volledige Workflow Stap Voor Stap
- Wat 91 Artikelen Ons Hebben Geleerd Over AI Content
- Kostenoverzicht En Prestatiegegevens
- Tools Die We Hebben Geëvalueerd En Afgewezen
- Veelgestelde Vragen

Het Probleem Met Bureau Content
Dit is een waarheid die niemand in de bureau-wereld hardop wil zeggen: de meeste development shops zijn waardeloos in content marketing. Wij waren geen uitzondering -- of in ieder geval niet.
We hadden het klassieke probleem. Ons team weet hoe je dingen bouwt met Next.js, Astro, en verschillende headless CMS-platforms. We leveren echte producten voor echte klanten. Maar erover schrijven? Consistent? In een cadans die echt de SEO-naald doet bewegen? Dat is een heel ander soort spierwerk.
We hebben geprobeerd freelance writers aan te nemen. De technische diepte was oppervlakkig. We hebben geprobeerd developers posts te laten schrijven. Ze zouden één briljant artikel produceren en dan zes weken in een sprint verdwijnen. We hebben basale AI-generatie met ChatGPT geprobeerd -- de output klonk als een Wikipedia-artikel dat een baby had met een marketingbrochure.
Dus stelden we onszelf de vraag: wat als we content production als een software engineering-probleem zouden behandelen? Wat als we een pipeline zouden bouwen?
Architectuur Van Onze Blog Pipeline
De pipeline heeft vijf stadia. Elk stadium heeft een specifiek model of tool die er verantwoordelijk voor is, en elk produceert een meetbare output die het volgende stadium voert.
┌─────────────┐ ┌──────────────┐ ┌─────────────┐
│ Research & │────▶│ Claude Opus │────▶│ GPT-4o │
│ Brief Gen │ │ First Draft │ │ Humanizer │
└─────────────┘ └──────────────┘ └─────────────┘
│
▼
┌─────────────┐
│ Winston AI │
│ Detection │
└─────────────┘
│
▼
┌─────────────┐
│ Human Edit │
│ & Publish │
└─────────────┘
Stadium 1: Research & Brief Generation
We gebruiken een combinatie van Ahrefs voor keyword-onderzoek en Tavily's API voor real-time concurrentieanalyse. Het briefje is een gestructureerd JSON-document dat het volgende bevat:
- Doeltrefwoord en secundaire trefwoorden
- Top 10 concurrerende artikelen (titels, woordaantallen, H2-structuren)
- People Also Ask-vragen gescraped van Google
- Een voorgestelde outline met streef-woordaantal per sectie
Dit briefje wordt de invoerprompt voor Claude.
Stadium 2: Claude Opus First Draft
Claude Opus 4 schrijft het eerste concept. Meer hierover hieronder.
Stadium 3: GPT-4o Humanizer Pass
Het concept gaat door GPT-4o met een zorgvuldig afgestelde systeemprompt die is ontworpen om de schrijfstijl als een echte persoon te laten klinken.
Stadium 4: Winston AI Detectie
We scoren elk artikel via Winston AI. Als het niet onze drempel haalt, gaat het terug door de humanizer met verschillende parameters.
Stadium 5: Human Edit & Publish
Een echte persoon leest elk artikel. Ze controleren op technische nauwkeurigheid, voegen waar passend persoonlijke anekdotes toe, en verzorgen de uiteindelijke opmaak.
Waarom Claude Opus 4 Voor Eerste Concepten
We hebben elk groot model getest voor eerste conceptgeneratie. Hier's wat we vonden:
| Model | Technische Diepte (1-10) | Structuurkwaliteit (1-10) | Gem. Woordaantal | AI Detectie Score (Winston) | Kosten per Artikel |
|---|---|---|---|---|---|
| GPT-4o | 7 | 8 | 2.400 | 32% menselijk | $0,18 |
| Claude Opus 4 | 9 | 9 | 3.100 | 28% menselijk | $0,42 |
| Claude Sonnet 4 | 8 | 8 | 2.600 | 35% menselijk | $0,08 |
| Gemini 2.5 Pro | 7 | 7 | 2.800 | 30% menselijk | $0,14 |
| Llama 3.1 405B | 6 | 6 | 2.200 | 41% menselijk | $0,03 |
Claude Opus 4 won op de twee dimensies waar we het meest om gaven: technische diepte en structuurkwaliteit. De AI-detectiescores waren eigenlijk slechter dan GPT-4o's raw output, maar dat maakte niet uit omdat we toch geen raw output van enig model zouden publiceren.
Het moeilijk in woorden uit te drukken deel over Claude Opus is dit: het volgt complexe instructies getrouwer dan alles wat we hebben getest. Wanneer we zeggen "schrijf als een senior developer die hard verworven kennis deelt," verschuift Claude werkelijk van register. GPT-4o heeft de neiging om ongeacht hoe hard je erop duwt terug te vallen in een behulpzame assistent-stem. Gemini produceert redelijke technische content maar wordt raar formeel op bepaalde plekken.
Het kostenverschil is echt -- Opus is ruwweg 2-5x duurder per token dan de alternatieven. Maar wanneer je de tijd bespaart op herschrijvingen meeneemt, is het de goedkoopste optie alles overwegende.
De Systeemprompt Die Het Verschil Maakte
We hebben ongeveer drie weken aan onze Claude-systeemprompt gewerkt voordat we iets lands kwam dat consistent goede output produceerde. Een paar dingen die we hebben geleerd:
Het verbieden van specifieke zinnen werkt beter dan het vragen om een toon. In plaats van "schrijf in een casual toon," onderhouden we een lijst van verboden woorden en zinnen. Dingen als "comprehensive," "leverage," "in today's digital landscape" -- de voor de hand liggende verkenningen van AI-gegenereerde content.
Het afdwingen van structurele beperkingen produceert betere content. We specificeren exacte koptypen structuren, vereisen code-blokken, eisen markdown-tabellen. Claude Opus volgt deze beperkingen bijna perfect.
Het verstrekken van echte context slaat generieke instructies. We voeren werkelijk concurrentieonderzoek in. We vertellen Claude wat de meest geclassificeerde artikelen behandelen en waar ze tekortschieten. Dit produceert content die werkelijk gedifferentieerd is.
def generate_first_draft(brief: dict) -> str:
system_prompt = load_prompt("claude_writer_v14.txt")
messages = [
{"role": "user", "content": format_brief(brief)}
]
response = anthropic_client.messages.create(
model="claude-opus-4-20250514",
max_tokens=8192,
system=system_prompt,
messages=messages,
temperature=0.7 # slightly creative, not chaotic
)
return response.content[0].text
We hebben een temperatuur van 0,7 gekozen. Lager dan dat en de schrijfstijl voelt robotisch. Hoger en Claude begint dingen verzonnen -- hallucinaties van frameworkfuncties, het verzinnen van API-eindpunten die niet bestaan.

De GPT-4o Humanizer Pass
Dit is waar het interessant wordt. En een beetje raar.
Nadat Claude een technisch solide eerste concept heeft geproduceerd, geven we het door aan GPT-4o met een volledig ander systeemprompt. De taak van dit prompt is niet om informatie toe te voegen -- het is om de schrijfstijl menselijker te laten voelen.
Wat betekent dat eigenlijk in de praktijk? Een paar specifieke transformaties:
- Zinlengtevariatie. AI-modellen hebben de neiging zinnen te schrijven die allemaal ongeveer dezelfde lengte hebben. Mensen doen dat niet. We instrueren GPT-4o om korte snelle zinnen met langere te mengen.
- Onvolmaakte overgangen. Echte blogposts hebben geen perfecte alinea-naar-alinea flow. Soms spring je gewoon naar de volgende gedachte. De humanizer voegt deze natuurlijke onderbrekingen toe.
- Eerste persoons toevoegingen. "In onze ervaring," "We hebben ontdekt dat," "Ik heb een week aan debuggen doorgebracht" -- deze kleine touches maken een enorm verschil in AI-detectiescores.
- Samentrekkingen. Claude Opus schrijft de neiging "do not" en "it is" zelfs wanneer instructies worden gegeven anders. De humanizer pass vangt deze op en converteert ze.
def humanize_draft(draft: str) -> str:
system_prompt = load_prompt("gpt4o_humanizer_v8.txt")
response = openai_client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": system_prompt},
{"role": "user", "content": f"Humanize this article while preserving all technical accuracy and structure:\n\n{draft}"}
],
temperature=0.8
)
return response.choices[0].message.content
Waarom GPT-4o voor deze pass in plaats van Claude? Eerlijk gezegd is het omdat GPT-4o beter casual klinkt. Claude's sterkte is technische precisie en instructie-opvolging. GPT-4o's sterkte is het nadoen van menselijke schrijfpatronen. We spelen naar elk model's sterktes.
De Dual-Model Benadering Was Niet Ons Eerste Idee
We hebben aanvankelijk geprobeerd alles met één model te doen. Eén prompt, één pass, één output. De resultaten waren over de hele linie middelmatig. Het concept was of technisch sterk maar robotisch, of conversationeel maar ondiep.
Het splitsen van de pipeline in gespecialiseerde stadia was de doorbraak. Het is hetzelfde principe achter microservices -- elk onderdeel doet één ding goed.
Winston AI Detectie En De 85% Drempel
We hebben Winston AI als ons detectiehulpmiddel gekozen na het testen van vijf verschillende AI-inhoudsdetectoren. Hier's waarom:
| Detector | Consistentie (dezelfde input, dezelfde score?) | Vals Positief Tarief | API Beschikbaar? | Prijs/maand |
|---|---|---|---|---|
| Winston AI | Hoog | Laag (~3%) | Ja | $18/ma |
| Originality.ai | Hoog | Gemiddeld (~8%) | Ja | $15/ma |
| GPTZero | Gemiddeld | Gemiddeld (~7%) | Ja | $10/ma |
| Copyleaks | Gemiddeld | Laag (~4%) | Ja | $8/ma |
| Sapling | Laag | Hoog (~12%) | Ja | Gratis tier |
Winston AI gaf ons de meest consistente scores over runs heen. Als je hetzelfde artikel twee keer invoert, krijg je bijna dezelfde menselijke score. Dat doet er toe wanneer je een automatische pipeline bouwt -- je hebt min of meer deterministisch gedrag nodig om beslissingen te nemen.
Onze drempel is 85% menselijke score. Daaronder gaat het artikel terug door de humanizer met aangepaste parameters (hogere temperatuur, ander instructienadruk). Als het een tweede keer faalt, herschrijft een mens de gemarkeerde secties handmatig.
In de praktijk passeert ongeveer 70% van artikelen de eerste humanizer-run. Nog eens 20% passeert de tweede. De overige 10% heeft handmatige tussenkomst nodig.
def check_detection(article: str) -> dict:
result = winston_client.scan(text=article)
return {
"human_score": result.score, # 0-100
"passed": result.score >= 85,
"flagged_sentences": result.flagged_sentences
}
Het flagged_sentences veld is goud. In plaats van het volledige artikel opnieuw uit te voeren, kunnen we alleen de zinnen richten die de detector hebben getriggerd. Dit bespaart tokens en produceert betere resultaten.
De Volledige Workflow Stap Voor Stap
Dit is wat werkelijk gebeurt wanneer we een nieuw artikel willen publiceren:
Trefwoord selectie -- We trekken uit onze inhoudskalender (onderhouden in Notion) en kruisverwijzen met Ahrefs trefwoord moeilijkheidsscores. We mikken op KD < 30 voor nieuwe onderwerpen.
Concurrentieonderzoek -- Onze script raakt Tavily's zoek-API en trekt de top 10 resultaten. Het extraheert koppen, woordaantallen, en inhoudskloven.
Brief generatie -- Een Claude Sonnet 4 call (goedkoper dan Opus voor deze taak) genereert een gestructureerd briefje uit de onderzoeksgegevens.
Eerste concept -- Claude Opus 4 produceert het artikel. Duurt ongeveer 45-90 seconden afhankelijk van lengte.
Humanizer pass -- GPT-4o herschrijft voor stem en natuurlijkheid. Nog eens 30-60 seconden.
Detectie scoring -- Winston AI scoort de output. Resultaten komen terug in ongeveer 10 seconden.
Loop of doorgaan -- Als score < 85%, ga terug naar stap 5 met aangepaste parameters. Max 2 pogingen.
Menselijke review -- Een teamlid leest het artikel, controleert feiten, voegt schermafbeeldingen of diagrammen toe, en formatteert voor onze CMS.
Publiceren -- Artikel gaat live via onze headless CMS-pipeline.
Totale tijd per artikel: ongeveer 35 minuten menselijke aandacht. De AI-stadia duren ongeveer 3 minuten rekentijd.
Wat 91 Artikelen Ons Hebben Geleerd Over AI Content
We voeren deze pipeline sinds januari 2025 uit. Hier zijn de patronen die naar voren kwamen:
Technische Content Presteert Beter
Onze best presterende artikelen zijn diep technische stukken over specifieke frameworks en tools. Artikelen over Next.js-ontwikkelings patronen of Astro-prestatie-optimalisatie overtreffen consistent generieke "wat is headless CMS" content.
Dit heeft zin. AI-gegenereerde generieke content is nu overal. Google's rangschikkingsalgoritmen begunstigen duidelijk specificiteit en diepte. Onze pipeline is ontworpen om precies dat soort content te produceren.
De Eerste 30 Artikelen Waren Ruw
Ik ga niet doen alsof we het vanaf dag één hebben geperfectioneerd. De eerste batch artikelen had problemen:
- Inconsistente stem over artikelen heen
- Sommige hallucineerde statistieken (Claude citeerde vol vertrouwen een "2024 Gartner-rapport" dat niet bestond)
- Code voorbeelden die niet compileerden
- Repetitieve sectiestructuren
We hebben deze bepaald door prompt-iteratie en strengere menselijke review. De systeemprompt is nu versie 14. Elke versie sprak specifieke foutmodi aan die we in gepubliceerde content hebben geïdentificeerd.
AI Detectie Is Een Bewegend Doelwit
Winston AI werkte hun detectiemodel twee keer bij tijdens onze drie maanden durende run. Elke keer daalden onze scores met 5-10 punten en moesten we het humanizer-prompt aanpassen. Dit is een voortdurende wapenwedloop, en als je iets soortgelijks bouwt, plan dan onderhoud in.
Menselijke Review Is Non-Negotiabel
We hebben geprobeerd menselijke review over te slaan voor een batch van 5 artikelen als experiment. Twee ervan hadden feitelijke fouten die ons zouden hebben beschaamd. Een ernaelde naar een API die in 2023 was vervallen. Nog een beweerde dat Next.js 15 een functiette ondersteunde die eigenlijk nog steeds in RFC staat.
Elk artikel krijgt menselijke ogen. Periode.
Kostenoverzicht En Prestatiegegevens
Hier zijn de werkelijke getallen uit onze 91-artikel-run:
| Metriek | Waarde |
|---|---|
| Totaal gepubliceerde artikelen | 91 |
| Gemiddeld woordaantal | 2.847 |
| Totale AI API kosten | $127,40 |
| Gemiddelde kosten per artikel (AI alleen) | $1,40 |
| Winston AI abonnement (3 maanden) | $54,00 |
| Ahrefs abonnement (3 maanden) | $297,00 |
| Tavily API kosten | $42,00 |
| Menselijke review tijd (gem per artikel) | 35 min |
| Totale menselijke uren | ~53 uren |
| Artikelen die Winston eerste poging passeren | 64 (70%) |
| Artikelen met handmatig herschrijven nodig | 9 (10%) |
| Gemiddelde Winston AI menselijke score (uiteindelijk) | 89% |
| Organisch verkeer toename (jan-mrt 2025) | +340% |
| Geïndexeerde paginatoename | +86 |
De $1,40 per artikel in AI-kosten is opmerkelijk laag. De echte uitgave is menselijke tijd -- 53 uren over drie maanden voor review en bewerking. Maar vergelijk dat met wat een freelance technisch schrijver aanrekent. Bij $0,15/woord voor kwaliteit technische content, zou een artikel van 2.847 woorden ongeveer $427 kosten. We produceren vergelijkbare kwaliteit-content voor ruwweg $35 aan menselijke tijd (tegen $40/uur) plus $1,40 in AI-kosten.
Dat is een 91% kostenreductie. En de output is technisch nauwkeurig omdat de AI-modellen bredere kennis hebben dan enig afzonderlijk freelance schrijver.
Tools Die We Hebben Geëvalueerd En Afgewezen
Niet alles wat we hebben geprobeerd haalde het in de uiteindelijke pipeline:
- Jasper AI -- Te gericht op marketing copy. Kon de technische diepte niet produceren die we nodig hadden. Ook duur op $59/maand voor hun business tier.
- Copy.ai -- Soortgelijke problemen als Jasper. Geweldig voor advertentiecopy, niet voor 3.000-woord technische artikelen.
- Undetectable.ai -- We hebben dit als humanizer getest in plaats van GPT-4o. De output was grammaticaal onhandig en veranderde soms de technische betekenis van zinnen. Absoluut niet.
- Surfer SEO -- Goed hulpmiddel, maar we gaven de voorkeur aan het bouwen van onze eigen SEO-analyse met Ahrefs-gegevens. Surfer's content editor voelde te beperkend.
- Perplexity API -- We hebben dit getest voor het onderzoeksstadium. Resultaten waren goed maar het citaatformaat integreerde niet goed met onze briefstructuur. We kunnen dit misschien later herzien.
Veelgestelde Vragen
Is dit niet gewoon content spam? Nee. Elk artikel gaat door menselijke review op technische nauwkeurigheid en werkelijk nut. We spinnen geen content of publiceren dunne pagina's. Elk stuk richt zich op een specifiek trefwoord met echte diepte. De AI verwerkt het zware werk van eerste concept-generatie, maar het redactionele oordeel is volledig menselijk. Controleer onze content over de site -- we houden onszelf aan dezelfde standaard als we willen van een technische blog die we lezen.
Waarom niet gewoon writers aanstellen? We gebruiken nog steeds menselijke schrijvers voor bepaalde stukken -- casestudy's, opiniestukken, en alles wat directe klantervaring vereist. Maar voor technische uitleggen en vergelijkingsartikelen produceert onze pipeline betere eerste concepten dan de meeste freelance schrijvers omdat de AI-modellen bredere en actuele technische kennis hebben. De economie maakt het ook mogelijk om te publiceren in een volume dat zou prohibitief zijn met freelancers alleen.
Penaliseert Google AI-gegenereerde content? Google's officiële standpunt sinds hun maart 2024 update is dat ze inhoudskwaliteit evalueren ongeacht hoe deze is geproduceerd. Ze penaliseren lage kwaliteit, massaproductie content -- of het nu AI-gegenereerd is of geschreven door een content farm in een taal die de schrijver niet native spreekt. Onze content rangschikt omdat het werkelijk nuttig is, technisch nauwkeurig, en goed gestructureerd. We hebben consistente indexerings- en rangschikkingsverbeteringen gezien over onze 91 artikelen.
Wat betekent de Winston AI menselijke score precies? Winston AI analyzeert tekstpatronen -- perplexiteit, burstiness, zinlengtevariatie, woordenschat verdeling -- en produceert een score van 0 tot 100 die de waarschijnlijkheid weergeeft dat de tekst door een mens is geschreven. Een score van 85 betekent dat Winston gelooft dat er een 85% kans is dat een mens het schreef. Geen detector is perfect, maar Winston's consistentie maakt het nuttig als kwaliteitspoort in een automatische pipeline.
Zouden jullie deze pipeline open-source kunnen maken? We hebben het overwogen. De kernlogica is niet zo complex -- het zijn meestal API-aanroepen aan elkaar genaaid met Python. De echte waarde zit in de prompts, en die zijn speciaal afgestemd op onze stem en technisch domein. We zouden op een gegeven moment een generieke versie kunnen vrijgeven. Als je geïnteresseerd bent, neem contact met ons op.
Hoe gaan jullie om met codevoorbeelden in artikelen? Dit is één gebied waar menselijke review kritiek is. Claude Opus genereert syntactisch correcte code ongeveer 90% van de tijd, maar de overige 10% bevat subtiele bugs, vervallen API's, of patronen die een ervaren developer zou doen huiveren. Elk codeblok wordt handmatig geverifieerd. Voor framework-specifieke code voeren we het vaak lokaal uit om te bevestigen dat het werkt.
Wat gebeurt er wanneer de AI-modellen worden bijgewerkt? Model updates kunnen alles verbreken. Toen Anthropic Claude Opus 4 lanceerde, hadden onze prompts die perfect werkten op Claude 3 Opus aanzienlijke rework nodig. We onderhouden versiedeprompts en testen tegen een benchmark-set van 10 artikelen wanneer een model wordt bijgewerkt. Budget time hiervoor -- het is drie keer in onze drie maanden durende run gebeurd.
Wat komt er volgende voor de pipeline? We werken aan het toevoegen van automatische schermafbeelding-generatie met behulp van Playwright, integratie met onze headless CMS deployment pipeline voor one-click publicatie, en bouw van een feedback loop waar Google Search Console-gegevens beïnvloeden welke onderwerpen we volgende prioriteit geven. Het doel is om die 35-minuten menselijke review-tijd te verminderen zonder kwaliteit op het spel te zetten. We zullen er waarschijnlijk over schrijven wanneer het klaar is. Controleer onze prijspagina als je benieuwd bent hoe we soortgelijk systematisch denken toepassen op klantprojecten.