Nous avons construit notre propre pipeline de blog avec Claude, GPT-4o et Winston AI
Votre calendrier de contenu stagne à la semaine trois. Le freelance que vous avez embauché livre un autre article de 800 mots qui s'ouvre sur « dans le paysage numérique d'aujourd'hui » et se lit comme un chatbot transcrivant un webinaire. Vous savez que cela ne classera pas. Vous savez que vos clients le sautent. Alors vous supprimez le brouillon et recommencez — encore une fois. Nous avons affronté la même boucle en fin 2025. Au lieu d'embaucher un autre rédacteur ou de nous contenter d'une production IA générique, nous avons construit un pipeline à trois modèles : Claude Opus rédige la structure technique, GPT-4o réécrit pour un rythme humain, Winston AI évalue la détectabilité, et une couche d'approbation attrape tout ce qui semble s'être échappé d'une page d'atterrissage SaaS. Le résultat : 91 articles livrés en huit semaines, chacun passant le seuil humain de Winston, chacun écrit avec notre voix réelle. Voici l'architecture exacte que nous utilisons, le coût par article, et pourquoi multi-modèles bat single-prompt chaque fois.
Ceci est l'histoire de comment nous avons livré 91 articles en moins de trois mois, les outils et modèles spécifiques que nous avons connectés, et chaque leçon désagréable que nous avons apprise en chemin.
Table des matières
- Le problème du contenu d'agence
- Architecture de notre pipeline de blog
- Pourquoi Claude Opus 4 pour les premiers brouillons
- La passe humanisante GPT-4o
- Détection Winston AI et le seuil de 85%
- Le flux de travail complet étape par étape
- Ce que 91 articles nous ont appris sur le contenu IA
- Ventilation des coûts et données de performance
- Outils que nous avons évalués et rejetés
- FAQ

Le problème du contenu d'agence
Voici une vérité que personne dans le monde de l'agence ne veut dire à haute voix : la plupart des boutiques de développement sont terribles en marketing de contenu. Nous n'étions pas une exception — ou du moins, nous ne l'étions pas.
Nous avions le problème classique. Notre équipe sait comment construire des choses avec Next.js, Astro, et diverses plateformes de CMS découplées. Nous livrons de vrais produits pour de vrais clients. Mais écrire à ce sujet ? Régulièrement ? À un rythme qui déplace réellement l'aiguille SEO ? C'est un muscle entièrement différent.
Nous avons essayé d'embaucher des rédacteurs freelance. La profondeur technique était faible. Nous avons essayé de faire écrire les développeurs. Ils produiraient un article brillant et disparaîtraient ensuite dans un sprint pendant six semaines. Nous avons essayé la génération IA basique avec ChatGPT — la sortie se lisait comme si un article Wikipedia avait un bébé avec une brochure marketing.
Alors nous nous sommes demandé : et si nous traitions la production de contenu comme un problème d'ingénierie logicielle ? Et si nous construisions un pipeline ?
Architecture de notre pipeline de blog
Le pipeline a cinq étapes. Chaque étape a un modèle spécifique ou un outil responsable, et chacune produit une sortie mesurable qui alimente l'étape suivante.
┌─────────────┐ ┌──────────────┐ ┌─────────────┐
│ Recherche & │────▶│ Claude Opus │────▶│ GPT-4o │
│ Génération │ │ Premier │ │ Humaniseur │
│ de Brief │ │ Brouillon │ │ │
└─────────────┘ └──────────────┘ └─────────────┘
│
▼
┌─────────────┐
│ Winston AI │
│ Détection │
└─────────────┘
│
▼
┌─────────────┐
│ Édition │
│ humaine & │
│ Publication │
└─────────────┘
Étape 1 : Recherche et génération de brief
Nous utilisons une combinaison d'Ahrefs pour la recherche de mots-clés et l'API de Tavily pour l'analyse compétitive en temps réel. Le brief est un document JSON structuré qui inclut :
- Mot-clé cible et mots-clés secondaires
- Les 10 meilleurs articles concurrents (titres, nombre de mots, structures H2)
- Les questions « Les gens demandent aussi » extraites de Google
- Un plan proposé avec nombre de mots cible par section
Ce brief devient le prompt d'entrée pour Claude.
Étape 2 : Premier brouillon Claude Opus
Claude Opus 4 rédige le premier brouillon. Plus sur pourquoi ci-dessous.
Étape 3 : Passe humanisante GPT-4o
Le brouillon passe par GPT-4o avec un prompt système soigneusement réglé conçu pour faire sonner l'écriture comme si une vraie personne l'avait écrite.
Étape 4 : Détection Winston AI
Nous notons chaque article via Winston AI. S'il ne franchit pas notre seuil, il repasse par l'humaniseur avec des paramètres différents.
Étape 5 : Édition humaine et publication
Une vraie personne lit chaque article. Elle vérifie l'exactitude technique, ajoute des anecdotes personnelles le cas échéant, et gère le formatage final.
Pourquoi Claude Opus 4 pour les premiers brouillons
Nous avons testé tous les principaux modèles pour la génération de premiers brouillons. Voici ce que nous avons trouvé :
| Modèle | Profondeur technique (1-10) | Qualité de structure (1-10) | Nombre moyen de mots | Score de détection IA (Winston) | Coût par article |
|---|---|---|---|---|---|
| GPT-4o | 7 | 8 | 2 400 | 32% humain | 0,18 $ |
| Claude Opus 4 | 9 | 9 | 3 100 | 28% humain | 0,42 $ |
| Claude Sonnet 4 | 8 | 8 | 2 600 | 35% humain | 0,08 $ |
| Gemini 2.5 Pro | 7 | 7 | 2 800 | 30% humain | 0,14 $ |
| Llama 3.1 405B | 6 | 6 | 2 200 | 41% humain | 0,03 $ |
Claude Opus 4 a remporté sur les deux dimensions qui nous importaient le plus : la profondeur technique et la qualité structurelle. Les scores de détection IA étaient en réalité pires que la sortie brute de GPT-4o, mais cela n'avait pas d'importance parce que nous n'allions pas publier de sortie brute d'aucun modèle.
Ce qu'il y a de difficile à quantifier dans un tableau concernant Claude Opus, c'est ceci : il suit les instructions complexes plus fidèlement que tout ce que nous avons testé. Quand on dit « écris comme un développeur senior partageant des connaissances durement acquises », Claude change réellement son registre. GPT-4o tend à revenir à une voix d'assistant utile peu importe à quel point vous appuyez. Gemini produit du bon contenu technique mais devient bizarrement formel par endroits.
La différence de coût est réelle — Opus est environ 2 à 5 fois plus cher par token que les alternatives. Mais quand vous tenez compte du temps économisé sur les réécrits, c'est l'option la moins chère globalement.
Le prompt système qui a fait la différence
Nous avons itéré sur notre prompt système Claude pendant environ trois semaines avant de nous installer sur quelque chose qui produisait régulièrement une bonne sortie. Quelques choses que nous avons apprises :
Interdire des phrases spécifiques fonctionne mieux que demander un ton. Au lieu de dire « écris dans un ton casual », nous maintenons une liste de mots et phrases interdits. Des choses comme « comprehensive », « leverage », « dans le paysage numérique d'aujourd'hui » — les signes révélateurs du contenu généré par IA.
Forcer des contraintes structurelles produit un meilleur contenu. Nous spécifions des structures de titres exactes, exigeons des blocs de code, demandons des tableaux markdown. Claude Opus suit ces contraintes presque parfaitement.
Fournir un vrai contexte bat les instructions génériques. Nous alimentons la recherche compétitive réelle. Nous disons à Claude ce que les articles les mieux classés couvrent et où ils sont déficients. Cela produit un contenu qui est véritablement différencié.
def generate_first_draft(brief: dict) -> str:
system_prompt = load_prompt("claude_writer_v14.txt")
messages = [
{"role": "user", "content": format_brief(brief)}
]
response = anthropic_client.messages.create(
model="claude-opus-4-20250514",
max_tokens=8192,
system=system_prompt,
messages=messages,
temperature=0.7 # un peu créatif, pas chaotique
)
return response.content[0].text
Nous nous sommes arrêtés sur une température de 0,7. Plus bas que ça et l'écriture se sent robotique. Plus haut et Claude commence à inventer des choses — halluciner des fonctionnalités de framework, inventer des points de terminaison d'API qui n'existent pas.

La passe humanisante GPT-4o
C'est ici que les choses deviennent intéressantes. Et un peu bizarres.
Après que Claude produise un premier brouillon techniquement solide, nous le transmettons à GPT-4o avec un prompt système complètement différent. Le travail de ce prompt n'est pas d'ajouter des informations — c'est de faire sentir l'écriture plus humaine.
Que cela signifie-t-il réellement en pratique ? Quelques transformations spécifiques :
- Variation de la longueur des phrases. Les modèles IA tendent à écrire des phrases qui sont toutes à peu près de la même longueur. Les humains ne font pas ça. Nous instruisons GPT-4o de mélanger des phrases courtes punchy avec des plus longues.
- Transitions imparfaites. Les vrais articles de blog n'ont pas un flux paragraphe-à-paragraphe parfait. Parfois on saute juste à la pensée suivante. L'humaniseur ajoute ces pauses naturelles.
- Insertions à la première personne. « À notre expérience », « Nous avons trouvé que », « J'ai passé une semaine à déboguer cela » — ces petites touches font une énorme différence dans les scores de détection IA.
- Contractions. Claude Opus tend à écrire « ne pas » et « c'est » même quand instructed autrement. La passe humanisante attrape ces cas et les convertit.
def humanize_draft(draft: str) -> str:
system_prompt = load_prompt("gpt4o_humanizer_v8.txt")
response = openai_client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": system_prompt},
{"role": "user", "content": f"Humanisez cet article tout en préservant toute la précision technique et la structure:\n\n{draft}"}
],
temperature=0.8
)
return response.choices[0].message.content
Pourquoi GPT-4o pour cette passe au lieu de Claude ? Honnêtement, c'est parce que GPT-4o est meilleur pour sonner casual. La force de Claude est la précision technique et le suivi des instructions. La force de GPT-4o est d'imiter les motifs d'écriture humains. Nous jouons aux forces de chaque modèle.
L'approche à double modèle n'était pas notre première idée
Nous avons initialement essayé de tout faire avec un seul modèle. Un prompt, une passe, une sortie. Les résultats étaient médiocres partout. Le brouillon était soit techniquement fort mais robotique, soit conversationnel mais peu profond.
Diviser le pipeline en étapes spécialisées a été la percée. C'est le même principe derrière les microservices — chaque composant fait bien une chose.
Détection Winston AI et le seuil de 85%
Nous avons choisi Winston AI comme outil de détection après en avoir testé cinq différents. Voici pourquoi :
| Détecteur | Cohérence (même entrée, même score ?) | Taux de faux positifs | API disponible ? | Prix/mois |
|---|---|---|---|---|
| Winston AI | Élevée | Bas (~3%) | Oui | 18 $ |
| Originality.ai | Élevée | Moyen (~8%) | Oui | 15 $ |
| GPTZero | Moyen | Moyen (~7%) | Oui | 10 $ |
| Copyleaks | Moyen | Bas (~4%) | Oui | 8 $ |
| Sapling | Bas | Élevé (~12%) | Oui | Tier gratuit |
Winston AI nous a donné les scores les plus cohérents dans les exécutions. Si vous alimentez le même article deux fois, vous obtenez presque le même score humain. Cela compte quand vous construisez un pipeline automatisé — vous avez besoin d'un comportement déterministe pour prendre des décisions.
Notre seuil est un score humain de 85%. En dessous de cela, l'article repasse par l'humaniseur avec des paramètres ajustés (température plus élevée, accent d'instruction différent). S'il échoue une deuxième fois, un humain réécrit manuellement les sections signalées.
En pratique, environ 70% des articles passent à la première passe humanisante. Encore 20% passent à la deuxième. Les 10% restants ont besoin d'intervention humaine.
def check_detection(article: str) -> dict:
result = winston_client.scan(text=article)
return {
"human_score": result.score, # 0-100
"passed": result.score >= 85,
"flagged_sentences": result.flagged_sentences
}
Le champ flagged_sentences est or. Au lieu de réexécuter tout l'article, nous pouvons cibler juste les phrases qui ont déclenché le détecteur. Cela économise des tokens et produit de meilleurs résultats.
Le flux de travail complet étape par étape
Voici ce qui se passe réellement quand nous voulons publier un nouvel article :
Sélection de mots-clés — Nous tirons de notre calendrier de contenu (maintenu dans Notion) et nous croisons avec les scores de difficulté des mots-clés d'Ahrefs. Nous ciblons KD < 30 pour les nouveaux sujets.
Recherche compétitive — Notre script frappe l'API de recherche Tavily et tire les 10 meilleurs résultats. Il extrait les titres, les comptes de mots, et les lacunes de contenu.
Génération de brief — Un appel Claude Sonnet 4 (moins cher qu'Opus pour cette tâche) génère un brief structuré à partir des données de recherche.
Premier brouillon — Claude Opus 4 produit l'article. Prend environ 45-90 secondes selon la longueur.
Passe humanisante — GPT-4o réécrit pour la voix et le naturel. Encore 30-60 secondes.
Score de détection — Winston AI note la sortie. Les résultats reviennent en environ 10 secondes.
Boucle ou procédure — Si le score < 85%, retour à l'étape 5 avec des paramètres modifiés. Max 2 nouvelles tentatives.
Examen humain — Un membre de l'équipe lit l'article, vérifie les faits, ajoute des captures d'écran ou des diagrammes, et formate pour notre CMS.
Publier — L'article devient public via notre pipeline de CMS découplé.
Temps total par article : environ 35 minutes d'attention humaine. Les étapes IA prennent environ 3 minutes de temps de calcul.
Ce que 91 articles nous ont appris sur le contenu IA
Nous exécutons ce pipeline depuis janvier 2025. Voici les modèles qui ont émergé :
Le contenu technique fonctionne mieux
Nos articles les plus performants sont des pièces profondément techniques sur les frameworks et outils spécifiques. Les articles sur les motifs de développement Next.js ou l'optimisation des performances d'Astro surpassent régulièrement le contenu générique « qu'est-ce qu'un CMS découplé ».
C'a du sens. Le contenu générique généré par IA est maintenant partout. Les algorithmes de classement de Google favorisent clairement la spécificité et la profondeur. Notre pipeline est conçu pour produire exactement ce type de contenu.
Les 30 premiers articles ont été difficiles
Je ne vais pas prétendre que nous avons clou du premier coup. Le premier lot d'articles avait des problèmes :
- Voix inconsistante entre les articles
- Certaines statistiques hallucínées (Claude citait avec confiance un « rapport Gartner 2024 » qui n'existait pas)
- Des exemples de code qui ne compilaient pas
- Des structures de section répétitives
Nous avons corrigé cela par l'itération du prompt et un examen humain plus strict. Le prompt système est maintenant à la version 14. Chaque version a adressé des modes de défaillance spécifiques que nous avons identifiés dans le contenu publié.
La détection IA est une cible mouvante
Winston AI a mis à jour son modèle de détection deux fois pendant notre exécution de trois mois. Chaque fois, nos scores baissaient de 5-10 points et nous devions ajuster le prompt humaniseur. C'est une course aux armements continue, et si vous construisez quelque chose de similaire, planifiez la maintenance.
L'examen humain est non-négociable
Nous avons essayé de sauter l'examen humain pour un lot de 5 articles comme expérience. Deux d'entre eux avaient des erreurs factuelles qui nous auraient embarrassés. On référençait une API qui était dépréciée en 2023. Un autre affirmait que Next.js 15 supportait une fonctionnalité qui est en réalité toujours en RFC.
Chaque article reçoit des yeux humains. Période.
Ventilation des coûts et données de performance
Voici les chiffres réels de notre exécution de 91 articles :
| Métrique | Valeur |
|---|---|
| Articles totaux publiés | 91 |
| Nombre moyen de mots | 2 847 |
| Coûts totaux des API IA | 127,40 $ |
| Coût moyen par article (IA uniquement) | 1,40 $ |
| Abonnement Winston AI (3 mois) | 54,00 $ |
| Abonnement Ahrefs (3 mois) | 297,00 $ |
| Coûts de l'API Tavily | 42,00 $ |
| Temps d'examen humain (moy. par article) | 35 min |
| Heures humaines totales | ~53 heures |
| Articles passant Winston à la première tentative | 64 (70%) |
| Articles nécessitant une réécriture manuelle | 9 (10%) |
| Score humain moyen Winston AI (final) | 89% |
| Augmentation du trafic organique (janv.-mars 2025) | +340% |
| Augmentation des pages indexées | +86 |
Les 1,40 $ par article en coûts IA sont remarquablement bas. La vraie dépense est le temps humain — 53 heures sur trois mois pour l'examen et l'édition. Mais comparez cela à ce qu'un rédacteur technique freelance charge. À 0,15 $/mot pour un contenu technique de qualité, un article de 2 847 mots coûterait environ 427 $. Nous produisons un contenu de qualité comparable pour environ 35 $ en temps humain (à un taux de 40 $/heure) plus 1,40 $ en coûts IA.
C'est une réduction de coût de 91%. Et la sortie est plus techniquement précise parce que les modèles IA ont une connaissance plus large que n'importe quel rédacteur freelance unique.
Outils que nous avons évalués et rejetés
Tout ce que nous avons essayé n'a pas fait partie du pipeline final :
- Jasper AI — Trop axé sur la copie marketing. Impossible de produire la profondeur technique dont nous avions besoin. Aussi cher à 59 $/mois pour leur tier business.
- Copy.ai — Problèmes similaires à Jasper. Excellent pour les copies publicitaires, pas pour des articles techniques de 3 000 mots.
- Undetectable.ai — Nous avons essayé cela comme humaniseur au lieu de GPT-4o. La sortie était grammaticalement maladroite et changeait parfois le sens technique des phrases. Non.
- Surfer SEO — Bon outil, mais nous avons préféré construire notre propre analyse SEO avec les données d'Ahrefs. L'éditeur de contenu de Surfer se sentait trop contraignant.
- API Perplexity — Nous avons testé cela pour l'étape de recherche. Les résultats étaient bons mais le format de citation ne s'intégrait pas bien avec notre structure de brief. Nous pourrions revisiter.
FAQ
N'est-ce pas juste du spam de contenu ?
Non. Chaque article passe par un examen humain pour l'exactitude technique et l'utilité réelle. Nous ne filons pas du contenu ou ne publions des pages minces. Chaque pièce cible un mot-clé spécifique avec une vraie profondeur. L'IA gère le travail lourd de génération de premiers brouillons, mais le jugement éditorial est entièrement humain. Vérifiez notre contenu dans tout le site — nous nous tenons au même standard que nous voudrions d'un blog technique que nous lisons.
Pourquoi ne pas embaucher des rédacteurs ?
Nous utilisons toujours des rédacteurs humains pour certaines pièces — études de cas, articles d'opinion, et tout ce qui nécessite l'expérience directe du client. Mais pour les expliquants techniques et articles de comparaison, notre pipeline produit de meilleurs premiers brouillons que la plupart des rédacteurs freelance parce que les modèles IA ont une connaissance technique plus large et plus actuelle. L'économie permet aussi de publier à un volume qui serait prohibitivement cher avec des freelances seuls.
Google pénalise-t-il le contenu généré par IA ?
La position officielle de Google depuis leur mise à jour de mars 2024 est qu'ils évaluent la qualité du contenu indépendamment de la façon dont il est produit. Ils pénalisent le contenu de faible qualité produit en masse — qu'il soit généré par IA ou écrit par une ferme de contenu dans une langue que le rédacteur ne parle pas nativement. Notre contenu classe parce qu'il est véritablement utile, techniquement précis, et bien structuré. Nous avons vu des améliorations d'indexation et de classement cohérentes dans nos 91 articles.
Que signifie exactement le score humain de Winston AI ?
Winston AI analyse les motifs de texte — perplexité, burstiness, variation de structure de phrase, distribution du vocabulaire — et produit un score de 0 à 100 représentant la probabilité que le texte ait été écrit par un humain. Un score de 85 signifie que Winston croit qu'il y a 85% de chances qu'un humain l'ait écrit. Aucun détecteur n'est parfait, mais la cohérence de Winston le rend utile comme portail de qualité dans un pipeline automatisé.
Pourriez-vous open-sourcer ce pipeline ?
Nous y avons réfléchi. La logique principale n'est pas si complexe — c'est principalement des appels API cousus ensemble avec Python. La vraie valeur est dans les prompts, et ceux-ci sont réglés spécifiquement à notre voix et domaine technique. Nous pourrions publier une version générique à un moment donné. Si vous êtes intéressé, contactez-nous.
Comment gérez-vous les exemples de code dans les articles ?
C'est un domaine où l'examen humain est critique. Claude Opus génère du code syntaxiquement correct environ 90% du temps, mais les 10% restants incluent des bogues subtils, des API dépréciées, ou des motifs qui feraient tiquer un développeur expérimenté. Chaque bloc de code est manuellement vérifié. Pour le code spécifique au framework, nous le lançons souvent localement pour confirmer qu'il fonctionne.
Que se passe-t-il quand les modèles IA sont mis à jour ?
Les mises à jour de modèle peuvent tout casser. Quand Anthropic a publié Claude Opus 4, nos prompts qui fonctionnaient parfaitement sur Claude 3 Opus ont eu besoin de travail significatif. Nous maintenons des prompts versionnés et testons contre un ensemble de benchmark de 10 articles chaque fois qu'un modèle se met à jour. Budgétez du temps pour cela — cela s'est produit trois fois dans notre exécution de trois mois.
Quoi de neuf pour le pipeline ?
Nous travaillons sur l'ajout de la génération automatique de captures d'écran utilisant Playwright, l'intégration avec notre pipeline de déploiement de CMS découplé pour la publication en un clic, et la construction d'une boucle de rétroaction où les données de Google Search Console influencent les sujets que nous priorisons ensuite. L'objectif est de réduire ce temps d'examen humain de 35 minutes sans sacrifier la qualité. Nous écrirons probablement à ce sujet quand ce sera fait. Vérifiez notre page de tarification si vous êtes curieux de savoir comment nous appliquons une réflexion systématique similaire aux projets des clients.