Claude、GPT-4o、Winston AIで独自のブログパイプラインを構築した理由
大多のエージェンシーはコンテンツを外注したり、ジュニアライターを雇ってSEO投稿を大量生産させています。その投稿は、トースターで生成されたような読み物です。私たちもそれを試しました。うまくいきませんでした。そこで、私たちは異なるアプローチを構築しました。マルチモデルのAIパイプラインで、記事をドラフト、人間らしくしたスコアリング、配信を、単一のライターが対応できるペースで行うことができ、同時にウェブ開発に対する私たちの考え方を実際に反映した品質基準を保つことができます。
このストーリーは、3ヶ月未満で91の記事を公開した方法、一緒に接続した特定のツールとモデル、そして道中で学んだ嫌なレッスンのすべてについてです。
目次
- エージェンシーコンテンツの問題
- ブログパイプラインのアーキテクチャ
- 最初のドラフトでClaude Opus 4を選んだ理由
- GPT-4o人間化パス
- Winston AI検出と85%のしきい値
- 完全なワークフロー ステップバイステップ
- 91の記事がAIコンテンツについて教えてくれたこと
- コスト内訳とパフォーマンスデータ
- 評価して却下したツール
- よくある質問

エージェンシーコンテンツの問題
ここに、エージェンシーの世界では誰も大っぴらには言いたくない真実があります。ほとんどの開発ショップはコンテンツマーケティングが下手です。私たちも例外ではありませんでした。少なくともそうでした。
典型的な問題を抱えていました。私たちのチームはNext.js、Astro、そしてさまざまなヘッドレスCMSプラットフォームを使ってものを構築する方法を知っています。実際のクライアントのための実際の製品を出荷しています。しかし、それについて書くこと?一貫して?実際にSEOの針を動かすペースで?それは全く異なるスキルです。
フリーランスライターを雇うことを試みました。技術的な深さは浅かった。開発者に投稿を書かせることを試みました。彼らは1つの素晴らしい記事を作成してから、6週間のスプリントに消えました。ChatGPTでの基本的なAI生成を試みました。出力はWikipediaの記事とマーケティングパンフレットが赤ちゃんを作ったような感じで読めました。
それで、私たちは自分たちに問いかけました。コンテンツ制作をソフトウェアエンジニアリングの問題として扱ったらどうだろう?パイプラインを構築したら?
ブログパイプラインのアーキテクチャ
パイプラインは5つのステージを持っています。各ステージには、それに責任を持つ特定のモデルまたはツールがあり、各ステージは次のステージに供給される測定可能な出力を生成します。
┌─────────────┐ ┌──────────────┐ ┌─────────────┐
│ 研究と │────▶│ Claude Opus │────▶│ GPT-4o │
│ ブリーフ │ │ 最初のドラ │ │ 人間化 │
│ 生成 │ │ フト │ │ パス │
└─────────────┘ └──────────────┘ └─────────────┘
│
▼
┌─────────────┐
│ Winston AI │
│ 検出 │
└─────────────┘
│
▼
┌─────────────┐
│ 人間による │
│ 編集と │
│ 公開 │
└─────────────┘
ステージ1: 研究とブリーフ生成
Ahrefsとキーワードリサーチ、およびTavily APIを使用してリアルタイムの競争分析を行います。ブリーフは以下を含む構造化されたJSONドキュメントです:
- ターゲットキーワードとセカンダリキーワード
- 上位10の競争記事(タイトル、文字数、H2構造)
- Googleから取得したPeople Also Ask質問
- ターゲット文字数を含む提案されたアウトラインごと
このブリーフはClaudeの入力プロンプトになります。
ステージ2: Claude Opusの最初のドラフト
Claude Opus 4が最初のドラフトを書きます。以下でその理由の詳細をご紹介します。
ステージ3: GPT-4o人間化パス
ドラフトはGPT-4oを通じて、実在の人間が書いたようにしるされるように慎重に調整されたシステムプロンプトで処理されます。
ステージ4: Winston AI検出
すべての記事をWinston AIを通じてスコアされます。しきい値に達しない場合は、異なるパラメータで人間化処理に戻されます。
ステージ5: 人間による編集と公開
実在の人間がすべての記事を読みます。彼らは技術的な正確性をチェックし、必要に応じて個人的なエピソードを追加し、最終的なフォーマットを処理します。
最初のドラフトでClaude Opus 4を選んだ理由
最初のドラフト生成用のすべての主要なモデルをテストしました。ここで私たちが見つけたことです:
| モデル | 技術的深さ (1-10) | 構造品質 (1-10) | 平均文字数 | AI検出スコア (Winston) | 記事あたりのコスト |
|---|---|---|---|---|---|
| GPT-4o | 7 | 8 | 2,400 | 32% human | $0.18 |
| Claude Opus 4 | 9 | 9 | 3,100 | 28% human | $0.42 |
| Claude Sonnet 4 | 8 | 8 | 2,600 | 35% human | $0.08 |
| Gemini 2.5 Pro | 7 | 7 | 2,800 | 30% human | $0.14 |
| Llama 3.1 405B | 6 | 6 | 2,200 | 41% human | $0.03 |
Claude Opus 4は、私たちが最も気を配った2つの側面で優勝しました。技術的深さと構造品質です。AI検出スコアは実はGPT-4oの生のアウトプットより悪かったのですが、どのモデルの生のアウトプットも公開しないつもりだったので、それは重要ではありませんでした。
Claudeの Opusについて、テーブルで定量化するのが難しいことは、複雑な指示をコンピュータモデルの他のものよりも忠実に従うことです。「ハードに得られた知識を共有するシニア開発者のように書いて」と言うと、Claude実際にレジスタを移動します。GPT-4oはどれほど硬く押してもヘルプフルなアシスタントの声に戻る傾向があります。Geminiはまともな技術コンテンツを生成しますが、場所によってはおかしく形式的になります。
コスト差は実在します。Opusは代替案よりもトークンごとに約2〜5倍高価です。しかし、改訂作業の時間節約を考慮するとそれは全体的に最も安価なオプションです。
差を生んだシステムプロンプト
最後に何か一貫して良い出力を生成しするまでのClaudeシステムプロンプトについて3週間反復を行いました。いくつかのことを学びました:
特定のフレーズを禁止することは、トーンを求めるより効果的です。「カジュアルなトーンで書いて」と言う代わりに、禁止単語とフレーズのリストを維持しています。「包括的な」「活用する」「今日のデジタルランドスケープで」のようなもの。これはAIが生成したコンテンツの明白なしるしです。
**構造的制約を強制することはより良いコンテンツを作成します。**正確な見出し構造を指定し、コードブロックを必須にし、マークダウンテーブルを要求します。Claude Opusはこれらの制約をほぼ完璧に従います。
**一般的な指示よりも実在のコンテキストを提供することより良いです。**実際の競争リサーチに供給されます。トップランキング記事が何をカバーしているか、そしてそれらがどこで欠けているかをClaudeに伝えます。これは本当に差別化されたコンテンツを生成します。
def generate_first_draft(brief: dict) -> str:
system_prompt = load_prompt("claude_writer_v14.txt")
messages = [
{"role": "user", "content": format_brief(brief)}
]
response = anthropic_client.messages.create(
model="claude-opus-4-20250514",
max_tokens=8192,
system=system_prompt,
messages=messages,
temperature=0.7 # slightly creative, not chaotic
)
return response.content[0].text
温度を0.7で落ち着きました。それより低いと文章がロボット的に感じます。それより高いとClaudeは物事を作ったり、フレームワークの特徴が幻想的になったり、存在しないAPIエンドポイントを発明したりします。

GPT-4o人間化パス
ここで物事が興味深くなります。そして、少し奇妙になります。
Claudeが技術的に堅固な最初のドラフトを製造した後、完全に異なるシステムプロンプトを持つGPT-4oを通じて渡されます。このプロンプトの仕事は情報を追加することではなく、執筆を人間らしく感じさせることです。
実際には、それはどのような具体的な変換を意味しますか?いくつか特定の変換:
- 文の長さの変動。 AIモデルはほぼ同じ長さの文を書く傾向があります。人間はそうではありません。短い。歯切れの良い文と長い文を混ぜるようにGPT-4oに指示しています。
- 不完全な遷移。 実際のブログ投稿に完全な段落から段落への流れはありません。時々あなたは次の考えにジャンプするだけです。人間化処理はこれらの自然な休止を追加します。
- 一人称の挿入。 「私たちの経験では」「私たちが見つけたことは」「私は1週間これをデバッグするのに費やした」のような。これらの小さなタッチはAI検出スコアに大きな違いを生みます。
- 縮約。 Claude Opusは、指示されたとしてさえ「do not」と「it is」を書く傾向があります。人間化パスはこれらをキャッチし、変換します。
def humanize_draft(draft: str) -> str:
system_prompt = load_prompt("gpt4o_humanizer_v8.txt")
response = openai_client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": system_prompt},
{"role": "user", "content": f"Humanize this article while preserving all technical accuracy and structure:\n\n{draft}"}
],
temperature=0.8
)
return response.choices[0].message.content
このパスでClaudeの代わりにGPT-4oを使うのはなぜですか?正直なところ、GPT-4oはカジュアルに聞こえるのが得意です。Claudeの強みは技術的精度と指示の遵守です。GPT-4oの強みは人間の執筆パターンを模倣することです。私たちは各モデルの強みをプレイしています。
ダブルモデルアプローチは私たちの最初のアイデアではありませんでした
最初は単一のモデルですべてを試みました。1つのプロンプト、1つのパス、1つの出力。結果は全体的に中程度でした。ドラフトは技術的に強かったが堅木造りでしたか、会話的でしたが浅かった。
パイプラインを専門的なステージに分割することが重大なブレークスルーでした。これはマイクロサービスの背後にある同じ原則です。各コンポーネントは1つのことをよく行う。
Winston AI検出と85%のしきい値
5つの異なるAIコンテンツ検出器をテストした後、Winston AIを検出ツールとして選択しました。ここにその理由があります:
| 検出器 | 一貫性(同じ入力、同じスコア) | 誤検知率 | API利用可能? | 価格/月 |
|---|---|---|---|---|
| Winston AI | 高 | 低(約3%) | はい | $18/mo |
| Originality.ai | 高 | 中程度(約8%) | はい | $15/mo |
| GPTZero | 中 | 中程度(約7%) | はい | $10/mo |
| Copyleaks | 中 | 低(約4%) | はい | $8/mo |
| Sapling | 低 | 高(約12%) | はい | 無料層 |
Winston AIは実行全体で最も一貫性のあるスコアを与えました。同じ記事を2回供給すると、ほぼ同じ人間スコアが得られます。自動化されたパイプラインを構築していたら問題になります。つまり、決定を下すために決定論的な行動が必要です。
私たちのしきい値は85%の人間スコアです。その下では、記事は調整されたパラメータで人間化処理に戻されます(より高い温度、異なる指示の強調)。2回目失敗した場合、人間は手動でフラグが付けられたセクションを修正します。
実際には、約70%の記事が最初の人間化処理パスを通過します。さらに20%は2番目に通過します。残りの10%は手動介入が必要です。
def check_detection(article: str) -> dict:
result = winston_client.scan(text=article)
return {
"human_score": result.score, # 0-100
"passed": result.score >= 85,
"flagged_sentences": result.flagged_sentences
}
flagged_sentencesフィールドはゴールドです。記事全体を再実行する代わりに、検出器をトリガーした文だけをターゲットにすることができます。これにより、トークンが節約され、より良い結果が生成されます。
完全なワークフロー ステップバイステップ
新しい記事を公開したいとき、実際に何が起こるか説明します:
キーワード選択 -- Notion保持されているコンテンツカレンダーから取得します、Ahrefsキーワード難易度スコアと相互参照します。新しいトピックについてはKD < 30を目指します。
競争分析 -- スクリプトはTavily検索APIにアクセスしてトップ10の結果を取得します。見出し、文字数、コンテンツギャップを抽出します。
ブリーフ生成 -- Claude Sonnet 4呼び出し(この作業用のOpusより安い)研究データから構造化されたブリーフを生成します。
最初のドラフト -- Claude Opus 4が記事を製造します。長さに応じて45〜90秒かかります。
人間化パス -- GPT-4oは音声と自然性をリライトします。別の30〜60秒。
検出スコアリング -- Winston AIがアウトプットをスコアリングします。結果は約10秒で戻ります。
ループまたは続行 -- スコアが < 85%の場合は、修正されたパラメータとともにステップ5に戻ります。最大2回の再試行。
人間によるレビュー -- チームメンバーが記事を読み、事実をチェックし、スクリーンショットまたはダイアグラムを追加し、CMSの形式を設定します。
公開 -- 記事は、ヘッドレスCMSパイプライン経由でライブになります。
記事ごとの合計時間:約35分の人間の注意。AIステージは約3分の計算時間がかかります。
91の記事がAIコンテンツについて教えてくれたこと
2025年1月からこのパイプラインを実行しています。ここに浮かび上がったパターンがあります:
技術コンテンツはより高い成績を披露します
パフォーマンスが最も高い記事は、特定のフレームワークとツールに関する深く技術的な記事です。Next.js開発パターンまたはAstroパフォーマンス最適化に関する記事は一貫してジェネリック「ヘッドレスCMSとは」のコンテンツを上回ります。
これは理にかなっています。AIが生成した一般的なコンテンツは今ではどこにでもあります。Googleのランキングアルゴリズムは明らかに特異性と深さを優先しています。私たちのパイプラインはちょうどそのような種類のコンテンツを生成するように設計されています。
最初の30の記事は粗かった
最初の日から完璧にしたことを偽るつもりはありません。最初のバッチの記事には問題がありました:
- 記事間で不一貫な声
- いくつかの幻想的な統計(Claudeは自信を持って「2024 Gartnerレポート」を引用しました、それは存在しませんでした)
- コンパイルされなかったコード例
- 反復的なセクション構造
我々はプロンプト反復と厳しい人間レビューを通じてこれらを修正しました。システムプロンプトはバージョン14です。各バージョンは、発行されたコンテンツで特定された特定の障害モードに対処しました。
AI検出は移動ターゲットです
Winston AIは3ヶ月の実行中に検出モデルを2回更新しました。毎回、スコアが5〜10ポイント低下し、人間化処理プロンプトを調整する必要がありました。これは継続的な軍備競争であり、同様のものを構築している場合は、メンテナンスの計画をたてます。
人間レビューは非交渉不可能です
実験として、5つの記事のバッチをスキップして人間レビューを試しました。彼らのうち2人は、私たちを恥ずかしい思いさせたであろう事実上の誤りを持っていました。1つは2023年に廃止されたAPIを参照しました。別のものはNext.js 15がまだRFCである特性を支援していると主張しました。
すべての記事は人間の目を取得します。時間です。
コスト内訳とパフォーマンスデータ
91記事の実行からの実数です:
| メトリック | 値 |
|---|---|
| 公開記事総数 | 91 |
| 平均文字数 | 2,847 |
| AI API総コスト | $127.40 |
| 記事ごとの平均コスト(AIのみ) | $1.40 |
| Winston AIサブスクリプション(3ヶ月) | $54.00 |
| Ahrefsサブスクリプション(3ヶ月) | $297.00 |
| Tavily APIコスト | $42.00 |
| 人間によるレビュー時間(記事ごとの平均) | 35分 |
| 総人間時間 | 約53時間 |
| Winston AIで最初に通過する記事 | 64(70%) |
| 手動改訂が必要な記事 | 9(10%) |
| 平均Winston AI人間スコア(最終) | 89% |
| オーガニックトラフィック増加(2025年1月〜3月) | +340% |
| インデックスページの増加 | +86 |
AIコストは記事あたり$1.40で、非常に低価格です。実際の経費は人間の時間です。3ヶ月の間、人間時間は約53時間のレビューと編集です。ただし、フリーランス技術ライターの報酬料金と比較してみてください。品質の高い技術コンテンツでは$0.15/単語で、2,847文字の記事は約$427の費用がかかります。私たちは人間時間で約$35($40/時間で)AI コストに加えて $1.40 で同等品質のコンテンツを製造しています。
それは91%のコスト削減です。また、単一のフリーランスライターより広くそれぞれの知識を持っているAIモデルがあるため、アウトプットはより技術的に正確です。
評価して却下したツール
最終パイプラインに進まなかったすべてのツール:
Jasper AI -- マーケティングコピーに焦点が当たり過ぎています。私たちが必要とした技術的な深さを生産することができませんでした。また、ビジネス層で$59/月で高価です。
Copy.ai -- Jasperと同様の問題。広告コピーに適していますが、3,000文字の技術記事には適していません。
Undetectable.ai -- これをGPT-4oの代わりに人間化として試みました。出力は文法的に適切でなく、時々文の技術的意味を変更しました。硬いパス。
Surfer SEO -- 良いツールですが、Ahrefsデータで独自のSEO分析を構築することを好んでいました。Surferのコンテンツエディターは制限が厳しすぎて感じました。
Perplexity API -- 研究段階でこれをテストしました。結果は良かったが、引用形式がブリーフ構造とよく統合されませんでした。再度訪問する可能性があります。
よくある質問
これはただのコンテンツスパムではないですか? いいえ。すべての記事は技術的な正確性と本当の有用性について人間レビューを通じて処理されます。私たちはコンテンツを紡いだり、薄いページを公開したりはしていません。各記事は特定のキーワードをリアルな深さで対象としています。AIは最初のドラフト生成の重い持ち上げを処理しますが、編集上の判断は完全に人間です。サイト全体のコンテンツを確認してください。私たちは読むテクニカルブログから求めたいのと同じ標準に自分自身を保持しています。
なぜ単にライターを雇わないのですか? 私たちは特定の記事 -- ケーススタディ、意見記事、および直接的なクライアント経験を必要とするものをまだ人間のライターを使用しています。しかし、技術解説と比較記事のためには、AIモデルがより広く、より現在のテクニカル知識を持っているため、パイプラインはほとんどのフリーランスライターより優れた最初のドラフトを製造します。経済は単独でフリーランサーで禁止的に高価である、単位で公開を可能にします。
Googleはアイが生成したコンテンツにペナルティを科しますか? Googleの公式立場は2024年3月の更新以来、彼らが生産方法に関係なく内容品質を評価していることです。彼らは低い品質の大量製造されたコンテンツにペナルティを科します。AIが生成されたか、言語がネイティブスピーカーではないコンテンツファームで書いたかは関係なくです。91の記事全体で一貫性のあるインデックスとランキング改善を見ているため、私たちのコンテンツは本当に有用で、技術的に正確で、よく構造化されているため、ランク付けされます。
Winston AI人間スコアは正確に何を意味しますか? Winston AIは、テキストパターンを分析します。複雑さ、バースティング、文構造変動、語彙分布。およびテキストが人間によって書かれた可能性を表す0〜100のスコアを生成します。スコア85は、Winstonが人間がそれを書いた85%の可能性があると考えていることを意味しています。検出器は完璧ではありませんが、Winstonの一貫性は自動化されたパイプラインで品質ゲートとして有用です。
このパイプラインをオープンソース化できますか? 考慮したことがあります。コア論理は複雑ではありません。AIAPIコール呼び出しをPythonで一緒に縫い合わせたことです。実在の値はプロンプトにあり、これらは私たちの音声と技術的ドメインに特別に調整されています。時点で一般的なバージョンをリリースする可能性があります。興味があれば、私たちに連絡してください。
記事でコード例をどう処理しますか? これは、人間のレビューが重要な1つの領域です。Claude Opusはコードを構文的に正しく約90%の時間を生成します。しかし、残りの10%には微妙なバグ、廃止されたAPI、または経験豊富な開発者が失神させるパターンが含まれています。すべてのコードブロックが手動で検証されます。フレームワーク固有のコードでは、正常に機能することを確認するために、ローカルで実行することが多いです。
AIモデルが更新されたらどうなりますか? モデルの更新はすべてを壊す可能性があります。Anthropicリリースされたとき Claude Opus 4 Claude 3 Opusで完璧に機能したプロンプトは、重要な再作業が必要でした。私たちはバージョン化されたプロンプトを維持し、モデル更新時に10の記事のベンチマークセットに対してテストします。これのために時間予算。3ヶ月の実行中に3回発生しました。
パイプラインの次は何ですか? 私たちは、Playwrightを使用した自動スクリーンショット生成の追加、ヘッドレスCMS展開パイプラインとの統合をワンクリック公開用に行っています。また、Google Search Console データが次にどのトピックの優先順位を付けるかに影響を与えるフィードバック ループを構築しています。目標は、品質を損なわずに35分の人間レビュー時間を削減することです。おそらく完成したときに私たちはそれについて書きます。興味があれば価格ページを確認してください。クライアント プロジェクトに同様のシステマティックな思考をどのように適用するかについて知りたいですか。