コンテンツカレンダーが3週目で停滞する。雇ったフリーランサーが「今日のデジタルランドスケープでは」で始まり、チャットボットがウェビナーを書き起こしたような800語の記事を納品する。ランクされないことはわかっている。クライアントはそれをスキップしている。だからドラフトを削除してもう一度やり直す——繰り返しだ。2025年末、私たちも同じループに陥っていた。別のライターを雇うか、汎用的なAI出力で妥協する代わりに、3つのモデルパイプラインを構築した:Claude Opusが技術構造をドラフト、GPT-4oが人間的なリズムに書き直し、Winston AIが検出可能性をスコアリング、承認レイヤーがSaaS ランディングページから抜け出したものをすべてキャッチする。結果:8週間で91本の記事を公開し、それぞれがWinstonの人間らしさの閾値を通過し、私たちの実際の声で書かれている。以下は、私たちが使用する正確なアーキテクチャ、記事あたりのコスト、そしてマルチモデルが毎回単一プロンプトより優れている理由だ。

これは3ヶ月未満で91本の記事を公開した方法、配線でつなぎ合わせた具体的なツールとモデル、そして道中で学んだすべての厳しい教訓のストーリーだ。

目次

Claude Opus & GPT-4o & Winston AIでブログパイプラインを構築した理由

エージェンシーコンテンツの問題

ここに、エージェンシー界が声に出して言いたくない真実がある:ほとんどの開発ショップはコンテンツマーケティングが下手だ。私たちも例外ではなかった——少なくとも、そうではなかった。

古典的な問題を抱えていた。私たちのチームはNext.jsAstro、さまざまなヘッドレスCMSプラットフォームを使ってものを構築する方法を知っている。実際のクライアントのための実際のプロダクトを出荷している。しかし、それについて書く?継続的に?実際にSEOの針を動かすペースで?それは全く異なるスキルだ。

フリーランスライターの雇用を試みた。技術的な深さが浅かった。開発者に記事を書かせてみた。彼らは素晴らしい記事を1つ作成し、その後6週間スプリントに消える。ChatGPTで基本的なAI生成を試みた——出力はWikipedia記事とマーケティングパンフレットが赤ちゃんを産んだようなものだった。

そこで私たちは自分たちに問いかけた:コンテンツ制作をソフトウェアエンジニアリングの問題として扱ったら?パイプラインを構築したら?

ブログパイプラインのアーキテクチャ

パイプラインには5つのステージがある。各ステージには特定のモデルまたはツールが責任を持ち、各ステージは次のステージに供給される測定可能な出力を生成する。

┌─────────────┐     ┌──────────────┐     ┌─────────────┐
│  リサーチ &   │────▶│ Claude Opus  │────▶│   GPT-4o    │
│  ブリーフ生成  │     │ 最初のドラフト │     │ ヒューマナイザー│
└─────────────┘     └──────────────┘     └─────────────┘
                                                │
                                                ▼
                                         ┌─────────────┐
                                         │ Winston AI  │
                                         │   検出      │
                                         └─────────────┘
                                                │
                                                ▼
                                         ┌─────────────┐
                                         │  人による編集 │
                                         │  & 公開     │
                                         └─────────────┘

ステージ1:リサーチとブリーフ生成

キーワードリサーチにはAhrefsを、リアルタイムの競合分析にはTavily APIを組み合わせて使用する。ブリーフは以下を含む構造化JSONドキュメントだ:

  • ターゲットキーワードと関連キーワード
  • 上位10の競合記事(タイトル、単語数、H2構造)
  • Googleから取得した「People Also Ask」の質問
  • 提案されたアウトライン(セクションあたりのターゲット単語数付き)

このブリーフがClaudeの入力プロンプトになる。

ステージ2:Claude Opus最初のドラフト

Claude Opus 4が最初のドラフトを書く。理由については以下で詳しく説明する。

ステージ3:GPT-4oヒューマナイザーパス

ドラフトは慎重にチューニングされたシステムプロンプトを使用してGPT-4oを通してエディットされ、実際の人間が書いたかのように聞こえるように設計されている。

ステージ4:Winston AI検出

すべての記事がWinston AIでスコアリングされる。閾値に達しない場合、異なるパラメータを使ってヒューマナイザーを通じて戻される。

ステージ5:人による編集と公開

実在の人物がすべての記事を読む。技術的正確性をチェックし、適切な場所に個人的な逸話を追加し、最終的なフォーマッティングを行う。

最初のドラフトにClaude Opus 4を使う理由

すべての主要モデルを最初のドラフト生成用にテストした。以下が私たちの発見だ:

モデル 技術的深さ(1-10) 構造品質(1-10) 平均単語数 AI検出スコア(Winston) 記事あたりのコスト
GPT-4o 7 8 2,400 32%人間 $0.18
Claude Opus 4 9 9 3,100 28%人間 $0.42
Claude Sonnet 4 8 8 2,600 35%人間 $0.08
Gemini 2.5 Pro 7 7 2,800 30%人間 $0.14
Llama 3.1 405B 6 6 2,200 41%人間 $0.03

Claude Opus 4は最も気になる2つの次元で優勝した:技術的深さと構造品質。AI検出スコアは実際にGPT-4oの生のアウトプットより悪かったが、どのモデルからも生のアウトプットを公開しないので問題ではなかった。

Claude Opusについて表では定量化するのが難しいのは次のことだ:複雑な指示をより忠実に従う。「シニア開発者が辛い知識を共有しているように書く」と言うと、Claudeは実際にレジスターを変える。GPT-4oはどれだけ強く押しても役立つアシスタント音声に戻る傾向がある。Geminiはまともな技術コンテンツを生成するが、場所によって奇妙に形式的になる。

コスト差は実際だ——Opusは代替案より1トークンあたり約2~5倍高い。しかし書き直しに費やす時間を考慮すると、全体的には最も安いオプションだ。

違いを生み出したシステムプロンプト

Claudeのシステムプロンプトを約3週間反復してから、一貫して良いアウトプットを生成するものに着地した。私たちが学んだいくつかのこと:

  1. 特定のフレーズを禁止する方が、トーンを求めるより効果的だ。 「カジュアルなトーンで書く」と言う代わりに、禁止する単語とフレーズのリストを保持している。「comprehensive」「leverage」「今日のデジタルランドスケープでは」のようなもの——AI生成コンテンツの明らかなシグナルだ。

  2. 構造的な制約を強制するとより良いコンテンツが生まれる。 正確な見出し構造を指定し、コードブロックを要求し、マークダウンテーブルを要求する。Claude Opusはこれらの制約をほぼ完璧に従う。

  3. 汎用的な指示より実際のコンテキストを提供するほうが効果的だ。 実際の競合調査をフィードする。トップランキング記事が何をカバーし、どこで不足しているかをClaudeに伝える。これはより差別化されたコンテンツを生成する。

def generate_first_draft(brief: dict) -> str:
    system_prompt = load_prompt("claude_writer_v14.txt")
    
    messages = [
        {"role": "user", "content": format_brief(brief)}
    ]
    
    response = anthropic_client.messages.create(
        model="claude-opus-4-20250514",
        max_tokens=8192,
        system=system_prompt,
        messages=messages,
        temperature=0.7  # やや創造的で、カオスではない
    )
    
    return response.content[0].text

私たちは温度0.7に決めた。それより低いと文章がロボットのように感じられる。より高いとClaudeは物を作り始める——フレームワーク機能を幻覚し、存在しないAPIエンドポイントを発明する。

Claude Opus & GPT-4o & Winston AIでブログパイプラインを構築した理由 - アーキテクチャ

GPT-4oヒューマナイザーパス

ここが面白くなる。そして、ちょっと奇妙だ。

Claudeが技術的に堅牢な最初のドラフトを生成した後、完全に異なるシステムプロンプトを使ってGPT-4oを通して渡す。このプロンプトの仕事は情報を追加することではない——文章をより人間らしく感じさせることだ。

実際には何を意味するのか?いくつかの具体的な変換:

  • 文の長さの変化。 AIモデルは大体同じ長さの文を書く傾向がある。人間はそうしない。GPT-4oに短くて切れのいい文と長い文を混ぜるよう指示する。
  • 不完璧な遷移。 本当のブログ投稿は完璧な段落間フローを持たない。時々次の考えにジャンプするだけだ。ヒューマナイザーはこれらの自然な区切りを追加する。
  • 一人称の挿入。 「私たちの経験では」「私たちが発見したところ」「これをデバッグするのに1週間費やした」——これらの小さなタッチはAI検出スコアに大きな違いを生む。
  • 短縮形。 Claude Opusは指示されてもなお「do not」と「it is」と書く傾向がある。ヒューマナイザーパスはこれらをキャッチして変換する。
def humanize_draft(draft: str) -> str:
    system_prompt = load_prompt("gpt4o_humanizer_v8.txt")
    
    response = openai_client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": f"すべての技術的正確さと構造を保持しながら、この記事を人間らしくしてください:\n\n{draft}"}
        ],
        temperature=0.8
    )
    
    return response.choices[0].message.content

このパスで何故Claude代わりにGPT-4oなのか?正直、GPT-4oはカジュアルに聞こえるのが得意だから。Claudeの強みは技術的精度と指示遵守。GPT-4oの強みは人間の書き方パターンを模倣することだ。各モデルの強みに演じている。

ダブルモデルアプローチは私たちの最初の考えではなかった

最初は1つのモデルですべてをしようとした。1つのプロンプト、1つのパス、1つのアウトプット。すべての結果は平凡だった。ドラフトは技術的には強いがロボット的、または会話的だが浅い。

パイプラインを専門的なステージに分割するのが突破口だった。マイクロサービスの背後にある同じ原則だ——各コンポーネントは1つのことを上手にする。

Winston AI検出と85%の閾値

5つの異なるAIコンテンツ検出器をテストした後、Winston AIを選んだ。理由は以下の通りだ:

検出器 一貫性(同じ入力、同じスコア?) 誤検知率 API利用可能? 価格/月
Winston AI 低(~3%) あり $18/mo
Originality.ai 中程度(~8%) あり $15/mo
GPTZero 中程度 中程度(~7%) あり $10/mo
Copyleaks 中程度 低(~4%) あり $8/mo
Sapling 高(~12%) あり 無料層

Winston AIは複数回実行に最も一貫したスコアを提供した。同じ記事を2回フィードすると、ほぼ同じ人間スコアを得る。自動化されたパイプラインを構築しているときは重要だ——決定を下すために確定的なような動作が必要だ。

私たちの閾値は人間スコア85%だ。それ以下の場合、記事は調整されたパラメータでヒューマナイザーを通じて戻される(より高い温度、異なる指示重視)。2回目も失敗する場合、人が手動でフラグが立てられたセクションを書き直す。

実際には、約70%の記事は最初のヒューマナイザー実行で通過する。さらに20%が2回目に通過する。残りの10%は手動による介入が必要だ。

def check_detection(article: str) -> dict:
    result = winston_client.scan(text=article)
    
    return {
        "human_score": result.score,  # 0-100
        "passed": result.score >= 85,
        "flagged_sentences": result.flagged_sentences
    }

flagged_sentencesフィールドは金鉱だ。全体の記事を再実行する代わりに、検出器をトリガーした文をターゲットにすることができる。これはトークンを節約し、より良い結果を生む。

ステップバイステップの完全なワークフロー

新しい記事を公開したいときに実際に起こることは以下の通りだ:

  1. キーワード選択 ——コンテンツカレンダー(Notionで保持)から取得し、Ahrefsキーワード難度スコアと相互参照する。新しいトピックではKD < 30を目指している。

  2. 競合リサーチ ——スクリプトはTavily検索APIをヒットし、上位10件の結果を取得する。見出し、単語数、コンテンツギャップを抽出する。

  3. ブリーフ生成 ——Claude Sonnet 4呼び出し(このタスク用にOpusより安い)がリサーチデータから構造化ブリーフを生成する。

  4. 最初のドラフト ——Claude Opus 4が記事を生成する。長さによって約45~90秒かかる。

  5. ヒューマナイザーパス ——GPT-4oが音声と自然さのために書き直す。さらに30~60秒。

  6. 検出スコアリング ——Winston AIが出力をスコアリング。結果は約10秒で戻ってくる。

  7. ループか進行か ——スコア < 85%の場合、ステップ5に戻って修正されたパラメータで進む。最大2回の再試行。

  8. 人による検証 ——チームメンバーが記事を読み、事実をチェックし、スクリーンショットまたはダイアグラムを追加し、CMS用にフォーマットする。

  9. 公開 ——記事は私たちのヘッドレスCMSパイプラインを通じてライブになる。

記事あたりの合計時間:約35分の人的注意。AIステージは約3分のコンピュート時間を要する。

91本の記事がAIコンテンツについて教えてくれたこと

2025年1月からこのパイプラインを実行してきた。以下が出現したパターンだ:

技術コンテンツがより良い性能を示す

最も良いパフォーマンスの記事は、特定のフレームワークとツールについての深い技術部分だ。Next.js開発パターンまたはAstro性能最適化に関する記事は、一般的な「ヘッドレスCMSとは」コンテンツを一貫して上回る。

これは理にかなっている。AI生成の汎用コンテンツは今どこにでもある。Googleのランキングアルゴリズムは明らかに特異性と深さに有利に働いている。私たちのパイプラインはまさにそのようなコンテンツを生成するために設計されている。

最初の30本の記事は粗かった

初日からそれを釘付けにしたふりはしない。最初のバッチの記事には問題があった:

  • 記事全体の不一貫な声
  • 存在しない「2024年Gartnerレポート」をクロードが自信を持って引用したことがある統計幻覚
  • コンパイルされないコード例
  • 反復的なセクション構造

プロンプト反復と厳格な人による検証を通じてこれらを修正した。システムプロンプトは今バージョン14だ。各バージョンは公開されたコンテンツで特定された特定の障害モードに対処した。

AI検出は移動ターゲット

Winston AIは3ヶ月の実行中に検出モデルを2回更新した。各時間にスコアは5~10ポイント低下し、ヒューマナイザープロンプトを調整する必要があった。これは継続的な軍拡競争であり、同様のものを構築している場合、メンテナンスに計画を立てる。

人による検証は必須だ

人による検証をスキップするため、5本の記事のバッチを実験として試みた。2つに私たちを恥ずかしめる可能性のある事実誤りがあった。1つは2023年に非推奨になったAPIを参照した。別のものは実際にはまだRFCにあるNext.js 15の機能をサポートすると主張していた。

すべての記事が人の目を通る。ピリオド。

コスト内訳とパフォーマンスデータ

91本の記事実行からの実数は以下の通りだ:

メトリック
公開した記事の合計 91
平均単語数 2,847
AI APIコスト合計 $127.40
記事あたりの平均コスト(AIのみ) $1.40
Winston AI購読(3ヶ月) $54.00
Ahrefs購読(3ヶ月) $297.00
Tavily API費用 $42.00
人による検証時間(記事あたり平均) 35分
合計人の時間 ~53時間
最初の試行でWinstonを通過した記事 64(70%)
手動の書き直しが必要な記事 9(10%)
最終的なWinston AI人間スコア平均 89%
オーガニックトラフィック増加(2025年1月~3月) +340%
インデックスされたページの増加 +86

記事あたり$1.40のAIコストは驚くほど低い。実際の費用は人的時間だ——3ヶ月間の検証と編集で53時間。しかし、フリーランスの技術ライターが請求するものと比較する。品質の高い技術コンテンツで1語あたり$0.15で、2,847語の記事は約$427の費用がかかるだろう。私たちは約$35の人的時間(時給$40レート)とAIコストで$1.40で同等品質のコンテンツを生成している。

91%のコスト削減だ。そして、AIモデルはどの単一フリーランスライターより広い知識を持っているため、出力はより技術的に正確だ。

評価して却下したツール

最終的なパイプラインに構成されたすべてが試みたわけではない:

  • Jasper AI ——マーケティングコピーに焦点を当てすぎている。必要とした技術的深さを生成できなかった。また、ビジネス層が$59/月で高額。
  • Copy.ai ——Jasperと同様の問題。広告コピーに最適だが、3,000語の技術記事向けではない。
  • Undetectable.ai ——GPT-4oの代わりにヒューマナイザーとしてこれを試みた。出力は文法的に不器用で、時々文の技術的意味を変えた。固くお断り。
  • Surfer SEO ——良いツールだが、Ahrefsデータで独自のSEO分析を構築することを好んだ。Surferのコンテンツエディターは制約が多すぎた。
  • Perplexity API ——リサーチステージでこれをテストした。結果は良かったが、引用形式がブリーフ構造とうまく統合されなかった。再検討する可能性がある。

FAQ

これはコンテンツスパムではないのか?

技術的正確性と本当の有用性について、すべての記事は人による検証を通過する。コンテンツを回転させたり、薄いページを公開したりしていない。各部分は具体的なキーワードを真の深さでターゲットにする。AIは最初のドラフト生成の重労働を処理するが、編集的判断は完全に人間だ。サイト全体のコンテンツを確認してください——読みたい技術ブログに期待するのと同じ基準に自分たちを保持している。

ただ単にライターを雇わないのか?

特定の部分——ケーススタディ、意見部分、直接のクライアント経験を必要とするもの——には人間のライターを使い続ける。しかし、技術的な説明と比較記事については、AIモデルが単一フリーランスライターより広くて最新の技術知識を持っているため、パイプラインはほとんどのフリーランスライターより良い最初のドラフトを生成する。経済学も大量でフリーランサーと一緒に禁止的になるペースで公開することを可能にする。

GoogleはAI生成コンテンツにペナルティを科すのか?

Googleの公式な立場は2024年3月の更新以来、コンテンツ品質に関係なく評価すること、生成方法に関係なく。彼らは低品質で大量生成されたコンテンツにペナルティを科す——AIで生成されたか、言語ネイティブではないライターのコンテンツファームで書かれたかに関係なく。私たちのコンテンツは本当に有用で、技術的に正確で、よく構造化されているためにランクされている。91本の記事全体でインデックスとランキングの改善が一貫している。

Winston AIの人間スコアはちょうど何か意味するのか?

Winston AIはテキストパターンを分析する——パープレキシティ、バースティネス、文構造変化、語彙分布——そして0から100を表すスコアを生成し、テキストが人間により書かれた可能性を表す。スコア85は、Winstonが人間がそれを書いた85%確率があると信じることを意味する。検出器は完璧ではないが、Winstonの一貫性は自動化されたパイプラインで品質ゲートとして有用にしている。

このパイプラインをオープンソースにすることができるのか?

これを検討した。コアロジックは複雑ではない——ほとんどAPIの呼び出しがPythonでつなぎ合わされている。実価はプロンプトにあり、それらは声と技術領域に特有に調整されている。ある時点で汎用版を解放する可能性がある。興味があれば、私たちに連絡してください

記事のコード例をどのように処理するのか?

これはここで人による検証が重要な領域だ。Claude Opusは約90%の時間で構文的に正しいコードを生成するが、残りの10%には微妙なバグ、非推奨API、または経験を積んだ開発者がしかめ面する可能性があるパターンが含まれている。すべてのコードブロックは手動で検証される。フレームワーク固有のコードについて、私たちはしばしばそれをローカルで実行して、それが機能することを確認する。

AIモデルが更新されたときに何が起こるのか?

モデル更新はすべてを破壊できる。AnthropicがClaude Opus 4をリリースしたとき、Claude 3 Opusで完璧に機能したプロンプトが大幅な修正が必要だった。10本の記事のベンチマークセットを保持し、モデルが更新されるたびにそれに対してテストする。このためにの時間を予算化する——3ヶ月の実行で3回起こっている。

パイプラインの次は何か?

Playwrightを使用した自動スクリーンショット生成の追加、ヘッドレスCMSデプロイメントパイプラインとの統合による1クリック公開、Google Search Consoleデータが次にどのトピックを優先するか影響を与えるフィードバックループの構築に取り組んでいる。目標は品質を犠牲にすることなくその35分の人による検証時間を短縮することだ。完了したら、おそらくそれについて書く。価格ページを確認してください。クライアントプロジェクトに同様の系統的思考を適用する方法に興味を持っているなら。