我們為什麼用 Claude、GPT-4o 和 Winston AI 構建自己的部落格管道
這是我們如何在不到三個月的時間內發佈91篇文章的故事,我們如何連接的特定工具和模型,以及我們沿途學到的每一個難堪的教訓。
目錄
- 代理內容的問題
- 我們博客管道的架構
- 為什麼選擇 Claude Opus 4 來編寫初稿
- GPT-4o 人性化處理
- Winston AI 檢測和 85% 閾值
- 完整工作流程分步驟
- 91 篇文章教會我們關於 AI 內容的東西
- 成本分解和性能數據
- 我們評估並拒絕的工具
- 常見問題

代理內容的問題
這是一個代理行業沒有人想公開說的真理:大多數開發公司在內容營銷方面表現很糟糕。我們也不例外——至少,我們曾經不是。
我們有一個經典問題。我們的團隊知道如何使用 Next.js、Astro 和各種 headless CMS 平台 構建東西。我們為真實客戶提供真實產品。但要寫出來呢?持續地?按照實際上能推動 SEO 發展的節奏?這是一個完全不同的技能。
我們試過聘請自由撰稿人。技術深度很淺。我們試過讓開發人員寫文章。他們會寫一篇很棒的文章,然後在衝刺中消失六週。我們試過用 ChatGPT 進行基本的 AI 生成——輸出讀起來就像維基百科文章和營銷手冊生了個孩子。
所以我們問自己:如果我們把內容生產當作軟體工程問題怎麼辦?如果我們建立一個管道呢?
我們博客管道的架構
管道有五個階段。每個階段都有一個負責的特定模型或工具,每個都產生一個可測量的輸出,提供給下一個階段。
┌─────────────┐ ┌──────────────┐ ┌─────────────┐
│ 研究與 │────▶│ Claude Opus │────▶│ GPT-4o │
│ 簡報生成 │ │ 初稿編寫 │ │ 人性化處理 │
└─────────────┘ └──────────────┘ └─────────────┘
│
▼
┌─────────────┐
│ Winston AI │
│ 檢測 │
└─────────────┘
│
▼
┌─────────────┐
│ 人工編輯 │
│ 與發佈 │
└─────────────┘
階段 1:研究與簡報生成
我們使用 Ahrefs 進行關鍵字研究和 Tavily 的 API 進行實時競爭分析的組合。簡報是一個結構化的 JSON 文檔,包括:
- 目標關鍵字和次要關鍵字
- 前 10 篇競爭文章(標題、字數、H2 結構)
- 從 Google 抓取的「人們也問」問題
- 帶有每個部分目標字數的建議大綱
這份簡報成為 Claude 的輸入提示。
階段 2:Claude Opus 初稿編寫
Claude Opus 4 編寫初稿。更多詳細信息請見下文。
階段 3:GPT-4o 人性化處理
草稿通過 GPT-4o,使用精心調整的系統提示,旨在讓寫作聽起來像真人寫的。
階段 4:Winston AI 檢測
我們通過 Winston AI 對每篇文章進行評分。如果未達到我們的閾值,它會使用不同的參數回到人性化處理器。
階段 5:人工編輯與發佈
真人閱讀每篇文章。他們檢查技術準確性,在適當的地方添加個人軼事,並處理最終格式。
為什麼選擇 Claude Opus 4 來編寫初稿
我們測試了每個主要模型進行初稿生成。以下是我們發現的:
| 模型 | 技術深度 (1-10) | 結構質量 (1-10) | 平均字數 | AI 檢測得分 (Winston) | 每篇文章成本 |
|---|---|---|---|---|---|
| GPT-4o | 7 | 8 | 2,400 | 32% 人工 | $0.18 |
| Claude Opus 4 | 9 | 9 | 3,100 | 28% 人工 | $0.42 |
| Claude Sonnet 4 | 8 | 8 | 2,600 | 35% 人工 | $0.08 |
| Gemini 2.5 Pro | 7 | 7 | 2,800 | 30% 人工 | $0.14 |
| Llama 3.1 405B | 6 | 6 | 2,200 | 41% 人工 | $0.03 |
Claude Opus 4 在我們最關心的兩個方面獲勝:技術深度和結構質量。AI 檢測得分實際上比 GPT-4o 的原始輸出更差,但這不重要,因為我們不打算發佈任何模型的原始輸出。
關於 Claude Opus 的難以量化的東西是這樣的:它比我們測試的任何其他東西更忠實地遵循複雜的指令。當我們說「像一位分享來之不易的知識的資深開發人員一樣寫」時,Claude 實際上會改變其措辭方式。無論你如何推動,GPT-4o 往往會回到有用的助手的聲音。Gemini 會產生不錯的技術內容,但在某些地方會變得奇怪地正式。
成本差異是真實的——Opus 大約比替代品貴 2-5 倍(按令牌計算)。但考慮到重寫節省的時間,整體而言它是最便宜的選項。
區別所在的系統提示
我們在 Claude 系統提示上反覆迭代了大約三週,才找到一個能夠一致地產生良好輸出的東西。我們學到的幾件事:
禁止特定短語的效果比要求特定語氣更好。 我們不說「用隨意的語氣寫」,而是維護一個禁用詞和短語的列表。像「comprehensive」、「leverage」、「in today's digital landscape」這樣的詞——AI 生成內容的死亡告訴。
強制結構約束會產生更好的內容。 我們指定確切的標題結構,要求代碼塊,要求 markdown 表格。Claude Opus 幾乎完美地遵循這些約束。
提供真實上下文比通用指令要好。 我們提供實際的競爭研究。我們告訴 Claude 排名靠前的文章涵蓋什麼以及它們在哪裡存在不足。這會產生真正差異化的內容。
def generate_first_draft(brief: dict) -> str:
system_prompt = load_prompt("claude_writer_v14.txt")
messages = [
{"role": "user", "content": format_brief(brief)}
]
response = anthropic_client.messages.create(
model="claude-opus-4-20250514",
max_tokens=8192,
system=system_prompt,
messages=messages,
temperature=0.7 # 稍微有創意,不是混亂
)
return response.content[0].text
我們確定了 0.7 的溫度。比這更低,寫作會感到機械化。更高,Claude 開始編造事情——自信地引用一份「2024 年高德納報告」,但該報告並不存在。

GPT-4o 人性化處理
這是事情變得有趣的地方。有點奇怪。
在 Claude 製作技術性紮實的初稿後,我們使用完全不同的系統提示將其傳遞給 GPT-4o。此提示的工作不是添加信息——而是讓寫作感覺更人性化。
在實踐中這實際上意味著什麼?一些具體的轉變:
- 句子長度變化。 AI 模型傾向於寫作長度都大致相同的句子。人類不是這樣做的。我們指示 GPT-4o 混合短小精悍的句子和更長的句子。
- 不完美的轉變。 真正的博客文章沒有完美的段落到段落的流動。有時你只是跳到下一個想法。人性化處理器添加這些自然的中斷。
- 第一人稱插入。 「根據我們的經驗」、「我們發現」、「我花了一週時間調試這個」——這些小細節對 AI 檢測得分有巨大影響。
- 縮寫。 Claude Opus 傾向於寫「do not」和「it is」,即使被指示不要這樣做。人性化處理傳遞會捕捉這些並轉換它們。
def humanize_draft(draft: str) -> str:
system_prompt = load_prompt("gpt4o_humanizer_v8.txt")
response = openai_client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": system_prompt},
{"role": "user", "content": f"人性化這篇文章,同時保持所有技術準確性和結構:\n\n{draft}"}
],
temperature=0.8
)
return response.choices[0].message.content
為什麼在這個階段使用 GPT-4o 而不是 Claude?說實話,因為 GPT-4o 在聽起來隨意方面更好。Claude 的力量是技術精確性和指令遵循。GPT-4o 的力量是模擬人類寫作模式。我們發揮每個模型的優勢。
雙模型方法不是我們的第一個想法
我們最初試過用單一模型做所有事情。一個提示,一次傳遞,一個輸出。各方面的結果都很平庸。草稿要麼在技術上很強但機械化,要麼很隨意但很淺。
將管道分成專門的階段是突破口。這與微服務的原理相同——每個組件做一件事做得很好。
Winston AI 檢測和 85% 閾值
在測試五種不同的 AI 內容檢測器後,我們選擇了 Winston AI。原因如下:
| 檢測器 | 一致性(相同輸入,相同得分?) | 誤報率 | API 可用嗎? | 價格/月 |
|---|---|---|---|---|
| Winston AI | 高 | 低(約3%) | 是 | $18/月 |
| Originality.ai | 高 | 中(約8%) | 是 | $15/月 |
| GPTZero | 中 | 中(約7%) | 是 | $10/月 |
| Copyleaks | 中 | 低(約4%) | 是 | $8/月 |
| Sapling | 低 | 高(約12%) | 是 | 免費層級 |
Winston AI 在多次運行中為我們提供了最一致的得分。如果你兩次輸入相同的文章,你會得到幾乎相同的人工得分。當你構建自動化管道時,這很重要——你需要確定性的行為來做出決定。
我們的閾值是 85% 人工得分。低於此值,文章會使用調整的參數回到人性化處理器(更高的溫度,不同的指令重點)。如果再次失敗,人工會手動重寫被標記的部分。
實際上,約 70% 的文章在第一次人性化處理傳遞時通過。另外 20% 在第二次通過。其餘 10% 需要人工幹預。
def check_detection(article: str) -> dict:
result = winston_client.scan(text=article)
return {
"human_score": result.score, # 0-100
"passed": result.score >= 85,
"flagged_sentences": result.flagged_sentences
}
flagged_sentences 字段是黃金。我們可以只針對觸發檢測器的句子,而不是重新運行整篇文章。這節省令牌並產生更好的結果。
完整工作流程分步驟
以下是我們想要發佈新文章時實際發生的情況:
關鍵字選擇 ——我們從我們的內容日曆(在 Notion 中維護)提取,並與 Ahrefs 關鍵字難度得分交叉參考。我們針對新主題的 KD < 30。
競爭研究 ——我們的指令碼命中 Tavily 的搜索 API 並提取前 10 個結果。它提取標題、字數和內容差距。
簡報生成 ——Claude Sonnet 4 調用(比 Opus 用於此任務更便宜)從研究數據生成結構化簡報。
初稿 ——Claude Opus 4 製作文章。根據長度花費約 45-90 秒。
人性化處理 ——GPT-4o 為語音和自然性進行重寫。再花費 30-60 秒。
檢測評分 ——Winston AI 對輸出進行評分。結果在大約 10 秒內返回。
循環或進行 ——如果得分 < 85%,使用修改的參數回到步驟 5。最多 2 次重試。
人工審查 ——團隊成員閱讀文章,檢查事實,添加截圖或圖表,並為我們的 CMS 格式化。
發佈 ——文章通過我們的 headless CMS 管道上線。
每篇文章的總時間:約 35 分鐘的人工關注。AI 階段花費約 3 分鐘的計算時間。
91 篇文章教會我們關於 AI 內容的東西
自 2025 年 1 月以來,我們一直在運行此管道。以下是出現的模式:
技術內容表現更好
我們表現最好的文章是關於特定框架和工具的深度技術文章。關於 Next.js 開發模式 或 Astro 性能優化 的文章始終優於通用的「什麼是 headless CMS」內容。
這是有道理的。AI 生成的通用內容現在無處不在。Google 的排名算法顯然偏向於特異性和深度。我們的管道被設計為恰好製作該類型的內容。
前 30 篇文章很粗糙
我不會假裝我們從第一天就完美地實現了。第一批文章有問題:
- 跨文章的聲音不一致
- 一些虛構的統計(Claude 自信地引用了一份「2024 年高德納報告」,但該報告並不存在)
- 不編譯的代碼示例
- 重複的部分結構
我們通過提示迭代和更嚴格的人工審查來解決這些問題。系統提示現在是第 14 版。每個版本都解決了我們在已發佈內容中發現的特定失敗模式。
AI 檢測是一個移動目標
Winston AI 在我們三個月的運行期間更新了兩次檢測模型。每次,我們的得分下降 5-10 分,我們必須調整人性化處理提示。這是一場持續的軍備競賽,如果你正在構建類似的東西,請規劃維護。
人工審查是不可談判的
我們試著跳過一批 5 篇文章的人工審查作為實驗。其中兩篇有會讓我們尷尬的事實錯誤。一篇引用了在 2023 年貶值的 API。另一篇聲稱 Next.js 15 支持一項實際上仍在 RFC 中的功能。
每篇文章都受到人工審查。句號。
成本分解和性能數據
以下是我們 91 篇文章運行的真實數字:
| 指標 | 值 |
|---|---|
| 已發佈的文章總數 | 91 |
| 平均字數 | 2,847 |
| AI API 總成本 | $127.40 |
| 每篇文章的平均成本(僅 AI) | $1.40 |
| Winston AI 訂閱(3 個月) | $54.00 |
| Ahrefs 訂閱(3 個月) | $297.00 |
| Tavily API 成本 | $42.00 |
| 人工審查時間(每篇文章平均) | 35 分鐘 |
| 總人工小時數 | 約 53 小時 |
| 第一次嘗試通過 Winston 的文章 | 64 篇(70%) |
| 需要手動重寫的文章 | 9 篇(10%) |
| 平均 Winston AI 人工得分(最終) | 89% |
| 有機流量增加(2025 年 1 月-3 月) | +340% |
| 索引頁面增加 | +86 |
每篇文章 $1.40 的 AI 成本非常低。真正的費用是人工時間——三個月內 53 小時用於審查和編輯。但與自由技術撰稿人的收費相比。質量技術內容的收費為 $0.15/字,2,847 字的文章將花費約 $427。我們以大約 $35 的人工時間成本(按 $40/小時費率)加上 $1.40 的 AI 成本製作可比較質量的內容。
那是 91% 的成本縮減。而且輸出在技術上更準確,因為 AI 模型比任何單一自由撰稿人擁有更廣泛的知識。
我們評估並拒絕的工具
並非我們嘗試的所有東西都進入了最終管道:
- Jasper AI ——過於專注於營銷文案。無法製作我們需要的技術深度。按照他們商業層級的 $59/月也很昂貴。
- Copy.ai ——與 Jasper 有類似的問題。很適合廣告文案,不適合 3,000 字技術文章。
- Undetectable.ai ——我們試著用它作為人性化處理器而不是 GPT-4o。輸出在語法上很尷尬,有時會改變句子的技術含義。堅決反對。
- Surfer SEO ——好工具,但我們更喜歡用 Ahrefs 數據構建自己的 SEO 分析。Surfer 的內容編輯器感到太受限制。
- Perplexity API ——我們在研究階段測試了這個。結果很好,但引文格式與我們的簡報結構整合得不好。可能會再訪問。
常見問題
這不就是內容垃圾郵件嗎? 不。每篇文章都通過人工審查以確保技術準確性和真正有用性。我們不是在旋轉內容或發佈薄弱頁面。每篇文章都針對特定關鍵字進行真實深度的目標設定。AI 處理初稿生成的繁重工作,但編輯判斷完全是人工的。查看我們 整個網站的內容——我們對自己的標準和我們想從一個技術博客閱讀的標準相同。
為什麼不乾脆聘請寫手呢? 我們仍然為某些文章使用人類寫手——案例研究、意見文章和任何需要直接客戶體驗的東西。但對於技術解釋和比較文章,我們的管道比大多數自由撰稿人製作更好的初稿,因為 AI 模型擁有更廣泛和更新的技術知識。經濟學也使得以單獨使用自由撰稿人會令人望而卻步地昂貴的數量發佈成為可能。
Google 會懲罰 AI 生成的內容嗎? Google 自 2024 年 3 月更新以來的官方立場是,他們根據內容質量進行評估,而不管如何產生。他們懲罰低質量的、批量製作的內容——無論是由 AI 生成還是由不會講該語言的內容農場撰寫。我們的內容排名是因為它真正有用、技術上準確和結構良好。我們在 91 篇文章中都看到了一致的索引和排名改進。
Winston AI 人工得分確切地意味著什麼? Winston AI 分析文本模式——困惑度、突發性、句子結構變化、詞彙分佈——並產生一個從 0 到 100 的得分,表示文本由人類編寫的可能性。85 分意味著 Winston 認為有 85% 的機率人類寫了它。沒有檢測器是完美的,但 Winston 的一致性使其在自動化管道中作為質量門有用。
你可以開源這個管道嗎? 我們已經考慮過。核心邏輯並不複雜——它主要是用 Python 縫合在一起的 API 調用。真正的價值在於提示,這些提示特別針對我們的聲音和技術領域進行調整。我們可能會在某個時點發佈一個通用版本。如果你有興趣,聯絡我們。
你如何處理文章中的代碼示例? 這是人工審查至關重要的一個領域。Claude Opus 在約 90% 的時間生成語法正確的代碼,但其餘 10% 包括細微的錯誤、已棄用的 API 或會讓有經驗的開發人員皺眉的模式。每個代碼塊都手動驗證。對於框架特定的代碼,我們通常在本地運行它來確認它有效。
當 AI 模型更新時會發生什麼? 模型更新可能會破壞一切。當 Anthropic 發佈 Claude Opus 4 時,在 Claude 3 Opus 上完美運行的提示需要大量重新工作。我們維護版本化的提示並在模型更新時針對 10 篇文章的基準集進行測試。為此安排時間——在我們三個月的運行期間發生過三次。
管道的下一步是什麼? 我們正在努力添加使用 Playwright 的自動化截圖生成、整合我們的 headless CMS 部署管道 以實現一鍵發佈,以及構建一個反饋循環,其中 Google Search Console 數據影響我們接下來優先考慮的主題。目標是縮短那 35 分鐘的人工審查時間,而不犧牲質量。完成後我們可能會寫關於它的文章。如果你對我們如何將類似的系統思維應用於客戶項目感到好奇,請查看我們的 定價頁面。