我們用 Claude、GPT-4o 與 Winston AI 打造自己的部落格管道
你的內容日曆在第三週就停滯了。你聘僱的自由職業者發來了另一篇 800 字的文章,開頭是「在今天的數位景觀中」,讀起來像是聊天機器人轉錄了一場網路研討會。你知道這不會排名。你知道你的客戶會略過它。所以你刪除草稿,重新開始——又一次。我們在 2025 年末期面臨著同樣的循環。與其聘僱另一位寫手或接受通用的 AI 輸出,我們建立了一個三模型管道:Claude Opus 起草技術結構,GPT-4o 改寫以符合人類節奏,Winston AI 評分可檢測性,而核批層則捕捉任何聽起來像是逃脫自 SaaS 登陸頁面的內容。結果:91 篇文章在八週內上線,每一篇都通過了 Winston 的人類門檻,每一篇都用我們實際的聲音撰寫。這是我們使用的確切架構、每篇文章的成本,以及為什麼多模型優於單一提示的原因。
這是我們在不到三個月內交付 91 篇文章、我們串聯的特定工具與模型,以及我們一路上學到的每個醜陋教訓的故事。
目錄
- 機構內容的問題
- 我們部落格管道的架構
- 為什麼首稿使用 Claude Opus 4
- GPT-4o 人性化傳遞
- Winston AI 檢測與 85% 門檻
- 完整工作流程逐步說明
- 91 篇文章教會我們有關 AI 內容的事
- 成本分解與效能資料
- 我們評估並拒絕的工具
- 常見問題

機構內容的問題
這裡有一個沒人在機構世界裡想大聲說出來的事實:大多數開發公司在內容行銷上表現很差。我們也不例外——至少我們以前不是。
我們有經典問題。我們的團隊知道如何用 Next.js、Astro 和各種 headless CMS 平台建造東西。我們為真實客戶交付真實產品。但撰寫相關內容?持續地?以實際移動 SEO 指針的節奏?那是一個完全不同的肌肉。
我們嘗試聘僱自由撰稿人。技術深度很淺。我們試過讓開發人員撰寫文章。他們會製作一篇傑出的文章,然後在衝刺中消失六週。我們用 ChatGPT 嘗試過基本的 AI 生成——輸出讀起來像是維基百科文章與行銷宣傳頁面生的寶寶。
所以我們問自己:如果我們像對待軟體工程問題一樣對待內容製作呢?如果我們建立一個管道呢?
我們部落格管道的架構
該管道有五個階段。每個階段都有一個負責的特定模型或工具,每個階段都產生一個可衡量的輸出,為下一個階段提供信息。
┌─────────────┐ ┌──────────────┐ ┌─────────────┐
│ 研究&簡報生成 │────▶│ Claude Opus │────▶│ GPT-4o │
│ │ │ 首稿 │ │ 人性化器 │
└─────────────┘ └──────────────┘ └─────────────┘
│
▼
┌─────────────┐
│ Winston AI │
│ 檢測 │
└─────────────┘
│
▼
┌─────────────┐
│ 人工編輯 │
│ &發佈 │
└─────────────┘
階段 1:研究與簡報生成
我們使用 Ahrefs 和 Tavily API 的組合進行關鍵字研究和實時競爭分析。簡報是一份結構化 JSON 文件,包括:
- 目標關鍵字和次要關鍵字
- 前 10 篇競爭文章(標題、字數、H2 結構)
- 從 Google 搜集的「人們也問」問題
- 提議的大綱及每個部分的目標字數
此簡報成為 Claude 的輸入提示。
階段 2:Claude Opus 首稿
Claude Opus 4 撰寫首稿。下方有更多相關內容。
階段 3:GPT-4o 人性化傳遞
草稿通過 GPT-4o,具有精心調整的系統提示,旨在使寫作聽起來像真人撰寫。
階段 4:Winston AI 檢測
我們通過 Winston AI 對每篇文章進行評分。如果沒有達到我們的門檻,它會用不同的參數重新通過人性化器。
階段 5:人工編輯與發佈
真人閱讀每篇文章。他們檢查技術準確性,在適當的地方添加個人軼事,並處理最終格式化。
為什麼首稿使用 Claude Opus 4
我們測試了每個主要模型以進行首稿生成。以下是我們的發現:
| 模型 | 技術深度 (1-10) | 結構品質 (1-10) | 平均字數 | AI 檢測評分 (Winston) | 每篇文章成本 |
|---|---|---|---|---|---|
| GPT-4o | 7 | 8 | 2,400 | 32% 人類 | $0.18 |
| Claude Opus 4 | 9 | 9 | 3,100 | 28% 人類 | $0.42 |
| Claude Sonnet 4 | 8 | 8 | 2,600 | 35% 人類 | $0.08 |
| Gemini 2.5 Pro | 7 | 7 | 2,800 | 30% 人類 | $0.14 |
| Llama 3.1 405B | 6 | 6 | 2,200 | 41% 人類 | $0.03 |
Claude Opus 4 在我們最在乎的兩個維度上贏得勝利:技術深度和結構品質。AI 檢測評分實際上比 GPT-4o 的原始輸出更差,但這無關緊要,因為我們不會發佈任何模型的原始輸出。
關於 Claude Opus 的一件難以在表格中量化的事情是:它比其他任何我們測試的東西都更忠實地遵循複雜指令。當我們說「像分享得來不易的知識的資深開發人員一樣寫作」時,Claude 實際上會改變其語調。無論你如何努力推動,GPT-4o 傾向於回到有用助手的聲音。Gemini 產生不錯的技術內容,但在某些地方變得非常正式。
成本差異是真實的——Opus 的成本大約是替代方案每令牌 2-5 倍。但當你考慮到節省的改寫時間時,從整體來看它是最便宜的選項。
有所不同的系統提示
我們在 Claude 系統提示上迭代了大約三週,才找到持續產生良好輸出的東西。我們學到的幾件事:
禁止特定短語比要求語氣更有效。 我們不是說「用隨意的語調寫作」,而是維護禁止詞彙和短語的清單。比如「comprehensive」、「leverage」、「in today's digital landscape」——AI 生成內容的死亡告白。
強制結構約束產生更好的內容。 我們指定確切的標題結構,要求代碼塊,要求 Markdown 表格。Claude Opus 幾乎完美地遵循這些約束。
提供真實背景優於通用指令。 我們提供實際的競爭研究。我們告訴 Claude 頂級排名文章涵蓋的內容及其不足之處。這產生的內容真正差異化。
def generate_first_draft(brief: dict) -> str:
system_prompt = load_prompt("claude_writer_v14.txt")
messages = [
{"role": "user", "content": format_brief(brief)}
]
response = anthropic_client.messages.create(
model="claude-opus-4-20250514",
max_tokens=8192,
system=system_prompt,
messages=messages,
temperature=0.7 # 稍微創意,不混亂
)
return response.content[0].text
我們定在溫度 0.7。比那更低,寫作感覺機器人般。更高,Claude 開始編造東西——幻想框架功能,發明不存在的 API 端點。

GPT-4o 人性化傳遞
這是事情變得有趣的地方。還有一點奇怪。
Claude 製作了一份技術上可靠的首稿後,我們用一個完全不同的系統提示通過 GPT-4o 傳遞它。此提示的工作不是添加信息——它是讓寫作感覺更人性化。
這在實踐中實際意味著什麼?幾個具體的轉變:
- 句子長度變化。 AI 模型傾向於撰寫大致相同長度的句子。人類不這樣做。我們指示 GPT-4o 混合簡短有力的句子和更長的句子。
- 不完美的過渡。 真實的部落格文章沒有完美的段落對段落流程。有時你只是跳到下一個想法。人性化器添加這些自然中斷。
- 第一人稱插入。 「根據我們的經驗」、「我們發現」、「我花了一週時間調試這個」——這些小觸碰在 AI 檢測評分中有巨大區別。
- 縮寫。 Claude Opus 傾向於撰寫「do not」和「it is」,即使受到其他指示。人性化傳遞捕捉這些並進行轉換。
def humanize_draft(draft: str) -> str:
system_prompt = load_prompt("gpt4o_humanizer_v8.txt")
response = openai_client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": system_prompt},
{"role": "user", "content": f"在保留所有技術準確性和結構的同時,人性化此文章:\n\n{draft}"}
],
temperature=0.8
)
return response.choices[0].message.content
為什麼選擇 GPT-4o 進行此傳遞而不是 Claude?老實說,這是因為 GPT-4o 更擅長聽起來隨意。Claude 的優勢是技術精確性和指令遵循。GPT-4o 的優勢是模仿人類寫作模式。我們在發揮每個模型的優勢。
雙模型方法不是我們的第一個想法
我們最初嘗試用單一模型做所有事情。一個提示,一次傳遞,一個輸出。結果在整個板子上都很平庸。草稿要麼技術上強大但機器人般的,要麼會話式但膚淺。
將管道分解成專門的階段是突破。這與微服務的原則相同——每個組件做好一件事。
Winston AI 檢測與 85% 門檻
在測試五個不同的 AI 內容檢測器後,我們選擇了 Winston AI。理由如下:
| 檢測器 | 一致性 (相同輸入,相同評分?) | 誤判率 | API 可用? | 月度價格 |
|---|---|---|---|---|
| Winston AI | 高 | 低 (~3%) | 是 | $18/月 |
| Originality.ai | 高 | 中 (~8%) | 是 | $15/月 |
| GPTZero | 中 | 中 (~7%) | 是 | $10/月 |
| Copyleaks | 中 | 低 (~4%) | 是 | $8/月 |
| Sapling | 低 | 高 (~12%) | 是 | 免費層級 |
Winston AI 在跨運行期間為我們提供了最一致的評分。如果你兩次提供相同的文章,你會得到幾乎相同的人類評分。當你建立自動化管道時這很重要——你需要確定性行為來做決定。
我們的門檻是 85% 人類評分。在那以下,文章用調整的參數重新通過人性化器(更高溫度,不同指令重點)。如果它第二次失敗,人類手動改寫標記的部分。
在實踐中,約 70% 的文章在第一次人性化器運行時通過。另外 20% 通過第二次。剩下的 10% 需要手動干預。
def check_detection(article: str) -> dict:
result = winston_client.scan(text=article)
return {
"human_score": result.score, # 0-100
"passed": result.score >= 85,
"flagged_sentences": result.flagged_sentences
}
flagged_sentences 字段很珍貴。我們可以只針對觸發檢測器的句子,而不是重新運行整個文章。這節省令牌並產生更好的結果。
完整工作流程逐步說明
這是當我們想要發佈新文章時實際發生的情況:
關鍵字選擇 -- 我們從內容日曆(在 Notion 中維護)提取,並與 Ahrefs 關鍵字難度評分進行交叉參考。我們針對新主題的 KD < 30。
競爭研究 -- 我們的指令碼點擊 Tavily 搜尋 API 並拉取前 10 個結果。它提取標題、字數和內容差距。
簡報生成 -- Claude Sonnet 4 呼叫(對此任務比 Opus 便宜)從研究數據生成結構化簡報。
首稿 -- Claude Opus 4 製作文章。需要約 45-90 秒,取決於長度。
人性化傳遞 -- GPT-4o 為語音和自然性改寫。另外 30-60 秒。
檢測評分 -- Winston AI 對輸出進行評分。結果在約 10 秒內返回。
循環或進行 -- 如果評分 < 85%,用修改的參數回到步驟 5。最多 2 次重試。
人工審查 -- 團隊成員閱讀文章,檢查事實,添加截圖或圖表,並為我們的 CMS 格式化。
發佈 -- 文章通過我們的 headless CMS 管道上線。
每篇文章總時間:約 35 分鐘的人工注意。AI 階段需要約 3 分鐘的計算時間。
91 篇文章教會我們有關 AI 內容的事
我們自 2025 年 1 月以來一直在運行此管道。以下是出現的模式:
技術內容表現更好
我們表現最好的文章是關於特定框架和工具的深度技術片段。有關 Next.js 開發模式或 Astro 效能最佳化的文章持續優於通用的「什麼是 headless CMS」內容。
這很有道理。AI 生成的通用內容現在無所不在。Google 的排名算法顯然傾向於特異性和深度。我們的管道旨在製作正是這類內容。
前 30 篇文章很粗糙
我不會假裝我們從第一天起就搞定了。第一批文章有問題:
- 文章間的聲音不一致
- 一些幻想的統計數據 (Claude 自信地引用了一份不存在的「2024 Gartner 報告」)
- 不編譯的代碼示例
- 重複的部分結構
我們通過提示迭代和更嚴格的人工審查修復了這些。系統提示現在版本 14。每個版本解決了我們在已發佈內容中識別的特定失敗模式。
AI 檢測是一個移動的目標
Winston AI 在我們三個月的運行期間更新了檢測模型兩次。每次,我們的評分下降 5-10 分,我們必須調整人性化器提示。這是一場持續的軍備競賽,如果你正在建立類似的東西,計劃維護。
人工審查不可或缺
我們嘗試跳過一批 5 篇文章的人工審查作為實驗。其中兩篇有會使我們尷尬的事實錯誤。一篇引用了一個在 2023 年被棄用的 API。另一篇聲稱 Next.js 15 支持一個實際上仍在 RFC 中的功能。
每篇文章都得到人眼檢查。句號。
成本分解與效能資料
以下是我們 91 篇文章運行的真實數字:
| 指標 | 值 |
|---|---|
| 已發佈的總文章 | 91 |
| 平均字數 | 2,847 |
| 總 AI API 成本 | $127.40 |
| 每篇文章平均成本 (僅 AI) | $1.40 |
| Winston AI 訂閱 (3 個月) | $54.00 |
| Ahrefs 訂閱 (3 個月) | $297.00 |
| Tavily API 成本 | $42.00 |
| 人工審查時間 (每篇文章平均) | 35 分鐘 |
| 總人類小時數 | ~53 小時 |
| 第一次嘗試通過 Winston 的文章 | 64 (70%) |
| 需要手動改寫的文章 | 9 (10%) |
| 平均 Winston AI 人類評分 (最終) | 89% |
| 有機流量增加 (1 月-3 月 2025) | +340% |
| 索引頁面增加 | +86 |
每篇文章 $1.40 的 AI 成本非常低。真實費用是人類時間——三個月內 53 小時的審查和編輯。但將其與自由技術寫手收取的費用進行比較。在品質技術內容的 $0.15/字,一篇 2,847 字的文章將花費約 $427。我們以大約 $35 的人類時間 (以 $40/小時費率計算) 加上 $1.40 的 AI 成本製作可比品質的內容。
那是 91% 的成本削減。而輸出在技術上更準確,因為 AI 模型比任何單一自由撰稿人擁有更廣泛的知識。
我們評估並拒絕的工具
並非我們嘗試的一切都進入了最終管道:
- Jasper AI -- 過於專注於行銷文案。無法製作我們需要的技術深度。也很昂貴,業務層級為 $59/月。
- Copy.ai -- 與 Jasper 類似的問題。非常適合廣告文案,不適合 3,000 字的技術文章。
- Undetectable.ai -- 我們將其試用作為人性化器而不是 GPT-4o。輸出在語法上很尷尬,有時改變了句子的技術含義。強硬傳遞。
- Surfer SEO -- 好工具,但我們更喜歡用 Ahrefs 數據建立自己的 SEO 分析。Surfer 的內容編輯器感覺過於約束。
- Perplexity API -- 我們測試了這個以進行研究階段。結果很好,但引文格式與我們的簡報結構整合不佳。可能會重新訪問。
常見問題
這不是內容垃圾郵件嗎? 不是。每篇文章都通過人工審查以檢查技術準確性和真正的有用性。我們不是在旋轉內容或發佈薄頁面。每篇文章都針對具有真實深度的特定關鍵字。AI 處理首稿生成的重任,但編輯判斷完全是人類的。檢查我們整個網站的內容——我們對自己的標準與我們想要閱讀的技術部落格相同。
為什麼不只是聘僱寫手? 我們仍為某些片段使用人類寫手——個案研究、觀點文章和需要直接客戶經驗的任何東西。但對於技術說明和比較文章,我們的管道製作比大多數自由寫手更好的首稿,因為 AI 模型擁有更廣泛和更最新的技術知識。經濟學也使得以自由職業者單獨可能地禁止的量發佈成為可能。
Google 會懲罰 AI 生成的內容嗎? Google 自 2024 年 3 月更新以來的官方立場是,他們評估內容品質,無論如何製作。他們懲罰低品質、大量製作的內容——無論是 AI 生成還是由不會說該語言的內容農場寫的。我們的內容排名是因為它真正有用、技術上準確且結構良好。我們在 91 篇文章中看到了一致的索引和排名改進。
Winston AI 人類評分到底意味著什麼? Winston AI 分析文本模式——困惑度、突發性、句子結構變化、詞彙分佈——並產生一個 0 到 100 的評分,表示文本是由人類撰寫的可能性。評分 85 意味著 Winston 認為有 85% 的機會人類寫了它。沒有檢測器是完美的,但 Winston 的一致性使其在自動化管道中成為有用的品質閘道。
你們能開源此管道嗎? 我們考慮過。核心邏輯並不複雜——它主要是用 Python 串聯在一起的 API 呼叫。真實價值在於提示中,這些提示對我們的語音和技術領域特別調整。我們可能在某個時點發布一個通用版本。如果你感興趣,聯絡我們。
你們如何在文章中處理代碼示例? 這是人工審查至關重要的領域。Claude Opus 大約 90% 的時間生成語法正確的代碼,但剩下的 10% 包括微妙的錯誤、棄用的 API 或會讓經驗豐富的開發人員皺眉的模式。每個代碼塊都經過手動驗證。對於特定框架的代碼,我們經常在本地運行它以確認它有效。
當 AI 模型更新時會發生什麼? 模型更新可以破壞一切。當 Anthropic 發布 Claude Opus 4 時,我們在 Claude 3 Opus 上完美運作的提示需要重大改革。我們維護版本化提示並針對一組 10 篇文章的基準進行測試,只要模型更新。預算此時間——在我們的三個月運行中已經發生了三次。
管道的下一步是什麼? 我們正在致力於使用 Playwright 添加自動化截圖生成,與我們的 headless CMS 部署管道整合以進行單擊發佈,並建立一個反饋循環,其中 Google Search Console 數據影響我們接下來優先考慮的主題。目標是減少那 35 分鐘的人工審查時間,而不犧牲品質。我們可能在完成時會寫相關內容。如果你對我們如何將類似系統思維應用於客戶項目感到好奇,檢查我們的價格頁面。