我们为什么用Claude、GPT-4o和Winston AI构建自己的博客管道
大多数代理机构外包他们的内容,或者雇佣初级写手来生成充满SEO的文章,这些文章读起来就像是由烤面包机生成的。我们试过了。没有效果。所以我们构建了不同的东西——一个多模型AI管道,可以起草、人性化处理、评分和发布文章,速度是任何单一写手都无法匹配的,同时保持一个质量标准,真正反映我们对网络开发的看法。
这是我们如何在三个月内发布91篇文章、我们连接在一起的具体工具和模型,以及我们沿途学到的每一个教训的故事。
目录
- 代理机构内容的问题
- 我们的博客管道架构
- 为什么选择Claude Opus 4进行初稿
- GPT-4o人性化处理
- Winston AI检测和85%阈值
- 完整工作流程逐步分解
- 91篇文章教我们的关于AI内容的知识
- 成本分解和性能数据
- 我们评估和拒绝的工具
- 常见问题

代理机构内容的问题
这里有一个代理机构世界中没有人愿意公开说出来的事实:大多数开发公司都不擅长内容营销。我们也不例外——或者至少,我们曾经不是。
我们有经典的问题。我们的团队知道如何用Next.js、Astro和各种无头CMS平台构建东西。我们为真实的客户提供真实的产品。但关于这件事写作呢?持续地?以实际推动SEO排名的节奏?那是完全不同的能力。
我们尝试过聘请自由职业写手。技术深度很浅。我们尝试过让开发者写文章。他们会写出一篇精彩的文章,然后在冲刺中消失六周。我们尝试过使用ChatGPT进行基本的AI生成——输出读起来就像是维基百科文章和营销宣传册的孩子。
所以我们问自己:如果我们把内容制作当作软件工程问题怎么办?如果我们构建一个管道呢?
我们的博客管道架构
该管道有五个阶段。每个阶段都有一个特定的模型或工具负责,每个都产生一个可测量的输出,为下一个阶段提供输入。
┌─────────────┐ ┌──────────────┐ ┌─────────────┐
│ 研究与 │────▶│ Claude Opus │────▶│ GPT-4o │
│ 简报生成 │ │ 初稿 │ │ 人性化处理 │
└─────────────┘ └──────────────┘ └─────────────┘
│
▼
┌─────────────┐
│ Winston AI │
│ 检测 │
└─────────────┘
│
▼
┌─────────────┐
│ 人工编辑 │
│ &发布 │
└─────────────┘
第一阶段:研究和简报生成
我们使用Ahrefs进行关键词研究和Tavily API进行实时竞争分析的组合。简报是一份结构化的JSON文档,包括:
- 目标关键词和次要关键词
- 前10篇竞争文章(标题、字数、H2结构)
- 从Google爬取的"人们也问"问题
- 带有每个部分目标字数的建议大纲
这份简报成为Claude的输入提示。
第二阶段:Claude Opus初稿
Claude Opus 4写初稿。更多信息见下文。
第三阶段:GPT-4o人性化处理
该草稿通过GPT-4o进行处理,使用精心调整的系统提示,旨在使写作听起来像真人写的。
第四阶段:Winston AI检测
我们通过Winston AI给每篇文章评分。如果它没有达到我们的阈值,它会用不同的参数返回人性化处理。
第五阶段:人工编辑和发布
真人阅读每篇文章。他们检查技术准确性,在适当的地方添加个人轶事,并处理最终格式化。
为什么选择Claude Opus 4进行初稿
我们测试了每个主要模型进行初稿生成。以下是我们的发现:
| 模型 | 技术深度 (1-10) | 结构质量 (1-10) | 平均字数 | AI检测评分 (Winston) | 每篇文章成本 |
|---|---|---|---|---|---|
| GPT-4o | 7 | 8 | 2,400 | 32% 人工 | $0.18 |
| Claude Opus 4 | 9 | 9 | 3,100 | 28% 人工 | $0.42 |
| Claude Sonnet 4 | 8 | 8 | 2,600 | 35% 人工 | $0.08 |
| Gemini 2.5 Pro | 7 | 7 | 2,800 | 30% 人工 | $0.14 |
| Llama 3.1 405B | 6 | 6 | 2,200 | 41% 人工 | $0.03 |
Claude Opus 4在我们最关心的两个维度上获胜:技术深度和结构质量。AI检测评分实际上比GPT-4o的原始输出要更差,但这并不重要,因为我们不打算从任何模型中发布原始输出。
关于Claude Opus很难在表格中量化的一点是:它比我们测试的任何东西都更忠实地遵循复杂指示。当我们说"像一个分享辛苦学来的知识的资深开发者一样写作"时,Claude确实改变了它的语气。无论你多么努力,GPT-4o往往都会回到有帮助的助手声音。Gemini产生不错的技术内容,但在某些地方会变得非常正式。
成本差异是真实的——Opus的每个代币成本大约是替代品的2-5倍。但当你考虑到节省的重写时间时,这在总体上是最便宜的选择。
产生差异的系统提示
我们在Claude系统提示上迭代了大约三周,才找到了一个能够持续产生好输出的方案。我们学到的几点:
禁止特定短语比要求语调效果更好。 与其说"用随意的语调写作",我们维护一个禁用词和短语的列表。像"全面"、"利用"、"在当今的数字景观中"这样的东西——AI生成内容的死亡标志。
强制结构约束产生更好的内容。 我们指定精确的标题结构、要求代码块、要求markdown表格。Claude Opus几乎完美地遵循这些约束。
提供真实背景比通用指示更好。 我们提供实际的竞争研究。我们告诉Claude顶级排名文章涵盖什么以及他们的不足。这产生了真正差异化的内容。
def generate_first_draft(brief: dict) -> str:
system_prompt = load_prompt("claude_writer_v14.txt")
messages = [
{"role": "user", "content": format_brief(brief)}
]
response = anthropic_client.messages.create(
model="claude-opus-4-20250514",
max_tokens=8192,
system=system_prompt,
messages=messages,
temperature=0.7 # 稍微有创意,不是混乱的
)
return response.content[0].text
我们最终选择了0.7的温度。比这更低,写作感觉机器人化。更高,Claude开始编造东西——幻想框架功能、发明不存在的API端点。

GPT-4o人性化处理
这是事情变得有趣的地方。还有点奇怪。
在Claude产生了一份技术扎实的初稿后,我们用一个完全不同的系统提示通过GPT-4o传递它。这个提示的工作不是添加信息——而是使写作感觉更人性化。
这在实践中实际意味着什么?一些特定的转变:
- 句子长度变化。 AI模型倾向于写所有长度大致相同的句子。人类不这样做。我们指示GPT-4o混合短小而有力的句子和更长的句子。
- 不完美的过渡。 真实的博客文章没有完美的段落到段落的流动。有时你只是跳到下一个想法。人性化处理器添加这些自然的中断。
- 第一人称插入。 "根据我们的经验"、"我们发现"、"我花了一周时间调试这个"——这些小接触在AI检测评分中产生了巨大的差异。
- 缩写。 Claude Opus倾向于写"do not"和"it is",即使被指示不这样做。人性化处理通道捕捉这些并转换它们。
def humanize_draft(draft: str) -> str:
system_prompt = load_prompt("gpt4o_humanizer_v8.txt")
response = openai_client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": system_prompt},
{"role": "user", "content": f"人性化这篇文章,同时保持所有技术准确性和结构:\n\n{draft}"}
],
temperature=0.8
)
return response.choices[0].message.content
为什么在这个通道中使用GPT-4o而不是Claude?老实说,这是因为GPT-4o更善于听起来随意。Claude的优势是技术精准和遵循指示。GPT-4o的优势是模仿人类的写作模式。我们在发挥每个模型的优势。
双模型方法不是我们的首个想法
我们最初尝试用单个模型做所有事情。一个提示、一个通道、一个输出。结果在各个方面都很平庸。草稿要么技术上很强但机械化,要么很对话但很浅薄。
将管道分成专门的阶段是突破。这与微服务的原理相同——每个组件做一件事,做得很好。
Winston AI检测和85%阈值
在测试了五种不同的AI内容检测器后,我们选择了Winston AI作为我们的检测工具。原因是:
| 检测器 | 一致性(相同输入,相同评分?) | 误报率 | API可用? | 价格/月 |
|---|---|---|---|---|
| Winston AI | 高 | 低 (~3%) | 是 | $18/月 |
| Originality.ai | 高 | 中 (~8%) | 是 | $15/月 |
| GPTZero | 中 | 中 (~7%) | 是 | $10/月 |
| Copyleaks | 中 | 低 (~4%) | 是 | $8/月 |
| Sapling | 低 | 高 (~12%) | 是 | 免费版 |
Winston AI在多次运行中给我们最一致的评分。如果你两次输入相同的文章,你会得到几乎相同的人工评分。当你构建一个自动化管道时,这很重要——你需要确定性的行为来做决定。
我们的阈值是85%人工评分。低于此评分,文章将用调整后的参数(更高的温度、不同的指示强调)返回人性化处理。如果它第二次失败,真人手动重写被标记的部分。
实际上,大约70%的文章在第一个人性化处理运行中通过。另外20%在第二个通过。剩余的10%需要人工干预。
def check_detection(article: str) -> dict:
result = winston_client.scan(text=article)
return {
"human_score": result.score, # 0-100
"passed": result.score >= 85,
"flagged_sentences": result.flagged_sentences
}
flagged_sentences字段是金矿。与其重新运行整篇文章,我们可以只针对触发检测器的句子。这节省了代币并产生了更好的结果。
完整工作流程逐步分解
当我们想要发布新文章时,实际发生的是这样的:
关键词选择 ——我们从我们的内容日历(在Notion中维护)中提取,并与Ahrefs关键词难度评分交叉参考。我们针对KD < 30的新主题。
竞争研究 ——我们的脚本打到Tavily的搜索API并拉出前10个结果。它提取标题、字数和内容空缺。
简报生成 ——Claude Sonnet 4调用(比Opus便宜,用于此任务)从研究数据生成结构化简报。
初稿 ——Claude Opus 4生成文章。取决于长度,需要大约45-90秒。
人性化处理 ——GPT-4o为语音和自然性重写。又需要30-60秒。
检测评分 ——Winston AI评分输出。结果在大约10秒内返回。
循环或继续 ——如果评分 < 85%,返回第5步,改进参数。最多2次重试。
人工审查 ——一个团队成员阅读文章,检查事实,添加截图或图表,并为我们的CMS格式化。
发布 ——文章通过我们的无头CMS管道上线。
每篇文章的总时间:大约35分钟的人工关注。AI阶段大约花费3分钟的计算时间。
91篇文章教我们的关于AI内容的知识
我们从2025年1月开始运行这个管道。以下是出现的模式:
技术内容表现更好
我们表现最好的文章是关于特定框架和工具的深度技术文章。关于Next.js开发模式或Astro性能优化的文章始终优于通用的"什么是无头CMS"内容。
这是有道理的。AI生成的通用内容现在随处可见。Google的排名算法显然偏向于特定性和深度。我们的管道被设计为生成完全是这类内容。
前30篇文章很粗糙
我不会假装我们从第一天就做对了。第一批文章有问题:
- 文章间的声音不一致
- 一些幻想的统计数据(Claude自信地引用了一份不存在的"2024年Gartner报告")
- 无法编译的代码示例
- 重复的部分结构
我们通过提示迭代和更严格的人工审查修复了这些。系统提示现在是版本14。每个版本都解决了我们在发布内容中识别的特定失败模式。
AI检测是一个移动目标
Winston AI在我们三个月的运行中更新了两次他们的检测模型。每次,我们的评分下降了5-10分,我们必须调整人性化处理提示。这是一个持续的军备竞赛,如果你构建类似的东西,请计划维护。
人工审查是必须的
作为实验,我们尝试跳过了5篇文章的人工审查。其中两篇有会让我们尴尬的事实错误。一篇引用了2023年弃用的API。另一篇声称Next.js 15支持一个实际上仍在RFC中的功能。
每篇文章都经过人工的眼睛。句号。
成本分解和性能数据
这是我们91篇文章运行的真实数字:
| 指标 | 值 |
|---|---|
| 发布的总文章 | 91 |
| 平均字数 | 2,847 |
| 总AI API成本 | $127.40 |
| 每篇文章平均成本(仅AI) | $1.40 |
| Winston AI订阅(3个月) | $54.00 |
| Ahrefs订阅(3个月) | $297.00 |
| Tavily API成本 | $42.00 |
| 人工审查时间(平均每篇) | 35 分钟 |
| 总人工小时 | ~53 小时 |
| 第一次尝试通过Winston的文章 | 64 (70%) |
| 需要人工重写的文章 | 9 (10%) |
| 平均Winston AI人工评分(最终) | 89% |
| 有机流量增加(1月-3月2025) | +340% |
| 索引页面增加 | +86 |
每篇文章$1.40的AI成本非常低。真实的费用是人工时间——三个月内53小时用于审查和编辑。但与自由职业技术写手收费相比。在$0.15/字的质量技术内容中,一篇2,847字的文章大约要花$427。我们以大约$35的人工时间(按$40/小时的速率)加$1.40的AI成本生成可比质量的内容。
这是91%的成本降低。而且输出在技术上更准确,因为AI模型比任何单个自由职业写手拥有更广泛的知识。
我们评估和拒绝的工具
并非我们尝试的一切都进入了最终管道:
- Jasper AI ——太专注于营销文案。无法生成我们需要的技术深度。在他们的商业版也很贵,$59/月。
- Copy.ai ——与Jasper类似的问题。很适合广告文案,不适合3,000字的技术文章。
- Undetectable.ai ——我们尝试用它作为人性化处理者而不是GPT-4o。输出在语法上很尴尬,有时改变了句子的技术含义。坚决拒绝。
- Surfer SEO ——很好的工具,但我们更喜欢用Ahrefs数据构建我们自己的SEO分析。Surfer的内容编辑感觉约束太多。
- Perplexity API ——我们为研究阶段测试了这个。结果很好,但引文格式与我们的简报结构集成不好。可能后来重新审视。
常见问题
这不是内容垃圾吗? 不是。每篇文章都通过人工审查,检查技术准确性和真正的有用性。我们不是在旋转内容或发布薄页面。每篇文章都以真实深度针对特定关键词。AI处理初稿生成的繁重工作,但编辑判断完全是人工的。查看我们网站上的内容——我们坚持我们希望从我们阅读的技术博客中获得的相同标准。
为什么不直接雇用写手? 我们仍然对某些文章使用人工写手——案例研究、观点文章以及任何需要直接客户经验的内容。但对于技术说明和比较文章,我们的管道产生比大多数自由职业写手更好的初稿,因为AI模型拥有更广泛和更当前的技术知识。经济学也使得在完全依赖自由职业者的情况下这个发布量成为可能。
Google是否惩罚AI生成的内容? 自他们2024年3月更新以来,Google的官方立场是他们评估内容质量,无论其如何生成。他们惩罚低质量的、大规模生成的内容——无论它是AI生成的还是由一个不会说本地语言的内容工厂中的人写的。我们的内容排名是因为它确实有用、技术准确且结构良好。我们在整个91篇文章中看到了一致的索引和排名改进。
Winston AI人工评分具体是什么意思? Winston AI分析文本模式——困惑度、突发性、句子结构变化、词汇分布——并产生从0到100的评分,代表文本由人类写的可能性。85分的评分意味着Winston相信有85%的概率人类写了它。没有检测器是完美的,但Winston的一致性使其在自动化管道中作为质量门有用。
你可以开源这个管道吗? 我们已经考虑过了。核心逻辑并不复杂——它主要是用Python连接的API调用。真实的价值在于提示,这些提示是特别调整到我们的声音和技术领域的。我们可能在某个时刻发布一个通用版本。如果你有兴趣,联系我们。
你如何在文章中处理代码示例? 这是人工审查至关重要的领域之一。Claude Opus在大约90%的时间内生成句法正确的代码,但剩余的10%包括微妙的错误、已弃用的API或会让经验丰富的开发者皱眉的模式。每个代码块都要手动验证。对于框架特定的代码,我们通常在本地运行它来确认它有效。
当AI模型更新时会发生什么? 模型更新可能会破坏一切。当Anthropic发布Claude Opus 4时,我们在Claude 3 Opus上完美工作的提示需要重大的返工。我们维护版本化的提示,并在模型更新时针对10篇文章的基准集进行测试。为此预留时间——在我们三个月的运行中发生过三次。
管道的下一步是什么? 我们正在使用Playwright添加自动截图生成,与我们的无头CMS部署管道集成以供一键发布,以及构建一个反馈循环,其中Google Search Console数据影响我们接下来优先考虑的主题。目标是减少那35分钟的人工审查时间,而不损害质量。当它完成时,我们可能会写关于它的文章。如果你对我们如何对客户项目应用类似系统思维的方式感到好奇,请查看我们的定价页面。