大多数代理公司要么外包内容,要么雇用初级写手来批量生产 SEO 文章,那些文章读起来像是烤面包机生成的。我们也试过。没有成功。所以我们构建了一些不同的东西——一个多模型 AI 管道,可以起草、人性化、评分和发布文章,速度是单个写手无法匹敌的,同时保持了一个真实反映我们对网络开发看法的质量标准。

这是我们如何在不到三个月内发布 91 篇文章的故事,我们连接的具体工具和模型,以及我们一路上学到的每一堂深刻的课程。

目录

我们为什么用 Claude、GPT-4o 和 Winston AI 构建自己的博客管道

代理机构内容的问题

这是一个在代理机构世界里没人想大声说出来的真相:大多数开发公司在内容营销方面都很糟糕。我们也不例外——至少,我们以前不是。

我们有一个经典的问题。我们的团队知道如何用 Next.jsAstro 和各种 无头 CMS 平台构建东西。我们为真实客户交付真实产品。但写关于这方面的文章呢?持续地?以真正推动 SEO 效果的节奏?那是一个完全不同的肌肉。

我们尝试过雇用自由职业写手。技术深度不够。我们尝试过让开发人员写文章。他们会写出一篇精彩的文章,然后就在冲刺中消失六周。我们尝试过用 ChatGPT 进行基础 AI 生成——输出读起来像是维基百科和营销手册生了个孩子。

所以我们问自己:如果我们把内容生产当作软件工程问题呢?如果我们构建一个管道呢?

我们博客管道的架构

管道有五个阶段。每个阶段都有一个特定的模型或工具负责,每个都产生一个可衡量的输出,为下一个阶段提供信息。

┌─────────────┐     ┌──────────────┐     ┌─────────────┐
│   研究与      │────▶│  Claude Opus  │────▶│  GPT-4o     │
│   简报生成    │     │  初稿生成     │     │  人性化处理  │
└─────────────┘     └──────────────┘     └─────────────┘
                                                │
                                                ▼
                                         ┌─────────────┐
                                         │  Winston AI  │
                                         │  检测        │
                                         └─────────────┘
                                                │
                                                ▼
                                         ┌─────────────┐
                                         │  人工编辑    │
                                         │  与发布      │
                                         └─────────────┘

阶段 1:研究和简报生成

我们使用 Ahrefs 进行关键词研究和 Tavily 的 API 进行实时竞争对手分析。简报是一个结构化的 JSON 文档,包括:

  • 目标关键词和次要关键词
  • 前 10 名竞争文章(标题、字数、H2 结构)
  • 从 Google "也有人在问" 刮取的问题
  • 具有每个部分目标字数的建议大纲

这个简报成为 Claude 的输入提示。

阶段 2:Claude Opus 初稿

Claude Opus 4 编写初稿。下面会详细说明原因。

阶段 3:GPT-4o 人性化处理

草稿通过 GPT-4o,使用精心调整的系统提示,设计用来让写作听起来像真人写的。

阶段 4:Winston AI 检测

我们通过 Winston AI 对每篇文章进行评分。如果它没有达到我们的阈值,它会使用不同的参数再次通过人性化器。

阶段 5:人工编辑和发布

一个真人阅读每篇文章。他们检查技术准确性,在适当的地方添加个人轶事,处理最后的格式化。

为什么选择 Claude Opus 4 作为初稿

我们为初稿生成测试了所有主要模型。以下是我们的发现:

模型 技术深度 (1-10) 结构质量 (1-10) 平均字数 AI 检测分数 (Winston) 每篇文章成本
GPT-4o 7 8 2,400 32% 人工 $0.18
Claude Opus 4 9 9 3,100 28% 人工 $0.42
Claude Sonnet 4 8 8 2,600 35% 人工 $0.08
Gemini 2.5 Pro 7 7 2,800 30% 人工 $0.14
Llama 3.1 405B 6 6 2,200 41% 人工 $0.03

Claude Opus 4 在我们最关心的两个维度上获胜:技术深度和结构质量。AI 检测分数实际上 GPT-4o 的原始输出更差,但那不重要,因为我们不会发布任何模型的原始输出。

Claude Opus 的优势在于难以用表格量化的地方:它比任何其他我们测试的东西更忠实地遵循复杂的指令。当我们说 "像分享来之不易的知识的高级开发人员一样写作" 时,Claude 实际上改变了它的语调。GPT-4o 倾向于无论你多么努力都回到有用助手的语音。Gemini 生成不错的技术内容,但在某些地方变得很奇怪地正式。

成本差异是真实的——Opus 的每个代币成本大约是替代品的 2-5 倍。但当你计算节省的重写时间时,它总体上是最便宜的选择。

产生差异的系统提示

我们在 Claude 系统提示上迭代了大约三周,才落地在某些能够一致产生良好输出的东西上。我们学到的一些事情:

  1. 禁止特定短语比要求一个语调更有效。 我们不是说 "以随意的语调写作",而是维护一个被禁止词语和短语的列表。像 "comprehensive"、"leverage"、"in today's digital landscape" 这样的 AI 生成内容的死亡告诉。

  2. 强制结构约束产生更好的内容。 我们指定确切的标题结构,要求代码块,要求 markdown 表格。Claude Opus 几乎完美地遵循这些约束。

  3. 提供真实背景比泛用指令更好。 我们输入实际竞争研究。我们告诉 Claude 最高排名的文章涵盖什么以及它们在哪里不足。这产生了真正差异化的内容。

def generate_first_draft(brief: dict) -> str:
    system_prompt = load_prompt("claude_writer_v14.txt")
    
    messages = [
        {"role": "user", "content": format_brief(brief)}
    ]
    
    response = anthropic_client.messages.create(
        model="claude-opus-4-20250514",
        max_tokens=8192,
        system=system_prompt,
        messages=messages,
        temperature=0.7  # 略微创意,不混乱
    )
    
    return response.content[0].text

我们定在了 0.7 的温度。更低比那,写作感觉很机械。更高,Claude 开始编造东西——自信地引用一个不存在的 "2024 Gartner 报告",编造不存在的 API 端点。

我们为什么用 Claude、GPT-4o 和 Winston AI 构建自己的博客管道 - 架构

GPT-4o 人性化处理

这是事情变得有趣的地方。也有点奇怪。

Claude 生成技术上可靠的初稿后,我们用完全不同的系统提示通过 GPT-4o 传递它。这个提示的工作不是添加信息——而是让写作感觉更人性化。

这实际上在实践中意味着什么呢?一些具体的转变:

  • 句子长度变化。 AI 模型倾向于写出长度大约相同的句子。人类不这样做。我们指示 GPT-4o 混合短小有力的句子和较长的句子。
  • 不完美的过渡。 真实博客文章没有完美的段落对段落流动。有时你只是跳到下一个想法。人性化器添加这些自然的中断。
  • 第一人称插入。 "根据我们的经验"、"我们发现"、"我花了一周调试这个" ——这些小接触在 AI 检测分数中产生巨大差异。
  • 缩写。 Claude Opus 倾向于写 "do not" 和 "it is",即使被指示不这样做。人性化处理通过捕获这些并转换它们。
def humanize_draft(draft: str) -> str:
    system_prompt = load_prompt("gpt4o_humanizer_v8.txt")
    
    response = openai_client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": f"在保留所有技术准确性和结构的同时人性化这篇文章:\n\n{draft}"}
        ],
        temperature=0.8
    )
    
    return response.choices[0].message.content

为什么用 GPT-4o 作为这个过程而不是 Claude?坦白说,那是因为 GPT-4o 更善于听起来随意。Claude 的优势是技术精确和指令遵循。GPT-4o 的优势是模仿人类写作模式。我们在发挥每个模型的优势。

双模型方法不是我们的第一个想法

我们最初尝试用单个模型做所有事情。一个提示,一个通过,一个输出。整体结果都不理想。草稿要么技术上很强但很机械,要么很随意但很浅薄。

将管道分成专门的阶段是突破。这与微服务是相同的原则——每个组件做一件事很好。

Winston AI 检测和 85% 阈值

在测试五个不同的 AI 内容检测器后,我们选择了 Winston AI 作为我们的检测工具。以下是原因:

检测器 一致性(相同输入,相同分数?) 误报率 API 可用? 价格/月
Winston AI 低 (~3%) $18/月
Originality.ai 中 (~8%) $15/月
GPTZero 中 (~7%) $10/月
Copyleaks 低 (~4%) $8/月
Sapling 高 (~12%) 免费层

Winston AI 在不同运行中提供最一致的分数。如果你两次输入相同的文章,你会得到几乎相同的人工分数。这很重要,当你构建自动化管道时——你需要确定性的行为来做决定。

我们的阈值是 85% 人工分数。低于那,文章通过调整参数的人性化器(温度更高,不同的指令强调)。如果第二次失败,人工会手动重写被标记的部分。

实际上,大约 70% 的文章在第一次人性化器通过中通过。另外 20% 在第二次通过。剩余的 10% 需要人工干预。

def check_detection(article: str) -> dict:
    result = winston_client.scan(text=article)
    
    return {
        "human_score": result.score,  # 0-100
        "passed": result.score >= 85,
        "flagged_sentences": result.flagged_sentences
    }

flagged_sentences 字段是黄金。我们可以只针对触发检测器的句子,而不是重新运行整篇文章。这节省了代币并产生了更好的结果。

完整工作流程逐步说明

以下是当我们想发布新文章时实际发生的事情:

  1. 关键词选择 ——我们从内容日历(在 Notion 中维护)中拉取,并与 Ahrefs 关键词难度分数交叉参考。我们为新话题目标 KD < 30。

  2. 竞争研究 ——我们的脚本命中 Tavily 的搜索 API 并拉取前 10 个结果。它提取标题、字数和内容缺陷。

  3. 简报生成 ——Claude Sonnet 4 调用(比 Opus 为这项任务便宜)从研究数据生成结构化简报。

  4. 初稿 ——Claude Opus 4 生成文章。需要大约 45-90 秒,取决于长度。

  5. 人性化处理 ——GPT-4o 为声音和自然性重写。另外 30-60 秒。

  6. 检测评分 ——Winston AI 对输出进行评分。结果大约在 10 秒内返回。

  7. 循环或继续 ——如果分数 < 85%,用修改参数返回步骤 5。最多 2 次重试。

  8. 人工审核 ——团队成员阅读文章,检查事实,添加截图或图表,为我们的 CMS 格式化。

  9. 发布 ——文章通过无头 CMS 管道上线。

每篇文章总时间:大约 35 分钟的人工关注。AI 阶段需要大约 3 分钟的计算时间。

91 篇文章教给我们关于 AI 内容的事情

我们从 2025 年 1 月开始运行这个管道。以下是出现的模式:

技术内容表现更好

我们表现最好的文章是关于特定框架和工具的深度技术文章。关于 Next.js 开发模式Astro 性能优化的文章始终优于通用 "什么是无头 CMS" 内容。

这是有道理的。AI 生成的通用内容现在无处不在。Google 的排名算法显然支持特异性和深度。我们的管道设计用来产生正是那种内容。

前 30 篇文章很粗糙

我不会假装我们从第一天就钉上了。第一批文章有问题:

  • 文章之间的声音不一致
  • 一些幻觉统计数据(Claude 自信地引用了一个不存在的 "2024 Gartner 报告")
  • 不编译的代码示例
  • 重复的部分结构

我们通过提示迭代和更严格的人工审核修复了这些。系统提示现在是第 14 版。每个版本都解决了我们在已发布内容中识别的具体失败模式。

AI 检测是一个移动目标

Winston AI 在我们三个月的运行期间更新了他们的检测模型两次。每次,我们的分数下降 5-10 点,我们必须调整人性化器提示。这是一个持续的军备竞赛,如果你构建类似的东西,计划维护。

人工审核不可协商

我们尝试了跳过人工审核以进行 5 篇文章的实验。其中两篇有会让我们尴尬的事实错误。一篇引用了 2023 年被弃用的 API。另一篇声称 Next.js 15 支持一个实际上仍在 RFC 中的功能。

每篇文章都得到人工审视。时期。

成本分解和性能数据

以下是我们 91 篇文章运行的真实数字:

指标
发布总文章数 91
平均字数 2,847
AI API 总成本 $127.40
每篇文章平均成本(仅 AI) $1.40
Winston AI 订阅(3 个月) $54.00
Ahrefs 订阅(3 个月) $297.00
Tavily API 成本 $42.00
人工审核时间(平均每篇文章) 35 分钟
总人工小时 ~53 小时
第一次通过 Winston 的文章 64 (70%)
需要人工重写的文章 9 (10%)
平均 Winston AI 人工分数(最终) 89%
有机流量增加(2025 年 1 月-3 月) +340%
索引页面增加 +86

每篇文章 $1.40 的 AI 成本非常低。真正的费用是人工时间——三个月内审核和编辑花费 53 小时。但把它与自由职业技术写手的收费相比较。以每字 $0.15 的优质技术内容,一篇 2,847 字的文章会花费大约 $427。我们生产的可比质量内容成本约为 $35 的人工时间(以 $40/小时的费率)加上 $1.40 的 AI 成本。

那是 91% 的成本降低。而且输出在技术上更准确,因为 AI 模型比任何单个自由职业写手拥有更广泛的知识。

我们评估并拒绝的工具

不是我们尝试的一切都进入了最终管道:

  • Jasper AI ——太专注于营销文案。无法产生我们需要的技术深度。在他们的商业层也很昂贵,$59/月。
  • Copy.ai ——类似于 Jasper 的问题。很适合广告文案,不适合 3,000 字的技术文章。
  • Undetectable.ai ——我们尝试这个作为人性化器而不是 GPT-4o。输出在语法上很尴尬,有时改变了句子的技术意义。硬传。
  • Surfer SEO ——很好的工具,但我们更喜欢用 Ahrefs 数据构建我们自己的 SEO 分析。Surfer 的内容编辑感觉太有约束力。
  • Perplexity API ——我们为研究阶段测试了这个。结果很好,但引用格式与我们的简报结构不能很好地集成。可能会重新访问。

常见问题

这不就是内容垃圾吗? 不。每篇文章都通过人工审核,确保技术准确性和真正的有用性。我们不在纺织内容或发布薄页面。每篇内容针对特定关键词,具有真正的深度。AI 处理初稿生成的重活,但编辑判断完全是人工的。查看我们 整个网站的内容——我们对自己的标准和我们想要从我们阅读的技术博客中的标准一样严格。

为什么不干脆雇用写手呢? 我们仍然对某些作品使用人工写手——案例研究、意见文章和任何需要直接客户经验的东西。但对于技术解释器和比较文章,我们的管道生成比大多数自由职业写手更好的初稿,因为 AI 模型具有更广泛和更新的技术知识。经济学也使得以对自由职业者来说过于昂贵的体积发布成为可能。

Google 会惩罚 AI 生成的内容吗? Google 自他们 2024 年 3 月更新以来的官方立场是他们评估内容质量,无论如何生产。他们惩罚低质量的大规模生产内容——无论是 AI 生成还是由不会说本地语言的内容农场的写手写的。我们的内容排名是因为它真正有用、技术准确和结构良好。我们在我们的 91 篇文章中看到了一致的索引和排名改进。

Winston AI 人工分数到底是什么意思? Winston AI 分析文本模式——困惑、爆发性、句子结构变化、词汇分布——并产生一个分数从 0 到 100,代表文本是由人类写的可能性。分数 85 意味着 Winston 认为有 85% 的机会人类写了它。没有检测器是完美的,但 Winston 的一致性使得它在自动化管道中用作质量关卡是有用的。

你们能开源这个管道吗? 我们考虑过。核心逻辑不复杂——它主要是 API 调用用 Python 拼接在一起。真正的价值在于提示,这些是针对我们的声音和技术领域调整的。我们可能在某个时刻发布一个通用版本。如果你有兴趣,请与我们联系

你如何处理文章中的代码示例? 这是人工审核至关重要的一个区域。Claude Opus 大约 90% 的时间生成语法上正确的代码,但剩余的 10% 包括微妙的错误、弃用的 API 或会让经验丰富的开发人员畏缩的模式。每个代码块都经过手动验证。对于框架特定代码,我们经常在本地运行它以确认它有效。

当 AI 模型更新时会发生什么? 模型更新会破坏一切。当 Anthropic 发布 Claude Opus 4 时,在 Claude 3 Opus 上完美运行的我们的提示需要重大修订。我们维护版本化提示,每当模型更新时针对 10 篇文章的基准集进行测试。为此留出时间——它在我们三个月的运行中发生了三次。

管道的下一步是什么? 我们正在使用 Playwright 添加自动截图生成,与我们的 无头 CMS 部署管道集成以进行一键发布,并构建一个反馈循环,其中 Google Search Console 数据影响我们接下来优先考虑的主题。目标是减少那 35 分钟的人工审核时间而不牺牲质量。我们完成后可能会写关于它的文章。如果你对我们如何将类似的系统思维应用于客户项目很好奇,请查看我们的 定价页面