大多数代理机构外包他们的内容,或者雇佣初级写手来生成充满SEO的文章,这些文章读起来就像是由烤面包机生成的。我们试过了。没有效果。所以我们构建了不同的东西——一个多模型AI管道,可以起草、人性化处理、评分和发布文章,速度是任何单一写手都无法匹配的,同时保持一个质量标准,真正反映我们对网络开发的看法。

这是我们如何在三个月内发布91篇文章、我们连接在一起的具体工具和模型,以及我们沿途学到的每一个教训的故事。

目录

为什么我们使用Claude、GPT-4o和Winston AI构建自己的博客管道

代理机构内容的问题

这里有一个代理机构世界中没有人愿意公开说出来的事实:大多数开发公司都不擅长内容营销。我们也不例外——或者至少,我们曾经不是。

我们有经典的问题。我们的团队知道如何用Next.jsAstro和各种无头CMS平台构建东西。我们为真实的客户提供真实的产品。但关于这件事写作呢?持续地?以实际推动SEO排名的节奏?那是完全不同的能力。

我们尝试过聘请自由职业写手。技术深度很浅。我们尝试过让开发者写文章。他们会写出一篇精彩的文章,然后在冲刺中消失六周。我们尝试过使用ChatGPT进行基本的AI生成——输出读起来就像是维基百科文章和营销宣传册的孩子。

所以我们问自己:如果我们把内容制作当作软件工程问题怎么办?如果我们构建一个管道呢?

我们的博客管道架构

该管道有五个阶段。每个阶段都有一个特定的模型或工具负责,每个都产生一个可测量的输出,为下一个阶段提供输入。

┌─────────────┐     ┌──────────────┐     ┌─────────────┐
│  研究与      │────▶│  Claude Opus  │────▶│  GPT-4o     │
│  简报生成   │     │  初稿        │     │  人性化处理  │
└─────────────┘     └──────────────┘     └─────────────┘
                                                │
                                                ▼
                                         ┌─────────────┐
                                         │  Winston AI  │
                                         │  检测        │
                                         └─────────────┘
                                                │
                                                ▼
                                         ┌─────────────┐
                                         │  人工编辑    │
                                         │  &发布      │
                                         └─────────────┘

第一阶段:研究和简报生成

我们使用Ahrefs进行关键词研究和Tavily API进行实时竞争分析的组合。简报是一份结构化的JSON文档,包括:

  • 目标关键词和次要关键词
  • 前10篇竞争文章(标题、字数、H2结构)
  • 从Google爬取的"人们也问"问题
  • 带有每个部分目标字数的建议大纲

这份简报成为Claude的输入提示。

第二阶段:Claude Opus初稿

Claude Opus 4写初稿。更多信息见下文。

第三阶段:GPT-4o人性化处理

该草稿通过GPT-4o进行处理,使用精心调整的系统提示,旨在使写作听起来像真人写的。

第四阶段:Winston AI检测

我们通过Winston AI给每篇文章评分。如果它没有达到我们的阈值,它会用不同的参数返回人性化处理。

第五阶段:人工编辑和发布

真人阅读每篇文章。他们检查技术准确性,在适当的地方添加个人轶事,并处理最终格式化。

为什么选择Claude Opus 4进行初稿

我们测试了每个主要模型进行初稿生成。以下是我们的发现:

模型 技术深度 (1-10) 结构质量 (1-10) 平均字数 AI检测评分 (Winston) 每篇文章成本
GPT-4o 7 8 2,400 32% 人工 $0.18
Claude Opus 4 9 9 3,100 28% 人工 $0.42
Claude Sonnet 4 8 8 2,600 35% 人工 $0.08
Gemini 2.5 Pro 7 7 2,800 30% 人工 $0.14
Llama 3.1 405B 6 6 2,200 41% 人工 $0.03

Claude Opus 4在我们最关心的两个维度上获胜:技术深度和结构质量。AI检测评分实际上GPT-4o的原始输出要更差,但这并不重要,因为我们不打算从任何模型中发布原始输出。

关于Claude Opus很难在表格中量化的一点是:它比我们测试的任何东西都更忠实地遵循复杂指示。当我们说"像一个分享辛苦学来的知识的资深开发者一样写作"时,Claude确实改变了它的语气。无论你多么努力,GPT-4o往往都会回到有帮助的助手声音。Gemini产生不错的技术内容,但在某些地方会变得非常正式。

成本差异是真实的——Opus的每个代币成本大约是替代品的2-5倍。但当你考虑到节省的重写时间时,这在总体上是最便宜的选择。

产生差异的系统提示

我们在Claude系统提示上迭代了大约三周,才找到了一个能够持续产生好输出的方案。我们学到的几点:

  1. 禁止特定短语比要求语调效果更好。 与其说"用随意的语调写作",我们维护一个禁用词和短语的列表。像"全面"、"利用"、"在当今的数字景观中"这样的东西——AI生成内容的死亡标志。

  2. 强制结构约束产生更好的内容。 我们指定精确的标题结构、要求代码块、要求markdown表格。Claude Opus几乎完美地遵循这些约束。

  3. 提供真实背景比通用指示更好。 我们提供实际的竞争研究。我们告诉Claude顶级排名文章涵盖什么以及他们的不足。这产生了真正差异化的内容。

def generate_first_draft(brief: dict) -> str:
    system_prompt = load_prompt("claude_writer_v14.txt")
    
    messages = [
        {"role": "user", "content": format_brief(brief)}
    ]
    
    response = anthropic_client.messages.create(
        model="claude-opus-4-20250514",
        max_tokens=8192,
        system=system_prompt,
        messages=messages,
        temperature=0.7  # 稍微有创意,不是混乱的
    )
    
    return response.content[0].text

我们最终选择了0.7的温度。比这更低,写作感觉机器人化。更高,Claude开始编造东西——幻想框架功能、发明不存在的API端点。

为什么我们使用Claude、GPT-4o和Winston AI构建自己的博客管道——架构

GPT-4o人性化处理

这是事情变得有趣的地方。还有点奇怪。

在Claude产生了一份技术扎实的初稿后,我们用一个完全不同的系统提示通过GPT-4o传递它。这个提示的工作不是添加信息——而是使写作感觉更人性化。

这在实践中实际意味着什么?一些特定的转变:

  • 句子长度变化。 AI模型倾向于写所有长度大致相同的句子。人类不这样做。我们指示GPT-4o混合短小而有力的句子和更长的句子。
  • 不完美的过渡。 真实的博客文章没有完美的段落到段落的流动。有时你只是跳到下一个想法。人性化处理器添加这些自然的中断。
  • 第一人称插入。 "根据我们的经验"、"我们发现"、"我花了一周时间调试这个"——这些小接触在AI检测评分中产生了巨大的差异。
  • 缩写。 Claude Opus倾向于写"do not"和"it is",即使被指示不这样做。人性化处理通道捕捉这些并转换它们。
def humanize_draft(draft: str) -> str:
    system_prompt = load_prompt("gpt4o_humanizer_v8.txt")
    
    response = openai_client.chat.completions.create(
        model="gpt-4o",
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": f"人性化这篇文章,同时保持所有技术准确性和结构:\n\n{draft}"}
        ],
        temperature=0.8
    )
    
    return response.choices[0].message.content

为什么在这个通道中使用GPT-4o而不是Claude?老实说,这是因为GPT-4o更善于听起来随意。Claude的优势是技术精准和遵循指示。GPT-4o的优势是模仿人类的写作模式。我们在发挥每个模型的优势。

双模型方法不是我们的首个想法

我们最初尝试用单个模型做所有事情。一个提示、一个通道、一个输出。结果在各个方面都很平庸。草稿要么技术上很强但机械化,要么很对话但很浅薄。

将管道分成专门的阶段是突破。这与微服务的原理相同——每个组件做一件事,做得很好。

Winston AI检测和85%阈值

在测试了五种不同的AI内容检测器后,我们选择了Winston AI作为我们的检测工具。原因是:

检测器 一致性(相同输入,相同评分?) 误报率 API可用? 价格/月
Winston AI 低 (~3%) $18/月
Originality.ai 中 (~8%) $15/月
GPTZero 中 (~7%) $10/月
Copyleaks 低 (~4%) $8/月
Sapling 高 (~12%) 免费版

Winston AI在多次运行中给我们最一致的评分。如果你两次输入相同的文章,你会得到几乎相同的人工评分。当你构建一个自动化管道时,这很重要——你需要确定性的行为来做决定。

我们的阈值是85%人工评分。低于此评分,文章将用调整后的参数(更高的温度、不同的指示强调)返回人性化处理。如果它第二次失败,真人手动重写被标记的部分。

实际上,大约70%的文章在第一个人性化处理运行中通过。另外20%在第二个通过。剩余的10%需要人工干预。

def check_detection(article: str) -> dict:
    result = winston_client.scan(text=article)
    
    return {
        "human_score": result.score,  # 0-100
        "passed": result.score >= 85,
        "flagged_sentences": result.flagged_sentences
    }

flagged_sentences字段是金矿。与其重新运行整篇文章,我们可以只针对触发检测器的句子。这节省了代币并产生了更好的结果。

完整工作流程逐步分解

当我们想要发布新文章时,实际发生的是这样的:

  1. 关键词选择 ——我们从我们的内容日历(在Notion中维护)中提取,并与Ahrefs关键词难度评分交叉参考。我们针对KD < 30的新主题。

  2. 竞争研究 ——我们的脚本打到Tavily的搜索API并拉出前10个结果。它提取标题、字数和内容空缺。

  3. 简报生成 ——Claude Sonnet 4调用(比Opus便宜,用于此任务)从研究数据生成结构化简报。

  4. 初稿 ——Claude Opus 4生成文章。取决于长度,需要大约45-90秒。

  5. 人性化处理 ——GPT-4o为语音和自然性重写。又需要30-60秒。

  6. 检测评分 ——Winston AI评分输出。结果在大约10秒内返回。

  7. 循环或继续 ——如果评分 < 85%,返回第5步,改进参数。最多2次重试。

  8. 人工审查 ——一个团队成员阅读文章,检查事实,添加截图或图表,并为我们的CMS格式化。

  9. 发布 ——文章通过我们的无头CMS管道上线。

每篇文章的总时间:大约35分钟的人工关注。AI阶段大约花费3分钟的计算时间。

91篇文章教我们的关于AI内容的知识

我们从2025年1月开始运行这个管道。以下是出现的模式:

技术内容表现更好

我们表现最好的文章是关于特定框架和工具的深度技术文章。关于Next.js开发模式Astro性能优化的文章始终优于通用的"什么是无头CMS"内容。

这是有道理的。AI生成的通用内容现在随处可见。Google的排名算法显然偏向于特定性和深度。我们的管道被设计为生成完全是这类内容。

前30篇文章很粗糙

我不会假装我们从第一天就做对了。第一批文章有问题:

  • 文章间的声音不一致
  • 一些幻想的统计数据(Claude自信地引用了一份不存在的"2024年Gartner报告")
  • 无法编译的代码示例
  • 重复的部分结构

我们通过提示迭代和更严格的人工审查修复了这些。系统提示现在是版本14。每个版本都解决了我们在发布内容中识别的特定失败模式。

AI检测是一个移动目标

Winston AI在我们三个月的运行中更新了两次他们的检测模型。每次,我们的评分下降了5-10分,我们必须调整人性化处理提示。这是一个持续的军备竞赛,如果你构建类似的东西,请计划维护。

人工审查是必须的

作为实验,我们尝试跳过了5篇文章的人工审查。其中两篇有会让我们尴尬的事实错误。一篇引用了2023年弃用的API。另一篇声称Next.js 15支持一个实际上仍在RFC中的功能。

每篇文章都经过人工的眼睛。句号。

成本分解和性能数据

这是我们91篇文章运行的真实数字:

指标
发布的总文章 91
平均字数 2,847
总AI API成本 $127.40
每篇文章平均成本(仅AI) $1.40
Winston AI订阅(3个月) $54.00
Ahrefs订阅(3个月) $297.00
Tavily API成本 $42.00
人工审查时间(平均每篇) 35 分钟
总人工小时 ~53 小时
第一次尝试通过Winston的文章 64 (70%)
需要人工重写的文章 9 (10%)
平均Winston AI人工评分(最终) 89%
有机流量增加(1月-3月2025) +340%
索引页面增加 +86

每篇文章$1.40的AI成本非常低。真实的费用是人工时间——三个月内53小时用于审查和编辑。但与自由职业技术写手收费相比。在$0.15/字的质量技术内容中,一篇2,847字的文章大约要花$427。我们以大约$35的人工时间(按$40/小时的速率)加$1.40的AI成本生成可比质量的内容。

这是91%的成本降低。而且输出在技术上更准确,因为AI模型比任何单个自由职业写手拥有更广泛的知识。

我们评估和拒绝的工具

并非我们尝试的一切都进入了最终管道:

  • Jasper AI ——太专注于营销文案。无法生成我们需要的技术深度。在他们的商业版也很贵,$59/月。
  • Copy.ai ——与Jasper类似的问题。很适合广告文案,不适合3,000字的技术文章。
  • Undetectable.ai ——我们尝试用它作为人性化处理者而不是GPT-4o。输出在语法上很尴尬,有时改变了句子的技术含义。坚决拒绝。
  • Surfer SEO ——很好的工具,但我们更喜欢用Ahrefs数据构建我们自己的SEO分析。Surfer的内容编辑感觉约束太多。
  • Perplexity API ——我们为研究阶段测试了这个。结果很好,但引文格式与我们的简报结构集成不好。可能后来重新审视。

常见问题

这不是内容垃圾吗? 不是。每篇文章都通过人工审查,检查技术准确性和真正的有用性。我们不是在旋转内容或发布薄页面。每篇文章都以真实深度针对特定关键词。AI处理初稿生成的繁重工作,但编辑判断完全是人工的。查看我们网站上的内容——我们坚持我们希望从我们阅读的技术博客中获得的相同标准。

为什么不直接雇用写手? 我们仍然对某些文章使用人工写手——案例研究、观点文章以及任何需要直接客户经验的内容。但对于技术说明和比较文章,我们的管道产生比大多数自由职业写手更好的初稿,因为AI模型拥有更广泛和更当前的技术知识。经济学也使得在完全依赖自由职业者的情况下这个发布量成为可能。

Google是否惩罚AI生成的内容? 自他们2024年3月更新以来,Google的官方立场是他们评估内容质量,无论其如何生成。他们惩罚低质量的、大规模生成的内容——无论它是AI生成的还是由一个不会说本地语言的内容工厂中的人写的。我们的内容排名是因为它确实有用、技术准确且结构良好。我们在整个91篇文章中看到了一致的索引和排名改进。

Winston AI人工评分具体是什么意思? Winston AI分析文本模式——困惑度、突发性、句子结构变化、词汇分布——并产生从0到100的评分,代表文本由人类写的可能性。85分的评分意味着Winston相信有85%的概率人类写了它。没有检测器是完美的,但Winston的一致性使其在自动化管道中作为质量门有用。

你可以开源这个管道吗? 我们已经考虑过了。核心逻辑并不复杂——它主要是用Python连接的API调用。真实的价值在于提示,这些提示是特别调整到我们的声音和技术领域的。我们可能在某个时刻发布一个通用版本。如果你有兴趣,联系我们

你如何在文章中处理代码示例? 这是人工审查至关重要的领域之一。Claude Opus在大约90%的时间内生成句法正确的代码,但剩余的10%包括微妙的错误、已弃用的API或会让经验丰富的开发者皱眉的模式。每个代码块都要手动验证。对于框架特定的代码,我们通常在本地运行它来确认它有效。

当AI模型更新时会发生什么? 模型更新可能会破坏一切。当Anthropic发布Claude Opus 4时,我们在Claude 3 Opus上完美工作的提示需要重大的返工。我们维护版本化的提示,并在模型更新时针对10篇文章的基准集进行测试。为此预留时间——在我们三个月的运行中发生过三次。

管道的下一步是什么? 我们正在使用Playwright添加自动截图生成,与我们的无头CMS部署管道集成以供一键发布,以及构建一个反馈循环,其中Google Search Console数据影响我们接下来优先考虑的主题。目标是减少那35分钟的人工审查时间,而不损害质量。当它完成时,我们可能会写关于它的文章。如果你对我们如何对客户项目应用类似系统思维的方式感到好奇,请查看我们的定价页面