你应该聘请一位提示词工程师吗?一个诚实的看法

我亲眼目睹了提示词工程炒作周期的完整演变。在2023年,头条新闻大肆宣传那些能很好地与ChatGPT交谈的人年薪达335K美元。到2024年中期,公司正在大量招聘提示词工程师。现在到了2026年,我们看到了一些更微妙的东西——老实说更有用的东西——正在出现。一些公司确实需要提示词工程专业知识。大多数公司不需要。让我来详细说明何时雇用提示词工程师是合理的,何时是浪费钱,以及你应该做什么。

目录

你应该聘请提示词工程师吗?一个诚实的看法

提示词工程师实际上做什么?

让我们澄清这份工作实际涉及什么,因为认知和现实之间存在巨大差距。

提示词工程师设计、测试和优化给大型语言模型(LLM)的指令,以产生可靠、准确的输出。这是教科书上的答案。在实践中,这个职位根据公司的不同,可能意味着完全不同的事情。

提示词工程工作的范围

一方面,你有人为客户支持聊天机器人编写系统提示。另一方面,你有研究人员为自主AI代理设计多步推理链。以下是日常工作可能的样子:

  • 为生产AI功能编写和迭代系统提示
  • 构建评估框架以大规模测量提示词质量
  • 设计提示词模板以优雅地处理边界情况
  • 微调工作流 -- 决定何时使用少样本示例、微调模型或RAG管道
  • 与产品团队协作以将业务需求转化为AI行为
  • 对提示词进行红队测试以在用户发现之前找到失败模式
  • 管理提示词版本控制并A/B测试不同的方法

我合作过的好提示词工程师不只是文字处理。他们在调试系统,其中"代码"是自然语言,运行时是概率性的,输出是非确定性的。这是真正的困难工作。

真正的提示词工程师需要的技能

  • 深刻理解转换器模型如何处理文本
  • 熟悉多个LLM提供商(OpenAI、Anthropic、Google、开源模型)
  • 编程能力(最少Python,通常也包括TypeScript)
  • 评估和测试的统计思维
  • 在他们编写提示词的任何领域的专业知识
  • 对令牌经济学和成本优化的理解

注意该列表不包括"能够写出创意ChatGPT提示词"。那是一个爱好,不是工作技能。

聘请提示词工程师的理由

有充分的理由将这种专业知识引入内部。我不想完全驳斥这个角色——当需要它时,它真的非常需要。

AI是你产品的核心

如果你正在构建一个AI生成的输出是用户主要交互对象的产品,那么提示词质量直接影响收入。想想AI写作工具、代码助手、每天处理数千次对话的面向客户的聊天机器人,或AI驱动的搜索。在这些情况下,提示词可靠性提高5%可以转化为数百万的客户保留。

Copilot、Jasper、Cursor——这些公司有专门的提示词工程团队,因为提示词就是产品。

你在处理高风险输出

医疗、法律、金融——如果你的AI输出在出错时可能造成实际伤害,你需要一个人的全部精力是使这些输出可靠。通用开发人员不会像专家那样痴迷于边界情况。

你的工程团队人手不足

有时诚实的答案是,你的开发人员可以学习提示词工程,但他们已经负担过重,忙于发布功能。专门的提示词工程师解除了这种负担,通常能更快地产生更好的结果,因为他们没有在传统代码和AI工作之间进行上下文切换。

不聘请提示词工程师的理由

这是我变得固执己见的地方,我意识到这可能会激怒一些人。

模型在理解不好的提示词方面越来越好

这是房间里的大象。GPT-4o、Claude 3.5 Sonnet(现在还有Claude 4)、Gemini 2.0——每一代模型在获得良好结果时对提示词工程精妙性的要求都更少。精心编制的提示词和不错的提示词之间的差距一直在缩小。

在2023年,天真的提示词和优化的提示词之间的差异可能是40%的质量改进。到2026年,对于许多用例来说,该差距通常只有10-15%。在规模上仍然有意义,但不一定值得六位数的薪水。

提示词工程正在成为一般技能

就像当每个人都学了HTML时"网站管理员"停止成为职位一样,提示词工程正被融入软件开发人员、产品经理和内容创建者的一般技能集中。大多数现代CS课程现在包括LLM交互模式。你现有的团队可能比你想象的更擅长这一点。

这个职位存在认同危机

问十家公司他们的提示词工程师做什么,你会得到十个不同的答案。一些人实际上在做AI工程。一些人在做QA。一些人在做额外步骤的内容写作。职位定义的缺乏意味着你可能被聘请来做一件事,最后需要做另一件事。

供应商锁定风险

这是没人谈论的问题:提示词是特定于模型的。为Claude完美优化的提示词在GPT-4o上的表现可能很差,反之亦然。如果你切换提供商(你可能会在某个时刻这样做),很多提示词工程工作都需要重做。每次新模型版本发布时,你的提示词工程师的专业知识都会部分贬值。

你应该聘请提示词工程师吗?一个诚实的看法 - 架构

提示词工程 vs. AI工程:了解区别

在你招聘时,这种区别很重要。

方面 提示词工程师 AI工程师
主要关注点 提示词的设计和优化 端到端构建AI驱动的系统
技术深度 中等(Python、API调用) 深度(ML管道、基础设施、部署)
范围 提示词设计、测试、评估 RAG系统、微调、代理架构、MLOps
典型背景 语言学、内容、初级开发 软件工程、ML/AI
薪资范围(2026) $90K-$180K $150K-$300K+
职位的寿命 不确定 强势
能替代对方吗? 通常可以

这是个不舒服的真相:一个好的AI工程师可以做提示词工程,但提示词工程师通常做不了AI工程。如果你要聘请某人,AI工程师几乎总是更好的投资。

例外是如果你特别需要有人全职专注于提示词优化,而你的AI工程师忙于构建基础设施。那时提示词工程师填补了真正的空白。

提示词工程师在2026年的成本

让我们谈钱,因为薪资数据自2023-2024年的狂野西部以来已大幅规范化。

经验水平 美国薪资范围 自由职业费率
初级(0-2年) $75K-$110K $50-$100/小时
中级(2-4年) $110K-$160K $100-$175/小时
高级(4年以上) $160K-$220K $175-$300/小时
主管/首席 $200K-$280K $250-$400/小时

那些2023年头条中的335K美元异常值?它们是真实的,但很罕见,而且它们是针对Anthropic等公司的高级职位,那里"提示词工程师"实际上意味着"也写提示词的AI研究员"。市场已经纠正了。

根据2026年初的Glassdoor和Levels.fyi数据,美国提示词工程师的中位数薪资约为$135K。这是可观的,但不是一些训练营仍在宣传的彩票大奖。

何时应该聘请提示词工程师

这是我的决策框架。如果三个或以上适用,你应该认真考虑聘请:

  1. AI输出质量直接影响收入 -- 你在销售AI生成的内容、推荐或决策
  2. 你每天处理超过10,000次AI交互 -- 在这个规模上,小的质量改进有很大的商业影响
  3. 你已经尝试过让开发人员处理提示词,但结果不够好
  4. 你的领域有严格的准确性要求 -- 医疗、金融、法律
  5. 你在构建复杂的多步AI工作流 -- 代理、链、工具使用
  6. 你需要有人为AI输出建立和维护评估管道

如果只有一两个适用,你可能需要咨询师或升级你现有团队的技能。

何时绝对不应该

不要聘请提示词工程师,如果:

  • 你仅为内部工具使用AI。 你的团队可以在一周内学会编写不错的提示词。来自Anthropic、OpenAI和Google的提示词设计有很好的免费资源。
  • 你还没有明确的AI战略。 在你知道要构建什么AI功能之前聘请提示词工程师,就像在你设计好数据库模式之前聘请数据库管理员一样。
  • 你认为它会替代对软件工程师的需求。 它不会。提示词是AI系统的一个组件。你仍然需要人来构建它们周围的应用程序。
  • 你的AI使用是简单的API调用,输入直接。 "总结这段文本"和"从这封邮件中提取这些字段"不需要专家。
  • 你是一个少于20名员工的初创公司。 在那个阶段,每个人都需要穿多顶帽子。将提示词工程作为一个技能,而不是一个职位。

聘请全职提示词工程师的替代方案

对于大多数公司,这些替代方案之一更有意义:

培训你现有的开发人员

这通常是正确的答案。为期两天的提示词工程基础研讨会,然后几周的实践,使大多数开发人员达到专家级别性能的80%。剩余的20%只有在大规模时才重要。

我推荐的资源:

  • Anthropic的提示词工程指南(免费、优秀)
  • DeepLearning.AI的提示词工程课程
  • 通过构建学习——没有什么比迭代真实的提示词以适应你的实际用例更好的。

聘请咨询师进行初始设置

聘请提示词工程咨询师来设计你的初始提示词架构、建立评估框架并培训你的团队。这通常花费$10K-$50K,具体取决于复杂性,你最终会得到机构知识分散在多个团队成员中,而不是集中在一个人身上。

使用提示词管理平台

PromptLayer、Helicone、LangSmith和Humanloop等工具提供版本控制、测试和评估基础设施,减少对手动提示词工程的需求。他们不会替代人类判断,但他们使非专家更容易有效地迭代。

改为聘请全栈AI工程师

如果你要聘请某人,让他们是可以处理提示词工程构建周围基础设施的人。他们将设计RAG管道、优化提示词、建立评估套件并部署整个系统。每人成本更高,但需要的人更少。

这是我们在Social Animal构建AI集成网络应用程序时经常考虑的问题。当客户来找我们进行无头CMS开发Next.js项目时,AI功能越来越多地成为对话的一部分。但我们发现,在开发团队中嵌入提示词工程技能能比将其视为独立学科产生更好的结果。

如何评估提示词工程师候选人

如果你已决定确实需要聘请,以下是如何区分真才实学和履历充气的方法。

危险信号

  • 没有编程经验。 如果他们不能写代码,他们就不能构建生产就绪的提示词系统。
  • 他们只了解一个模型。 一个好的提示词工程师理解不同的模型架构如何响应不同的技术。
  • 他们不能解释为什么一个提示词有效。 从博客文章中复述技术与理解令牌预测、注意力机制和上下文窗口不同。
  • 没有评估方法。 如果他们不能描述如何量化测量提示词质量,他们是在凭感觉,而不是工程。
  • 他们的作品集是ChatGPT截图。 生产提示词工程与与消费者AI聊天完全不同。

绿灯信号

  • 他们构建并发布了真实用户交互的AI功能
  • 他们可以讨论少样本提示、微调和RAG之间的权衡
  • 他们有测试方法(评估、基准测试、人工审核流程)
  • 他们理解成本优化(更少的令牌=更低的账单)
  • 他们可以跨多个模型提供商工作
  • 他们保持最新——这个领域每月都在变化

一个很好的面试练习

给他们一个真实的商业问题和API访问权限。例如:"构建一个提示词,从这50封凌乱的客户支持邮件中提取结构化数据,准确度达到95%以上。"观察他们如何处理。他们是否以评估标准开始?他们是系统地迭代还是随机迭代?他们是否考虑边界情况?

最好的候选人会在写一个提示词之前立即询问评估标准。

提示词工程作为职位的未来

我会诚实:我认为"提示词工程师"作为独立职位头衔的寿命有限。这是为什么。

模型正在蚕食这个职位

每个主要模型发布都会减少对提示词工程技巧的需求。链式思维?模型现在自动执行。输出格式化?JSON模式和结构化输出处理。少样本示例?模型更好地从指令单独泛化。

OpenAI和Anthropic自己的研究表明,未来的模型将需要越来越少的提示词优化。方向很清楚:模型应该理解你想要什么,而不是需要你用精心构造的模板来编码。

技能将存活,标题不会

提示词工程技能被吸收到相邻的职位中:

  • 构建端到端系统的AI工程师
  • 定义AI行为要求的产品经理
  • 测试AI输出的QA工程师
  • 设计AI声音和角色的内容策略师

这不是坏事。这意味着知识变得更加广泛和更有用。

什么会持久

更高层次的技能——设计评估框架、理解模型能力和局限性、概率性地思考输出、构建人类在循环中的系统——这些不会消失。它们只是成为每个技术专业人员需要的一般AI素养的一部分。

如果你正在构建带有AI功能的网络应用程序——无论是带有AI驱动搜索的Next.js应用,还是带有智能内容推荐的Astro网站——提示词工程工作应该集成到开发流程中,而不是被分离到单独的职位。

常见问题

聘请提示词工程师要花多少钱? 在2026年,美国提示词工程师薪资从初级职位的$75K到高级职位的$220K+。中位数约为$135K。自由职业费率根据经验和专业化程度从$50-$400/小时不等。这些数字与2023-2024年虚高的数字相比已大幅下降。

提示词工程是真实的工作还是时尚? 这是产生真实商业价值的真实技能集。它是否保持为独立职位头衔是问题所在。趋势是提示词工程成为现有职位(AI工程师、产品经理、开发人员)内的能力,而不是它自己的职位。想想"社交媒体经理"曾经如何是一个突破性的新角色,现在只是营销的一部分。

我可以学习提示词工程而不是聘请某人吗? 绝对。对于大多数用例,开发人员可以在2-4周的专门学习和实践中达到能够的提示词工程能力。Anthropic、OpenAI和Google都发布了优秀的免费提示词设计指南。关键是将理论知识与你的具体用例的实际操作迭代相结合。你将在规模上陷入困境——评估和优化成千上万次交互中的提示词需要更多专门的工具和方法。

提示词工程师和AI工程师之间有什么区别? 提示词工程师专注于设计和优化给语言模型的指令。AI工程师构建完整的AI驱动系统,其中包括提示词设计,但也包括RAG管道、微调、代理架构、部署和监控以及基础设施。AI工程师通常可以处理提示词工程工作,但反之不然。

提示词工程师需要知道如何编码吗? 对于生产工作,是的。在ChatGPT窗口中编写提示词不同于构建处理边界情况、管理上下文窗口、实现回退并与应用程序逻辑集成的提示词系统。至少,提示词工程师应该乐于使用Python和API。TypeScript对面向网络的AI应用程序越来越重要。

AI会替代提示词工程师吗? 部分,是的。每一代语言模型都需要更少的仔细提示词构造来产生好结果。JSON模式等功能、内置推理和改进的指令跟随正在自动化提示词工程师所做工作的一部分。更高级的技能——设计评估系统、理解模型权衡、在规模和质量成本上优化——将保持有价值,但可能会被吸收到更广泛的工程职位。

初创公司应该聘请提示词工程师吗? 大多数初创公司不应该聘请专门的提示词工程师。这笔钱最好用在全栈AI工程师身上,他可以处理提示词优化以及系统架构,或者用于培训现有开发人员。例外是AI优先的初创公司,其中模型输出质量是核心产品差异化。即使这样,你可能想要某人,其职位是"AI工程师",但其工作包括大量的提示词工程。

如果没有专家,我如何知道我的提示词是否足够好? 建立定量评估。定义"好"对你的用例意味着什么(准确性、相关性、格式合规性、安全性),创建100+示例的测试集,并针对这些标准测量你的提示词的性能。LangSmith、Promptfoo和Humanloop等工具可以帮助自动化这一过程。如果你的提示词在你的指标上得分超过90%,你的用户没有抱怨,你可能不需要专家。如果你正在努力突破80%,可能是时候寻求专家帮助了——即使那只是短期咨询师而不是全职聘请。

如果你正在构建AI驱动的网络应用程序,并想讨论你的团队的正确方法,请联系我们。我们已帮助公司集成AI功能而不过度复杂化他们的团队结构,我们总是乐意分享我们学到的东西。