上個月,一個客戶在與一家承諾提供「AI驅動平台」的代理公司燒掉47,000美元後找到我們。他們得到的是一個對GPT-4的單一API呼叫,系統提示硬編碼在Python腳本中。沒有錯誤處理、沒有令牌管理、沒有備用策略、沒有可觀測性。「RAG管道」就是一份上傳到向量儲存的PDF,零分塊策略。

這就是2025年AI開發僱用的現狀。現在每個人都是「AI開發者」。進入門檻低得可笑——你只需四行代碼就能呼叫OpenAI API。但交付能處理邊界情況、管理成本、在規模上保持可靠、並真正解決業務問題的生產AI功能?這是完全不同的技能集。

我在過去兩年一直在將AI功能構建到生產應用中——從RAG驅動的知識庫到協調多步工作流的AI代理。我也為我們的客戶招募和審查過AI開發者。以下是我關於尋找真正能交付成果的工程師所學到的一切。

目錄

僱用真正能交付成果的AI開發者:2025年審查指南

2025年AI開發者景觀

市場供過於求。LinkedIn上超過200萬份概況提及「AI」或「機器學習」。Upwork上有50,000多名自由職業者標籤為AI技能。但這是令人不適的事實:這些開發者的絕大多數從未交付過真實用戶所依賴的AI功能。

以下之間存在巨大差距:

  • 教程級別AI工作:呼叫openai.chat.completions.create()並返回結果
  • 生產AI工程:構建能處理速率限制、實現備用模型、管理令牌預算、智慧快取、處理幻覺、維護對話上下文,以及在API宕機時優雅降級的系統

需求端也沒有放緩。根據Deloitte的2025企業AI調查,72%的公司計劃在今年將AI功能整合到現有產品中,比2024年的48%上升。麥肯錫估計全球對生成AI工程人才的支出到2025年底將達到185億美元。

但以下是這些數字沒有告訴你的:相當一部分AI項目仍然失敗。Gartner在2025年初報告稱,49%的生成AI項目從未超越概念驗證階段。主要原因是什麼?能構建示例但無法處理生產系統複雜現實的開發者。

區分交付者和修擺弄者的核心技能

當我評估一個AI開發者以完成生產項目時,我在尋找一套非常特定的技能。不是流行語。實際的工程能力。

超越系統消息的提示工程

真正的提示工程不是寫一個聰明的系統消息。這是構建提示管道——一系列驗證、轉換和優化輸出的提示鏈。這是使用Zod模式或JSON模式實現結構化輸出。這是針對評估數據集進行A/B測試提示。

一個生產就緒的AI開發者應該能解釋他們的方法:

  • 提示版本控制和測試
  • 少量示例選擇策略
  • 輸出解析和驗證
  • 處理模型拒絕和邊界情況
  • 令牌優化(因為令牌=金錢)

實際有效的RAG架構

檢索增強生成是大多數AI項目成敗的地方。我見過數十個RAG實現,不良的實現都共享相同的問題:天真的分塊、沒有中繼資料過濾、差檢索相關性和零檢索質量評估。

一個已交付生產RAG的開發者應該能討論:

// 這不是生產RAG
const docs = await vectorStore.similaritySearch(query, 4);
const response = await llm.invoke(`Answer based on: ${docs.join('\n')}\n\nQuestion: ${query}`);

與實際處理複雜性的相對:

// 生產RAG涉及多種檢索策略
const results = await Promise.all([
  vectorStore.similaritySearchWithScore(query, 10),
  bm25Index.search(query, 10),
]);

// 倒數排名融合以結合結果
const fused = reciprocalRankFusion(results, { k: 60 });

// 使用交叉編碼器或Cohere重新排名重新排名
const reranked = await cohereRerank(fused, query, { topN: 5 });

// 分數閾值過濾
const relevant = reranked.filter(doc => doc.relevanceScore > 0.7);

if (relevant.length === 0) {
  return { answer: null, reason: 'no_relevant_context' };
}

// 帶引文追蹤的結構化生成
const response = await generateWithCitations(query, relevant, {
  model: 'gpt-4o',
  temperature: 0.1,
  responseFormat: answerSchema,
});

看到差別了嗎?混合搜尋、重新排名、相關性閾值、優雅處理無上下文場景、引文追蹤。那才是生產級。

嵌入策略和向量數據庫專業知識

選擇嵌入模型和向量數據庫不只是「使用OpenAI嵌入和Pinecone」。高級AI開發者應理解:

  • 不同嵌入模型之間的權衡(OpenAI的text-embedding-3-large vs. Cohere的embed-v4 vs. 像nomic-embed-text這樣的開源模型)
  • 降維及其對檢索質量的影響
  • 減少語義搜尋前搜尋空間的中繼資料過濾策略
  • 何時使用Pinecone vs. Weaviate vs. Qdrant vs. pgvector(尤其是如果你已經在Postgres上)
  • 索引調整——HNSW參數、量化、分片

LLM協調和代理設計

隨著LangChain、LangGraph、CrewAI和類似框架的興起,圍繞協調LLM呼叫有一個完整的學科。但框架只是工具。真正的技能是理解:

  • 何時使用代理與簡單鏈或硬編碼工作流
  • 如何使用錯誤恢復實現可靠的工具呼叫
  • 對話AI的記憶管理
  • 成本控制——知道何時使用GPT-4o-mini vs. Claude 3.5 Haiku vs. 完整旗艦模型
  • 可觀測性和追蹤(LangSmith、Helicone、Braintrust)

重要的技術堆棧

這是我們在Social Animal使用的生產AI堆棧,以及我們在候選者中尋找的內容:

我們使用的工具 我們評估什麼
LLM提供商 OpenAI(GPT-4o、o3)、Anthropic(Claude 4 Sonnet/Opus)、Google(Gemini 2.5 Pro) 多提供商經驗、模型優勢的理解
AI SDK Vercel AI SDK、OpenAI SDK、Anthropic SDK 流傳輸、結構化輸出、工具呼叫
協調 LangChain、LangGraph、自訂管道 知道何時不使用框架
向量儲存 Pinecone、pgvector、Qdrant、Weaviate 索引設計、中繼資料策略、縮放
嵌入 OpenAI、Cohere、Voyage AI、開源 模型選擇、基準測試、成本分析
可觀測性 LangSmith、Helicone、Braintrust 追蹤分析、評估管道、成本追蹤
前端 帶Vercel AI SDK的Next.js、Astro 流傳輸UI、聊天介面、即時更新
基礎設施 Vercel、AWS(Lambda、Bedrock)、Cloudflare Workers 邊緣部署、冷啟動優化

Vercel AI SDK值得特別提及。如果你在Next.js應用中構建AI功能(我們的許多客戶都是——查看我們的Next.js開發能力),AI SDK已成為將LLM響應流傳輸到前端的標準。它處理困難的部分:流傳輸結構化對象、管理對話狀態、工具呼叫UI和提供者抽象。

// Vercel AI SDK示例——流傳輸結構化輸出
import { streamObject } from 'ai';
import { openai } from '@ai-sdk/openai';
import { z } from 'zod';

const result = await streamObject({
  model: openai('gpt-4o'),
  schema: z.object({
    analysis: z.string(),
    sentiment: z.enum(['positive', 'negative', 'neutral']),
    confidence: z.number().min(0).max(1),
    keyTopics: z.array(z.string()),
  }),
  prompt: `Analyze this customer feedback: ${feedback}`,
});

// 在生成時將部分對象流傳輸到前端
return result.toTextStreamResponse();

一個熟悉此模式的開發者——將結構化數據流傳輸到React前端——值得他們的重量黃金。

僱用真正能交付成果的AI開發者:2025年審查指南 - 架構

我們如何審查AI開發者

這是我們的實際審查流程。它很嚴格,過濾掉大約92%的申請人。

階段1:作品集和生產證據

我們不在乎Kaggle競賽或Jupyter筆記本。我們想看到:

  • 他們構建的生產AI功能的鏈接(包括有關規模和用戶的上下文)
  • 關於其方法的架構圖或技術博客文章
  • 顯示真實應用代碼而非教程的GitHub儲存庫
  • 處理生產關注的證據:錯誤處理、速率限制、成本管理

階段2:技術深入探討(90分鐘)

這不是LeetCode面試。我們展示一個現實場景——例如「為擁有500,000份文件的法律文檔庫構建RAG系統」——並遍歷他們的架構決定:

  • 他們如何分塊法律文件?(如果他們說「只是使用默認設置的RecursiveCharacterTextSplitter」,那是紅旗。)
  • 他們如何處理經常變化的文件?
  • 他們的檢索評估策略是什麼?
  • 他們如何在向量儲存中處理多租戶數據隔離?
  • LLM API宕機時會發生什麼?

階段3:付費試驗項目

對於通過深入探討的候選人,我們進行付費40小時試驗項目。這是真實代碼庫上的真實工作。我們評估:

  • 代碼質量和架構決定
  • 他們如何處理歧義並提出問題
  • 非確定性AI輸出的測試方法
  • 文檔質量
  • 通信節奏

階段4:生產事件模擬

這個不尋常,但非常富有啟發性。我們模擬一個生產問題——比如,RAG系統突然為30%的查詢返回不相關的結果。我們觀看他們如何調試它:

  • 他們首先檢查可觀測性追蹤嗎?
  • 他們查看嵌入相似性分數嗎?
  • 他們考慮嵌入模型或LLM是否有更新嗎?
  • 他們如何將事件傳達給利益相關者?

費率和合約模式

讓我們談談金錢。AI開發收取相比一般網絡開發的溢價,有充分的理由——複雜性天花板更高,擁有真正經驗的開發者人才池較小,糟糕的AI代碼有實際成本含義(字面上——失控的令牌使用會在一夜間吹爆預算)。

2025年費率範圍

經驗水平 小時費率(美元) 月度保留 你得到什麼
初級AI開發者(1-2年) $75-$120/小時 $8,000-$15,000 基本API整合、簡單RAG、指導實現
中級AI開發者(2-4年) $130-$200/小時 $16,000-$28,000 生產RAG、多提供商、代理開發
高級AI開發者(4年以上) $200-$350/小時 $30,000-$50,000 架構、複雜代理、優化、指導
AI架構師/領導(6年以上) $300-$500/小時 $45,000-$75,000 系統設計、團隊領導、策略

這些費率反映美國/西歐定價。你可以在其他市場找到更低費率,但根據我的經驗,成本節省經常在考慮返工和通信開銷時消失。

合約模式

專屬團隊嵌入:開發者加入你的團隊全職,最少3個月。他們參加你的站會、使用你的工具,並在你的代碼庫內工作。這最適合將AI構建到現有產品的公司。典型承諾:3-12個月。

基於項目:固定範圍、固定時間表、固定預算。適合離散AI功能——聊天機器人、文檔處理管道、推薦引擎。我們小心地用清晰的驗收標準來界定這些。

顧問/架構:高級AI工程師每月工作10-20小時來指導你的內部團隊。他們審查架構決定、對AI特定代碼進行代碼審查,並幫助你避免昂貴的錯誤。這是我們為有開發者但缺乏AI特定經驗的團隊最具成本效益的模式。

混合(我們首選模式):我們從2週發現衝刺開始以構建解決方案架構,然後過渡到持續開發。這預先載入關鍵設計決定並降低構建錯誤東西的風險。你可以了解更多關於我們的定價模式直接聯繫以討論你的具體情況。

AI功能的實際時間表

我將非常坦誠,因為我見過太多被不切實際期望破壞的項目。

功能類型 時間表 注意事項
簡單聊天機器人(FAQ風格、單一數據源) 2-4週 包括測試和提示調整
生產RAG系統(多個數據源、混合搜尋) 6-10週 分塊策略本身需要1-2週迭代
帶工具呼叫的AI代理(3-5個工具、結構化工作流) 4-8週 可靠性測試是瓶頸
多代理系統(複雜協調) 10-16週 這些真的很難正確完成
AI驅動搜尋(語義+過濾+重新排名) 6-12週 很大程度上取決於數據質量
自訂微調模型整合 8-16週 數據準備是60%的工作

這些時間表假設高級開發者全職工作。它們包括架構、實現、測試、提示工程迭代和部署。它們不包括數據清理,這幾乎總是隱藏的時間消耗。

我想強調一點:AI功能需要以傳統軟件不同的方式進行迭代。 你無法預先完全指定提示行為。你構建、用真實數據測試、評估、調整並重複。預算至少3個迭代週期。

對於AI功能是更大網應用一部分的項目,我們的無頭CMS開發Astro開發團隊與AI工程師並肩工作以交付完整解決方案。

僱用AI開發者時的紅旗

我通過艱難的方式學到了這些。如果你看到任何這些,快逃:

🚩 「我在過去一年中構建了50個AI項目。」 你沒有。不是生產項目。也許50個演示。

🚩 無法解釋他們的分塊策略。 如果他們默認為每種文檔類型的「1000令牌、200重疊」,他們還沒有與足夠的真實數據合作以知道分塊是特定問題的。

🚩 沒有提及評估。 他們如何知道AI功能運作正常?如果他們不談論評估數據集、人類反饋循環或檢索指標(MRR、recall@k),他們就是氛圍測試。

🚩 只知道一個LLM提供商。 模型景觀每幾個月變化。一個依附於單一提供商的開發者無法幫助你優化成本或處理宕機。

🚩 無法討論失敗模式。 當模型幻覺時會發生什麼?當向量儲存返回不相關結果時?當用戶問系統範圍之外的東西時?高級開發者有這些場景的戰爭傷疤。

🚩 沒有可觀測性經驗。 如果他們無法告訴你他們使用什麼追蹤工具以及他們如何在生產中調試AI問題,他們從未維護過生產AI系統。

🚩 駁斥測試為「AI不可能」。 是的,測試非確定性系統很難。但並不不可能。模型分級評估、黃金數據集、結構化輸出的基於屬性的測試——有真實的技術。

為什麼全棧AI優於孤立的ML工程師

這是一個可能有爭議的觀點:對於2025年大多數AI功能開發,你不需要傳統ML工程師。你需要一個深刻理解AI工具生態系統的強大全棧開發者。

為什麼?因為當今大多數生產AI功能是整合工程,而非模型訓練。你在呼叫API、構建管道、設計UI圍繞流傳輸響應、處理狀態管理和構建評估系統。這是需要AI領域知識的軟件工程工作。

擅長訓練模型但無法構建適當API、不理解前端流傳輸、從未部署到Vercel或AWS Lambda的傳統ML工程師——那個人將減慢你的項目。

2025年理想的雇傭是能做以下事的人:

  • 設計RAG架構
  • 在TypeScript或Python中實現它
  • 在Next.js中構建流傳輸聊天UI
  • 設置向量數據庫
  • 部署整個東西
  • 在生產中監控它
  • 當CEO問為什麼OpenAI賬單是$12,000/月時優化成本

那是一個全棧AI工程師。這是我們專門幫助錄用和合作的人。

常見問題

AI開發者和ML工程師之間的區別是什麼? 在2025年,區別很重要。ML工程師通常專注於訓練和微調模型、處理數據集和優化模型性能。AI開發者(或AI工程師)專注於將AI功能整合到應用中——構建RAG系統、實現代理工作流、創建AI驅動的UI、管理生產中AI功能的完整生命週期。大多數將AI功能構建到其產品中的公司需要後者。

2025年僱用AI開發者的成本是多少? 具有生產經驗的高級AI開發者通常按$200-$350/小時收費或月度保留$30,000-$50,000。中級開發者範圍從$130-$200/小時。基於項目的功能參與(如生產RAG系統)通常根據複雜性運行$30,000-$80,000。這些費率反映了具有真正生產AI經驗的開發者的稀缺性。

我應該僱用自由職業AI開發者還是機構? 這取決於範圍。對於單一、明確定義的AI功能,高級自由職業者可能有效——如果你能正確尋找和審查一個的話。對於與網應用深度整合的AI功能(大多數都是),擁有結合AI專業知識與前端和後端開發技能的機構將更快交付。你避免管理多個自由職業者的協調開銷。

我應該在AI開發者的作品集中尋找什麼? 尋找生產部署,不是演示。詢問用戶計數、查詢量和正常運行時間。尋找成本優化的證據——任何人都能構建有效的AI功能,但需要經驗才能構建不會在API成本上破產的功能。關於架構決定的技術博客文章是一個很好的信號。對只顯示聊天機器人UI而不討論底層架構的作品集要持懷疑態度。

構建RAG驅動的聊天機器人需要多長時間? 一個基本的?兩到四週。一個生產級別的混合搜尋、重新排名、適當評估、引文追蹤和拋光UI的?六到十週。區別是巨大的。基本版本將在演示中工作,並在真實用戶中失敗。生產版本處理邊界情況、維護對話上下文,並提供其答案的來源。別讓任何人告訴你真正的RAG系統需要少於一個月。

構建AI功能需要LangChain嗎? 不需要。LangChain是許多工具之一,老實說,並不總是正確的選擇。對於簡單API整合,原生OpenAI或Anthropic SDK更乾淨且更易調試。對於複雜代理工作流,LangGraph(LangChain的較新的基於圖的框架)真的很有用。Vercel AI SDK對Next.js應用來說很好。好的AI開發者為工作選擇正確的工具,而不是默認為任何單一框架。

AI開發的最大隱藏成本是什麼? 毫無疑問,生產中的LLM API成本。我見過開發成本為$40,000但生產月度API成本達到$8,000-$15,000的項目,因為沒有人為令牌使用優化、實現快取或為每個任務選擇正確的模型。高級AI開發者將從一開始就考慮成本效率設計你的系統——為簡單任務使用較小模型、快取常見查詢、實現令牌預算。

我能否使用開源模型而不是OpenAI或Anthropic? 是的,這每季度變得更可行。像Llama 3.3、Mistral Large和Qwen 3這樣的模型對許多任務都有競爭力。權衡是基礎設施:你需要自己託管它們(在像Together AI、Fireworks或你自己的GPU實例之類的服務上)並處理縮放。對於大多數創業公司和中型公司,來自OpenAI和Anthropic的管理API仍然是實用的選擇。一個好的AI開發者將幫助你評估開源模型在你的堆棧中有意義的地方——經常用於高量、低複雜度任務,其中成本節省很重要。