給 AI 打工的人,迷失在數據標註里
北京 798 附近的一家咖啡館內,AI 數據標註師廖仔在交談中一再提到店裡的咖啡機器人。
在這家佔地近3000平米的咖啡館內,不少咖啡師圍繞著中央圓形島台工作,但其中最引人矚目的是一台人型機械臂的咖啡機器人。 據說,該機器人的臉還是依據咖啡店主理人建模而成。
如果時間回到三四年前,廖仔想不到機器人可以沖咖啡,也想不到自己會進入 AI 賽道。
99 年出生的他,專科學歷,曾在深圳一家體制內單位工作,因為不想自己的人生就這樣一輩子看到頭,廖仔離職讀了一個建築設計相關的課程。 後來,他又由設計師切入 AI 行業,最終成為了大廠的一名外包數據標註師。 職業變化背後,廖仔的收入也水漲船高,月薪從一開始 3K 一路漲到了現在 13K。
處在 Gap 期的蘇打也曾試圖進入這個行業。
985 碩士畢業的她此前工作一直順風順水,但去年因為跟上司發生矛盾離職後,進入了漫長的職業空窗期。 近半年來,蘇打也想過轉換賽道。 當下火熱的 AI 行業讓她心動,數據標註師曾被她視為職業轉型的方向之一。
但經過一次兼職后,蘇打打消了這個念頭。 “這就是一個純燒腦的體力勞動,看不到任何上升的空間。” 她對「定焦 One」說道。
作為人工智慧訓練師的一個工種,數據標註師 2020 年被正式納入國家職業分類目錄, 但圍繞這個職業前景的討論卻是冰火兩重天。
一邊是基礎大模型高速擴張時期,大廠高薪與「AI 紅利」吸引而來的數以萬計的求職者,全國各地甚至湧現了不少打著 AI 訓練師旗號的培訓班; 另一邊則是瀰漫在從業者之中的不安和焦慮,很多人覺得自己是在為 AI 打零工,或者只是成為了大模型優化的一個耗材,既難以形成技術積累,也隨時可能被 AI 所取代。
如今,隨著大模型開發從“拼底層參數”轉向“爭場景落地”,這一工種的需求也在發生變化。 標註崗位不再像過去那樣“批量放量”,取而代之的是更垂直化的需求和更強的專業門檻。 轉型成功的廖仔,和抽身離開的蘇打,正是這股 AI 浪潮下的兩個典型註腳。
“擰螺絲”的三種姿勢:數據標註師的隱秘分層
如果想要進入 AI 行業,數據標註或許是最沒有門檻的一個崗位——在網路上隨手就能找到一份兼職。
「定焦 One」體驗了一個眾包平臺的視頻審核兼職專案,任務是為自動售貨機做數據標註。 正式上崗前,求職者先得進群進行一輪訓練——為 500 條視頻進行標註,且正確率在 90%以上才算通過考核。 正式接單后,以計件形式收費,每單費用在 0.04 元到 0.1 元浮動,標錯還會扣錢。
每個計件視頻長度大概十來秒,需要辨別出顧客從自動售貨機中拿走的商品種類以及數量。 任務看似簡單,做起來卻並不容易。 很多飲品、零食的包裝非常接近,加上夜晚光線干擾,極易誤判。 「定焦 One」嘗試標註了 20 條視頻,用時 25 分鐘,完全正確的只有 14 條。
群裡負責培訓的老師一再鼓勵大家:一開始錯誤率高是正常的,後面會越來越熟練、正確率越來越高,熟練后每天最多可做3000條視頻。
但做過類似兼職的人在社交媒體抱怨: 真的做不了太久,眼睛受不了。 在那個標記為 11 群的近 200 人大群內,不斷地有人退出、加入,就像一條永不停歇的虛擬流水線。
蘇打也在類似的一個微信群裡。
前不久,她在招聘平臺看到國內某個大廠發佈的數據標註兼職崗位。 專業不限、經驗不限,唯一的門檻是學歷——必須是985/211碩士及以上。
這份兼職是為大模型思考過程和輸出結果進行打分。 輸出結果的正確與否、是否照顧到了用戶的情緒、感受,以及思考過程是否符合邏輯且高效等等都需要納入考量。
蘇打通過篩選后,也被拉到了一個微信群。 同樣的,在正式接單之前,需要先進行培訓和測試。
蘇打收到了一份長達幾十頁的檔,詳細介紹了各個打分維度和評判標準。 根據這個打分體系,她需要先進行兩到三輪的試標,達標后才可進行接單。 通過測試后,在正式的標註過程中,也需保證正確率。 如果正確率低於平均水準,便會失去標註資格,需要重新測試。
據蘇打觀察,她所在群裡測試的通過率並不高。
“這份工作的難點是記憶、理解的成本特別高。 在標註之前,你得先理解、記住他們的評價體系和打分標準。 “更讓蘇打難受的是, 這些標準並不是固定不變的。 有時候,面對相似的問題和回答,她用相同的思考方式去打分,結果卻截然相反。
就像是寫沒有標準答案的一張張試卷,無法通過自我努力或學習提升正確率,只能原地不停得打轉、消耗自己的腦力和體力,最後獲得的報酬微乎其微。 蘇打告訴「定焦 One」,這份兼職也是按計件收費,標註一件的費用只有 3-7 元。
比蘇打幸運一些,廖仔沒有這些嚴苛的 KPI 和考核標準。
廖仔參與標註的是國內另外一家互聯網大廠的外包專案。 他領導著一個由10名標註師組成的小組。 專案里,有好幾個這樣的組別,對該大廠的大模型進行評估、鑒定、指定標註規則。 廖仔會對每天需要標註的任務進行分配,再告訴組員具體的規則和評判標準確保客觀性。 除數據標註之外,他還需跟演算法團隊、產品研發團隊溝通,根據上下游反饋調整模型的評估和鑒定。
廖仔還是以咖啡機器人舉例,如果要 AI 製作咖啡,那麼就需告訴它整個鏈路,包括咖啡樹如何種植、咖啡豆有哪些品類、分子結構如何、怎麼研磨等等。 通過每一步的數據標註,對它進行調校,然後再回歸到模型,讓它自主訓練。
三種數據標註工作可以大致勾勒出這個職業背後的隱形分層: 自動售貨機標註,考驗「體力+注意力」,靠重複和熟練提升效率; 為大模型的思考過程和輸出結果打分,要求較強的理解力和記憶力,像在答一道道沒有標準答案的試卷; 大模型評估,則在標註之外承擔流程管理和溝通工作,具備一定自主性。
常有人將數據標註比做 AI 流水線上的「螺絲釘」。。 在廖仔看來,即便是擰螺絲釘,到他這一步,最起碼清楚了用什麼工具擰、怎麼擰效率會更高。
尷尬的崗位:重要,但是廉價
站在產業鏈更上游的 Jackson,能從更為完整的流水線上審視數據標註的意義。
Jackson 是海外一所名校研究生畢業,現在在上海一家科技企業從事基礎模型訓練工作。 他告訴「定焦 One」,模型訓練主要包含三個部分:預訓練、監督微調和強化學習。
預訓練所需的數據量動輒十幾 TB,主要來源於公開爬蟲數據、模型合成數據、第三方採購數據或企業自有數據。 這一階段對人工標註的依賴較少。
數據標註師主要介入的,是后兩個階段。
微調階段(Supervised Fine-Tuning,簡稱 SFT)目標是讓預訓練后的通用語言模型適應特定任務或對話場景,使其輸出更符合人類期望。 簡而言之,就是輸入特定數據後,教會模型“如何回答”。
強化階段(Reinforcement Learning from Human Feedback,簡稱 RLHF)的核心是利用人類偏好數據優化模型輸出品質。
用再通俗一點的話解釋,SFT 是要寫出一個答案讓 AI 學習、模仿; 而 RLHF 則是在 AI 給出幾個答案后,説明 AI 選擇一個更符合人類偏好的答案。
廖仔大部分的工作都屬於前者,很難量化; 蘇打的工作則是後者,可以計件考核。 而像前文提到的自動售貨機標註這類較為簡單的數據收集工作,將很快被 AI 替代。
Jackson 介紹,在微調和強化階段都可以使用一些自動化手段,或是使用其他模型生成的數據,但其內容的多元性、正確性以及專業性可能不如人工標註的數據。 就像 DeepSeek 生成的內容一眼就能看出來。
“最好的效果肯定是全部由人工標註,但(AI 公司)老闆們比起做個完美的模型,更在意成本。 能用模型合成一個次優版本,也是可以接受的。 ”
據 Jackson 估算,一次完整的微調和強化訓練多則需要幾十萬條數據,而且模型還會更新反覆運算,數據的需求也會成倍累積。 據他觀察,目前國內的大模型團隊有財力做人工數據標註的只有幾家頂級大廠,其他團隊大部分都是用別人的模型生成數據。
根據公開資料,位元組跳動在 AI 上的投入僅 2024 年就達到了 800 億,2025 年這一數字還要翻番到 1600 億。 今年 2 月,阿裡巴巴集團 CEO 吳泳銘宣佈,未來三年,阿裡將投入超 3800 億元用於建設雲和 AI 硬體基礎設施。
但即便是這些頭部玩家,也必須在各環節精打細算。 數據標註作為成本可控的一環,被大廠選擇以外包、眾包的形式進行,成為常態。
蘇打每天兼職的工作量大概在3-4個小時,她計算了一下時薪,也就30-60塊之間。 蘇打說,這三四個小時必須全神貫注,一點水分也擠不出。 這樣的一個付出和回報,如果不是對這個行業感興趣真的很難堅持下來。
但蘇打所在的微信群每天還在不斷進人。 “你不幹,有的是人肯干,價格自然上不去。”
問題的本質不在於數據標註不重要,而在於這類工作缺乏技術壁壘。 大模型的生成、優化是一個非常精細化的過程。 每一條數據就好像是布玩偶身上的一個針腳、斑馬身上的一根毛髮,很難辨析出其對於整體的意義。 在這條流水線上,標註師很難積累出個人能力上的“獨佔優勢”,非常容易被替代。
沒有壁壘,就難有議價能力。
從招聘網站公開資訊來看,兼職數據標註師日薪多在 120-500 元之間,外包崗位月薪大部分在 9-17K 之間。 幾家大廠的正式崗位,月薪則在 15-25K 之間。 相對技術崗和演算法崗,這樣的薪資水準並不算高。
被自己訓練的 AI 替代:誰能突破金字塔?
因為沒有成長性,蘇打最終放棄了兼職,也不打算再投任何數據標註相關的崗位。 為此,她還專門諮詢了一位從事 AI 數據標註多年的朋友。
這位朋友在大模型爆火之前,便加入了國內的一家大模型團隊,後來又跳槽去了另外一家大廠。 朝陽行業、高薪崗位,很多人羡慕她踩中了風口,但她勸蘇打慎重投遞這個崗位。 因為數據標註師職業發展空間有限,很難跳進 AI 產業真正的核心環節。
Jackson 也持類似的觀點。
他用金字塔形容當前 AI 從業者的階梯式分佈:塔底是標註,腰部是應用,再往上是做微調和後訓練,塔尖才是基礎模型設計和預訓練。 “現在基本上是背景決定一切,很難從塔底一層層向上突破。”
所謂的背景是指學歷和學術背景。 譬如,很多崗位,學歷就是一個硬性門檻。 Jackson 分析,應用層面需要本科學歷,微調和后訓練階段碩士起步,基礎模型基本上都是博士。
就拿他所在的演算法崗來說,找工作要看學歷、實習、比賽、論文若干個維度。 AI 圈尤其重視學術背景。 如果沒有過硬的論文,即便是排名還不錯的學校畢業,也很難進入大廠的 AI 團隊。
“站在金子塔尖的,大部分是頂級學校的博士,還需要發很多論文的那種。” 他總結。
與此同時,標註師們訓練出來的模型本身,在悄然和標註師展開競爭。 會不會被 AI 取代,成為懸在標註師們頭上的達摩克利斯之劍。
Jackson 指出,在一些成熟的文本模型中,模型合成的數據已經替代了 80%的人工標註。 這背後的邏輯是,模型不強時,對標註的需求就大; 標註多了模型能力變強了,AI 就會在這個任務或者這個領域把標註師替代了。
在海外的一些高科技企業,這樣的情況已經發生。
據彭博社報導,蘋果公司於 2024 年 1 月關閉了一個與 Siri 人工智慧業務相關的團隊。 他們原本負責對使用者與 Siri 交互時產生的數據進行監聽分析、標註和理解使用者需求。 同樣因為自動標註能力大幅改善,2022 年 6 月,特斯拉裁撤了 200 名為其標註視頻以改進輔助系統的美國員工。
另一方面,大廠戰略的變化,也影響著數據標註師的職業前景。
2023年初,基礎大模型是所有科技巨頭競相投入的戰場,百度、位元組、阿裡、騰訊等大廠商高調押注自研大模型,數據標註一度成為不可或缺的基礎崗位。
但進入2024年,這場競賽明顯降溫。 多家大廠陸續調整重心,開始從「造更大參數的模型」,轉向“讓模型真正落地”。
這一轉向,也直接影響到數據標註這一基礎工種的崗位供給與預算安排。 於是,用於支持基礎大模型訓練的數據標註需求可能被壓縮。 未來企業需要的將不再是成千上萬「能標數據的人」,而是「懂業務、懂模型的人」。
當然,需求並未完全消失。 一方面,Jackson 解釋,隨著 AI 技術的發展、大模型進一步落地將會產生大量的應用場景。 每當有新的場景出現,就需要找人標註數據。 數據標註的需求仍將長期、大量存在。 另一方面,根據清華大學發佈的《智慧數據產業發展觀察報告》,2024 年數據標註產業有用工需求的企業從 2023 年的 457 家升至 1195 家。 另據 IDC 數據測算,2025 年中國人工智慧基礎數據服務市場規模將突破 120 億元,2019-2025 年年均復合增長率(CAGR)約為 47%。
只不過,這些增長更多屬於「橫向增量」——也就是新場景帶來的數據標註需求擴容,而非“標註師”作為工種本身的上升通道被打開。 對絕大多數從業者而言,他們所做的,依然是為流水線打工。
已經被 AI「搶」過一次飯碗的廖仔對自己的職業未來充滿信心。
在來北京之前,廖仔在上海的一家設計公司做了兩年設計師。 那時候,AI 對於設計行業的衝擊已經開始,廖仔所在的公司也不得不向 AI 轉型,決定做一個客服類大模型。 他主動請纓參與其中,這個 AI 專案為他打開了新世界大門。
後來,他從公司離職,對 AI 進行了更為系統的學習。 今年春節後,他入職了現在的公司。 每天下班不管多晚,廖仔都會學習兩個小時 AI 相關的內容,他還開了一個小紅書帳號“炸毛瘋兔”,記錄 AI 心得。
“凡事發生,皆有利於我。” 在交流時,廖仔一再引用這句古語。
咖啡店的工作人員時不時會送來一些新品試吃,服務細緻妥帖。 而引人注目的咖啡機器人一下午並沒有沖調一杯咖啡。 最起碼現階段,機器人對這家咖啡館而言,更多是一個裝飾品。 儘管未來不可控,但人的主動性始終是關鍵。
*文中廖仔、蘇打、Jackson 皆為化名。
本文來自微信公眾號 “定焦”(ID:dingjiaoone),作者:陳丹,編輯:魏佳,36 氪經授權發佈。