所有語言
分享
原文:36氪
圖片來源:由無界 AI生成
在一家互聯網大廠做數據標註的小顏,時常在公司感到一種隔絕。
小顏的工位,跟產品經理、程序員們挨在一起,他們能享受相同的福利:同樣的工牌、蘋果電腦;隨時可以去健身房,或去太空艙睡一覺。
但小顏能察覺到,作為數據標註員的她和其他同事,分屬於“兩個世界”。
儘管大家是一個團隊,但每天的早會,沒人會喊上標註員,小顏只能偷偷摸摸在門外看。有一回,有人推來一車檯燈,是團隊正在做的AI產品樣機,程序員們圍了上去,很興奮,拿在手裡把玩。標註員們則坐在工位忙自己的事,毫無波瀾。“他們不知道那個產品,就是靠標註的數據做出來的。”
入職時,小顏所在的公司正在開發一款教育類AI產品,需要標註大量數據以訓練AI。公司買來堆積如山的中小學習題冊,小顏的工作是拍下每一道題,然後在電腦上對這些題目拉框,做標註。
同樣是為AI工作,程序員清楚地意識到自己的工作價值,享受着算法不斷進步帶來的快感,但幾乎沒有標註員會覺得,正是自己的勞動創造了AI。
人工智能的進步離不開數據標註。近幾年自動駕駛的發展,帶動了數據標註的市場。據德勤的報告显示,2022年自動駕駛領域的標註需求占整個AI下游應用的38%,預計到2027年,比例將上漲到52%。
今年大模型興起,給數據標註行業再添一把火,大量基於大模型訓練場景的訂單朝數據標註公司飛去,看上去,數據標註這個枯燥的生意,再次注入活力。
一些技術公司走得更前列,正在嘗試使用AI自動合成數據,供AI訓練。合成數據是基於少量真實數據,用AI無限生成、無需標註的數據,而不再依賴人工標註。在自動駕駛領域,合成數據可以覆蓋一些極端路況,比如行人突然闖入馬路等。
在他們的暢想中,今後合成數據將取代人工標註。沒有技術、只靠人力的標註公司將被逐步淘汰。一項數據显示,國外用於人工智能的基礎數據中,已有70%是合成數據,這條路正在被驗證。
對數量龐大的數據標註員來說,上述內容並不是好消息。然而36氪接觸的一些標註員,還不清楚ChatGPT到底是什麼,他們的反應像是第一次聽說這個名詞。
小顏說,標註員是一個隨時可以被切掉的尾巴。唯一的懸念是,這一刀何時徹底落下。
小河的專業是英語系,大四那年在一家大廠實習。第一天上班,辦公室在一棟寫字樓里,寬敞、乾淨,完全符合她對互聯網公司的想象。沒多久她意識到,面試所了解的工作內容——“整理、分類公司語音數據”,其實就是數據標註。
後來小河承認,如果知道那是給AI打工的起始,她會立即走人。
組裡有6個實習生,都是名校外語系的同學。一個女組長每天分派任務。有時是一堆英語音標,小河的任務是區分出英音和美音;有時是一份Excel,點開,滿眼都是數據,往下拉,足足有一萬多條。
“感覺像爬一座山。”小河說。
做過最多的“項目”,是中學生的口語標註。標註員習慣把工作說成項目,一個項目接着一個項目。小河一天要聽200條帶濃重口音的錄音,每條兩分鐘。聽到一般疑問句,打1分;聽到特殊疑問句,打2分;都沒聽到就是0分。為了防止泄密,只能用辦公室的有線耳機,小河聽得耳朵酸脹,“不由自主的煩躁”。
她經常聽到錄音出現髒話。有的小孩口語沒講幾句,就開始飆國罵。還有一次做地圖導航的項目,有人不由分說,在錄音里謾罵。“我不知道為什麼有人會有那麼大的怒氣。”
小河說,你不能太當回事,只能給這條錄音打個標“無意義”,然後翻篇,繼續聽下一條。
“像個機器一樣”,幾乎每個標註員都會這樣形容自己。標註不費腦子,一位山東的標註員說,做過最困難的項目是指紋標註。她拿到一堆不知道是誰的指紋圖(有些還很模糊),需要沿着指紋的邊緣一點點拉框。“那天回家后,閉眼都是指紋。”
許多項目要求標註員嚴格保密,但標註員也不關心項目用途是什麼。上班期間,標註員被要求交出手機,放在牆上的掛袋裡。只有接到電話時,才允許他們取回手機。
多數標註員經歷過從生疏到熟練,從新鮮到乏味的過程。項目的前期是最有趣的,那時標註規則還不完善,他們經常碰到爭議地方,就會互相討論甚至爭論,氣氛很熱鬧。到了中後期,規則差不多定型,就只剩下重複的、机械的勞動,人就會陷入無意義感。
一位標註員說,這是一份“沒有頭腦的工作”。
江西撫州,當地職校學生在做數據標註;圖源:IC photo
上海大學教授賈文娟做過數據標註的田野調查,她認為數據標註不是腦力勞動,也不是體力勞動,而是認知勞動,“人出售的是自己的認知”。黑色幽默的地方是,我們想讓機器變得更像人,同時卻把人變得像機器。換句話說,拋開人的常識,像機器人那樣思考。
而一旦標註員開始思考“我為什麼要做這個”,就意味着他離辭職不遠了。
鄭委是一家數據標註公司的老闆,他直言,留不住人。公司最好的光景,也不到20人。新員工經常只能堅持半個月,不少人第一天來上班,第二天就跑了。他只好不停降低招人要求,到最後,他感到“不是我在選人,而是人家在選我”。
他不知道怎麼挽留那些要走的人,“你留在這兒會越來越好,這種話其實我自己都不太相信。”鄭委告訴36氪。員工流失最終壓垮了公司,只剩下兩名標註員的時候,他決心解散團隊。沒過多久,ChatGPT掀起了新一輪AI浪潮。
大模型興起,對數據標註本是利好,然而也加劇了標註團隊的內卷。
提起接活,小代說,現在市場上80-90%的標註項目,單價被壓得非常低,“因為中間的轉包商太多了”,“都想賺差價,不想真的幹活”。他在眾包平台做過兩年標註員,今年創業,組建自己的標註團隊。
數據標註的利潤不高。以自動駕駛的2D拉框來說,大公司的派單價格是一毛一個,接活的標註團隊是8分一個。“現在降到5、6分。”小代說。他算了一筆賬,如果低於8分,他只能虧本。
為了生存,小代大部分時間都在找項目,混跡於各種平台、貼吧。項目真真假假,不靠譜的居多,小代吃過虧,有一個項目的錢,等了8個月還沒到賬。
後來,他先當兼職標註員,試標、結賬沒問題,才會讓團隊接活。有回聽說平台半夜3點會放一批項目,他提前定鬧鐘去搶單。
人員流失、單價壓低、回款不穩定,像腫瘤一樣,拖垮了這行業里的多數小公司。
沒有一個標註員不嫌棄這份工作,他們掙不到錢,更看不到晉陞空間和發展機會,陷入漫長的沮喪和失落。
就在寫這篇稿子的過程中,36氪接觸的標註員大多都離職了。一個女孩說,她一共做了兩個月,到手工資,只有不到三千塊。
過去,數據標註的門檻較低。在山東、山西、河南、貴州等地,許多數據標註公司招募了大量廉價勞動力。最常見的包括寶媽、殘疾人、職校學生,只要掌握電腦的基本操作,就能進入這個行業。
來到大模型時代,一場關於數據標註的洗牌和淘汰,正在候選人中悄然進行。
研究人員發現,訓練數據的質量對模型性能有非常大的影響。比起數據量,擁有更高的數據質量,模型的改善效果就更明顯。為了把控數據質量,一些AI公司組建了自己的標註團隊,第一步就是提高入行門檻。
最明顯的,標註員的學歷開始捲起來。
今年四月,一家頭部大模型廠商建立了數據標註基地,招募的第一批標註員,本科率達到100%。公司負責人解釋,大模型數據涉及的知識面廣,評判標準複雜,非常考驗標註師的語言理解能力和邏輯推理能力。
小王剛從大學畢業,回老家找工作時,偶然刷到這個數據標註基地的招聘。於是他參加了面試,順利通過。基地給他發來一份長達30萬字的培訓材料,只有通過培訓考試,才能正式上崗。
標註員每天都在做題。新人一天40道題,熟練工則是70-80道。後台系統給每個人發放題目,大多數是真實用戶和大模型的對話記錄。用戶的問題囊括四海,甚至千奇百怪:這三款手機哪個更好?雞蛋好吃還是扭蛋好吃?成功人士的標準是什麼?林黛玉為什麼要打白骨精?
大模型會有好多個回答,而小王的工作就是閱讀每一個回答,挑出錯誤,並按照質量逐一打分,5分是滿分,1分最低,而3分以下的答案,還需要劃分錯誤類型。答非所問,直接給最低分,要是碰到敏感問題,則不打分,判為“其他”。
排序、打分、評估,這些略顯複雜的標註環節,正是所謂的RLHF(Reinforcement Learning from Human Feedback,即從人類反饋中強化學習),目的是為了讓大模型與人類價值觀、思維方式不斷對齊,更加可用。OpenAI訓練ChatGPT的過程中採用了RLHF,取得了顯著的效果。
和過去的數據標註相比,大模型的標註規則更加主觀。一位算法工程師在面試標註員時,會問對方這樣的問題:“如果你是企業領導,面對孫悟空、豬八戒、唐僧、沙僧這四類員工,你會更傾向於錄用誰?”
沒有標準答案,他說。這類問題是為了考察標註員有沒有邏輯思維能力。
行業對人才的需求變得迫切。一家名叫愷望數據的初創公司,正在與高校合作,培訓大批高校學生標註員。CEO於旭說,公司去年打造了“愷望數據學院”,已培訓50所學校,超過1500名學生從事數據標註。
當小王給大模型的回答打分時,他經常需要做一些事實核查,工作量全憑運氣。有一回碰到一個題目:寶馬3系和奔馳C系哪個比較好?大模型分別羅列了兩款車的40個參數,每個參數都需要小王查驗。那道題他足足花了半小時。
做標註有一段時間,小王發現他打的分很少超過3分,“AI的回復還沒有到能讓我覺得很滿意或者很出彩的程度”。他記得有道題是“藍牙耳機壞了,是去看牙醫還是看耳機廠商”,顯然是釣魚問題,但AI的回答讓他眼前一亮,“它說是去修理,而不是去醫院”。
小王對這份工作感到滿意。他每月的底薪是1800元,全勤獎200元,房補200元,算上績效,一個月可以拿到4000元。他說,在當地這個收入算中上水平。他還拉上了自己的發小,兩人坐在相鄰的工位。
與小王同期培訓的大學生大約20多人,沒两天就跑得差不多,只剩兩三人。
但我們不必為公司擔心,這裏永遠不缺大學生。一個CTO向36氪吐露了真相:你去看看現在大學生的就業狀況嘛。
必須承認,關於數據標註的報道有很多,人們達成的共識包括,這份工作是“互聯網的流水線”,很難長期做下去,以及人工標註最終會被AI取代。
過去一個月,我們花了大量時間和算法工程師、AI公司交流。雖然沒有刷新上述共識,但能隱隱感到,最想淘汰人工的或許不是AI。在AI真正動手之前,那些掌握最先進技術的人已經舉起鐮刀。
在技術世界,數據的重要性不言而喻。算法工程師小段說,如果一個AI業務沒有標註過的數據,他們寫出再好的算法,也會是一盤散沙。標註數據越多越好。薅盡標註員羊毛,是一件穩賺不賠的買賣。
有時,標註員們花四五天做完的數據,算法一小時就能跑完。小段供職於一家互聯網大廠,部門預算充足,養了幾名全職標註員。“我們盡量不想讓標註員閑着。”他說,“領導會看周報,如果覺得任務不多,就讓我們多投放一些任務給他們。”
一位標註員告訴36氪,雖然共事的程序員嘴上會說,每個工種都有存在的價值,但仍會不經意間流露出一絲輕視。“當然了,這群人本身就是技術至上。”標註員自我安慰道。
技術的進步速度遠超所有人預期,來到大模型時代,數據質量將直接影響到模型的性能。弄明白這一點,一些AI公司毫不猶豫地告別了數據標註外包商。
“拿回來的數據質量太差,基本沒法用。”一家AI公司的CTO說。他們的核心業務是做AI生成視頻,為此自研了一款模型,能夠無限量生成電商產品視頻。為了訓練模型,他們特意招了50名大學生做數據標註。
如果涉及醫療、金融、計算機等專業領域,大學生也很難被信任。國內一家互聯網大廠除了自建標註基地,還會花錢請專業人士來標註。儘管專業人士在標註行業的佔比仍然很小,但作用相當明顯。比如,一個關於社保斷繳的問題,交給熟悉政府文件的專業人士,最讓人放心。
一個公開的秘密是,早在ChatGPT走紅前,OpenAI就組建十幾位博士生來“打標”。八年時間,OpenAI光是訓練模型就花了10億美元。
今年五月,美國一家數據公司開始招聘特定領域的專業人士。這些高級標註員的報酬不再是白菜價,比如法律數據的標註時薪是45美元,詩歌則是25美元。
不過,做標註的無論是藍領還是白領,在一些AI公司的眼裡,都是想要節省的成本。和這些公司交流時,36氪頻繁聽到一個詞:降本增效。
最常見的辦法是,利用AI進行自動化標註。一家數據公司表示,自動化標註的比例已經達到70%以上。
而算法工程師小李和同事正在做更加前沿的嘗試:只要以一小部分的真實數據為藍本,通過生成式AI技術和一系列算法,就能合成高質量的、可供訓練的數據。換句話說,完全不需要人了。
“我們合成數據的售價比人工標註的要便宜一點。”小李說。
合成數據目前主要用在自動駕駛和機器人領域。小李說,當ChatGPT出來后,他便意識到標註數據可能走不通了,最後都要用合成數據。OpenAI創始人Sam Altman也有類似的看法:“合成數據是解決大模型數據短缺的最有效辦法”。
初創公司光輪智能主要做自動駕駛和機器人領域的合成數據。“自動化標註的終局就是沒有標註,”CEO謝晨說,“大部分標註公司沒有看到那麼長遠。”
謝晨向36氪提到,團隊有名同事,此前在一家主機廠做自動化標註,攻克了更複雜的4D-BEV標註。這是業界領先的標註工具,在3D空間中以時間為第四個緯度進行標註,提升自動駕駛系統性能。今年他決心放棄自動化標註,主動找到謝晨,最後入職了光輪智能。
這名同事就是小李。他表示,生成式AI的出現一度讓他非常焦慮,但看到合成數據后,他重新興奮起來。
他的工作目標之一就是“取代(標註)這行業的人”,但又不好意思把話說絕,“很可能就在短期內,可能一兩年。”
最後,讓我們回到標註員的世界。這裏幾乎感受不到由技術飛快發展而產生的焦慮。這裏只有瑣碎、重複的煩躁,還有一些天真的幻想。
大學生小王仍然在老家訓練大模型。我們最近一次聊天,他說,這份工作是一個進入人工智能領域的機會。公司為他們設定的晉陞途徑是,標註員到質檢員、培訓師,再到主管,最後是項目經理。小王的目標是當上主管,然後跳槽去一個離AI更近的崗位。具體是什麼,他還不知道。
與有雄心的小王相比,多數標註員對AI沒有什麼興趣。有個女孩給出解釋,“不太關注高科技。”她做了兩年標註,已經是資深員工,不久前晉陞為質檢員。對她來說,標註工作簡單、穩定,“沒有精神內耗”,偶爾還能摸魚。AI攪動科技圈的這一年,她的日子平靜如水。
為數不多的變化是,公司提供的標註工具中多了一個對話機器人。公司告訴大家,在標註時碰到不懂的問題,直接向機器人提問就行,節省時間。效率提升很快,她告訴36氪,之前拉框,一天最多做完五六百個,現在能做七百多。
“多虧了那個機器人。”她說。還沒人告訴她,那叫ChatGPT。
(應受訪者要求,文中部分人物為化名。36氪作者鄧詠儀對文章亦有貢獻。)