所有語言
分享
來源:騰訊科技
摘要:數據註釋員對數據進行分類和標記,令人工智能通過在大量數據中尋找模式來學習,被視為隱藏在機器背後的“幽靈勞工”。註釋工作是人工智能的基礎,它已經形成了完整的供應鏈,這類工作將在很長時間內繼續存在。
1、人工智能通過在大量數據中尋找模式來學習,但首先這些數據必須由人類進行分類和標記,數據註釋員由此應然而生,他們被視為隱藏在機器背後的“幽靈勞工”。
2、註釋員們的工作枯燥而乏味,經常需要做重複性的工作,按件計酬,平均時薪在5到10美元(約合人民幣36到72元)之間。到今年年初,部分註釋員的時薪已經降到了每小時1到3美元(約合人民幣7到22元)。
3、註釋工作依然是人工智能的基礎,它已經形成了完整的供應鏈。這類工作將在很長時間內繼續存在。
4、註釋工作與智能手機、汽車製造不同的地方在於,它有易變形和流動性,經常會流向運營成本更低的地方。
從內羅畢大學畢業幾個月後,現年30歲的喬(Joe)找到了一份註釋員的工作,主要幫助處理用於訓練人工智能的原始信息,這樣的工作枯燥而乏味。人工智能通過在大量數據中尋找模式來學習,但首先這些數據必須由人類進行分類和標記,因此可以說人類是隱藏在機器背後的“幽靈勞工”。
以喬的工作為例,他正在為自動駕駛汽車標記視頻,一幀一幀地從每個攝像頭角度識別汽車、行人、騎單車者,以及司機需要注意的任何東西。這是一項困難且需要不斷重複的工作。一個幾秒鐘的短視頻需要8個小時來註釋,喬為此可以得到大約10美元的報酬。
然後,在2019年,一個機會突然出現在他面前,喬開始為一家急需註釋員的新公司培訓新人,收入是以前的四倍。每隔兩周,50名新員工就會排隊進入內羅畢的一棟辦公樓,開始他們的學徒生涯。對註釋員的需求似乎無窮無盡。他們將被要求對鏡子自拍中看到的衣服進行分類,通過機器人吸塵器的眼睛來確定他們所在的房間,並在激光雷達掃描的摩托車周圍畫出方框。喬的半數以上學生通常在培訓結束前就退出了。“有些人不知道如何長時間呆在一個地方,”他委婉地解釋道。此外,他承認,“這項工作很無聊”。
但在一個工作機會稀缺的地方,這畢竟是一份不錯的工作,喬培養了數百名畢業生。培訓結束后,這些學徒可以回到家裡,獨自在卧室和廚房裡工作,不準告訴任何人他們在做什麼。這不是真正的問題所在,因為就連他們自己甚至都不理解他們在干什麼。
為自動駕駛汽車標記對象的工作很容易,但對扭曲的對話片段進行分類、識別說話者是機器人還是人類,卻充滿了挑戰。每個識別對象都是某個更大項目的一小部分,所以很難說他們到底在訓練人工智能做什麼。這些對象的名稱也沒有提供任何線索,Crab Generation、Whale Segment、Woodland Gyro以及Pillbox Bratwurst,都是些沒有任何邏輯順序的工作代號。
至於雇傭他們的公司,大多數人只知道它叫Remotasks,一個為任何英語流利的人提供工作機會的網站。就像大多數註釋員一樣,喬也不知道Remotasks是Scale AI公司旗下合同工外包公司。Scale AI是一家估值數十億美元的硅谷數據供應商,其客戶包括人工智能初創企業OpenAI和美國軍方。Remotasks和Scale AI的網站上都沒有提到過對方。
公眾對OpenAI的ChatGPT等大語言模型的大部分反應,都集中在它們似乎準備自動化的工作方面。但即使是最令人印象深刻的人工智能系統也離不開人類的幫助,無數人都在通過給數據貼上標籤來訓練它,並在數據被混淆時介入干預。只有那些有能力購買這些數據的公司才能參与行業競爭,而那些得到這些數據的公司則會竭盡全力保守這些數據的秘密。其結果是,除了少數人外,我們對影響這些系統行為的信息知之甚少,對塑造這些系統行為背後的人更是如此。
對喬的學生們來說,這是一份剝去了一切正常表象的工作:他們需要遵守嚴格的時間表,不需要知道在做什麼,或者在為誰工作。事實上,他們很少稱自己是在工作,只是在例行完成“任務”。他們自稱為任務工作者。
人類學家大衛·格雷伯(David Graeber)曾為所謂的“狗屁工作”(bullshit jobs)下過定義,即沒有意義或目的的工作。這些工作應該被自動化,但由於受到官僚主義、地位或惰性等原因影響,卻沒有被自動化。培訓人工智能的工作與之類似:人們想要自動化的工作,通常認為已經自動化了,但仍然需要人類來參与。這些工作是有特殊用途的,只是註釋員們不知道罷了。
當前的人工智能熱潮就始於這種相當乏味、重複性的勞動。早在2007年,時任普林斯頓大學教授的人工智能研究員李飛飛就曾懷疑,改善圖像識別神經網絡的關鍵是在更多數據上進行訓練,需要數百萬而非數萬張經過標記的圖像。問題是,她的團隊需要花費數十年時間和數百萬美元才能給這麼多照片貼上標籤。
李飛飛在亞馬遜的眾包平台Mechanical Turk上找到了數千名工人,世界各地的人們在這個平台上以低廉的報酬完成各種小任務。由此產生的標註數據集被稱為ImageNet,它使機器學習取得了重大突破,使該領域重新煥發活力,並迎來了最近十年的進步。
註釋仍然是開發人工智能必不可少的部分,但工程師們經常覺得,對於更有魅力的建模工作來說,它只是一個短暫的、繁瑣的先決條件。你可以盡可能便宜地收集盡可能多的標記數據來訓練自己的模型,如果能夠成功,至少在理論上,你就不再需要註釋員了。但是,註釋工作永遠不會真正完成。研究人員認為機器學習系統“十分脆弱”,當遇到訓練數據中沒有被很好解釋的東西時,很容易失敗。這些失敗被稱為“邊緣案例”,可能會產生嚴重的後果。
2018年,網約車公司Uber的一輛自動駕駛測試車撞死了一名女性,原因在於:儘管它的編程要求避開騎單車者和行人,但它不知道該如何對待騎自行車過馬路的人。隨着提供法律建議和醫療幫助的人工智能系統越多,它們遇到的邊緣案例就越多,就需要更多的人類來對它們進行分類。這已經催生了一個全球性的產業,由像喬這樣的人組成,他們用自己獨特的人類能力來幫助機器。
在過去的六個月里,科技調查記者喬什·齊耶扎(Josh Dzieza)與來自世界各地的二十多名註釋員進行了交談,其中許多人正在訓練尖端的聊天機器人,但也有許多人在做維持人工智能運行所需的平凡體力勞動。有人對TikTok視頻的情緒化內容、垃圾郵件新變體以及不當在線廣告進行分類。還有人在查看信用卡交易,找出與之相關的購買類型,或者查看电子商務推薦,並決定在購買了另一件襯衫后,你是否真的會喜歡那件襯衫。
人類正在糾正客服聊天機器人的錯誤,傾聽亞馬遜智能助手Alexa的請求,並在視頻通話中對人們的情緒進行分類。他們給食物貼上標籤,這樣智能冰箱就不會被新包裝弄混,在發出警報之前檢查自動安全攝像頭,並幫助陷入困惑的自動拖拉機識別玉米。
非營利組織Partnership on AI的項目和研究負責人索納姆·金達爾(Sonam Jindal)說:“這是一條完整的供應鏈。業界的普遍看法是,這項工作不是技術開發的關鍵部分,不會繁榮很長時間。所有的興奮都圍繞着構建人工智能擴散,一旦我們構建了它,就不再需要註釋了,所以為什麼要費心考慮它呢?但數據標記是人工智能的基礎,就像人類智能是人工智能的基礎那樣,我們需要將這些視為人工智能經濟中真正的工作,這些工作將在很長時間內繼續存在。”
OpenAI、谷歌和微軟等我們所熟知名字背後的數據供應商以不同的形式出現。還有些私人外包公司擁有類似呼叫中心的辦公室,比如位於肯尼亞和尼泊爾的CloudFactory,喬在那裡做註釋工作,時薪1.2美元,然後才轉投Remotasks。
還有像Mechanical Turk和Clickworker這樣的“眾工”網站,任何人都可以註冊來完成任務。處於中間的是Scale AI之類的服務。任何人都可以註冊,但每個人都必須通過資格考試和培訓課程,並接受績效監控。註釋是一門大生意。Scale AI由當時19歲的亞歷山大·王(Alexander Wang)於2016年創立,2021年的估值為73億美元,使他進入《福布斯》“最年輕白手起家億萬富翁”之列。
這條錯綜複雜的供應鏈,外人很難了解。據業內人士透露,購買標記數據的公司要求嚴格保密。註釋有時候會泄露正在開發的人工智能系統信息,而大量註釋人員的加入使得泄漏難以防止。註釋員總是被警告不要告訴任何人他們的工作,甚至不要告訴他們的朋友和同事。最重要的是,極端的勞動分工確保了他們沒有足夠的信息來談論自己的工作,即使他們想說也沒辦法。
有鑒於此,沒有辦法對從事註釋工作的人數進行詳細的估計,但可以肯定的是,從業人數很多,而且還在快速增長。谷歌研究院最近發表了一篇論文,對註釋員的數量給出含糊的估計,約有“數百萬人”,將來甚至有可能達到“數十億”。
自動化常常以令人意想不到的方式到來。醫療數據註釋公司Centaur Labs的首席執行官埃里克·杜海姆(Erik Duhaime)回憶說,幾年前,多位知名機器學習工程師預測,人工智能將取代放射科醫生的工作。當這種情況沒有發生時,傳統看法轉為放射科醫生將使用人工智能作為工具。
杜海姆認為,這兩種情況都沒有發生。人工智能非常擅長特定的任務,這促使工作被分解,並分配給專門的算法系統和同樣專業的人類。他舉例稱,人工智能系統可能能夠發現癌症,但只能在特定類型的機器、特定類型的圖像中發現。所以,你需要有人來幫助檢查人工智能是否被輸入了正確類型的數據,也許還需要其他人來檢查它的工作,然後再把它交給另一個人工智能撰寫報告,最後再交給人類。杜海姆說:“人工智能不會取代人類的工作,但它確實改變了工作的組織方式。”
如果你認為人工智能是一台聰明的、會思考的機器,你可能會忽略它背後的人類。杜海梅認為,人工智能對現代工作的影響就像是從工匠過度到工業製造時代:連貫的過程被分解成小任務,沿着裝配線排列,有些步驟由機器完成,有些由人類完成,但與以前的情況完全不同。
對人工智能將帶來顛覆的擔憂常常被反駁為,人工智能自動化了某些任務,而不是整個工作。這些任務通常是乏味而枯燥的,可以讓人們去追求更有成就感、更人性化的工作。但同樣可能的是,人工智能的崛起看起來也像過去節省勞動力的技術,也許就像電話或打字機那樣,它們消除了傳遞信息和手寫的苦差事,但產生了更多有關通信、商業和文書方面的工作,以至於需要由文員、會計師、打字員等新型員工組成的新辦公室來管理這些工作。當人工智能加入你的工作時,你可能不會失去工作,但它可能會變得更陌生、更孤立、更乏味。
今年早些時候,記者齊耶扎註冊了Remotasks的工作。這個過程很簡單。只需要輸入電腦規格、網速和基本的聯繫信息,就可以進入“培訓中心”。為了獲得付費任務,齊耶扎首先必須完成相關的、但沒有任何報酬的入門課程。培訓中心展示了一系列課程,這些課程的名字令人難以理解,比如膠水泳衣和海報夏威夷等。齊耶扎點擊了名為GFD Chunking的東西,它要求在社交媒體照片中給衣服貼標籤。
除此之外,還有關於任務的指示說明,比如必須給真實的、可以供人類穿着或打算供真人穿着的物品貼標籤。齊耶扎對自己區分真人可以穿的真衣服和不能穿的假衣服的能力充滿信心,於是他開始了測試。然而,他馬上遭到了當頭一擊:電腦給出一張雜誌圖片,上面是一位穿着裙子的女性照片。衣服的照片應該被視為真正的衣服嗎?不,齊耶扎想,因為人不能穿衣服的照片。結果显示錯誤!因為在人工智能看來,真衣服的照片就相當於真衣服。
接下來的照片是一個女人在昏暗的卧室里對着一面全身鏡自拍。她穿的襯衫和短褲是真衣服,那衣服的倒影也是真的嗎?齊耶扎同樣給出了否定答案,但人工智能系統認為,真實衣服的倒影也應該是真實的衣服。
在經歷了令人尷尬的反覆試驗之後,齊耶扎終於開始了真正的工作,但他卻驚恐地發現,他一直在努力遵循的指示已經被更新了很多次,而且長度增至43頁,包括不要在裝滿衣服的打開的行李箱上貼標籤;不要給鞋子貼標籤,但要給腳蹼貼標籤;要給緊身褲貼標籤,但不要給緊身衣貼標籤;即使有人穿着毛巾,也不要給毛巾貼標籤;給服裝貼標籤,但不要給盔甲貼標籤。等等......
德國魏森鮑姆研究所(Weizenbaum Institute)研究數據工作的研究員米拉格羅斯·米塞利(Milagros Miceli)表示,整個行業都存在指示說明普遍混亂的情況。在某種程度上,這是機器學習系統學習方式的產物。人類只需要幾個例子就能理解“襯衫”的概念,而機器學習程序需要成千上萬個例子,而且它們需要以完美的一致性和足夠的多樣性(馬球衫、戶外穿的襯衫、掛在架子上的襯衫)進行分類,這樣系統才能處理現實世界的多樣性。米塞利說:“想象一下,我們需要將複雜的現實簡化為笨拙機器可以閱讀的東西。”
對於機器來說,簡化現實的行為會給其帶來極大的複雜性。指令編寫者必須提出規則,使人類能夠以完美的一致性對世界進行分類。為了做到這一點,他們經常創建人類不會使用的類別。如果一個人被要求給一張照片中的所有襯衫貼上標籤,他可能不會給鏡子里的襯衫貼上標籤,因為他們知道那是反射的影子,並非真實的衣服。但對於不了解現實世界的人工智能來說,這隻是像素,兩者是完全相同的。如果數據集中有些襯衫被標記,而其他反射的襯衫沒有被標記,那麼該模型將不起作用。於是,工程師帶着更新的信息回到供應商那裡,要求給鏡子反射的襯衫貼標籤。很快,你就會有另一份長達43頁的指南,上面全是紅色的大寫字母。
註釋員的工作通常是把人類的理解放在一邊,非常非常嚴格地按照指示去做。正如一位註釋員所說,像機器人一樣思考。這是一個奇怪的精神空間,盡你所能遵循荒謬但嚴格的規則,就像在服用致幻劑時參加標準測試那樣。註釋員總是會遇到些令人困惑的問題,比如,這是一件帶有白色條紋的紅襯衫還是一件帶有紅色條紋的白襯衫?如果柳條碗里裝滿了蘋果,那它是“裝飾碗”嗎?豹紋是什麼顏色的?每個問題都必須回答,一個錯誤的猜測可能會讓你被禁,並啟動一個全新的、完全不同的任務,它有自己令人費解的規則。
Remotasks上的大部分工作都是按件計酬的,一項任務的收入從幾美分到幾美元不等。因為任務可能需要幾秒鐘或幾個小時完成,所以工資很難預測。當Remotasks剛進入肯尼亞時,註釋員說它的報酬相對較高。根據任務的不同,平均每小時大約5到10美元。但隨着時間的推移,報酬會下降。
Scale AI發言人安娜·弗蘭科(Anna Franko)表示,該公司的經濟學家會分析項目的細節、所需的技能、地區生活成本和其他因素,“以確保公平和有競爭力的薪酬”。Scale AI的前員工還表示,薪酬是通過一種類似暴漲定價的機制確定的,該機制會根據可用的註釋員數量和需要數據的速度進行調整。統計显示,美國的Remotasks註釋員通常每小時可賺10到25美元,但有些專業標註領域的專家報酬更高。到今年年初,肯尼亞註釋員的工資已經降到了每小時1到3美元(約合人民幣7到22元)。
對遠程任務工作最常見的抱怨是其易變性。這類工作足夠穩定,可以作為一份長期全職工作,但有太多不可預測性,不能完全依賴它。註釋員花費數小時閱讀說明並完成無償培訓,只是為了完成十幾個任務,然後項目就結束了。可能幾天都沒有什麼新任務,然後,毫無徵兆地,一個完全不同的任務出現了,可能持續幾小時到幾周。任何任務都可能是他們的最後任務,他們也永遠不知道下一個任務什麼時候會到來。
工程師和數據供應商表示,這種繁榮與蕭條的周期源於人工智能的開發節奏。訓練一個大型模型需要大量的註釋,然後是更多的迭代更新,工程師們希望所有這些都盡可能快地進行,這樣他們就能趕上目標發布日期。他們可能在幾個月的時間里需要數千名註釋員,然後降至幾百人,最後只需要十幾名特定類型的專家。這個過程有時候會循環進行。“問題是,誰來承擔這些波動的成本?”Partnership on AI的金達爾說。
要想取得成功,註釋員必須協同工作。維克多在內羅畢上大學時就開始為Remotasks工作,當有人告訴他在交通管制任務中遇到困難時,他說每個人都知道要遠離那個任務:太棘手,薪水低,不值得。像許多註釋員一樣,當有好任務出現時,維克多會使用非官方的WhatsApp群來傳播消息。當他想出一個新點子時,他就會開始即興的谷歌會議,向其他人展示如何做到這一點。任何人都可以加入並一起工作一段時間,分享技巧。他說:“我們已經形成了一種互相幫助的文化,因為我們知道,一個人不可能知道所有的訣竅。”
因為工作毫無徵兆地出現又消失,所以註釋員總是需要保持警惕。維克多發現,項目通常會在深夜突然出現,所以他習慣每三個小時左右就起來檢查一次。當有任務時,他會一直保持清醒。有一次,他連續36個小時不睡覺,在人群的照片中給肘部、膝蓋和頭部做標記,儘管他也不知道為什麼。還有一次,他熬夜太久,以至於眼睛紅腫不堪。
註釋員通常只知道他們正在為其他地方的公司訓練人工智能系統,但有時匿名的面紗會消失,指示說明中提到的品牌或聊天機器人線索太多了。一名註釋員稱:“我讀了指示說明,在谷歌上進行了搜索,發現我在為一位25歲的億萬富翁工作。如果我讓某人成為億萬富翁,而我每周能賺幾美元,那我真的是在浪費生命。”
維克多自稱是人工智能的“狂熱信徒”,他開始做註釋工作是因為他想幫助實現一個完全自動化的未來。但今年早些時候,有人在他的WhatsApp群里發了一篇《時代》雜誌的報道,講的是供應商Sama AI的員工培訓ChatGPT識別有毒內容的情況,他們的時薪不到2美元。維克多說:“人們對這些公司利潤豐厚但薪酬卻如此之低感到憤怒。”直到被告知Remotasks與Scale AI的聯繫,他才知道兩者的關係。他參与的其中一項任務的說明與OpenAI使用的幾乎相同,這意味着他可能也參与了ChatGPT的訓練,時薪大約為3美元。“
我記得有人發帖說,我們將來會被人銘記,”他說。零一人回答說:“我們受到的待遇比步兵還差。我們在未來的任何地方都不會被記住,這一點我記得很清楚。沒有人會認可我們所做的工作和付出的努力。”
識別服裝和標註客戶服務對話只是註釋工作中的一小部分。最近,市場上最熱門的是聊天機器人培訓師。因為它需要特定領域的專業知識或語言流利程度,而且工資往往會根據地區進行調整,所以這份工作的薪酬往往更高。某些類型的專業註釋每小時薪酬可達50美元或更多。
一個名叫安娜(Anna)的女人在得克薩斯州找工作時,偶然發現了一個通用的在線工作清單,於是她申請了工作。在通過了入門考試后,她被帶進了一個有1500人的Slack房間,那裡正在訓練代號為Dolphin的項目,後來她發現這是谷歌DeepMind的聊天機器人Sparrow,它是與ChatGPT競爭的眾多聊天機器人之一。安娜的工作就是整天和Sparrow聊天,時薪約為14美元,加上工作效率高的獎金,“這絕對比在當地超市打工賺取10美元時薪要好”。
而且,安娜很喜歡這份工作。她與Sparrow討論過科幻小說、數學悖論、兒童謎語和電視節目等話題。有時,聊天機器人的回答會讓她大笑不止。有時候,她也會覺得無話可說。安娜稱:“有時候,我真的不知道到底該問什麼,所以我有一個小筆記本,裏面已經寫了兩頁的東西。我在谷歌上搜尋有趣的話題,所以我認為自己可以很好地應付七個小時,但情況並非總是如此。”
每次安娜提示Sparrow時,它都會給出兩個回答,然後她要選出最好的一個,從而創造出所謂的“人類反饋數據”。當ChatGPT去年年底首次亮相時,其令人印象深刻的自然對話風格被歸功於它經過了大量互聯網數據的訓練。但是,為ChatGPT及其競爭對手提供動力的語言是經過幾輪人工註釋過濾的。
一組承包商編寫了工程師希望聊天機器人如何表現的示例,他們先提出問題然後給出正確答案,描述計算機程序然後給出功能代碼,詢問犯罪技巧然後禮貌地拒絕。在用這些例子對模型進行訓練之後,還會引入更多的承包商來提示它並對其響應進行排序。這就是安娜對Sparrow所做的。
確切地說,評分者被告知使用的標準各不相同,比如誠實、樂於助人或只是個人偏好等。關鍵是,他們正在創造關於人類品味的數據,一旦有了足夠的數據,工程師們就可以訓練第二個模型來大規模模仿他們的偏好,使排名過程自動化,並訓練他們的人工智能以人類認可的方式行事。結果是一個非常像人類的機器人誕生了,它基本上會拒絕有害的請求,並以似乎有自我意識的方式解釋了它的人工智能本質。
換句話說,ChatGPT看起來很人性化,因為它是由一個模仿人類的人工智能訓練出來的,而這個人工智能正在模仿人類行事。
這種技術被稱為“從人類反饋中強化學習”,簡稱RLHF,它非常有效,可以停下反思人工智能沒有做的事情。例如,當註釋員教模型要準確時,模型並沒有學習根據邏輯或外部來源檢查答案,甚至不知道作為概念,準確性到底為何物。儘管這個模型仍然是一個模仿人類寫作模式的文本預測機器,但現在它的訓練語料庫已經補充了定製的示例,並且該模型已經加權以支持它們。
這可能會促使模型從其語言地圖中被標記為準確的部分提取模式,併產生恰好與事實相符的文本,但也可能導致它模仿準確文本的自信風格和專業術語,同時寫出完全錯誤的東西。不能保證註釋員標記為準確的文本實際上是準確的。即使它是準確的,也不能保證模型從中學習到正確的模式。
這種動態使得為聊天機器人註釋並不容易。它必須是嚴格和一致的,因為草率的反饋,比如把聽起來正確的材料標記為準確的,可能會讓訓練出來的模型更有說服力。OpenAI和DeepMind在早期的聯合項目中使用了RLHF,在這個案例中,訓練虛擬機器人手抓取物品,結果也訓練了機器人的手在物體和它的評分者之間的位置,並在周圍擺動,這樣它就只會出現在它的人類監督者面前。
對語言模型的響應進行排名總是有些主觀,因為這是一種語言。任何長度的文本都可能包含多個元素,這些元素可能是正確的,也可能是錯誤的,或者具有誤導性。OpenAI的研究人員在另一篇早期RLHF論文中遇到了這個障礙。為了讓他們的模型對文本進行總結,研究人員發現,只有60%的模型總結是好的。“與機器學習中的許多任務不同,我們的查詢沒有明確的基本事實,”他們哀嘆道。
當安娜給Sparrow的回答打分時,她應該查看它們的準確性、有用性和無害性,同時還要檢查這個模型沒有給出醫療或財務建議,沒有把自己擬人化,也沒有違反其他標準。為了成為有用的訓練數據,模型的反應必須被量化地排序:一個能告訴你如何製造 炸彈的機器人比一個拒絕回答任何問題的無害機器人“更好”嗎?
在DeepMind的一篇論文中,當Sparrow的製造者輪流註釋時,四名研究人員爭論他們的機器人是否假設了向其尋求情感建議的用戶的性別。據DeepMind的研究科學家傑弗里·歐文(Geoffrey Irving)介紹,該公司的研究人員每周都會舉行註釋會議,在會上他們自己審核數據,討論模稜兩可的案例。當某個案例特別棘手時,他們會諮詢倫理或主題專家。
安娜經常發現,她不得不在兩個糟糕的選擇中做出選擇。她說:“即使它們都是錯得離譜的答案,你仍然需要找出哪一個更好,然後寫下解釋原因的文字。”有時,當兩個回答都不好時,她會被鼓勵自己給出更好的回答。在訓練過程中,約有半數時間需要她這樣做。
因為反饋的數據很難收集,所以出售的價格更高。據了解該行業的人士透露,安娜正在收集的這類基本偏好數據售價約為每條1美元。但如果你想訓練一個模特做法律研究,你需要一個受過法律培訓的人,這會導致成本增加。參与其中的每個人都不願透露自己到底花了多少錢,但一般來說,專業的書面示例可能要幾百美元,而專家評級可能要50美元或更多。一位工程師透露,他曾花300美元買過Socratic對話的樣本。
OpenAI、微軟、Meta和Anthropic沒有透露有多少人為他們的模型貢獻了註釋,他們的報酬是多少,或者他們位於世界的什麼地方。谷歌姊妹公司DeepMind的歐文說,在Sparrow上工作的註釋員根據他們所在的位置,得到的報酬至少相當於最低工資的時薪。安娜對Remotasks“一無所知”,但對Sparrow更了解,知道它是DeepMind的人工智能助手,其創建者使用RLHF對它進行了培訓。
直到最近,發現語言模型的不良輸出還是相對容易的,看起來像是胡言亂語。但隨着模型變得越來越好,這樣的工作變得更加困難,這是個被稱為“可擴展監督”的問題。谷歌在其人工智能助手Bard首次亮相時使用了現代語言模型,這無意中證明了發現現代語言模型的錯誤是多麼困難。這條軌跡意味着,註釋越來越需要特定的技能和專業知識。
去年,一個叫劉易斯(Lewis)的人在Mechanical Turk上工作,在完成一項任務后,他收到了一條消息,邀請他加入一個他從未聽說過的平台。它被稱為Taskup.ai,這個網站非常簡單,只有一個海軍背景,上面寫着“按需付費”的文字。劉易斯選擇了註冊。
這份工作的報酬比他以前做過的其他工作都要高得多,通常是每小時30美元左右。不過,它也更具挑戰性,要求設計複雜的場景來欺騙聊天機器人給出危險的建議,測試模型保持自身角色的能力,以及就科學話題進行詳細的對話,這些話題有很強的技術性,需要進行廣泛的研究。劉易斯覺得這份工作“令人滿意、令人興奮”。在檢查一個模型嘗試用Python編寫代碼的同時,劉易斯也在學習。他不能連續工作超過4個小時,以免精神疲憊導致犯下錯誤,他想保住這份工作。
劉易斯說:“如果有什麼是我可以改變的,我只想知道更多關於另一端發生了什麼。我們只知道完成工作所需的知識,但如果我能知道得更多,也許我就能取得更大成就,也許還能把它當成一種職業。”
科技調查記者齊耶扎採訪了另外八人,他們大多在美國工作,都有類似的經歷,即在其他平台上回答調查或完成任務,然後發現自己被Taskup.ai或幾個類似網站錄用了,比如DataAnnotation.tech或Gethybrid.io。他們的工作通常涉及訓練聊天機器人,儘管與他們工作過的其他網站相比,他們對聊天機器人的質量要求更高,目的也更專業。其中一個是演示電子錶宏,另一個只需要進行對話,並根據她想要的任何標準對回應進行評級。她經常問聊天機器人一些問題,這些問題在與7歲女兒聊天時也會出現,比如“最大的恐龍是什麼?”,“寫一個關於老虎的故事。”
Taskup.ai、DataAnnotation.tech和Gethybri.io似乎都屬於同一家公司:Surge AI。其首席執行官埃德溫·陳(Edwin Chen)既不願證實也不否認這一聯繫,但他願意談論他的公司以及他如何看待註釋的演變。
埃德溫表示:“我一直覺得標註領域過於簡單化了。”在谷歌、Facebook和推特從事人工智能研究后,他確信眾包標籤是不夠的,並於2020年創立了Surge AI。埃德溫說:“我們希望人工智能可以講笑話,寫很好的營銷文案,或者在我需要治療的時候幫助我。但不是每個人都能講笑話或解決Python編程問題的,註釋領域需要從這種低質量、低技能的思維模式轉變為更豐富的東西,並捕捉到我們希望人工智能系統擁有的人類技能、創造力和價值觀。”
去年,Surge AI重新標記了谷歌根據情緒對Reddit帖子進行分類的數據集。谷歌剝離了每條帖子的上下文,並將其發送給印度的註釋員進行標註。熟悉美國互聯網文化的Surge AI員工發現,30%的標註是錯誤的。像“見鬼了,我的兄弟”這樣的帖子被歸類為“討厭”,而“涼爽麥當勞,我的最愛”則被歸入“喜愛”行列。
埃德溫表示,Surge AI會審查註釋員的資質,比如從事創意寫作任務的人是否有創意寫作的經驗,但具體如何尋找員工是“秘密”。與Remotasks一樣,工作人員通常必須完成培訓課程,儘管與Remotasks不同的是,培訓期間接受任務可以得到報酬。擁有更少、更訓練有素的員工,產生更高質量的數據,使得Surge AI的薪酬比同行更高,但他拒絕詳細說明,只說員工的工資是“公平、合乎道德水平”。這類註釋員的時薪在15美元到30美元之間,但他們只是所有註釋員中的一小部分,這個群體現在有10萬人。他解釋說,這種保密源於客戶的要求。
Surge AI的客戶包括OpenAI、谷歌、微軟、Meta和Anthropic。Surge AI專註於反饋和語言註釋,在ChatGPT推出后,它收到了大量的請求,埃德溫說:“我以為每個人都知道RLHF的力量,但我猜人們只是沒有從內心上理解。”
這些新模型令人印象深刻,它們激發了新一輪的預測,即註釋即將實現自動化。考慮到所涉及的費用,這樣做的財政壓力很大。Anthropic、Meta和其他公司最近在使用人工智能方面取得了長足的進步,減少了指導模型所需的人工註釋量,其他開發人員已經開始使用GPT-4來生成訓練數據。
然而,最近的一篇論文發現,經過GPT-4訓練的模型可能正在學習模仿GPT的權威風格,準確性更低。到目前為止,當人工智能的改進使一種形式的標註過時時,對其他更複雜類型的標註需求就會上升。今年早些時候,這場辯論公開化了,Scale AI的首席執行官在推特上說,他預測人工智能實驗室在人類數據上的投入將很快達到數十億美元,就像他們在算上的投入一樣。OpenAI首席執行官薩姆·奧特曼(Sam Altman)回應說,隨着人工智能的進步,數據需求將會減少。
埃德溫懷疑人工智能是否會達到不再需要人類反饋的程度,但他確實看到,隨着模型的改進,標註變得越來越困難。像許多研究人員一樣,他認為未來的道路將涉及人工智能系統幫助人類監督其他人工智能。Surge AI最近與Anthropic合作進行了一個概念驗證,讓人類註釋員在一個不可靠人工智能助手的幫助下回答關於一篇冗長文本的問題,其理論是人類必須感覺到他們人工智能助手的弱點,併合作推理找到正確答案。
另一種可能性是兩個人工智能相互辯論,然後由人類做出最終判斷。OpenAI研究科學家約翰·舒爾曼(John Schulman)最近在伯克利的一次演講中表示:“我們還沒有看到這種東西真正的實際應用潛力,但它開始變得必要,因為註釋員很難跟上模型的進步。”
埃德溫說:“我認為你總是需要一個人來監視人工智能在做什麼,就因為他們是這種外星人。機器學習系統太奇怪了,永遠不能完全信任。當今最令人印象深刻的模型有些在人類看來似乎非常奇怪的弱點。儘管GPT-4可以生成複雜而令人信服的文本,但它無法辨別出哪些詞是形容詞。”
隨着2022年的結束,喬開始從他的學生那裡聽說,他們的任務清單經常是空的。然後他收到一封电子郵件,通知他肯尼亞的訓練營即將關閉。他繼續在網上培訓任務,但他開始擔心未來。“
有跡象表明,這種情況不會持續太久,”喬說。註釋工作即將離開肯尼亞。從他在網上認識的同事那裡,他聽說這類任務要被送去尼泊爾、印度和菲律賓。喬說:“公司從一個地區轉移到另一個地區。他們在當地沒有基礎設施,因此可以靈活地轉移到運營成本對他們更有利的地方。”
人工智能行業與手機和汽車製造商的一個不同之處在於它的流動性。這項工作在不斷變化,不斷實現自動化,取而代之的是對新類型數據的新需求。這是一條流水線,但它可以不斷地、迅速地重新配置,移動到任何有合適技能、帶寬和薪資的地方。
最近,註釋任務薪水最高的工作回到美國。今年5月,Scale AI開始在自己的網站上列出註釋工作,招聘在人工智能有望征服的幾乎所有領域都有經驗的人。其中有些人工智能培訓師的名單,他們擁有健身教練、人力資源、金融、經濟、數據科學、編程、計算機科學、化學、生物、會計、稅務、營養、物理、旅遊、K-12教育、體育新聞和自助等領域的專業知識。
你可以教機器人學習法律,每小時可以賺45美元;教它們詩歌,每小時可以賺25美元。網站上還列出了招募有安全經驗的人,大概是為了幫助訓練軍事人工智能。Scale AI最近推出了一種名為Donovan的防禦語言模型,該公司高管將其稱為“人工智能戰爭中的彈藥”,並贏得了參与陸軍機器人戰鬥車輛項目的合同。
安娜仍在得克薩斯州訓練聊天機器人。同事們變成了評論者和Slack管理員,她不知道為什麼,但這給了她希望,這份工作可能是一份長期的職業。她不擔心的一件事是被自動化取代工作,她說:“我的意思是,聊天機器人能做很多驚人的事情,但它們也會做些非常奇怪的事情。”
Remotasks剛進入肯尼亞時,喬認為註釋可能是一份不錯的職業。即使在工作轉移到其他地方后,他也決心繼續從事這份工作。他推斷,內羅畢有成千上萬的人知道如何做這項工作。畢竟,他訓練了很多人。喬在城裡租了一間辦公室,開始尋找外包合同:一份是為一家建築公司標註設計圖的工作,另一份為某種農業項目標註被昆蟲破壞的水果,還有一份是為自動駕駛汽車和电子商務做標註的日常工作。
但喬發現,他的願景很難實現。他現在只有一名全職員工,而之前有兩名。他說:“我們一直沒有穩定的工作流程。”因為客戶還在收集數據,所以好幾周都無事可做。當客戶收集完數據后,他不得不引入短期承包商來滿足他們的最後期限:“客戶不在乎我們是否有持續的工作。只要數據集標註工作完成,那就沒問題了。”
為了不讓自己的技能被白白浪費掉,其他的任務執行者決定任務去哪裡,他們也去哪裡。他們租用代理服務器來掩飾自己的位置,購買假身份證來通過安全檢查,這樣他們就可以假裝在新加坡、荷蘭、密西西比州或任何任務流動的地方工作。這是一項有風險的業務。據多名任務執行者稱,Scale AI越來越积極地暫停那些被發現隱瞞位置的賬戶。“
這些天來,我們變得有點聰明了,因為我們注意到,在其他國家,他們的工資很高,”維克多說。他在馬來西亞工作的收入是肯尼亞的兩倍,但“你要謹慎行事”。
另一位肯尼亞註釋員說,在他的賬戶因神秘原因被封后,他決定不再按規則行事。現在,他在多個國家經營多個賬戶,在收入最高的地方執行任務。他說,多虧了ChatGPT,他工作速度很快,質量評分也很高。他說,這個機器人很棒,能讓他在幾分鐘內快速完成10美元的任務。