所有語言
分享
文章來源:遠川科技評論
2021年的特斯拉AI Day,特斯拉PPT首發了人形機器人Tesla Bot的概念機設計方案。按照馬斯克畫的大餅,Tesla Bot可以完全代替人類“從事重複性/無聊的工作”。
也許是擔心在場觀眾干看PPT無聊,馬斯克請來了一位身着緊身衣的皮套人,模仿Tesla Bot尬舞了一段。
AI Day結束,科技媒體The Verge表示,馬斯克的Tesla Bot就是個笑話[1]。文章還援引中央蘭開夏大學機器人工程教授Carl Berry的評價:說它是馬糞都算抬舉它了(horse shit sounds generous, frankly)。
Carl Berry還專門搬出機器人領域的網紅公司波士頓動力,認為後者正在踏踏實實的做事,而特斯拉在加深公眾對機器人不切實際的幻想。
今年4月,特斯拉的皮套人尬舞再度被拉出來鞭屍。在波士頓動力展示新款機器人的視頻中,機器人以一種靈活到有些詭異的方式從地上站起來。
波士頓動力也在推特上陰陽怪氣了一句:“我們保證這不是一個穿着緊身衣的人。”
事情的起因是,波士頓動力宣布11歲“高齡”的人形機器人Atlas正式退休——Atlas算得上是初代機器人網紅,它被波士頓動力員工一棍子撂倒,接着踉踉蹌蹌爬起來的視頻,一度引發了“停止霸凌機器人”的后現代哲學思考。
結果Atlas領退休金的第一天,“煥新版”Atlas正式出道。最大的變化是,波士頓動力拋棄了原有的液壓結構,改為電機驅動。
目前,“煥新版”Atlas的宣傳片已經在YouTube上收穫了500多萬播放量。
相比Atlas熟悉的后空翻大劈叉,相較之下,去年年底的第二代Tesla Bot才剛學會緩慢行走和90度深蹲。
加上馬斯克近幾年大餅畫的太多,也不難理解The Verge會提出“機器人為什麼要像人”的質疑。
然而,可能恰恰是2021年PPT上的Tesla Bot和滑稽的皮套人尬舞,決定了波士頓動力的命運。
谷歌發現了什麼?
相比荒誕開場的Tesla Bot,波士頓動力這家公司是機器人領域根正苗紅的祖師爺。
波士頓動力成立於1992年,前身是麻省理工學院的腿部實驗室,長期致力於有腿機器人的研究。
2012年,DARPA(美國國防高級研究計劃局)為了推動機器人研究,資助了一場機器人挑戰賽,波士頓動力由此進入美國軍方的視野。
DARPA是五角大樓旗下的研究機構,和NASA一起誕生於美蘇爭霸的白熱化時期,目的是藉助國家意志確保美國在高科技領域的領先。只不過NASA負責地球以外,DARPA負責地球以內。過去幾十年間,DARPA直接或間接的推動了GPS、互聯網等技術的誕生。
2012年,正值DARPA在機器人、自動駕駛等領域大力投資,為了降低參賽門檻,DARPA希望能有一款標準化的人形機器人,供參賽團隊編程。
在這之前,波士頓動力已經為DARPA開發了多款產品,比如外型神似野豬的LS3,能夠穿梭於各種極端戰場環境,快速運送物資。
2013年7月,在DARPA的資助下,波士頓動力打造出了身高1.88米,重達150千克的初代Atlas。這個新聞很快傳到了谷歌的耳朵里,波士頓動力的命運隨之改變。
當時,谷歌正在秘密籌備一個代號為“Replicant(複製人)”的機器人項目,由“安卓之父”安迪·魯賓親自帶隊。按照魯賓的設想,谷歌將打造一個編程平台,從而推動機器人普及,最終在機器人身上復刻安卓系統的成功[3]。
為了這個龐大計劃,谷歌瘋狂掃貨,一口氣收購了九家機器人初創公司,Atlas問世不到半年,波士頓動力就被谷歌收入囊中。此後,Atlas的迭代速度也坐上了火箭。
2016年,波士頓動力毫無徵兆的發布了一則新款Atlas的演示視頻,視頻中Atlas熟練的行走跳躍,尤其是被推倒在地后,仍能自主起身繼續完成工作,整個過程栩栩如生,帶給公眾的震撼不亞於2022年底ChatGPT的問世。
目前,這條視頻的Youtube播放量已經積累到了4059萬。2017年,Atlas再接再厲,用一個精彩的后空翻再度把波士頓動力送上全球熱搜。
然而,就在波士頓動力風頭正盛的2017年,投資了五年之久的谷歌卻將其甩賣。按照彭博的說法,谷歌管理層的核心分歧在於商業化。
波士頓動力希望埋頭研究,但谷歌希望儘快打造能商業化的產品:“我們不可能用30%的資源去投入一個需要10年以上的項目[4]。”
在彭博的報道中,豐田和亞馬遜都是潛在的買家,但波士頓動力最終被賣給了軟銀,2020年又被賣給了韓國現代。
谷歌內部,安迪·魯賓因性醜聞被掃地出門,Replicant項目也草草收場,劃上一個滿是遺憾的句號。
一家明星公司在當打之年被潦草脫手,谷歌內部真實的決策過程難以知曉。但在這個過程中起到決定性作用的,很可能是2017年發生在谷歌內部的另一件事。
我來組成頭部
2017年6月,谷歌的8位AI科學家聯名發表了一篇名為《Attention Is All You Need》的論文。這是繼2012年AlexNet勇奪ImageNet挑戰賽冠軍之後,人工智能發展史上的又一個裡程碑事件。
谷歌的科學家在論文里提出了一種“注意力機制”,並基於此開發一個名叫Transformer(變形金剛)的深度學習模型,解決了傳統RNN模型的一系列問題。
2020年,谷歌又提出了Vision Transformer ( ViT )概念,賦予了Transformer處理圖像的能力。
隨着Transformer一口氣解決了眾多缺陷,它漸漸發展成了AGI領域的唯一解。
2012年的AlexNet讓AI有了“感知”的能力,而Transformer和之後的大模型讓AI有了“生成”的能力。換句話說,2012年的AI可以識別出各種各樣的貓,2017年之後的AI已經可以自己生成貓的圖片了。
因此,Transformer的推出直接開啟了今天的大模型時代,2018年6月,OpenAI推出了基於Transformer模型的GPT-1,GPT里的“T”,就是Transformer的首字母。此後,OpenAI沿着這條路線持續迭代,並基於GPT模型開發了ChatGPT。
在大模型百花齊放的同時,Transformer也為人形機器人的進步打開了一扇窗戶。
傳統機器人大多基於特定的規劃執行特定的操作,比如運輸、分揀,不具備感知和決策能力。人形機器人不僅能與物理世界交互,還有感知和理解能力。
舉一個不太恰當但好理解的例子:送餐機器人執行“把外賣送到1203號房”這個任務時,並不理解什麼是“外賣”和“1203號房”,只是根據軟件系統既定的指令和路線規劃完成任務。
但人形機器人可以藉由智能化,理解物理世界各種物體、語言和文字的含義,並自主規劃和決策。也就是說,機器人可以不依賴預先的編程,就能完成諸如“關掉最上層抽屜”等較為模糊的指令。
波士頓動力的問題在於,無論Atlas的机械與動力結構多麼優秀,都無法解決“窮舉法”的問題。
Atlas的軟件原理是通過攝像頭與傳感器輸入外界環境數據,再根據提前創建的行為庫,執行對應的動作。在其官方的文檔里,波士頓動力坦誠了這麼做的弊端:
“如果盒子向一側移動了0.5 米,那麼Atlas會找到並完成跳躍;如果盒子移動得太遠,那麼系統將停止[5]。”
由於Atlas的所有動作都依賴提前設計的模版,那麼真實環境的一點點變化,都可能讓機器人無所適從。這也是為什麼傳統機器人只被用於環境、路線和職能極度固定的工廠、酒店送餐等場景。
而Transformer帶來的思路是,只要讓機器學習足夠多的數據,就能擁有類人的智能,可以脫離預設的規劃進行自主決策。
去年7月《紐約時報》探班谷歌實驗室, 完整記錄了基於RT-2模型的機器人智能閃現的瞬間:
桌子上放着一堆塑料玩具,工程師讓單臂機器人“撿起滅絕的動物”,機器人拿起了恐龍。
這意味着機器人不僅能識別三種動物,也能理解“滅絕的動物”的含義,還可以完成具體的操作。
Transformer的出現徹底改變了機器人的技術路徑,在感知-決策-執行的完整鏈條中,核心能力不再是驅動機器人後空翻大劈叉的机械結構,而是組成機器人大腦的軟件算法。
人工智能的進步在各行各業上演着軟件對硬件的奪權,機器人只是其中之一。
另一個正在由軟件定義的行業是自動駕駛,這也是為什麼馬斯克會說:當你能解決自動駕駛,你就能解決現實世界中的人工智能。
特斯拉的三張牌
特斯拉在AI世界的出場,常常呈現某種荒誕不經的色彩。
2022年特斯拉備受期待的Tesla Bot第一次“真人”亮相,居然要依靠三名壯漢攙扶。兩個月後ChatGPT橫空出世,Tesla Bot成了一塊無人問津的背景板。
然而,特斯拉在機器人領域的積累,可能比任何一家公司都要深厚。
自動駕駛本質上是機器人的一個“前置產業”,兩者的核心都是基於人工智能,實現感知-決策-執行的完整鏈條。
這就意味着無論是軟件層面的算法,還是硬件層面的視覺傳感器、FSD芯片等零部件,理論上都可以用於人形機器人。
特斯拉也的確是這麼做的:Tesla Bot共配置有3顆攝像頭,左右眼各一個,外加一顆魚眼廣角。芯片是和特斯拉電動車一模一樣的FSD自動駕駛芯片。軟件上,Tesla Bot也承襲了自動駕駛的技術方案。
2023年特斯拉股東大會,馬斯克也確認了這一點:特斯拉已經打通了自動駕駛芯片FSD和機器人的底層模塊,實現了一定程度的算法復用。
任何人工智能的發展都需要算法、算力、數據三駕馬車來拉動,算法決定了計算機用什麼方式識別事物;但算法又需要足夠大的算力來驅動;同時,算法的提升又需要大規模高質量的數據;三者相輔相成,缺一不可。
算法和算力層面,特斯拉已經藉助電動車業務,完成了從雲端(D1)到終端(FSD),核心軟硬件的自研。
數據層面,2022年的AI Day上,特斯拉宣稱已經存儲的有價值訓練數據集有23.2萬幀,驗證數據集0.38萬幀。上百萬車主正在源源不斷的為算法訓練貢獻着數據。
馬斯克本人在AI領域的涉足也常被忽略,他是OpenAI的創始人之一,也是DeepMind的早期投資人。他參与的人工智能公司還有腦機芯片Neuralink、聊天機器人Grok。特斯拉每天接受並處理的視頻畫面超過1600億幀,這很可能是商業公司能擁有的最大的真實世界數據集。
波士頓動力很可能意識到了這個問題,但“煥新版”Atlas最大的改變,是從液壓改為全電動,最大的好處可能是降低成本。
在一次採訪中,創始人Marc Raibert曾表示Atlas在一定程度上激勵了馬斯克制造Tesla Bot的想法。但在人工智能殘酷的競爭中,波士頓動力已經落後太多。
波士頓動力的問題在於,他們用了20年的時間試圖教會機器人如何“運動”,但實際上,機器人應該先學會“思考”。
或許在不久的將來,判斷機器人的智能化程度,可能不是看它會不會後空翻大劈叉,而是能不能從九張圖片中選出包含紅綠燈或摩托車的圖片,或者滑動滑塊使圖片位於正確的角度。