所有語言
分享
文章來源:夕小瑤科技說
作者 | 小戲
就在一年前,當我們帶着“嘗鮮”的想法註冊了 ChatGPT 的賬號,向那六個“花瓣”的圖標發送第一句“Hello”時,我們或許還無法想象一年後的我們已經開始可以期待無數科幻電影刻畫描述的“人形機器人”正在向我們走來。
是的,大模型經歷了 Chat 與 Agent 的瘋狂之後,隨着 Sora 作為所謂“世界模擬器”的出現,科研界與資本市場都不約而同的將目光投向了作為實體的 Robot,尤其是人形的 Humanoid Robot。
回想人類的進化歷程,我們先有了“身體”,才逐步在自然選擇之中進化出了“智能”,而從 2023 年伊始,大模型的發展似乎將智能的進化顛倒過來,作為“智能大腦”出現的大模型正在一步步的尋找自己的身體,2023 年下半年是“工具”,而 2024 年似乎直指“智能的身體”。
如果先不論 “xxx 是 xxx 元年”這種句式是否有畫餅之嫌,可以預想到的是,可能不同於 Chat 的聊天機器人,也不同於 Agent 的自動化助手,作為人形的機器人一旦出現並廣泛應用,將不單單是某一塊的所謂“智能產業”的變革或是對某個“機器人行業”造成衝擊,相反一種具有擬人,尤其是具備“生產力”屬性的“人造機器”的出現,將不單單是一種“增強生產力的技術”,而是作為“取代性技術”對世界政治、經濟乃至文化帶來變革。
那麼,回到問題之初,當下我們正歷經的 2024,真的有可能是人形機器人元年嗎?讓我們先從“人形機器人”這個問題出發。
如果隨意在路上拉一個沒有學過人工智能的人問“人工智能是什麼?”,可能一個最樸素的答案就是“讓計算機像人類一樣行事”。然而,人工智能這門學科從上世紀六十年代至今走過六十年,無論是從最初的 Rule-Based 的 AI 還是基於機器學習的 AI,亦或者是目前風光無限的基於大模型的 AI Agent,我們真的可以說現在計算機已經可以“像人類一樣行事”了嗎?
顯然,答案是否定的。
儘管我們看到 AI 一路走來,從最開始在最簡單的遊戲里頻頻失足,到 AlphaGO 完全摧毀圍棋,從在 28x28 的灰度圖上的完成的手寫数字識別,到目前遍布大街小巷在現實生活中無處不在的計算機視覺應用,乃至 ChatGPT 橫空出世,表現最佳的 GPT-4 甚至於被認為通過了圖靈測試。
但是無論這些算法如何神乎其技,我們都可以認為他們只是在一個由計算機構築的虛擬世界中完成了一系列的加減乘除,或許他們是一個“黑箱”,但是只要一個盒子那麼唯有存在一個人去將其“打開”,這個黑箱的功能才有用武之地,換言之,目前的 AI,似乎都缺乏了直接對我們身處的“物理世界”主動施加影響的能力。
而這一點“主體性”與“能動性”,卻構築了當下 AI 與“像人類一樣行事”之間巨大的鴻溝與壁壘。那麼如何讓 AI 從黑客帝國般的虛擬編碼中“解放”,現身於物理世界之中呢?機器人學家 Rodney Brooks 提出了一個口號:“智能需要一個身體”
早在上世紀八十年代,在機器人領域,Brooks 就提出了 Embodied 具身化的概念。具身這个中文似乎有點抽象,但是如果分析 Embody 的英語詞源可以發現 em(向內)組合body(身體),引申意即為“賦予有機體形式”。而對“智能”而言,一個真實存在於物理世界的“body” 即是一種“能力”,又是一種“限制”,body 賦予了智能與物理世界互動,影響甚至改變物理世界的能力,同時,body 的邊界也使得智能無法如 ChatGPT 一樣在網絡世界中近乎“無所不能”。
儘管這種“把機器人扔給真實世界,讓其通過感知、行動與試錯來獲取知識”的想法並非什麼靈光乍現的天才想法,但是真正要想讓機器人在真實世界中做的與人類一樣好,其複雜程度卻遠超人們一開始的設想。人類身體在上萬年的進化歷程之中,形成了一套完整的基於生物學的信息處理機制,譬如當人類完成上樓梯這個動作時,大腦可以精準的感知足部的受力快速找到合適的重心,再通過迅速的對全身肌肉進行調整,以保證重心穩定。
這樣一套在我們潛意識以外,由我們“訓練有素”的身體無意識完成的整套動作遷移到機器人場景中卻顯得格外複雜,對機器人而言在物理世界中可能成功完成某一任務的方式只有一種,但是失敗的方式卻有無數種,哪怕我們完整的模仿對人類身體的解剖學分析與並對可能的行為動作進行細緻的歸納與分類,但是這種自上而下有意識的“復現”似乎始終難以完美“模擬”生物細胞萬年進化習得的“本能”。
換言之,刻在我們身體的 DNA 內,我們的祖先似乎已經將一個“世界模型”寫入了我們的身體內,而當我們繼承這副身體,哪怕我們還處在混沌的無意識階段(譬如嬰兒),身體本身已經可以完成大量與現實世界進行互動的複雜動作,而建立在這些與物理世界互動的經驗之上,我們才能逐漸組織與習得如語言、知識、文化、意義等一系列被我們更常稱為“智能”的“上層建築”。
而人形機器人,或者說具身機器人真正的難點,就是在於構造這樣一副經過大自然千錘百鍊的“身體”,復現我們人類記錄於基因中的“世界模型”。
而這一條路走的似乎異常坎坷。
一般大家會認為,世界上第一台人形機器人誕生於 1969 年,由日本早稻田大學的加藤一郎教授開發的 WABOT-1 的 WL-5號兩足步行機,這個機器人由液壓驅動,可以實現兩足“行走”,但是行動異常緩慢,每步行走距離約為 15 厘米,大約需要 40 秒的時間。
1986 年,日本本田開始研製人形機器人 ASIMO,並於 2000 年發布第一代機型,對比 WABOT-1,這款身高 1.2 米,擁有宇航員造型的 ASIMO 機器人能夠流暢的做到雙腳直立行走,並且具有每小時 1.6 公里的時速。
2003年,日本工業技術研究院(AIST)推出了 HRP-1S,可以在工程机械的駕駛室內完成對操縱桿的操縱,同年,日本豐田發布“豐田音樂夥伴機器人”,實現了機器人吹喇叭、拉小提琴
2005年,本田升級 Asimo,在行走的基礎上第一次實現了一個可以進行“跑步”的機器人,速度達到 6km/h
2013年,美國波士頓動力公司的初代 Atlas 登場,這個後來讓波士頓動力公司遠近聞名的機器人高 1.8 米,重量約 150公斤,對比 Asimo,Atlas 具有更加出色的運動穩定性,即使被外力干擾 Atlas 也仍然可以保存平衡。
另一邊,從 2007 年到 2016 年,本田的 Asimo 先後實現了倒退走、單腿條,9km/h 奔跑,踢足球,打手語,倒水等一系列對協調性與精細程度要求更高的任務。
2017 年外后,Atlas 的運動能力也逐漸增強,從搬運物體,到跳躍、后空翻、倒立甚至於完成複雜的體操動作
2021 年,馬斯克在特斯拉 AI 日中首次提出“人形機器人商業化”的思路,並提出將在 22 年就要發布初代版本。
而很快 2022 年馬斯克沒有食言,推出了人形機器人 Optimus 的“初代機”,可以完成如搬運東西,給花澆水等的簡單任務。
直至 2023 年,波士頓動力展示了 Atlas 可以流暢的行走、與人類協作,完成指定任務等能力:
甚至於在 2023 年底,馬斯克發布的第二代 Optimus,其關節與動作的靈活性令人驚嘆“這是一個視頻!而不是一個 CG?”
然而,哪怕當下人形機器人的靈活性、運動能力已經足夠讓人浮想聯翩,但是正如馬斯克在發布 Optimus 的一代版本時指出的那樣:“現有的其他類人機器人「缺少大腦」”,而在第二代 Optimus 發布后,馬斯克也“誠實”的承認:“第二代 Optimus 並沒有自主執行如疊衣服這類操作的能力”
從 1969 到 2023,儘管從硬件上、從運動控制上、從目標遵循上具身機器人逐步擁有了一具更好的身體硬件,譬如肌肉,譬如神經。但是目前的人形機器人似乎仍然停留在“模仿人類一般行事”,而非“如人類一般行事”。在當下,具身機器人對世界的理解也似乎仍然停留在一個由工程師通過指令搭建的“規則世界”,而非機器人通過自我探索,自我建模而自我構築的“真實世界模型”。
然而,這一切在 2024 年或許將會發生改變。
換用當下許多媒體的說法:“2024 年將是機器人元年”,儘管許多媒體做出這一判斷的主要依據並不來源於技術,而是來源於資本市場的暗潮洶湧。2023 年 12 月,號稱「人形機器人第一股」的優必選上市,正式拉開今年機器人融資熱潮的序幕,今年 2 月,人形機器人公司 Figure AI 從亞馬遜、英偉達、微軟和 OpenAI 等多家巨頭公司獲得了新一輪約6.75 億美元(約合人民幣48.7億元)的融資。而在國內,根據电子發燒友的統計,從 2024 年 1 月 1 日至 3 月 20 日,國內機器人行業發生了 24 起融資事件,涉及人形機器人、手術機器人、工業機器人等多個領域。
所謂兵馬未動,糧草先行,資本市場突然眾星捧月機器人,一方面源於特斯拉在人形機器人領域飛速的技術迭代,讓資本突然看到了人形機器人大規模商業落地(無論是 B 端還是 C 端)的可能;而另一方面,可能也是更為重要的一方面在於,在 23 年大模型落地從 Chat 走向 Agent 后,又開始將目光轉向搭載 Agent 的“身體”,也就是人形機器人。
歸根結底,目前所有人期待的讓人形機器人從“模仿人類”走向“像人一樣”的點石成金的魔法仍然是大模型 LLMs。
3月19日,在英偉達的 GTC 大會上,除了超級芯片 GB200,英偉達還推出了一款用於機器人領域的通用基礎大模型 Project GR00T(Generalist Robot 00 Technology,通用機器人技術00)。這個名為格魯特的模型通過廣泛的學習多模態的知識,希望可以做到讓人形機器人通過行動學習與建模現實世界。在演講中,黃仁勛提到:“由 GR00T 驅動的機器人可以理解自然語言,並通過觀察人類動做出自然的模仿動作。”
而與此同時,英偉達而推出了旨在作為“機器人大腦”的 Jetson Thor 計算平台,以高性能和低功耗為核心,結合 Project GR00T,英偉達已經初步起草了一個未來人形機器人的“智能核心”。
然而,這還不夠。
在機器人領域,有一則著名的悖論莫拉維克悖論,它講“讓機器在下棋中展現出較高的水平是相對容易的,但是要讓機器有如小孩般的感知和行動能力卻非常困難”。
算力支持+大模型並無法為我們許諾一個讓人形機器人完美建模物理世界的未來,甚至於已經被 OpenAI 稱為世界模擬器的 Sora,也無法保證其未來真的可以作為一個“世界模型”而出現,其構建的逼真世界究竟仍然是一種精妙的偽裝還是已然內含對世界本質的理解我們仍然不得而知,而大模型究竟是否能夠“賦能”人形機器人,讓自回歸產生的“正確答案”變成行動上的“正確決策”,乃至變成如人類一樣與身俱來如條件反射一般的“先天能力”,或許我們還不得而知。
但是,如果我們換個角度更換一個提問方式,不再詢問“人工智能是什麼?”,而是提問“人工智能能為我們做什麼?”。那麼,正如我們知道 ChatGPT 不是人,但是我們仍然可以期待它去完成許多之前只能由人完成的事。從 2024 年開年往下,我們完全可以期待“算力支持+大模型+人形機器人”的組合在一切“與人相關”的領域內憑藉其高通用性與“人形”的高度自然性,以一種有別於大工廠机械臂的形態融入我們的社會。
而這一點,在 2024 年,我們可以從英偉達的 GR00T 項目中看到可能,也可以從特斯拉過去在“純視覺感知算法+電車硬件供應鏈”的優勢看到人形機器人大規模生產的可能,我們可以從 Figure AI 讓機器人在學習咖啡製作過程中主動學習到糾錯看到可能,也可以從斯坦福 3.2 萬美元造價成本的 Mobile ALOHA 上看到可能。
最後,如果我們把“2024 年將是人形機器人元年?”這一問題一分為二,2024 年人形機器人可以開啟一個新的基於“世界模型+具身智能”時代,構建如人一般的人形機器人嗎?我想這很難。但是 2024 年人形機器人會取得突破並開始逐漸走向我們的生活嗎?事實上,這個問題的答案已經是一個現在進行時了!