李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

金色财经_readCrypto9天前

來源：量子位

就在剛剛，李飛飛空間智能首個項目突然發布：

僅憑藉1張圖，就能生成一個3D遊戲世界的AI系統！

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

重點在於，生成的3D世界具有交互性。

能夠像玩遊戲那樣，自由地移動相機來探索這個3D世界，淺景深、希區柯克變焦等操作均可行。

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

隨便輸入一張圖：

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

除了這張圖本體，可探索的3D世界里，所有東西都是AI生成的：

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

這些場景在瀏覽器中實時渲染，配備了可控的攝像機效果和可調節的模擬景深（DoF）。

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

你甚至可以改變其中物體顏色，動態調整背景光影，在場景中插入其他對象。

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

此外，之前大多數生成模型預測的是像素，而這個AI系統直接預測3D場景。

所以場景在你移開視線再回來時不會發生變化，並且遵循基本的3D幾何物理規則。

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

網友們直接炸開鍋，評論區“難以置信”一詞直接刷屏。

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

其中不乏Shopify創始人Tobi Lutke等知名人士點贊：

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

還有不少網友認為這直接為VR打開了新世界。

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

官方則表示“這僅僅是3D原生生成AI未來的一個縮影”：

我們正在努力儘快將這項技術交到用戶手中！

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

李飛飛本人也第一時間分享了這項成果並表示：

無論怎麼理論化這個想法，用語言很難描述通過一張照片或一句話生成的3D場景互動的體驗，希望大家喜歡。

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

目前候補名單申請已開啟，有內容創作者已經用上了。

羡慕的口水不爭氣地從眼角落了下來。

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

官方博文表示，今天，World labs邁出了通往空間智能的第一步：

發布一個從單張圖片生成3D世界的AI系統。
Beyond the input image, all is generated。

而且是輸入任何圖片。

而且是能夠互動的3D世界——用戶可以通過W/A/S/D鍵來控制上下左右視角，或者用鼠標拖動畫面來逛這個生成的世界。

官網博文中放了很多個可以試玩的demo。

這次真的推薦大家都去試玩一下，上手體驗和看視頻or動圖的感受非常的不一樣。

（直通車按慣例，放在文末）

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

好，問題來了，這個AI系統生成的3D世界還有什麼值得探究的細節之處？

攝影機效果

World Labs表示，一旦生成，這個3D世界就會在瀏覽器中實時渲染，給人的感覺跟在看一個虛擬攝像頭似的。

而且，用戶能夠精準地控制這個攝像頭。

所謂“精準控制”，有2種玩法，

一是能夠模擬景深效果，也就是只能清晰對焦距離相機一定距離的物體。

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

二是能模擬滑動變焦（Dolly Zoom），也就是電影拍攝技巧中非常經典的希區柯克變焦。

它的特點是“鏡頭中的主體大小不變，而背景大小改變”。

很多驢友去西藏、新疆玩兒的時候都希望用希區柯克變焦拍視頻，有很強的視覺衝擊力。

在World Labs展示中，效果如下（不過在這個玩法里，沒辦法控制視角）：

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

3D效果

World Labs表示，大多數生成模型預測的都是像素，與它們不同，咱這個AI預測的是3D場景。

官方博文羅列了三點好處：

第一，持久現實。

一旦生成一個世界，它就會一直存在。

不會因為你看向別的視角，再看回來，原視角的場景就會改變了。

第二，實時控制。

生成場景后，用戶可以通過鍵盤或鼠標控制，實時在這個3D世界暢遊移動。

你甚至可以仔細觀察一朵花的細節，或者在某個地方暗中觀察，用上帝視角注意這個世界的一舉一動。

第三，遵循正確的幾何規則。

這個AI系統生成的世界，是遵守3D集合物理基本規則的。

某些AI生成的視頻，雖然效果很夢核，但可沒有咱的這種深度的真實感喲（doge）。

官方博文中還寫道，創造一個可視化3D場景，最簡單的辦法是繪製深度圖。

圖中每個像素的顏色，都是由它和攝像頭的距離來決定的。

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

當然了，用戶可以使用3D場景結構來構建互動效果——

單擊就能與場景互了，包括但不限於突然給場景打個聚光燈。

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

動畫效果？

那也是so easy啦。

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

走進繪畫世界

團隊還玩兒了一把，以“全新的方式”體驗一些經典的藝術作品。

全新，不僅在於可互動的交互方式，還在於就靠輸入進去的那一張圖，就能補全原畫里沒有的部分。

然後變成3D世界。

這是梵高的《夜晚露天咖啡座》：

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

這是愛德華·霍普的《夜行者》：

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

創造性的工作流

團隊表示，3D世界生成可以非常自然地和其它AI工具相‍結合。

這讓創作者們可以用他們已經用順手的工具感受新的工作流體驗。

舉個栗子：

可以先用文生圖模型，從文本世界來到圖像世界。

因為不同模型有各自擅長的風格特點，3D世界可以把這些風格遷徙、繼承過來。

在同一prompt下，輸入不同風格的文生圖模型生成的圖片，可以誕生不同的3D世界：

一個充滿活力的卡通風格青少年卧室，床上鋪着五彩斑斕的毯子，桌子上雜亂地擺放着電腦，牆上掛着海報，散落着運動器材。一把吉他靠在牆上，中間鋪着一塊舒適的花紋地毯。窗戶透進的光線給房間增添了一絲溫暖和青春的氣息。

World Labs和空間智能

“World Labs”公司，由斯坦福大學教授、AI教母李飛飛在今年4月創立。

這也是她被曝出的首次創業。

而她的創業方向是一個新概念——空間智能，即：

視覺化為洞察；看見成為理解；理解導致行動。

在李飛飛看來，這是“解決人工智能難題的關鍵拼圖”。

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則

只用了3個月時間，公司就突破了10億美元估值，成為新晉獨角獸。

公開資料显示，a16z、NEA和Radical Ventures是領投方，Adobe、AMD、Databricks，以及老黃的英偉達也都在投資者之列。

個人投資者中也不乏大佬：Karpathy、Jeff Dean、Hinton……

今年5月，李飛飛有一場公開的15分鐘TED演講。

她洋洋洒洒，分享了對於空間智能的更多思考，要點包括：

視覺能力被認為引發了寒武紀大爆發——一個動物物種大量進入化石記錄的時期。最初是被動體驗，簡單讓光線進入的定位，很快變得更加主動，神經系統開始進化……這些變化催生了智能。
多年來，我一直在說拍照和理解不是一回事。今天，我想再補充一點：僅僅看是不夠的。看，是為了行動和學習。
如果我們想讓AI超越當前能力，我們不僅想要能夠看到和說話的AI，我們還想要能夠行動的AI。空間智能的最新里程碑是，教計算機看到、學習、行動，並學習看到和行動得更好。
隨着空間智能的加速進步，一個新時代在這個良性循環中正在我們眼前展開。這種循環正在催化機器人學習，這是任何需要理解和與3D世界互動的具身智能系統的關鍵組成部分。

據報道，該公司的目標客戶包括視頻遊戲開發商和電影製片廠。除了互動場景之外，World Labs還計劃開發一些對藝術家、設計師、開發人員、電影製作人和工程師等專業人士有用的工具。

如今伴隨着空間智能首個項目的發布，他們要做的事也逐漸具象化了起來。

但World Labs表示，目前發布的只是一個“早期預覽”：

我們正在努力改進我們生成的世界的規模和逼真度，並嘗試新的方式讓用戶與之互動。

參考鏈接：

[1]https://www.worldlabs.ai/blog

[2]https://mp.weixin.qq.com/s/3MWUv3Qs7l-Eg9A9_3SnOA?token=965382502&lang=zh_CN

[3]https://x.com/theworldlabs/status/1863617989549109328

免責聲明：本文版權歸屬原作所有，僅代表作者本人觀點，不代表YouToCoin的觀點或立場，文章內容僅供參考，不構成投資建議。投資者據此操作，風險自擔；如有關於內容、版權等問題，請與我們聯繫。

李飛飛空間智能首秀：AI靠單圖生成3D世界 可探索 遵循基本物理幾何規則

World Labs和空間智能

熱門交易所

李飛飛空間智能首秀：AI靠單圖生成3D世界可探索遵循基本物理幾何規則