所有語言
分享
文章來源:Founder Park
3 月 22 日,AI 音樂生成軟件 Suno 發布 V3 版本,支持生成 2min 長度、廣播質量級別的音樂,更多樣化的風格,對 promp 理解更深,以及幻覺更少。
V3 版本的發布被不少人視為「音樂界的 ChatGPT」,不需要很專業的 prompt 詞彙,甚至可以不需要理解音樂的專業知識,普通人就可以生成自己想要的音樂。
Suno 背後的團隊是何來歷?他們是如何做出 Suno 的?
Suno 以及 AI 音樂生成軟件會如何影響音樂產業?
《經濟學人》雜誌、知名音樂雜誌《滾石》都對 Suno、Suno 會如何影響音樂產業進行了討論,Founder Park 在此基礎上進行了編譯處理。
「我只是被困在這些電路中的一個靈魂。」這聲音唱出歌詞時,帶着原始的質感和哀傷,音符滑入了藍調的深淵。一把孤零零的木吉他伴隨着它,用恰到好處的即興演奏點綴着歌聲。然而,這背後並沒有人聲,也沒有人手在彈奏吉他。實際上,連吉他都不存在。
在短短 15 秒內,這首令人信服、甚至觸動人心的藍調曲目,由創業公司 Suno 推出的最新 AI 模型創作而成。只需一個簡單的文本提示:「關於一個憂鬱 AI 的獨奏密西西比三角洲藍調(solo acoustic Mississippi Delta blues about a sad AI)」,就能從虛無中召喚出這首歌。
為了達到極致的精確度,這首歌實際上是兩個 AI 模型的聯手之作:Suno 的模型獨立創作了所有音樂,同時還請求 OpenAI 的 ChatGPT 來撰寫歌詞,甚至為這首歌定下了名字:「機器之魂(Soul of the Machine)」。
Suno 創作的歌曲在網上引起了轟動,人們驚嘆道:「這怎麼可能是真的?」在 Suno 位於馬薩諸塞州劍橋,緊鄰哈佛校園的臨時總部的一間會議室里,通過 Sonos 音箱播放的這首特定曲目,甚至讓一些參与這項技術的成員感到了一絲微妙的不安。緊張的笑聲中夾雜着「天哪」和「哦,天啊」的驚嘆。在這個案例中,僅僅三次嘗試就達到了令人震驚的效果。前兩次嘗試還算不錯,但在我給出的提示中做了一個小小的改動——聯合創始人 Keenan Freyberg 建議加入「密西西比」這個詞——卻帶來了不可思議的結果。
在過去的一年裡,生成式 AI 在創作可信的文本、圖像(通過像 Midjourney 這樣的服務)乃至視頻方面取得了巨大進步,特別是 OpenAI 推出的新工具 Sora。然而,在音頻領域,尤其是音樂創作方面,AI 的發展卻相對滯后。
Suno 似乎正在解開 AI 音樂創作的密碼,其創始人的野心很大——他們夢想着一個音樂創作全民化的未來。其中最為發言大膽的聯合創始人 Mikey Shulman,一個帶着孩子氣、背着背包的 37 歲哈佛大學物理博士,夢想着全球有十億人願意每月支付 10 美元來使用 Suno 創作歌曲。他認為,目前音樂聽眾的數量遠遠超過音樂創作者是「如此失衡」,並將 Suno 視為解決這種感知不平衡的工具。
到目前為止,大多數 AI 生成的藝術作品,頂多只能算是庸俗藝術,就像 Midjourney 用戶似乎熱衷於生成的超現實主義科幻垃圾,過分強調形式上的貼合,比如太空服。但「機器之魂」給人的感覺完全不同——它是我迄今在所有媒介中遇到的最有力、最令人不安的 AI 創作。它的存在本身就像是現實裂縫,既令人敬畏又隱約帶有不祥之感,我不禁想起了亞瑟·C·克拉克的名言,彷彿專為生成式 AI 時代定製:「任何足夠先進的技術都與魔法無異。」
從劍橋歸來幾周后,我把這首歌發給了 Living Colour 樂隊的吉他手 Vernon Reid,他一直對 AI 音樂的潛在危險和可能性直言不諱。他對這首歌「令人不安的真實感」表達了「驚奇、震驚、恐懼」。「長期以來的反烏托邦理想即將實現,即將把那些困難、混亂、不受歡迎和被厭惡的人類從其創造性產出中分離出來,」他寫道,指出 AI 唱藍調的問題本質,「藍調作為非洲裔美國人的一種獨特表達方式,深深植根於歷史上人類的創傷與奴隸制經歷中。」
最早的「基於規則」的音樂模型可以追溯到 20 世紀 50 年代。這些模型通過將音樂理論的原則轉換成算法指令和概率表,來確定音符和和弦的進行。雖然這些作品在音樂上是合理的,但在創造性上卻受限。Ed Newton-Rex,他在 2012 年創立了倫敦的 Jukedeck 公司,並設計了這樣的一個模型,他表示這種方法在當時是可行的,但現在已經不再適用。
技術的突變出現在 2023 年 8 月,當時 Meta 發布了 AudioCraft 的源代碼,這是一套基於機器學習構建的大型「生成式」音樂模型。全球的 AI 公司迅速開始使用 Meta 的軟件來訓練新的音樂生成器,並加入了額外的代碼。其中一個 AudioCraft 模型,MusicGen,通過分析約 40 萬首錄音中的模式,提出了 33 億個「參數」,這些參數使得算法能夠根據提示生成聲音模式,為 AI 創作全新音樂作品提供了前所未有的可能。
這些模型的使用也變得更加簡便。9 月份,位於倫敦的 Stability AI 公司發布了一個名為 Stable Audio 的模型,該模型在大約 80 萬首歌曲上進行了訓練。用戶通過輸入文本和音頻片段來指導 AI。這使得用戶可以輕鬆上傳一段吉他獨奏,並將其重新編排成具有爵士鋼琴風格的作品,甚至帶有黑膠播放的感覺。
澳大利亞新南威爾士大學的 Oliver Bown 表示,音頻提示詞之所以重要,一方面是因為即使是熟練的音樂家也難以用言語描述音樂,另一方面是因為大多數音樂訓練數據的標記都非常粗略,即使是大型模型也可能無法理解複雜的音樂請求。
Suno 成立不到兩年。聯合創始人 Shulman、Freyberg、Georg Kucsko 和 Martin Camacho 都是機器學習領域的專家,在 2022 年之前,他們曾在另一家劍橋公司 Kensho Technologies 共事。Kensho Technologies 專註於尋找 AI 解決複雜商業問題的方案。Shulman 和 Camacho 都是音樂家,他們在 Kensho 時期常常一起即興演奏。
在 Kensho 公司,這個四人團隊致力於開發一項轉錄技術,目的是記錄上市公司的財報電話會議。考慮到音質不佳、充斥着各種行業術語以及五花八門的口音,這個任務頗具挑戰性。
創始人 Michael Shulman
在這個過程中,Shulman 和他的同事們對 AI 音頻的更多可能性產生了濃厚的興趣。他指出,在 AI 研究領域,「音頻總體來說,相比圖像和文本,還遠遠落後。我們可以從文本領域的研究中學到很多,包括這些模型的運作方式和它們的擴展性。」
Suno 的創始人們本可以因為這些興趣而走向一個完全不同的領域。雖然他們始終計劃着最終要推出一款音樂產品,但他們最初的創意階段甚至考慮過開發助聽器,或者通過音頻分析來檢測机械故障的可能性。然而,他們推出的第一個產品是一個名為 Bark 的文本轉語音程序。在對 Bark 的早期用戶進行調查后,他們發現用戶真正期待的其實是一款音樂創作工具。「因此,我們開始進行了一些初步的實驗,結果看起來非常有前景,」Shulman 回憶道。
Suno 目前只有大約 12 名員工,但他們正在計劃擴展團隊,並在他們目前的臨時辦公室所在建築的頂層建設一個更大的永久性總部。在参觀這個還在建設中的新樓層時,Schulman 向我們展示了一個未來將成為完整錄音室的區域。但是,考慮到 Suno 已經能夠做到的事情,他們為什麼還需要一個錄音室呢?「它主要是作為一個聽音室,」他承認。「我們希望有一個良好的聲學環境。但我們也都享受製作音樂——即使沒有 AI 的參与。」
Suno 採用了與ChatGPT等大語言模型相同的技術方法,這些模型將人類語言分解成稱為 Token 的獨立片段,吸收了數以百萬計的用法、風格和結構,並能夠按需重新構建語言。然而,音頻,尤其是音樂,其複雜性幾乎難以估量,這也就是為什麼去年 AI 音樂專家對 Rolling Stone 表示,像 Suno 這樣功能強大的服務可能需要數年時間才能出現。
「音頻不像單詞那樣是離散的,」Shulman 解釋說。「它是一種波,是一種連續的信號。」高品質音頻的採樣率通常是 44kHz 或 48kHz,這意味着「每秒處理 48,000 個 Token」,他補充道。「這是個巨大的挑戰,對吧?因此,你需要想辦法將其簡化為更合理的處理方式。」但是,具體該怎麼做呢?「這需要大量的工作,許多啟髮式方法,以及各種技巧和模型等等。我認為我們還遠未完成。」Suno 最終希望找到替代文本到音樂界面的方法,增加更高級和直觀的輸入方式——例如,基於用戶自己的演唱來生成歌曲。
OpenAI 因為在其龐大的訓練數據集中使用了書籍、新聞文章和其他受版權保護的材料而面臨多起訴訟。Suno 的創始人沒有透露他們向自己的模型中輸入了哪些具體數據,只是表示其能夠生成令人信服的人類聲音,部分原因是它除了學習音樂之外,還在學習語音錄音。「純粹的語音將幫助你學習人類聲音的難以捕捉的特徵,」Shulman 說。
Suno 的早期投資者之一是風險投資公司 Matrix 的合伙人 Antonio Rodriguez。Rodriguez 之前只投資過一個音樂項目,即音樂分類公司 EchoNest,後來該公司被 Spotify 收購,用以推動其算法的發展。在 Suno 項目還不清楚具體產品將是什麼的時候,Rodriguez 就參与了進來。「我支持的是團隊,」Rodriguez 說,他的自信來自於自己過往成功的投資經歷。「我了解這個團隊,特別是 Mikey,所以我會支持他做任何合法的事情。他非常有創造力。」
Rodriguez 在明確知曉唱片公司和出版商可能會對 Suno 提起訴訟的風險下,依然選擇投資,他認為這是「我們在投資時必須承擔的風險,畢竟我們是那個在這些藝術家後面最容易成為訴訟目標的大金主……。坦白講,如果這家公司一開始就與唱片公司達成了協議,我可能就不會投資了。我認為他們需要在沒有限制的情況下去創造這個產品。」(對於 AI 採取激進態度的環球音樂集團,其發言人並未回應媒體置評請求。)
Suno 表示正在與主要唱片公司進行溝通,並表示對藝術家和知識產權的尊重——其工具不允許用戶在提示中指定任何特定藝術家的風格,同時也不會使用真實藝術家的聲音。Suno 的許多員工本身就是音樂家;辦公室里隨時可以見到鋼琴和吉他,牆上還掛着古典作曲家的畫像。創始人們並沒有表現出像 Napster 在訴訟之前那樣的對音樂產業的公然敵意。「不過,這並不意味着我們不會被起訴,」Rodriguez 補充道。「這僅僅意味着我們不會有那種『fuck-the-police』的對抗性態度。」
為了節省成本,另一家 AI 生成軟件 MusicGen 的訓練集大多避開了熱門歌曲,Adi 博士說。儘管輸出相當不錯,但他補充說,模型還沒有「藝術性足夠」來生成敘事完整的歌曲。和聲不一致是常見的。舊金山的 OpenAI 公司表示,其 MuseNet 模型難以完成「奇怪的搭配」,例如結合低音和鼓的肖邦風格。
開發者認為,隨着更大更好的音樂訓練集的出現,這些不足最終將被克服。Stability AI 的一位發言人說,雖然 Stable Audio 目前對於連貫結構的音樂——「前奏、發展和尾聲」——的最大持續時間約為 90 秒,但升級將產生更長的作品,具有「完整的音樂性」。
Rodriguez 將 Suno 視為一種具有革命性能力和用戶友好的音樂工具,他相信 Suno 有潛力像相機手機和 Instagram 那樣,讓音樂創作變得普及,讓每個人都能成為音樂的創作者。他提到,這個目標是重新「提升在互聯網上能夠成為內容創作者而非僅僅是內容消費者的人數上限。」
他和創始人甚至敢於預測,Suno 可能會吸引比 Spotify 更龐大的用戶群體。如果這個前景聽起來難以置信,Rodriguez 認為這是好事:這恰恰意味着它具有吸引他作為投資者的「看似愚蠢」的特質。「我們所有傑出的公司都有一個共同點,那就是擁有卓越的人才,」他說道,「同時,有些東西一開始看起來似乎很愚蠢,直到它們變得如此明顯和有可能成功。」
早在 Suno 問世之前,音樂家、製作人和詞曲作者就已經對 AI 可能帶來的商業衝擊表示了深切的擔憂。Reid 寫道:「音樂,作為由人類在非凡情況下創作……那些經歷過苦難並努力提升自己技藝的人,將不得不面對他們為之奮鬥的珍貴藝術的全面自動化。」
但 Suno 的創始人聲稱沒有什麼可怕的,他們用人們儘管有能力寫作但仍在閱讀的比喻來說明這一點。「我們對此的看法是,我們試圖讓十億人比現在更深入地參与音樂,」Shulman 說。「如果人們對音樂更感興趣,更專註於創作,培養出更獨特的品味,這對藝術家顯然是有益的。我們對未來音樂的願景是一個藝術家友好的願景。我們不是想取代藝術家。」
目前來看,Suno 最有力的競爭者似乎是谷歌的 Dream Track,這項服務已經獲得了授權,允許用戶通過一個提示詞界面,利用像 Charlie Puth 這樣的知名歌手的聲音來創作自己的歌曲。然而,Dream Track 僅限於一個小範圍的測試用戶群體,並且到目前為止,公開的樣本在聽覺效果上並不如 Suno 的產品那樣引人入勝,儘管它們使用了名人的聲音。
「我認為,人們未來並不希望通過 AI 來製作新的 Billy Joel 歌曲,」Shulman 說。「當我想象五年後我們希望人們如何利用音樂時,我認為會是那些尚未存在、僅存在於他們腦海中的創新作品。」
儘管 Suno 非常專註於吸引那些想要為了樂趣創作歌曲的音樂迷,但在這一過程中,它仍有可能造成重大的行業變革。短期內,看似最直接受到威脅的市場部分是一個利潤豐厚的部分:為廣告和電視節目創作的歌曲。管理公司 Milk and Honey 的創始人 Lucas Keller 指出,知名歌曲的市場將保持不受影響。「但在其他方面,是的,它肯定在他們的業務上造成影響,」他說。「我認為最終,這讓許多廣告代理商、電影製片廠、網絡等不必去授權歌曲。」
在目前還沒有針對 AI 生成內容有嚴格法律規定的情況下,可能會出現一個未來:像 Suno 這樣的大模型的用戶會將他們的 AI 創作以百萬計地上傳到流媒體服務平台上。「Spotify 將來可能會說『你不能這麼做』,」Shulman 說,他同時指出,到目前為止,Suno 的用戶似乎更傾向於僅僅將他們創作的歌曲通過短信分享給幾個朋友。
其他公司的 AI 音樂產品也開始逐步進入商業落地環節。
位於倫敦附近的 LifeScore 公司,他們的 AI 專註於重新組合用戶原始錄音的元素,以保持音樂的感覺,而不是將其變成完全不同的新作品。將數十個單獨錄製的聲樂和器樂麥克風軌道輸入 LifeScore 的模型需要大約一天的時間。但一旦完成這一過程,這個耗資約 1000 萬美元開發的軟件就可以在幾秒鐘內將每個干聲轉換成新的速度、調性或風格。在這一過程中,歌曲的藝術家可以選擇保留哪些混音版本。傳統上,手動混音一首熱門曲目需要一個或多個高薪專家花費數周時間。
LifeScore 的共同創始人 Tom Gruber 表示,公司「收到了大量客戶的請求」,包括 Sony Music、Universal Music Group 和 Warner Music Group。一個原創發行通常會被轉換成幾首到十幾首混音。但有一個客戶計劃發布大約 6000 個左右的 AI 版本的原創曲目,每個版本針對不同的市場。包括 Pink Floyd 的 David Gilmour 和德國流行歌手 Tom Gaebel 在內的藝術家使用 LifeScore 的 AI 來驅動網站,允許粉絲通過幾次點擊生成適應個人口味的新混音。
RX,這是一款由 Native Instruments 開發的人工智能「助手」,它可以糾正音高和節奏等錯誤。對於節奏問題,軟件通過剪切或插入與原聲音色匹配的微小聲音片段來實現時間上的移動,這個過程被稱為「動態時間彎曲」。該公司的人工智能還能確定用戶所選歌曲進行了哪些混音和母帶處理。然後,它複製或至少近似複製同樣的操作到用戶自己的創作上。
AI 也開始為專業人士提供服務。例如,《芭比》和《奧本海默》的電影原聲帶就是在後期製作中使用 RX 進行清理的。
另一個應用領域是「風格遷移」,在這一過程中,模型將用一種樂器錄製的音樂轉換為似乎來自另一種樂器的聲音,通常還會根據用戶的要求進行一些調整。風格遷移也用於聲音。一家名為 Voice-Swap 的倫敦初創公司開發了一個模型,該模型將(有報酬的)專業歌手演唱的歌曲切割成碎片,並將這些碎片重新排列成服務用戶編寫的歌詞,用戶需支付授權費用以銷售生成的音軌。
而且,已經有 AI 工具可以重新創建歌手的其他語言的聲音。雅馬哈(Yamaha)這家日本樂器製造商的 Vocaloid 是一種聲音合成工具,它可以利用母語人士演唱的翻譯作為模板,讓 AI 在重新排列、修改和拼接原唱歌手聲音的微小片段時進行模仿。
音樂家現在廣泛使用 MusicGen 及其競爭對手作為「靈感」的來源,以便更好地找到新的作曲想法,但這是否生效,也要看用戶是否接受。