所有語言
分享
文章來源:極客公園
音樂創作從此觸手可及。
作者 | 連冉
編輯 | 鄭玄
AI 音樂最近火到發燙。
首先是三月下旬,美國 AI 初創公司 Suno 發布 V3 音樂生成模型,該模型能夠在幾秒鐘內根據輸入的提示詞生成兩分鐘的高質量音頻,驚艷的效果讓行業相信 AI 音樂已經迎來了自己的「ChatGPT 時刻」。
緊接着,一個月後,國內的崑崙萬維宣布推出「天工SkyMusic」音樂生成大模型,其評分超越 Suno V3,成為 AI 音樂生成模型最新 SOTA(State of the Art,指當前技術在本領域技術指標全球第一)。
這引起了極客公園的好奇。客觀來說,今天中美在 AI 大模型的基礎研发上還存在着一定差距。即使細分領域的垂直模型,如此自信地宣稱全球領先的團隊並不多見。
此外,音樂作為多模態領域中的重要組成部分,有着不菲的產業價值。全球錄製音樂市場一年的總收入近 300 億美元,而相關的演唱會、BGM、KTV 和線上的短視頻、K 歌平台等更是每年數千億美元的市場規模。AI 的介入必然帶來生產側和消費側的全面革新,其潛在影響不會亞於数字音樂和流媒體的興起。
因此在 4 月 17 日「天工SkyMusic」正式上線后,我們第一時間下載並體驗了這款軟件。以下是我們的體驗感受,以及對 AI 音樂未來發展的一點想法。
01/「天工SkyMusic」:
一段歌詞,幾秒生成
三首不同風格的歌曲
從產品設計角度來看,「天工SkyMusic」與「Suno V3」在多個方面相似,但在一些關鍵細節上還是有明顯的不同。
使用「天工SkyMusic」生成音樂,需要輸入歌名、歌詞,同時可以通過添加段落信息,比如「主歌」、「副歌」、「前奏」等進行微調——這些都與 Suno 的操作相似。
兩者最大的不同在於:Suno 要求用戶輸入歌曲風格,如流行、爵士或說唱;而「天工SkyMusic」則允許選擇參考曲目,可以來自其他用戶上傳過的歌曲,也支持自己上傳。
這個功能非常有用。一方面,相比於泛泛的「風格」,「曲目」提供了更精確的定向,這更有助於生成自己想要的音樂。
從實際使用體驗來看,如果缺少專業樂理訓練,普通用戶很難精準描述歌曲風格——想象一下,該用什麼語言描述《夜的第七章》?因此,像「天工SkyMusic」這樣能夠在瀏覽並傾聽原音樂時找到與自己歌詞契合的風格,這比使用自然語言描述能夠更好地表達音樂需求,也更契合普通用戶的音樂創作的場景。
輸入歌詞、歌名和參考曲目以後,就可以直接生成音樂。「天工SkyMusic」會一次性生成三首風格、唱腔略有不同的歌曲——這是一個很實用的產品設計。不論是「Suno V3」還是「天工SkyMusic」,儘管今天 AI 音樂雖然已經能生成出一定水準的音樂,但穩定性還有待提升,三首里往往只有一首還算不錯,而想要得到更好的音樂,除了需要做好歌詞分段等微調,更需要反覆嘗試。
除了寫好歌詞生成歌曲以外,「天工SkyMusic」也支持 AI 寫詞。如上所示,上面這首《夏天的風》就是我們用「AI 寫詞」和「生成歌曲」完成創作的歌曲。這首歌的旋律還不錯,但由於沒有給歌詞分段,整首歌聽下來缺少了一點音調變化。
我嘗試在蘇軾的《水調歌頭》里加上分段,這次生成的歌曲就有了明顯的情感變化,尤其是唱到「人有悲歡離合,月有陰晴圓缺」這樣的副歌高潮段落時,感染力十足。
如果生成了滿意的歌曲,用戶還可以選擇「投稿」發布到「天工SkyMusic」平台,以及支持分享到其他社交媒體平台。在首頁,我聽了一些點贊比較多的熱門生成音樂,其中不乏一些質量上乘的作品,乍一聽幾乎無法辨別其為 AI 生成——當然仔細分辨的話,還是能在一些細節處理上看到與專業作品的差距。
事實上,許多專業音樂人對「天工SkyMusic」也有不低的評價。例如,B 站 UP 主 @Metalion,一名職業音樂人,他嘗試了用自己的舊歌詞生成,並試聽了主頁其他人發布的熱門 AI 歌曲,其中有好幾首都給出了「還不錯」、「像是一首完整的歌曲」這種不低的評價。
整體體驗下來,我感覺「天工SkyMusic」的音樂生成能力至少在音樂初學者以上,但生成速度遠不是人類可比,而且大量的音樂作品中不乏一些相對完整甚至局部驚艷的優秀作品。當然,目前 AI 音樂模型的能力還無法實現整首歌曲從頭到尾都保持穩定品質,也無法像真正的音樂人那樣細緻打磨作品。
然而,就目前的技術水平而言,「天工SkyMusic」已是一款能為用戶帶來實際價值的優秀產品。通過降低音樂創作門檻,如「模仿曲目」、「一次生成三首」和「選擇發布」這些細節設計,大模型已經可以讓普通人也能夠輕鬆享受創造音樂、分享音樂的快樂,人人都能以歌明志。
而隨着大模型繼續迭代,產品和功能繼續豐富,未來一兩年,AI 音樂還有更多的可能性。
02/AI 音樂,會走向何方
談完對產品的體驗,最後我們來聊聊基於這次體驗,我們可以看到的一些對 AI 音樂行業未來發展的觀察。
在「天工 3.0」和「天工SkyMusic」的媒體溝通會上,崑崙萬維董事長兼 CEO 方漢在接受媒體採訪時說,他認為 AI 音樂創作工具未來會有兩個分化:面向 PGC 和面向小白的 UGC 用戶。UGC 基本上是一鍵生成,方便為主;PGC 就相對複雜,「天工SkyMusic」也會在後續加入曲調調整等更專業的音樂工具。
「天工SkyMusic」這樣的產品,今天對 UGC 和 PGC 而言都有一定的價值,並在可預見的未來,技術會向兩個不同的方向持續迭代。
對於普通 UGC 用戶,AI 音樂生成主要提供的還是娛樂價值。音樂創作是情感表達的一種形式,即使是非專業人士也有創作的需求。以往,技術門檻如詞曲創作和音樂理論是主要障礙,而 AI 技術的引入,相當於為他們提供了一個強大的「音樂創作外骨骼」,使得任何人都能創作出心中所想的音樂並通過社交媒體進行分享。
當然,當前 AI 音樂平台操作依然複雜,用戶需手動進行歌詞分段和微調,且生成的音質不夠穩定。而隨着技術的持續迭代,這些問題相信很快就會得到解決。正如微博和抖音在文章和視頻創作領域所引發的革命一樣,一個去中心化的音樂創作平台可能將徹底改變人們的音樂創作和消費方式。
對於專業人士的 PGC 用戶而言,儘管今天的 AI 音樂工具尚不能完全替代人類創作者,但已經開始成為一個極具價值的輔助工具。
首先是創意激發。目前 AI 音樂大模型創作穩定性還不夠,但是速度快,對於陷入瓶頸的創作者,AI 可以成為一個很好的創意啟發工具。方漢也列舉了一個技術團隊與專業創作者溝通后的場景,他們認為「天工SkyMusic」有一個特別有價值的地方:就是跨區域風格靈感激發。例如,中國音樂人通常對非洲和拉美音樂不甚了解,但通過使用「天工SkyMusic」,他們可以輕鬆探索並融合這些異域文化的曲調,從而在創作中獲得新的靈感。
還有一個很有價值的場景在於小樣。在很多商務創作的溝通場合,尤其是一些音樂人和非音樂人的溝通(比如做廣告 BGM 時,編曲和廣告主溝通),很大的麻煩在於如何對齊雙方對作品方向的理解。而有了 AI 之後,可以很容易地生成一個相對精準地小樣兒,這能節省大量的溝通時間以及降低後續返工的風險。
從實用性的角度來看,今天需要用到音樂的行業非常多,比較典型的就是短視頻、影視和遊戲製作,而傳統音樂創作不僅成本高昂還費時費力,把 AI 引入到這些行業的音樂生產流程,任何效率的提升都有可能帶來巨大的產業價值。
在內容創作領域,誰能最快適應技術變革,誰就可能獲得最大的利益,這一點在短視頻領域已經有過驗證。隨着手機攝像頭、5G、以及視頻剪輯 APP 的崛起,視頻拍攝製作門檻不斷降低,最終伴隨着抖音的全球走紅,短視頻賽道全面崛起,拉開一場新時代的大幕。
而今天,在 AI 音樂乃至所有 AIGC 平台上,歷史可能再次重演。