文字可生成音樂！Meta發布的AI工具AudioCraft有何不同之處？

2023-08-03 08:44:50來源：金融界

財聯社8月3日訊（編輯牛占林）美東時間周三，Meta發布了一款開源人工智能(AI)工具AudioCraft(直譯為音頻技藝)，該工具可以幫助用戶根據文本提示創作音樂和音頻。

(資料圖片僅供參考)

（來源：Meta官網）

Meta表示，這款人工智能工具將AudioGen、EnCodec和MusicGen三種模型或技術融為一爐，可用文本內容生成高質量、逼真的音頻和音樂。

Meta在官網介紹稱，MusicGen接受過Meta擁有的和特別授權的音樂訓練，可以從文本提示生成音樂，而AudioGen接受過公共音效訓練，可從文本提示生成音頻，比如模擬狗叫或腳步聲；再加上EnCodec編解碼器的改進版本，用戶可以更高效率地生成更高質量的音樂。

在6月初，Meta推出了名為MusicGen的開源人工智能模型，這是一種深度學習語言模型，可以根據文本提示生成音樂。

Meta的EnCodec是一個基于深度學習的音頻編解碼器，由人工智能驅動，可以在音頻質量沒有損失的前提下，將音頻壓縮到比MP3格式還要小10倍的程度。

AudioGen則是一個來自Meta和耶路撒冷希伯來大學的研究團隊的人工智能模型，可以通過輸入文本來生成音頻，亦可以擴展現有音頻。AudioGen可以區分不同的聲音對象，并在聲學上將它們分開。

Meta還演示了MusicGen和AudioGen工作的流程圖，并表示將讓這些模型開源，讓研究人員和從業人員可以用自己的數據集訓練適合自己的模型，并幫助推進人工智能生成音頻和音樂領域的發展。

與其他音樂模型相比，AudioCraft系列模型能夠生成長期一致的高質量音樂和音頻，還簡化了音頻生成模型的整體設計，使得該工具簡單易用。

Meta相信它的模型可以引領新一波歌曲潮流，就像合成器改變音樂一樣。“我們認為MusicGen可以變成一種新型的樂器，就像最初出現的合成器一樣。”

當然，Meta也承認創作復雜而又優秀的音樂還是比較困難的，因此它選擇將AudioCraft開源，以使用于訓練它的數據多樣化。

今年早些時候，谷歌也發布了名為MusicLM的音樂生成模型，并于5月向上月向所有用戶開放。除此之外，目前較為常見的音樂模型還有Riffusion、Mousai和Noise2Music等。