Thursday, April 18, 2024  

 華人今日網 chinesedaily.com
  中國日報 台灣時報 電子報 房屋出租 求才招聘 房屋裝修 二手車
  南加社區新聞 吃遍南加 玩遍南加 南加人物 華商大全 FB好友 LINE好友
 

 

搜尋
股票
天氣
體育
銀行
購物
航班查詢
電子郵箱
健康
星座運勢
分享好友
社群網站
我的設定

分享好友

焦點新聞 美國台灣 中國 國際 運動 娛樂 財經 健康 消費 話題

 

只看手勢動作 AI 就能完美重現音樂


(綜合報導)會玩樂器的人在生活中簡直自帶光環!不過,學會一門樂器也真的很難,多少人陷入過從入門到放棄的死循環。但是,不會玩樂器,就真的不能演奏出好聽的音樂了嗎?
最近,麻省理工學院(MIT)聯合 MIT-IBM Watson 人工智慧(AI)實驗室(MIT-IBM Watson AI Lab)共同開發出了一款 AI 模型 Foley Music,它可以根據演奏手勢完美還原樂曲原聲!而且還是不分樂器的那種,小提琴、鋼琴、烏克麗麗、吉他,統統都可以。
只要拿起樂器,就是一場專業演奏會!如果喜歡不同音調,還可以對音樂風格進行編輯,A 調、F 調、G 調均可。
這項名為《Foley Music:Learning to Generate Music from Videos》的技術論文已被 ECCV 2020 收錄。
PS5 用 AI 彈奏音樂製作遊戲配樂

Sony 表示 PlayStation 5 會透過內建聲音處理器徹底革新遊戲的背景音樂,現在正積極開發以人工智慧推動的遊戲聲音處理器,能針對遊戲角色的狀態和玩家情緒,演奏更強烈/較柔和或不同主題的音樂。
外國有傳媒發現 Sony 申請「遊戲動態音樂創作」(Dynamic Music Creation in Gaming)專利,Sony 計劃使用機器學習分析節奏、旋律與和弦等不同元素,然後根據遊戲角色的狀態、玩家情緒,演奏出各種情感的音樂。
相信 Sony 初期會預先為特定遊戲角色、遊戲活動地點,甚至玩家個人風格,製作不同風格的音樂;音樂將根據 Sony 編定的條件,按照玩家從遊戲得到的感覺播放。

接下來,我們看看 AI 模型是如何還原音樂的?
如同為一段舞蹈配樂需要了解肢體動作、舞蹈風格一樣,為樂器演奏者配樂,同樣需要知道其手勢、動作以及所用樂器。
如果給定一段演奏影片,AI 會自動鎖定目標對象的身體關鍵點(Body Keypoints),以及演奏的樂器和聲音。
身體關鍵點:由 AI 系統中的視覺感知模組(Visual Perception Model)來完成。它會透過身體姿勢和手勢的兩項指標來反饋。一般身體會提取 25 個關鍵 2D 點、手指 21 個 2D 點。
樂器聲音提取:採用音頻表徵模組(Audio Representation Model),該模組研究人員提出了一種音樂數位介面(Musical Instrument Digital Interface,簡稱 MIDI)的音頻表徵形式。它是 Foley Music 區別於其他模型的關鍵。
研究人員介紹,對於一個 6 秒中的演奏影片,通常會生成大約 500 個 MIDI 事件,這些 MIDI 事件可以輕鬆導入到標準音樂合成器以生成音樂波形。
在完成資訊提取和處理後,接下來,視-聽模組(Visual-Audio Model)將整合所有資訊並轉化,生成最終相匹配的音樂。
我們先來看一下它的完整架構圖:主要由視覺編碼、MIDI 解碼和 MIDI 波形圖輸出 3 個部分構成。

視覺編碼:將視覺資訊進行編碼化處理,並傳遞給轉換器 MIDI 解碼器。從影片幀中提取關鍵坐標點,使用 GCN(Graph-CNN)捕獲人體動態隨時間變化產生的潛在表示。
MIDI 解碼器:透過 Graph-Transfomers 完成人體姿態特徵和 MIDI 事件之間的相關性進行建模。Transfomers 是基於編解碼器的自回歸生成模型,主要用於機器翻譯。在這裡,它可以根據人體特徵準確預測 MIDI 事件的序列。
MIDI 輸出:使用標準音頻合成器將 MIDI 事件轉換為最終的波形。
研究人員證實 Foley Music 遠優於現有其他模型。在對比試驗中,他們採用了 3 種數據集對 Foley Music 進行了訓練,並選擇了 9 種樂器,與其他 GAN-based、SampleRNN 和 WaveNet 3 種模型進行對比評估。
其中,數據集分別為 AtinPiano、MUSIC 及 URMP,涵蓋了超過 11 個類別的大約 1,000 個高品質的音樂演奏影片。樂器則為風琴、貝斯、低音管、大提琴、吉他、鋼琴、低音號、烏克麗麗和小提琴,其影片長度均為 6 秒。以下為定量評估結果:
可見,Foley Music 模型在貝斯(Bass)樂器演奏的預測性能最高達到 72%,而其他模型最高僅為 8%。

另外,從以下 4 個指標來看,結果更為突出:
正確性:生成的歌曲與影片內容之間的相關性。
噪音:音樂噪音最小。
同步性:歌曲在時間上與影片內容最一致。

黃色為 Foley Music 模型,它在各項指標上的性能表現遠遠超過其他模型,在正確性、噪音和同步性三項指標上最高均超過了 0.6,其他最高不足 0.4,且 9 種樂器均是如此。
另外,研究人員還發現,與其他基準系統相比,MIDI 事件有助於改善聲音品質、語義對齊和時間同步。
說明
GAN 模型:它以人體特徵為輸入,透過鑑別其判定其姿態特徵所產生的頻譜圖是真或是假,經過反覆訓練後,透過傅立葉逆變換將頻譜圖轉換為音頻波形。
SampleRNN:是無條件的端到端神經音頻生成模型,它相較於 WaveNet 結構更簡單,在樣本級層面生成語音要更快。
WaveNet:是 Google Deepmind 推出的一款語音生成模型,在 text-to-speech 和語音生成方面表現很好。
另外,該模型的優勢還在於它的可擴展性。MIDI 表示是完全可解釋和透明的,因此可以對預測的 MIDI 序列進行編輯,以生成 A、G、F 調不同風格音樂。如果使用波形或者頻譜圖做為音頻表示形式的模型,這個功能是不可實現的。

最後研究人員在論文中表明,此項研究透過人體關鍵點和 MIDI 表示很好地建立視覺和音樂信號之間的相關性,實現了音樂風格的可拓展性。為當前研究影片和音樂聯繫拓展出一種更好的研究路徑。

相關美國新聞 >>

加州眾院失業聽證會 議員猛轟就業局

非洲獅伴侶鶼鰈情深 結伴長眠 (圖)

洛僑中心主任張皓鈞拜會華埠服務中心 (圖)

經文處新處長黃敏境抵洛 僑民接機歡迎 (圖)

抓到了!推特眾多名人帳戶遭入侵 駭客竟是一名17歲少年!

美國夏令營學員都沒戴口罩 至少260人染疫 (圖)

通用汽車、充電業者:增加700座電動車快充站

TikTok恐遭美禁用 微軟洽談收購

加州確診破50萬人 全球單日近30萬人染疫 (圖)

口罩五花八門 疾管中心要求趨嚴 (圖)

未滿18歲新冠死亡 加州出現首例 (圖)

疫情重創 比佛利山莊Ruth’s Chris牛排店也倒下 (圖)

洛縣疫情喜見起色 三大曲線呈下降 (圖)

洛縣、橙縣7月31日新冠疫情

洛縣公共衛生部首發手機簡訊版疫情調查問卷 (圖)

女共諜被捕前崩潰 從使館被載去就醫後落網 (圖)

孟晚舟引渡美國受審 加國司法部長:已達條件 (圖)

中國官方力挺孟晚舟避提女共諜 網友嘆:人分貴賤

馬斯克憂心AI 再過 5 年會狂勝人類 (圖)

美軍運用VR模擬射擊 降低頭部傷害 (圖)

華裔老少命案疑家庭糾紛種禍 (圖)

百度熱浪週末再次襲擊南加州 (圖)

天使國家公園關閉步道營地救火

洛縣新球場將創造3000多個工作

首頁 > 美國新聞

聯繫我們