設為首頁 | 加入最愛 | 關於我們 | 聯繫我們 |

| 回首頁

Thursday, April 18, 2024

搜索

關閉 [X]

廣播電台

關閉 [X]

交通廣播 (大陸)
CRI環球資訊
 青蘋果音樂電台
 KAZN AM1300 國語電台 (洛杉磯)
KAZN AM1430 粵語電台 (洛杉磯)
CRI閩南語電台
 台北廣播電台
 寶島客家廣播電台

股票

關閉 [X]

新浪財經 (大陸)
奇摩股市 (臺灣)
雅虎財經 (香港)
臺灣證券交易所
 上海證券交易所
 深圳證券交易所

天氣

關閉 [X]

美國天氣 (英文)
天氣頻道 (英文)
奇摩氣象 (臺灣)
新浪天氣 (大陸)

體育

關閉 [X]

Yahoo Sports (美國)
球賽比分 (美國)
搜狐體育 (大陸)
ESPN Sports (美國)
奇摩運動 (台灣)
Yam運動 (台灣)
新浪競技風暴 (大陸)
FOX Sports (美國)
騰訊體育 (大陸)
HiNet運動 (台灣)

銀行

關閉 [X]

美國銀行
 富國銀行
 摩根大通銀行
 花旗銀行
 華美銀行
 國泰銀行
 保富銀行
 美富銀行
 美西銀行
 美國東亞銀行

購物

關閉 [X]

eBay
亞馬遜 Amazon
Overstock
沃爾瑪 Walmart
Eastbay
Staples
Footlocker
奇摩購物 (臺灣)
淘寶網 (大陸)

航班實況

關閉 [X]

洛杉磯國際機場 (LAX)
北京首都國際機場 (PEK)
台北桃園國際機場 (TPE)
香港國際機場 (HKG)
上海機場 (PVG、SHA)
高雄國際航空站 (KHH)
廣州白雲國際機場 (CAN)
紐約三大機場 (JFK,LGA,EWR)
溫哥華國際機場 (YVR)

電子郵箱

關閉 [X]

Gmail 郵箱
 Yahoo 郵箱
 Hotmail 郵箱
 Aol 郵箱
 163 郵箱 (大陸)
HiNet 電郵 (臺灣)
搜狐郵箱 (大陸)
PChome 電郵 (臺灣)
QQ 郵箱 (大陸)

健康

關閉 [X]

King Net 健康 (臺灣)
PChome 健康樂活 (臺灣)
健康諮詢 (臺灣)
減肥健康網 (臺灣)
中國疾病預防控制中心
 搜狐健康 (大陸)
39健康網 (大陸)
尋醫問藥網 (大陸)

星座運勢

關閉 [X]

新浪星座算命 (台灣)
騰訊星座頻道 (大陸)
TOM 星座 (大陸)
奇摩星座算命 (台灣)
Y28星相機玄 (台灣)
第一星座 (大陸)
Hinet命理 (台灣)
88say生活命理 (台灣)
易卦網 (大陸)
中國易經風水網 (大陸)

分享好友

關閉 [X]

分享至 Facebook
分享至 Twitter
分享至 Plurk
Google Bookmarks
收藏到 QQ 書籤
 張貼至 myshare
轉寄好友

社群網站

關閉 [X]

Facebook
Twitter
LinkedIn
Netlog
Hi5
MySpace
Google+
Weibo

我的設定

關閉 [X]

網速測試

搜尋

中文廣播

中文媒體

股票

天氣

體育

銀行

購物

生活易搜網

航班查詢

電子郵箱

健康

星座運勢

全球時間

翻譯

萬年曆

分享好友

社群網站

我的設定

公告欄

分享好友

焦點新聞美國台灣中國國際運動娛樂財經健康消費話題

只看手勢動作 AI 就能完美重現音樂

（綜合報導）會玩樂器的人在生活中簡直自帶光環！不過，學會一門樂器也真的很難，多少人陷入過從入門到放棄的死循環。但是，不會玩樂器，就真的不能演奏出好聽的音樂了嗎？
最近，麻省理工學院（MIT）聯合 MIT-IBM Watson 人工智慧（AI）實驗室（MIT-IBM Watson AI Lab）共同開發出了一款 AI 模型 Foley Music，它可以根據演奏手勢完美還原樂曲原聲！而且還是不分樂器的那種，小提琴、鋼琴、烏克麗麗、吉他，統統都可以。
只要拿起樂器，就是一場專業演奏會！如果喜歡不同音調，還可以對音樂風格進行編輯，A 調、F 調、G 調均可。
這項名為《Foley Music：Learning to Generate Music from Videos》的技術論文已被 ECCV 2020 收錄。
PS5 用 AI 彈奏音樂製作遊戲配樂

Sony 表示 PlayStation 5 會透過內建聲音處理器徹底革新遊戲的背景音樂，現在正積極開發以人工智慧推動的遊戲聲音處理器，能針對遊戲角色的狀態和玩家情緒，演奏更強烈／較柔和或不同主題的音樂。
外國有傳媒發現 Sony 申請「遊戲動態音樂創作」（Dynamic Music Creation in Gaming）專利，Sony 計劃使用機器學習分析節奏、旋律與和弦等不同元素，然後根據遊戲角色的狀態、玩家情緒，演奏出各種情感的音樂。
相信 Sony 初期會預先為特定遊戲角色、遊戲活動地點，甚至玩家個人風格，製作不同風格的音樂；音樂將根據 Sony 編定的條件，按照玩家從遊戲得到的感覺播放。

接下來，我們看看 AI 模型是如何還原音樂的？
如同為一段舞蹈配樂需要了解肢體動作、舞蹈風格一樣，為樂器演奏者配樂，同樣需要知道其手勢、動作以及所用樂器。
如果給定一段演奏影片，AI 會自動鎖定目標對象的身體關鍵點（Body Keypoints），以及演奏的樂器和聲音。
身體關鍵點：由 AI 系統中的視覺感知模組（Visual Perception Model）來完成。它會透過身體姿勢和手勢的兩項指標來反饋。一般身體會提取 25 個關鍵 2D 點、手指 21 個 2D 點。
樂器聲音提取：採用音頻表徵模組（Audio Representation Model），該模組研究人員提出了一種音樂數位介面（Musical Instrument Digital Interface，簡稱 MIDI）的音頻表徵形式。它是 Foley Music 區別於其他模型的關鍵。
研究人員介紹，對於一個 6 秒中的演奏影片，通常會生成大約 500 個 MIDI 事件，這些 MIDI 事件可以輕鬆導入到標準音樂合成器以生成音樂波形。
在完成資訊提取和處理後，接下來，視-聽模組（Visual-Audio Model）將整合所有資訊並轉化，生成最終相匹配的音樂。
我們先來看一下它的完整架構圖：主要由視覺編碼、MIDI 解碼和 MIDI 波形圖輸出 3 個部分構成。

視覺編碼：將視覺資訊進行編碼化處理，並傳遞給轉換器 MIDI 解碼器。從影片幀中提取關鍵坐標點，使用 GCN（Graph-CNN）捕獲人體動態隨時間變化產生的潛在表示。
MIDI 解碼器：透過 Graph-Transfomers 完成人體姿態特徵和 MIDI 事件之間的相關性進行建模。Transfomers 是基於編解碼器的自回歸生成模型，主要用於機器翻譯。在這裡，它可以根據人體特徵準確預測 MIDI 事件的序列。
MIDI 輸出：使用標準音頻合成器將 MIDI 事件轉換為最終的波形。
研究人員證實 Foley Music 遠優於現有其他模型。在對比試驗中，他們採用了 3 種數據集對 Foley Music 進行了訓練，並選擇了 9 種樂器，與其他 GAN-based、SampleRNN 和 WaveNet 3 種模型進行對比評估。
其中，數據集分別為 AtinPiano、MUSIC 及 URMP，涵蓋了超過 11 個類別的大約 1,000 個高品質的音樂演奏影片。樂器則為風琴、貝斯、低音管、大提琴、吉他、鋼琴、低音號、烏克麗麗和小提琴，其影片長度均為 6 秒。以下為定量評估結果：
可見，Foley Music 模型在貝斯（Bass）樂器演奏的預測性能最高達到 72%，而其他模型最高僅為 8%。

另外，從以下 4 個指標來看，結果更為突出：
正確性：生成的歌曲與影片內容之間的相關性。
噪音：音樂噪音最小。
同步性：歌曲在時間上與影片內容最一致。

黃色為 Foley Music 模型，它在各項指標上的性能表現遠遠超過其他模型，在正確性、噪音和同步性三項指標上最高均超過了 0.6，其他最高不足 0.4，且 9 種樂器均是如此。
另外，研究人員還發現，與其他基準系統相比，MIDI 事件有助於改善聲音品質、語義對齊和時間同步。
說明
GAN 模型：它以人體特徵為輸入，透過鑑別其判定其姿態特徵所產生的頻譜圖是真或是假，經過反覆訓練後，透過傅立葉逆變換將頻譜圖轉換為音頻波形。
SampleRNN：是無條件的端到端神經音頻生成模型，它相較於 WaveNet 結構更簡單，在樣本級層面生成語音要更快。
WaveNet：是 Google Deepmind 推出的一款語音生成模型，在 text-to-speech 和語音生成方面表現很好。
另外，該模型的優勢還在於它的可擴展性。MIDI 表示是完全可解釋和透明的，因此可以對預測的 MIDI 序列進行編輯，以生成 A、G、F 調不同風格音樂。如果使用波形或者頻譜圖做為音頻表示形式的模型，這個功能是不可實現的。

最後研究人員在論文中表明，此項研究透過人體關鍵點和 MIDI 表示很好地建立視覺和音樂信號之間的相關性，實現了音樂風格的可拓展性。為當前研究影片和音樂聯繫拓展出一種更好的研究路徑。