2023-07-03 10:05:20來源:機(jī)器之心
AI 參與的語音世界真神奇,既可以將一個(gè)人的語音換成任何其他人的語音,也可以與動(dòng)物之間的語音互換。
我們知道,語音轉(zhuǎn)換的目標(biāo)是將源語音轉(zhuǎn)換為目標(biāo)語音,并保持內(nèi)容不變。最近的任意到任意(any-to-any)語音轉(zhuǎn)換方法提高了自然度和說話者相似度,但復(fù)雜性卻大大增加了。這意味著訓(xùn)練和推理的成本變得更高,使得改進(jìn)效果難以評估和建立。
(相關(guān)資料圖)
問題來了,高質(zhì)量的語音轉(zhuǎn)換需要復(fù)雜性嗎?在近日南非斯坦陵布什大學(xué)的一篇論文中,幾位研究者探究了這個(gè)問題。
論文地址:https://arxiv.org/pdf/2305.18975.pdfGitHub 地址:https://bshall.github.io/knn-vc/研究亮點(diǎn)在于:他們引入了 K 最近鄰語音轉(zhuǎn)換(kNN-VC),一種簡單而強(qiáng)大的任意到任意語音轉(zhuǎn)換方法。在過程中不訓(xùn)練顯式轉(zhuǎn)換模型,而是簡單地使用了 K 最近鄰回歸。
具體而言,研究者首先使用自監(jiān)督語音表示模型來提取源話語和參照話語的特征序列,然后通過將源表示的每個(gè)幀替換為參照中的最近鄰來轉(zhuǎn)換成目標(biāo)說話者,最后使用神經(jīng)聲碼器對轉(zhuǎn)換后的特征進(jìn)行合成以獲得轉(zhuǎn)換后的語音。
從結(jié)果來看,盡管 KNN-VC 很簡單,但與幾個(gè)基線語音轉(zhuǎn)換系統(tǒng)相比,它在主觀和客觀評估中都能媲美甚至提高了清晰度和說話者相似度。
我們來欣賞一下 KNN-VC 語音轉(zhuǎn)換的效果。先來看人聲轉(zhuǎn)換,將 KNN-VC 應(yīng)用于 LibriSpeech 數(shù)據(jù)集中未見過的源說話者和目標(biāo)說話者。
源語音00:11
合成語音100:11
合成語音200:11
KNN-VC 還支持了跨語言語音轉(zhuǎn)換,比如西班牙語到德語、德語到日語、漢語到西班牙語。
源漢語00:08
目標(biāo)西班牙語00:05
合成語音300:08
更令人稱奇的是,KNN-VC 還能將人聲與狗吠聲互換。
源狗吠00:09
源人聲00:05
合成語音400:08
合成語音500:05
我們接下來看 KNN-VC 如何運(yùn)行以及與其他 jixian 方法的比較結(jié)果。
方法概覽及實(shí)驗(yàn)結(jié)果kNN-VC 的架構(gòu)圖如下所示,遵循了編碼器 - 轉(zhuǎn)換器 - 聲碼器結(jié)構(gòu)。首先編碼器提取源語音和參照語音的自監(jiān)督表示,然后轉(zhuǎn)換器將每個(gè)源幀映射到參照中它們的最近鄰,最后聲碼器根據(jù)轉(zhuǎn)換后的特征生成音頻波形。
其中編碼器采用 WavLM,轉(zhuǎn)化器采用 K 最近鄰回歸、聲碼器采用 HiFiGAN。唯一需要訓(xùn)練的組件是聲碼器。
對于 WavLM 編碼器,研究者只使用預(yù)訓(xùn)練的 WavLM-Large 模型,并在文中不對它做任何訓(xùn)練。對于 kNN 轉(zhuǎn)換模型,kNN 是非參數(shù),不需要任何訓(xùn)練。對于 HiFiGAN 聲碼器,采用原始 HiFiGAN 作者的 repo 對 WavLM 特征進(jìn)行聲碼處理,成為唯一需要訓(xùn)練的部分。
圖片
在實(shí)驗(yàn)中,研究者首先將 KNN-VC 與其他基線方法進(jìn)行比較,使用了最大可用目標(biāo)數(shù)據(jù)(每個(gè)說話者大約 8 分鐘的音頻)來測試語音轉(zhuǎn)換系統(tǒng)。
對于 KNN-VC,研究者使用所有目標(biāo)數(shù)據(jù)作為匹配集。對于基線方法,他們對每個(gè)目標(biāo)話語的說話者嵌入求平均。
下表 1 報(bào)告了每個(gè)模型的清晰度、自然度和說話者相似度的結(jié)果??梢钥吹?,kNN-VC 實(shí)現(xiàn)了與最佳基線 FreeVC 相似的自然度和清晰度,但說話者相似度卻顯著提高了。這也印證了本文的論斷:高質(zhì)量的語音轉(zhuǎn)換不需要增加復(fù)雜性。
此外,研究者想要了解有多少改進(jìn)得益于在預(yù)匹配數(shù)據(jù)上訓(xùn)練的 HiFi-GAN,以及目標(biāo)說話者數(shù)據(jù)大小對清晰度和說話者相似度的影響有多大。
下圖 2 展示了兩種 HiFi-GAN 變體在不同目標(biāo)說話者大小時(shí)的 WER(越小越好)和 EER(越高越好)關(guān)系圖。
圖片
網(wǎng)友熱評對于這個(gè)「僅利用最近鄰」的語音轉(zhuǎn)換新方法 kNN-VC,有人認(rèn)為,文中使用了預(yù)訓(xùn)練語音模型,因此用「僅」不太準(zhǔn)確。但不可否認(rèn),kNN-VC 仍然要比其他模型簡單。
結(jié)果也證明了,與非常復(fù)雜的任意到任意語音轉(zhuǎn)換方法相比,kNN-VC 即便不是最好,也同樣有效。
圖片
還有人表示,人聲與狗吠互換的例子非常有趣。
圖片
關(guān)鍵詞:
AI參與的語音世界真神奇,既可以將一個(gè)人的語音換成任何其他人的語音,
在我們之前設(shè)計(jì)的一個(gè)供應(yīng)鏈系統(tǒng)中,它包含了商品、銷售訂單、加盟商、
這個(gè)周末,對于推特用戶來說挺鬧心的。為此,馬斯克還專門出來解釋,稱
ChatGPT出現(xiàn)后,人們預(yù)測「所有行業(yè)都要通過AI進(jìn)行重塑」,有些工作會(huì)
最近,大型語言模型獲得了前所未有的關(guān)注度。在更迭迅速的情況下,開源
picopico怎么發(fā)視頻動(dòng)態(tài)PicoPico發(fā)布圖文說說方法,
游戲中有各種各樣的策略你需要知道。只有知道了策略,才能快速取得游戲
南向資金對港股通標(biāo)的股的整體持股比例為%,123只個(gè)股南向資金持股比例
不久之前,有位讀者問了一個(gè)關(guān)于insertintentionwaiting的問題,回答過
JUC-輔助類JUC(java util concurrent)是在Java5中引入的一個(gè)并發(fā)編程
為什么要多階段構(gòu)建大家都知道Golang是編譯型語言,源碼需要先編譯再運(yùn)
一、類和對象1、什么是類和對象面向?qū)ο缶幊淌且环N編程范式,它將程序
之前在這篇文章(CSS實(shí)現(xiàn)樹狀結(jié)構(gòu)目錄[1])中實(shí)現(xiàn)了一個(gè)樹狀結(jié)構(gòu),效果
需求集中釋放后,市場掉頭向下。
家長在為孩子選擇國際學(xué)校綜合考慮的因素很多,比如學(xué)費(fèi)、課程體系、師