日前,百度美研院宣布了其在聲紋識別上所取得的突破性成果。研究表明:利用深度學習的方法比傳統的i-vector方法在識別準確率上獲得了顯著的提高。
聲紋識別算法尋求從音頻中識別說話者的身份。兩個常見的識別任務是確認(說話者是不是他宣稱的那個人)和說話者身份識別(在一群未知的說話者中確認聲音的來源)。
該項技術已經有了各種應用。例如,聲紋可以用來登錄設備。說話者確認也可以作為金融交易的額外安全措施。此外,類似于智能家居助手之類的共享設備也可以利用這項技術來提供個性化的服務。
最近使用神經網絡來進行聲紋識別的論文已經改進了傳統的i-vector方法(參考Interspeech教程的原始論文或者幻燈片)。i-vector方法認為說話內容可以被分為兩個部分,一個部分依賴于說話者和信道可變性,另一個部分依賴于其它的相關因素。i-vector聲紋識別是一個多步過程,其涉及到使用不同說話者的數據來估計一個通用的背景模型(通常是高斯混合模型),收集充分的統計數據,提取i-vector,最后使用一個分類器來進行識別任務。
一些論文用神經網絡代替了i-vector流水線的方法。其它研究者要么訓練了一個文本相關(使用者必須說同樣的話)的端對端語者識別系統,要么訓練了文本獨立(這個模型與說話內容不相關)的端對端語者識別系統。我們介紹Deep Speaker:一個端對端的神經聲紋識別系統,它在文本相關和文本獨立的場景下都取得了良好的效果。這意味這個系統可以被訓練來識別誰在說話,無論是當你對你的家庭助手說“wake”或者你在會議中發言。
Deep Speaker由深度神經網絡層組成,從音頻中提取特征,基于余弦相似性的時間池和三元組損失(triplet loss)。百度美研院探究了ResNet激活的卷積模型和現有模型在提取聲學特征上的效果。
說明:在這里百度美研院使用了人臉識別中采用的三元組損失。在訓練過程中,他們選擇了一個說話者的話語,然后計算一個嵌入(標記為“Anchor”)。再產生兩個嵌入,一個來自相同的演講者(標記為“Positive”),一個來自于不同的演講者(標記為“Negative”)。在訓練過程中,其目標是讓Anchor與positive嵌入之間的余弦相似度高于Anchor與negative嵌入之間的余弦相似度。
百度美研院展示了Deep Speaker在三個不同數據集上的有效性,包括文本相關和文本獨立的任務。其中之一的UIDs數據集包括大約250000名說話者,是知識文獻中最大的數據集。實驗結果表明:Deep Speaker要明顯優于基于DNN 的i-vector方法。例如,在一個文本獨立的數據集中隨機挑選出100個演講者,Deep Speaker在說話者身份確認任務上的錯誤率是1.83%,正確率是92.58%。相比于基于DNN 的i-vector方法,它降低了50%的錯誤率,提高了60%的正確率。
說明:在實驗中百度美研院所使用的數據集是 UIDs,XiaoDu,和Mandarin。UIDs和XiaoDu是普通話數據集,Mturk是英語數據集。UIDs和Mturk是文本獨立的數據集,XiaoDu是文本相關的數據集,其基于百度的喚醒字(wake word)。為了在不同大小的訓練集上做實驗,他們用了全部的UIDs數據集(250,000)和它的一個子集(50,000)。在評估階段,他們選擇了一個Anchor,然后再從測試部分隨機地選擇1個Anchor positive樣本和99個Anchor negatives樣本。
團隊還發現Deep Speaker學習到了與語言無關的特征。當在普通話語境下訓練時,Deep Speaker卻能在英文確認和識別的任務上達到5.57%的錯誤率和88%的正確率。此外,先用普通話再用英文訓練可相比于只用英文訓練,提高了英文識別的準確率。這些結果都顯示出盡管不同的語言聽起來非常不同,深度語者卻學習到了跨語言的聲音特征。這些結果與Deep Speech 2的結果類似,同樣的架構都可以用來辨認不同語言的聲紋識別。
1024你懂的国产日韩欧美_亚洲欧美色一区二区三区_久久五月丁香合缴情网_99爱之精品网站
責任編輯:韓希宇
免責聲明:
中國電子銀行網發布的專欄、投稿以及征文相關文章,其文字、圖片、視頻均來源于作者投稿或轉載自相關作品方;如涉及未經許可使用作品的問題,請您優先聯系我們(聯系郵箱:cebnet@cfca.com.cn,電話:400-880-9888),我們會第一時間核實,謝謝配合。