近日,全球最大的語音會議INTERSPEECH 2020公布了SdSV聲紋識別比賽成績,網(wǎng)易AI Lab 從眾多國際頂級隊伍中脫穎而出,獲文本相關(guān)聲紋識別賽道綜合排名第一、單模型第一的雙料冠軍。彰顯了網(wǎng)
近日,全球最大的語音會議INTERSPEECH 2020公布了SdSV聲紋識別比賽成績,網(wǎng)易AI Lab 從眾多國際頂級隊伍中脫穎而出,獲文本相關(guān)聲紋識別賽道綜合排名第一、單模型第一的雙料冠軍。彰顯了網(wǎng)易AI Lab在語音聲紋識別技術(shù)領(lǐng)域的領(lǐng)先地位。
本次國際聲紋識別比賽是業(yè)界非常具備權(quán)威性的賽事,參賽隊伍來自國際多家知名高校與企業(yè),包括近兩年全球各項聲紋識別比賽中的“常勝將軍”:布爾諾工業(yè)大學(xué)、新加坡通信研究院、約翰霍普金斯大學(xué)等。
比賽中,網(wǎng)易 AI Lab 基于常見的X-Vector和PLDA算法,創(chuàng)新地提出了一種ASR-free的文本相關(guān)聲紋識別算法。相比傳統(tǒng)的Deep Speaker Embedding方法,該算法不需要依賴語音識別,就能夠在多語言環(huán)境下,同時完成說話人和文本內(nèi)容的驗證。
比賽采用MinDCF(最小檢測代價)和EER(等錯誤率)作為評測指標。網(wǎng)易AI Lab的單模型在兩個指標均為最佳,其中EER達到了1.67%,相比第二名降低了11.6%,并遠低于比賽 X-Vector基線系統(tǒng)(EER=9.05%)。
評估算法系統(tǒng)性能時常輸出ROC 曲線,用于描述FAR(誤識率)與FRR(拒識率)之間的關(guān)系。?
簡單說,在聲紋識別中,誤識率就是“把不應(yīng)該匹配的聲紋當成匹配聲紋”的比例,拒識率則是“把應(yīng)該匹配的聲紋當成不匹配聲紋”的比例。
在對安全要求非常高的應(yīng)用場景,就會把FAR值設(shè)置得低一些,因為判斷錯一次的代價很大,但這樣做的同時會導(dǎo)致FRR值上升,用戶體驗度下降。

等錯誤率(EER)是系統(tǒng)的誤識率(FAR)和拒識率(FRR)相等時的錯誤率,即ROC曲線與45度角直線相交的點,是衡量聲紋識別算法系統(tǒng)綜合性能的重要指標。EER數(shù)值越小,系統(tǒng)性能越好。
聲紋識別是生物識別技術(shù)的一種,也稱為說話人識別,是一種通過聲音判別說話人身份的技術(shù)。
目前,人工智能主要有三個研究方向:視覺識別、智能語音、NLP自然語言處理。其中,在語音識別領(lǐng)域,聲紋識別屬于相對藍海市場,解決的主要是“我是我”的身份認證問題,多應(yīng)用在安全驗證場景。
從近幾年的市場趨勢來看,銀行,金融服務(wù),保險已成為聲紋識別應(yīng)用的領(lǐng)導(dǎo)領(lǐng)域。
隨著技術(shù)的不斷成熟和融合,聲紋識別技術(shù)將逐漸融入日常生活,根據(jù)不同應(yīng)用場景的特點進行針對性開發(fā),將產(chǎn)生巨大的應(yīng)用價值。
而網(wǎng)易 AI Lab 聲紋識別技術(shù)其實早已被運用于游戲場景中。除了進行游戲身份驗證,還能夠針對音色對用戶進行分類、豐富玩家畫像,從而更加精準地為玩家推薦志趣相投的好友、匹配實力相當?shù)膶κ?為玩家?guī)砀玫挠螒蝮w驗。
特別提醒:本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關(guān)內(nèi)容。本站不承擔此類作品侵權(quán)行為的直接責任及連帶責任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系我們,本站將會在24小時內(nèi)處理完畢。