直擊國(guó)際語(yǔ)音識(shí)別大賽 中國(guó)技術(shù)團(tuán)隊(duì)包攬三項(xiàng)冠軍 2016年09月18日08:34 來(lái)源:中國(guó)智能制造網(wǎng)|
日前,在國(guó)際多通道語(yǔ)音分離和識(shí)別大賽(CHiME)上,由科大訊飛領(lǐng)銜的中國(guó)技術(shù)團(tuán)隊(duì)包攬了賽事全部三個(gè)項(xiàng)目的冠軍。
美國(guó)當(dāng)?shù)貢r(shí)間9月13日,國(guó)際多通道語(yǔ)音分離和識(shí)別大賽(CHiME)組委會(huì)宣布,由科大訊飛領(lǐng)銜的中國(guó)技術(shù)團(tuán)隊(duì)包攬了賽事全部三個(gè)項(xiàng)目的冠軍。
據(jù)悉,CHiME比賽重點(diǎn)解決的是真實(shí)、復(fù)雜場(chǎng)景下的語(yǔ)音識(shí)別,因此是語(yǔ)音識(shí)別領(lǐng)域最高難度的比賽之一。參賽的各個(gè)語(yǔ)音系統(tǒng)需要克服高噪聲、混響等干擾,在咖啡廳、車(chē)、街道等日常生活場(chǎng)景中,準(zhǔn)確地識(shí)別和處理英文語(yǔ)音。
團(tuán)隊(duì)負(fù)責(zé)人、科大訊飛研究院副院長(zhǎng)劉聰介紹說(shuō),科大訊飛語(yǔ)音系統(tǒng)在六麥克風(fēng)、雙麥克風(fēng)和單麥克風(fēng)場(chǎng)景這三個(gè)項(xiàng)目中表現(xiàn)優(yōu)異,并大幅刷新了各項(xiàng)目的紀(jì)錄。比如,在六麥克風(fēng)場(chǎng)景下,系統(tǒng)的詞錯(cuò)誤率降至2.24%,相比歷史成績(jī),錯(cuò)誤率下降了逾六成。
參賽系統(tǒng)凝聚了科大訊飛研究院、中國(guó)科學(xué)技術(shù)大學(xué)杜俊教授團(tuán)隊(duì)、西北工業(yè)大學(xué)陳景東教授、佐治亞理工學(xué)院李錦輝教授等國(guó)內(nèi)外知名的合作成果。大賽組委會(huì)認(rèn)為,在復(fù)雜場(chǎng)景語(yǔ)音識(shí)別任務(wù)上,“該系統(tǒng)已經(jīng)給出了接近完美的”。
劉聰認(rèn)為,更具抗噪性、實(shí)用性的語(yǔ)音識(shí)別技術(shù),對(duì)于促進(jìn)中國(guó)制造業(yè)的轉(zhuǎn)型升級(jí),價(jià)值巨大?!斑@意味著,我們可以把語(yǔ)音識(shí)別拓展到更多生活場(chǎng)景中去,而不受限于室內(nèi)、會(huì)場(chǎng)或語(yǔ)音通話(huà)等安靜環(huán)境,從而真正讓語(yǔ)音取代電子屏幕,成為‘萬(wàn)物互聯(lián)’的入口。”
在剛剛發(fā)布的蘋(píng)果iPhone7上,其人工“大腦”以及平臺(tái)“HomeKit”引發(fā)業(yè)界關(guān)注。今年6月,蘋(píng)果宣布向第三方開(kāi)發(fā)者開(kāi)放語(yǔ)音接口,被視為向人工智能語(yǔ)音路徑邁進(jìn)的又一步。谷歌、微軟、Nuance等科技也在智能語(yǔ)音領(lǐng)域動(dòng)作頻頻。
語(yǔ)音作為最自然的人機(jī)交互方式,隨著人工智能的發(fā)展,將在未來(lái)發(fā)揮巨大的作用。中國(guó)的智能語(yǔ)音技術(shù)應(yīng)如何應(yīng)對(duì)全球競(jìng)爭(zhēng)?
劉聰認(rèn)為,不管中文還是英文,在語(yǔ)音技術(shù)上是相通的?!霸谝粋€(gè)英語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的高難度比賽中奪冠,說(shuō)明我們?cè)诤诵乃惴ㄉ鲜穷I(lǐng)先的。”但他也指出,拋開(kāi)技術(shù),在業(yè)務(wù)和層面,微軟、谷歌、蘋(píng)果等“巨頭”擁有各自不同的數(shù)據(jù)優(yōu)勢(shì),可能會(huì)產(chǎn)生更好的用戶(hù)體驗(yàn)。這是中國(guó)智能語(yǔ)音產(chǎn)業(yè)亟待補(bǔ)齊的短板。
CHiME比賽始于2011年,今年由谷歌承辦。它由法國(guó)計(jì)算機(jī)科學(xué)與自動(dòng)化研究所、英國(guó)謝菲爾德大學(xué)、美國(guó)三菱電子研究實(shí)驗(yàn)室等知名研究機(jī)構(gòu)所發(fā)起,旨在使學(xué)術(shù)界和工業(yè)界提出全新的語(yǔ)音識(shí)別解決方案,以進(jìn)一步提升語(yǔ)音識(shí)別的實(shí)用性和普適性。
責(zé)任編輯:姚泓澤