您現(xiàn)在的位置:首頁(yè) > 科技 > 正文

Siri、小度和小冰 它們是如何做到和你相談甚歡的

時(shí)間:2019-08-19 14:47:35    來(lái)源:科技日?qǐng)?bào)    

你知道小冰嗎?你呼叫過(guò)小度嗎?你和小娜互動(dòng)過(guò)嗎?你使用過(guò)Siri嗎?如果都沒(méi)有,那你就out了。它們都是當(dāng)下很火爆的智能語(yǔ)音機(jī)器人,很多人都和它們聊過(guò)天。

日前,美國(guó)投資機(jī)構(gòu)Mangrove Capital Partners發(fā)布了2019年《語(yǔ)音技術(shù)報(bào)告》。報(bào)告分析了語(yǔ)音助理服務(wù)的日益普及,并預(yù)測(cè)蘋(píng)果2020年將推出Siri操作系統(tǒng)。那么,究竟什么是語(yǔ)音技術(shù)?它有哪些應(yīng)用?語(yǔ)音操作系統(tǒng)又是什么?為此,記者采訪了相關(guān)專(zhuān)家。

通過(guò)純語(yǔ)音信息實(shí)現(xiàn)與機(jī)器交互

與圖像識(shí)別、機(jī)器學(xué)習(xí)一樣,智能語(yǔ)音是人工智能的一個(gè)分支。在人工智能異?;馃岬漠?dāng)下,從Siri到小度,從小冰到小娜,智能語(yǔ)音正在融入人們的生活之中。

所謂智能語(yǔ)音技術(shù),就是研究人與計(jì)算機(jī)直接以自然語(yǔ)音的方式進(jìn)行有效溝通的各種理論和方法,涉及語(yǔ)音識(shí)別、內(nèi)容理解、對(duì)話問(wèn)答等。一般來(lái)說(shuō),智能語(yǔ)音就是利用計(jì)算機(jī)對(duì)語(yǔ)音信息進(jìn)行自動(dòng)處理和識(shí)別的技術(shù)。

“從引擎模塊的角度講,智能語(yǔ)音技術(shù)包括語(yǔ)音前端處理(含語(yǔ)音增強(qiáng))、語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)義理解對(duì)話管理和聲紋識(shí)別等模塊。其中,語(yǔ)音識(shí)別就是將語(yǔ)音信息通過(guò)計(jì)算機(jī)自動(dòng)處理轉(zhuǎn)化成文字的過(guò)程,也叫語(yǔ)音轉(zhuǎn)寫(xiě),它包括語(yǔ)音分段、端點(diǎn)檢測(cè)、特征提取、解碼以及后處理等過(guò)程。”中國(guó)科學(xué)院聲學(xué)研究所(以下簡(jiǎn)稱(chēng)中科院聲學(xué)所)研究員趙慶衛(wèi)告訴科技日?qǐng)?bào)記者。

目前,智能語(yǔ)音技術(shù)主要應(yīng)用于智能家居、虛擬助手、可穿戴設(shè)備、智能車(chē)載、智能客服、智能醫(yī)療、陪伴機(jī)器人等方面。所謂虛擬助手,就是智能語(yǔ)音助手,它的核心在于人類(lèi)通過(guò)純語(yǔ)音信息實(shí)現(xiàn)與機(jī)器的交互,讓智能機(jī)器“助手”幫忙完成指派的任務(wù)。

在趙慶衛(wèi)看來(lái),語(yǔ)音操作系統(tǒng)是一個(gè)比較大膽的設(shè)想,基于語(yǔ)音的人機(jī)交互有很大的發(fā)展?jié)摿?,所以不少互?lián)網(wǎng)企業(yè)都看好這個(gè)方向。目前,亞馬遜已經(jīng)打造了一個(gè)智能語(yǔ)音云平臺(tái)(Alexa),平臺(tái)上有各種智能語(yǔ)音應(yīng)用(8萬(wàn)種技能),在這個(gè)平臺(tái)上,用戶(hù)可以通過(guò)語(yǔ)音發(fā)出一系列指令,比如購(gòu)物、搜索、聽(tīng)音樂(lè)、講故事等。

智能語(yǔ)音技術(shù)的前世今生

事實(shí)上,智能語(yǔ)音技術(shù)的研究起源于20世紀(jì)50年代。1952年,美國(guó)貝爾實(shí)驗(yàn)室制造了一臺(tái)6英尺高的自動(dòng)數(shù)字識(shí)別機(jī)“Audrey”,它可以識(shí)別數(shù)字0—9的發(fā)音,且準(zhǔn)確度高達(dá)90%以上。并且它對(duì)熟人的精準(zhǔn)度高,而對(duì)陌生人則偏低。1958年,中科院電子所的聲學(xué)研究室利用電子管實(shí)現(xiàn)了10個(gè)元音的識(shí)別。“由于那時(shí)計(jì)算能力很弱,智能語(yǔ)音只能做一些特別簡(jiǎn)單的字母或數(shù)字的識(shí)別。”趙慶衛(wèi)說(shuō)道。

20世紀(jì)60年代到70年代初,語(yǔ)音識(shí)別的研究取得了一定進(jìn)展。“此時(shí),智能語(yǔ)音技術(shù)開(kāi)始形成系統(tǒng)的框架,提出了基于線性預(yù)測(cè)編碼(LPC)技術(shù)的特征提取方法和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù),并且使用模板匹配的方法做一些簡(jiǎn)單的語(yǔ)音識(shí)別(小詞匯量、特定人、孤立詞)”。

從20世紀(jì)70年代中期到80年代,語(yǔ)音識(shí)別的框架有了突破,統(tǒng)計(jì)模型逐步取代模板匹配的方法,隱含馬爾科夫模型成為語(yǔ)音識(shí)別系統(tǒng)的基礎(chǔ)模型。同時(shí),也采用高斯混合模型作為聲學(xué)模型的主要建模方法,連接詞識(shí)別和中等詞匯量連續(xù)語(yǔ)音識(shí)別得到了較大發(fā)展。

“到90年代的時(shí)候,基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別模型已經(jīng)提出。但當(dāng)時(shí)神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別模型之所以沒(méi)能取得較大的突破,主要是因?yàn)楫?dāng)時(shí)服務(wù)器的計(jì)算能力不夠強(qiáng)以及訓(xùn)練語(yǔ)音數(shù)據(jù)的量不夠多。”趙慶衛(wèi)說(shuō),90年代時(shí)的神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別模型沒(méi)能替代傳統(tǒng)方法,此時(shí)智能語(yǔ)音技術(shù)還是以隱含馬爾科夫模型和高斯混合模型為基本框架。

從20世紀(jì)90年代到21世紀(jì)初,非特定人、大詞匯量、連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研究成為國(guó)際語(yǔ)音界研究方向的主流。1997年,IBM首個(gè)聽(tīng)寫(xiě)產(chǎn)品Via Voice問(wèn)世,用戶(hù)只要對(duì)著話筒說(shuō)出想要輸入的文字,系統(tǒng)就會(huì)自動(dòng)識(shí)別并輸出文字。

2002年,中科院自動(dòng)化所推出了“天語(yǔ)”中文語(yǔ)音系列產(chǎn)品——Pattek ASR;2005年,中科院聲學(xué)所推出國(guó)內(nèi)第一個(gè)自主研發(fā)的電信級(jí)語(yǔ)音識(shí)別平臺(tái),首次實(shí)現(xiàn)了國(guó)產(chǎn)語(yǔ)音識(shí)別軟件的規(guī)模應(yīng)用,在中國(guó)移動(dòng)23個(gè)省的增值業(yè)務(wù)上線應(yīng)用,占據(jù)了國(guó)內(nèi)80%市場(chǎng)份額,使美國(guó)公司對(duì)中國(guó)語(yǔ)音識(shí)別市場(chǎng)的壟斷成為歷史。

深度神經(jīng)網(wǎng)絡(luò)框架成為主流

2010年,隨著服務(wù)器的計(jì)算能力大幅提高(受益于GPU的應(yīng)用)和訓(xùn)練語(yǔ)音數(shù)據(jù)的大幅度增加(受益于移動(dòng)互聯(lián)網(wǎng)和云計(jì)算的發(fā)展),微軟基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別研究取得較大進(jìn)展,“識(shí)別錯(cuò)誤率相對(duì)下降20%以上”。此后,深度神經(jīng)網(wǎng)絡(luò)的建模優(yōu)勢(shì)被許多國(guó)際和國(guó)內(nèi)知名語(yǔ)音研究機(jī)構(gòu)所驗(yàn)證,業(yè)界開(kāi)始認(rèn)識(shí)到基于深度神經(jīng)網(wǎng)絡(luò)的建模框架比原來(lái)的框架識(shí)別效果明顯要好,“現(xiàn)在大家基本都采用了基于深度神經(jīng)網(wǎng)絡(luò)的建??蚣?。”趙慶衛(wèi)說(shuō)道。

最近幾年,基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別技術(shù)也進(jìn)行了持續(xù)的迭代,從基礎(chǔ)的深度神經(jīng)網(wǎng)絡(luò)發(fā)展到延時(shí)神經(jīng)網(wǎng)絡(luò)(TDNN)、雙向長(zhǎng)短時(shí)記憶(BLSTM)以及卷積神經(jīng)網(wǎng)絡(luò)(CNN)等;近年來(lái),基于端到端架構(gòu)(End-to-End)的語(yǔ)音識(shí)別系統(tǒng)正在被語(yǔ)音識(shí)別的學(xué)術(shù)界和工業(yè)界深入研究,一些系統(tǒng)也已經(jīng)上線,中科院聲學(xué)所將其最新研究成果實(shí)際應(yīng)用于中國(guó)移動(dòng)通信集團(tuán)和中國(guó)電信集團(tuán)的客服熱線,智能技術(shù)直接服務(wù)了數(shù)以?xún)|計(jì)的客戶(hù)。

據(jù)了解,中科院聲學(xué)所長(zhǎng)期致力于語(yǔ)音識(shí)別核心技術(shù)研究。針對(duì)實(shí)時(shí)語(yǔ)音識(shí)別的需求,研究人員提出一種基于混合神經(jīng)網(wǎng)絡(luò)(延時(shí)神經(jīng)網(wǎng)絡(luò)+輸出投影門(mén)循環(huán)單元)的低延時(shí)聲學(xué)建模技術(shù),可處理長(zhǎng)時(shí)信息,網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)潔,計(jì)算速度快,易于并行化訓(xùn)練。該模型結(jié)構(gòu)已作為一種新型的回饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)被國(guó)際主流語(yǔ)音識(shí)別開(kāi)源軟件Kaldi采納。在非實(shí)時(shí)語(yǔ)音識(shí)別方面,提出基于BLSTM-E(雙向長(zhǎng)短時(shí)記憶擴(kuò)展)的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提升了現(xiàn)有主流BLSTM的性能,并解決了序列化訓(xùn)練條件下LSTM(長(zhǎng)短時(shí)記憶網(wǎng)絡(luò))對(duì)不同長(zhǎng)度語(yǔ)音輸入的魯棒性差的問(wèn)題。(陸成寬)

關(guān)鍵詞: 智能語(yǔ)音技術(shù)

凡本網(wǎng)注明“XXX(非中國(guó)微山網(wǎng))提供”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和其真實(shí)性負(fù)責(zé)。

特別關(guān)注