你知道小冰嗎?你呼叫過(guò)小度嗎?你和小娜互動(dòng)過(guò)嗎?你使用過(guò)Siri嗎?如果都沒(méi)有,那你就out了。它們都是當(dāng)下很火爆的智能語(yǔ)音機(jī)器人,很多人都和它們聊過(guò)天。
日前,美國(guó)投資機(jī)構(gòu)Mangrove Capital Partners發(fā)布了2019年《語(yǔ)音技術(shù)報(bào)告》。報(bào)告分析了語(yǔ)音助理服務(wù)的日益普及,并預(yù)測(cè)蘋(píng)果2020年將推出Siri操作系統(tǒng)。那么,究竟什么是語(yǔ)音技術(shù)?它有哪些應(yīng)用?語(yǔ)音操作系統(tǒng)又是什么?為此,記者采訪了相關(guān)專(zhuān)家。
通過(guò)純語(yǔ)音信息實(shí)現(xiàn)與機(jī)器交互
與圖像識(shí)別、機(jī)器學(xué)習(xí)一樣,智能語(yǔ)音是人工智能的一個(gè)分支。在人工智能異?;馃岬漠?dāng)下,從Siri到小度,從小冰到小娜,智能語(yǔ)音正在融入人們的生活之中。
所謂智能語(yǔ)音技術(shù),就是研究人與計(jì)算機(jī)直接以自然語(yǔ)音的方式進(jìn)行有效溝通的各種理論和方法,涉及語(yǔ)音識(shí)別、內(nèi)容理解、對(duì)話問(wèn)答等。一般來(lái)說(shuō),智能語(yǔ)音就是利用計(jì)算機(jī)對(duì)語(yǔ)音信息進(jìn)行自動(dòng)處理和識(shí)別的技術(shù)。
“從引擎模塊的角度講,智能語(yǔ)音技術(shù)包括語(yǔ)音前端處理(含語(yǔ)音增強(qiáng))、語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)義理解對(duì)話管理和聲紋識(shí)別等模塊。其中,語(yǔ)音識(shí)別就是將語(yǔ)音信息通過(guò)計(jì)算機(jī)自動(dòng)處理轉(zhuǎn)化成文字的過(guò)程,也叫語(yǔ)音轉(zhuǎn)寫(xiě),它包括語(yǔ)音分段、端點(diǎn)檢測(cè)、特征提取、解碼以及后處理等過(guò)程。”中國(guó)科學(xué)院聲學(xué)研究所(以下簡(jiǎn)稱(chēng)中科院聲學(xué)所)研究員趙慶衛(wèi)告訴科技日?qǐng)?bào)記者。
目前,智能語(yǔ)音技術(shù)主要應(yīng)用于智能家居、虛擬助手、可穿戴設(shè)備、智能車(chē)載、智能客服、智能醫(yī)療、陪伴機(jī)器人等方面。所謂虛擬助手,就是智能語(yǔ)音助手,它的核心在于人類(lèi)通過(guò)純語(yǔ)音信息實(shí)現(xiàn)與機(jī)器的交互,讓智能機(jī)器“助手”幫忙完成指派的任務(wù)。
在趙慶衛(wèi)看來(lái),語(yǔ)音操作系統(tǒng)是一個(gè)比較大膽的設(shè)想,基于語(yǔ)音的人機(jī)交互有很大的發(fā)展?jié)摿?,所以不少互?lián)網(wǎng)企業(yè)都看好這個(gè)方向。目前,亞馬遜已經(jīng)打造了一個(gè)智能語(yǔ)音云平臺(tái)(Alexa),平臺(tái)上有各種智能語(yǔ)音應(yīng)用(8萬(wàn)種技能),在這個(gè)平臺(tái)上,用戶(hù)可以通過(guò)語(yǔ)音發(fā)出一系列指令,比如購(gòu)物、搜索、聽(tīng)音樂(lè)、講故事等。
智能語(yǔ)音技術(shù)的前世今生
事實(shí)上,智能語(yǔ)音技術(shù)的研究起源于20世紀(jì)50年代。1952年,美國(guó)貝爾實(shí)驗(yàn)室制造了一臺(tái)6英尺高的自動(dòng)數(shù)字識(shí)別機(jī)“Audrey”,它可以識(shí)別數(shù)字0—9的發(fā)音,且準(zhǔn)確度高達(dá)90%以上。并且它對(duì)熟人的精準(zhǔn)度高,而對(duì)陌生人則偏低。1958年,中科院電子所的聲學(xué)研究室利用電子管實(shí)現(xiàn)了10個(gè)元音的識(shí)別。“由于那時(shí)計(jì)算能力很弱,智能語(yǔ)音只能做一些特別簡(jiǎn)單的字母或數(shù)字的識(shí)別。”趙慶衛(wèi)說(shuō)道。
20世紀(jì)60年代到70年代初,語(yǔ)音識(shí)別的研究取得了一定進(jìn)展。“此時(shí),智能語(yǔ)音技術(shù)開(kāi)始形成系統(tǒng)的框架,提出了基于線性預(yù)測(cè)編碼(LPC)技術(shù)的特征提取方法和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù),并且使用模板匹配的方法做一些簡(jiǎn)單的語(yǔ)音識(shí)別(小詞匯量、特定人、孤立詞)”。
從20世紀(jì)70年代中期到80年代,語(yǔ)音識(shí)別的框架有了突破,統(tǒng)計(jì)模型逐步取代模板匹配的方法,隱含馬爾科夫模型成為語(yǔ)音識(shí)別系統(tǒng)的基礎(chǔ)模型。同時(shí),也采用高斯混合模型作為聲學(xué)模型的主要建模方法,連接詞識(shí)別和中等詞匯量連續(xù)語(yǔ)音識(shí)別得到了較大發(fā)展。
“到90年代的時(shí)候,基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別模型已經(jīng)提出。但當(dāng)時(shí)神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別模型之所以沒(méi)能取得較大的突破,主要是因?yàn)楫?dāng)時(shí)服務(wù)器的計(jì)算能力不夠強(qiáng)以及訓(xùn)練語(yǔ)音數(shù)據(jù)的量不夠多。”趙慶衛(wèi)說(shuō),90年代時(shí)的神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別模型沒(méi)能替代傳統(tǒng)方法,此時(shí)智能語(yǔ)音技術(shù)還是以隱含馬爾科夫模型和高斯混合模型為基本框架。
從20世紀(jì)90年代到21世紀(jì)初,非特定人、大詞匯量、連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研究成為國(guó)際語(yǔ)音界研究方向的主流。1997年,IBM首個(gè)聽(tīng)寫(xiě)產(chǎn)品Via Voice問(wèn)世,用戶(hù)只要對(duì)著話筒說(shuō)出想要輸入的文字,系統(tǒng)就會(huì)自動(dòng)識(shí)別并輸出文字。
2002年,中科院自動(dòng)化所推出了“天語(yǔ)”中文語(yǔ)音系列產(chǎn)品——Pattek ASR;2005年,中科院聲學(xué)所推出國(guó)內(nèi)第一個(gè)自主研發(fā)的電信級(jí)語(yǔ)音識(shí)別平臺(tái),首次實(shí)現(xiàn)了國(guó)產(chǎn)語(yǔ)音識(shí)別軟件的規(guī)模應(yīng)用,在中國(guó)移動(dòng)23個(gè)省的增值業(yè)務(wù)上線應(yīng)用,占據(jù)了國(guó)內(nèi)80%市場(chǎng)份額,使美國(guó)公司對(duì)中國(guó)語(yǔ)音識(shí)別市場(chǎng)的壟斷成為歷史。
深度神經(jīng)網(wǎng)絡(luò)框架成為主流
2010年,隨著服務(wù)器的計(jì)算能力大幅提高(受益于GPU的應(yīng)用)和訓(xùn)練語(yǔ)音數(shù)據(jù)的大幅度增加(受益于移動(dòng)互聯(lián)網(wǎng)和云計(jì)算的發(fā)展),微軟基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別研究取得較大進(jìn)展,“識(shí)別錯(cuò)誤率相對(duì)下降20%以上”。此后,深度神經(jīng)網(wǎng)絡(luò)的建模優(yōu)勢(shì)被許多國(guó)際和國(guó)內(nèi)知名語(yǔ)音研究機(jī)構(gòu)所驗(yàn)證,業(yè)界開(kāi)始認(rèn)識(shí)到基于深度神經(jīng)網(wǎng)絡(luò)的建模框架比原來(lái)的框架識(shí)別效果明顯要好,“現(xiàn)在大家基本都采用了基于深度神經(jīng)網(wǎng)絡(luò)的建??蚣?。”趙慶衛(wèi)說(shuō)道。
最近幾年,基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別技術(shù)也進(jìn)行了持續(xù)的迭代,從基礎(chǔ)的深度神經(jīng)網(wǎng)絡(luò)發(fā)展到延時(shí)神經(jīng)網(wǎng)絡(luò)(TDNN)、雙向長(zhǎng)短時(shí)記憶(BLSTM)以及卷積神經(jīng)網(wǎng)絡(luò)(CNN)等;近年來(lái),基于端到端架構(gòu)(End-to-End)的語(yǔ)音識(shí)別系統(tǒng)正在被語(yǔ)音識(shí)別的學(xué)術(shù)界和工業(yè)界深入研究,一些系統(tǒng)也已經(jīng)上線,中科院聲學(xué)所將其最新研究成果實(shí)際應(yīng)用于中國(guó)移動(dòng)通信集團(tuán)和中國(guó)電信集團(tuán)的客服熱線,智能技術(shù)直接服務(wù)了數(shù)以?xún)|計(jì)的客戶(hù)。
據(jù)了解,中科院聲學(xué)所長(zhǎng)期致力于語(yǔ)音識(shí)別核心技術(shù)研究。針對(duì)實(shí)時(shí)語(yǔ)音識(shí)別的需求,研究人員提出一種基于混合神經(jīng)網(wǎng)絡(luò)(延時(shí)神經(jīng)網(wǎng)絡(luò)+輸出投影門(mén)循環(huán)單元)的低延時(shí)聲學(xué)建模技術(shù),可處理長(zhǎng)時(shí)信息,網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)潔,計(jì)算速度快,易于并行化訓(xùn)練。該模型結(jié)構(gòu)已作為一種新型的回饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)被國(guó)際主流語(yǔ)音識(shí)別開(kāi)源軟件Kaldi采納。在非實(shí)時(shí)語(yǔ)音識(shí)別方面,提出基于BLSTM-E(雙向長(zhǎng)短時(shí)記憶擴(kuò)展)的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提升了現(xiàn)有主流BLSTM的性能,并解決了序列化訓(xùn)練條件下LSTM(長(zhǎng)短時(shí)記憶網(wǎng)絡(luò))對(duì)不同長(zhǎng)度語(yǔ)音輸入的魯棒性差的問(wèn)題。(陸成寬)
關(guān)鍵詞: 智能語(yǔ)音技術(shù)
凡本網(wǎng)注明“XXX(非中國(guó)微山網(wǎng))提供”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和其真實(shí)性負(fù)責(zé)。
大眾網(wǎng)·海報(bào)新聞?dòng)浾邚埛€(wěn)呂樂(lè)田陽(yáng)孫震泰安報(bào)道時(shí)值深秋,泰安市邱家店鎮(zhèn)姚家坡村迎來(lái)了一年中最忙碌的時(shí)節(jié)——作為全國(guó)最大的“秋褲村”,每
2022-10-29 18:34
在中國(guó),每12秒有1人發(fā)生卒中,每21秒有1人死于卒中,腦血管病已成為中國(guó)居民第一位的死亡原因,早期預(yù)防顯得尤為重要。每年10月29日是“世界
2022-10-29 18:39
10月28日上午,全國(guó)首個(gè)航運(yùn)企業(yè)集成化審批服務(wù)平臺(tái)在青島自貿(mào)片區(qū)啟動(dòng)。該平臺(tái)運(yùn)用數(shù)據(jù)中臺(tái)、AI人工智能、電子簽名等技術(shù),將涉及水路運(yùn)輸、
2022-10-29 18:37
海報(bào)評(píng)論員朱延魯10月28日,山東公布了2022年前三季度全省經(jīng)濟(jì)運(yùn)行數(shù)據(jù)。根據(jù)地區(qū)生產(chǎn)總值統(tǒng)一核算結(jié)果,前三季度,全省生產(chǎn)總值為64409億元,
2022-10-29 18:31
作為正規(guī)醫(yī)院,南昌豐益肛腸醫(yī)院在改善就醫(yī)環(huán)境、降低就醫(yī)費(fèi)用、優(yōu)化就醫(yī)流程方面下功夫;實(shí)行的無(wú)假日醫(yī)院制度,為上班族看病提供便利;通過(guò)
2022-10-29 17:53
10月28日,山東發(fā)布了前三季度的全省經(jīng)濟(jì)運(yùn)行情況。前三季度全省生產(chǎn)總值64409億元,同比增長(zhǎng)4 0%。跑贏3 0%的全國(guó)大盤(pán),經(jīng)濟(jì)大省山東交出了一
2022-10-29 15:41
大眾網(wǎng)·海報(bào)新聞?dòng)浾呓鈴?qiáng)民通訊員姜雁群濟(jì)南報(bào)道10月28日,濟(jì)南軌道交通3號(hào)線二期設(shè)備工程開(kāi)工活動(dòng)在稻香站舉行,標(biāo)志著濟(jì)南軌道交通3號(hào)線二
2022-10-29 15:32
大眾網(wǎng)·海報(bào)新聞?dòng)浾吡忽?jì)南報(bào)道11月9日至10日,2022全國(guó)中小企業(yè)數(shù)字化轉(zhuǎn)型大會(huì)將于山東國(guó)際會(huì)展中心舉行。本次大會(huì)主題為“創(chuàng)新引領(lǐng)發(fā)展數(shù)
2022-10-29 15:36
大眾網(wǎng)·海報(bào)新聞?dòng)浾邔O杰濟(jì)南報(bào)道10月28日,由中國(guó)聯(lián)合國(guó)協(xié)會(huì)主辦、外交部國(guó)際司支持、山東大學(xué)承辦的第十八屆中國(guó)模擬聯(lián)合國(guó)大會(huì)開(kāi)幕。此次
2022-10-29 15:42
測(cè)評(píng)每天護(hù)膚一小步變美就更進(jìn)一步啦,因?yàn)閷?duì)于好肌膚,我們不管是化妝還是素顏都會(huì)顯得好看,今天想和大家分享一下本人親自測(cè)評(píng)護(hù)膚品--鄭
2022-10-29 14:12