您現(xiàn)在的位置：首頁 > 科技 > 正文

Siri、小度和小冰它們是如何做到和你相談甚歡的

時間：2019-08-19 14:47:35 來源：科技日報

你知道小冰嗎?你呼叫過小度嗎?你和小娜互動過嗎?你使用過Siri嗎?如果都沒有，那你就out了。它們都是當(dāng)下很火爆的智能語音機(jī)器人，很多人都和它們聊過天。

日前，美國投資機(jī)構(gòu)Mangrove Capital Partners發(fā)布了2019年《語音技術(shù)報告》。報告分析了語音助理服務(wù)的日益普及，并預(yù)測蘋果2020年將推出Siri操作系統(tǒng)。那么，究竟什么是語音技術(shù)?它有哪些應(yīng)用?語音操作系統(tǒng)又是什么?為此，記者采訪了相關(guān)專家。

通過純語音信息實現(xiàn)與機(jī)器交互

與圖像識別、機(jī)器學(xué)習(xí)一樣，智能語音是人工智能的一個分支。在人工智能異?；馃岬漠?dāng)下，從Siri到小度，從小冰到小娜，智能語音正在融入人們的生活之中。

所謂智能語音技術(shù)，就是研究人與計算機(jī)直接以自然語音的方式進(jìn)行有效溝通的各種理論和方法，涉及語音識別、內(nèi)容理解、對話問答等。一般來說，智能語音就是利用計算機(jī)對語音信息進(jìn)行自動處理和識別的技術(shù)。

“從引擎模塊的角度講，智能語音技術(shù)包括語音前端處理(含語音增強(qiáng))、語音識別、語音合成、語義理解對話管理和聲紋識別等模塊。其中，語音識別就是將語音信息通過計算機(jī)自動處理轉(zhuǎn)化成文字的過程，也叫語音轉(zhuǎn)寫，它包括語音分段、端點檢測、特征提取、解碼以及后處理等過程。”中國科學(xué)院聲學(xué)研究所(以下簡稱中科院聲學(xué)所)研究員趙慶衛(wèi)告訴科技日報記者。

目前，智能語音技術(shù)主要應(yīng)用于智能家居、虛擬助手、可穿戴設(shè)備、智能車載、智能客服、智能醫(yī)療、陪伴機(jī)器人等方面。所謂虛擬助手，就是智能語音助手，它的核心在于人類通過純語音信息實現(xiàn)與機(jī)器的交互，讓智能機(jī)器“助手”幫忙完成指派的任務(wù)。

在趙慶衛(wèi)看來，語音操作系統(tǒng)是一個比較大膽的設(shè)想，基于語音的人機(jī)交互有很大的發(fā)展?jié)摿Γ圆簧倩ヂ?lián)網(wǎng)企業(yè)都看好這個方向。目前，亞馬遜已經(jīng)打造了一個智能語音云平臺(Alexa)，平臺上有各種智能語音應(yīng)用(8萬種技能)，在這個平臺上，用戶可以通過語音發(fā)出一系列指令，比如購物、搜索、聽音樂、講故事等。

智能語音技術(shù)的前世今生

事實上，智能語音技術(shù)的研究起源于20世紀(jì)50年代。1952年，美國貝爾實驗室制造了一臺6英尺高的自動數(shù)字識別機(jī)“Audrey”，它可以識別數(shù)字0—9的發(fā)音，且準(zhǔn)確度高達(dá)90%以上。并且它對熟人的精準(zhǔn)度高，而對陌生人則偏低。1958年，中科院電子所的聲學(xué)研究室利用電子管實現(xiàn)了10個元音的識別。“由于那時計算能力很弱，智能語音只能做一些特別簡單的字母或數(shù)字的識別。”趙慶衛(wèi)說道。

20世紀(jì)60年代到70年代初，語音識別的研究取得了一定進(jìn)展。“此時，智能語音技術(shù)開始形成系統(tǒng)的框架，提出了基于線性預(yù)測編碼(LPC)技術(shù)的特征提取方法和動態(tài)時間規(guī)整(DTW)技術(shù)，并且使用模板匹配的方法做一些簡單的語音識別(小詞匯量、特定人、孤立詞)”。

從20世紀(jì)70年代中期到80年代，語音識別的框架有了突破，統(tǒng)計模型逐步取代模板匹配的方法，隱含馬爾科夫模型成為語音識別系統(tǒng)的基礎(chǔ)模型。同時，也采用高斯混合模型作為聲學(xué)模型的主要建模方法，連接詞識別和中等詞匯量連續(xù)語音識別得到了較大發(fā)展。

“到90年代的時候，基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)語音識別模型已經(jīng)提出。但當(dāng)時神經(jīng)網(wǎng)絡(luò)語音識別模型之所以沒能取得較大的突破，主要是因為當(dāng)時服務(wù)器的計算能力不夠強(qiáng)以及訓(xùn)練語音數(shù)據(jù)的量不夠多。”趙慶衛(wèi)說，90年代時的神經(jīng)網(wǎng)絡(luò)語音識別模型沒能替代傳統(tǒng)方法，此時智能語音技術(shù)還是以隱含馬爾科夫模型和高斯混合模型為基本框架。

從20世紀(jì)90年代到21世紀(jì)初，非特定人、大詞匯量、連續(xù)語音識別系統(tǒng)的研究成為國際語音界研究方向的主流。1997年，IBM首個聽寫產(chǎn)品Via Voice問世，用戶只要對著話筒說出想要輸入的文字，系統(tǒng)就會自動識別并輸出文字。

2002年，中科院自動化所推出了“天語”中文語音系列產(chǎn)品——Pattek ASR;2005年，中科院聲學(xué)所推出國內(nèi)第一個自主研發(fā)的電信級語音識別平臺，首次實現(xiàn)了國產(chǎn)語音識別軟件的規(guī)模應(yīng)用，在中國移動23個省的增值業(yè)務(wù)上線應(yīng)用，占據(jù)了國內(nèi)80%市場份額，使美國公司對中國語音識別市場的壟斷成為歷史。

深度神經(jīng)網(wǎng)絡(luò)框架成為主流

2010年，隨著服務(wù)器的計算能力大幅提高(受益于GPU的應(yīng)用)和訓(xùn)練語音數(shù)據(jù)的大幅度增加(受益于移動互聯(lián)網(wǎng)和云計算的發(fā)展)，微軟基于深度神經(jīng)網(wǎng)絡(luò)的語音識別研究取得較大進(jìn)展，“識別錯誤率相對下降20%以上”。此后，深度神經(jīng)網(wǎng)絡(luò)的建模優(yōu)勢被許多國際和國內(nèi)知名語音研究機(jī)構(gòu)所驗證，業(yè)界開始認(rèn)識到基于深度神經(jīng)網(wǎng)絡(luò)的建?？蚣鼙仍瓉淼目蚣茏R別效果明顯要好，“現(xiàn)在大家基本都采用了基于深度神經(jīng)網(wǎng)絡(luò)的建?？蚣?。”趙慶衛(wèi)說道。

最近幾年，基于深度神經(jīng)網(wǎng)絡(luò)的語音識別技術(shù)也進(jìn)行了持續(xù)的迭代，從基礎(chǔ)的深度神經(jīng)網(wǎng)絡(luò)發(fā)展到延時神經(jīng)網(wǎng)絡(luò)(TDNN)、雙向長短時記憶(BLSTM)以及卷積神經(jīng)網(wǎng)絡(luò)(CNN)等;近年來，基于端到端架構(gòu)(End-to-End)的語音識別系統(tǒng)正在被語音識別的學(xué)術(shù)界和工業(yè)界深入研究，一些系統(tǒng)也已經(jīng)上線，中科院聲學(xué)所將其最新研究成果實際應(yīng)用于中國移動通信集團(tuán)和中國電信集團(tuán)的客服熱線，智能技術(shù)直接服務(wù)了數(shù)以億計的客戶。

據(jù)了解，中科院聲學(xué)所長期致力于語音識別核心技術(shù)研究。針對實時語音識別的需求，研究人員提出一種基于混合神經(jīng)網(wǎng)絡(luò)(延時神經(jīng)網(wǎng)絡(luò)+輸出投影門循環(huán)單元)的低延時聲學(xué)建模技術(shù),可處理長時信息，網(wǎng)絡(luò)結(jié)構(gòu)簡潔，計算速度快，易于并行化訓(xùn)練。該模型結(jié)構(gòu)已作為一種新型的回饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)被國際主流語音識別開源軟件Kaldi采納。在非實時語音識別方面，提出基于BLSTM-E(雙向長短時記憶擴(kuò)展)的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，提升了現(xiàn)有主流BLSTM的性能，并解決了序列化訓(xùn)練條件下LSTM(長短時記憶網(wǎng)絡(luò))對不同長度語音輸入的魯棒性差的問題。(陸成寬)

關(guān)鍵詞：智能語音技術(shù)

上一篇：新物質(zhì)形態(tài)有助加快量子計算速度并提高存儲能力
下一篇：衛(wèi)星數(shù)據(jù)顯示：今年7月極地海冰縮至歷史最低水平

相關(guān)新聞

國圖舉辦中國古代重要科技發(fā)明創(chuàng)造名家講座

凡本網(wǎng)注明“XXX（非中國微山網(wǎng)）提供”的作品，均轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點和其真實性負(fù)責(zé)。

特別關(guān)注

熱門：全國每3條秋褲就有1條來自泰安這個村：全村一半人做秋褲，一年生產(chǎn)7000萬條

大眾網(wǎng)·海報新聞記者張穩(wěn)呂樂田陽孫震泰安報道時值深秋，泰安市邱家店鎮(zhèn)姚家坡村迎來了一年中最忙碌的時節(jié)——作為全國最大的“秋褲村”，每

2022-10-29 18:34
養(yǎng)生說丨腦血管病成“頭號殺手”，秋冬季八大預(yù)警信號別忽略

在中國，每12秒有1人發(fā)生卒中，每21秒有1人死于卒中，腦血管病已成為中國居民第一位的死亡原因，早期預(yù)防顯得尤為重要。每年10月29日是“世界

2022-10-29 18:39
環(huán)球快看點丨全國首個航運企業(yè)集成化審批服務(wù)平臺在青島自貿(mào)片區(qū)啟動

10月28日上午，全國首個航運企業(yè)集成化審批服務(wù)平臺在青島自貿(mào)片區(qū)啟動。該平臺運用數(shù)據(jù)中臺、AI人工智能、電子簽名等技術(shù)，將涉及水路運輸、

2022-10-29 18:37
海報時評丨4.0%！山東經(jīng)濟(jì)有韌性有后勁

海報評論員朱延魯10月28日，山東公布了2022年前三季度全省經(jīng)濟(jì)運行數(shù)據(jù)。根據(jù)地區(qū)生產(chǎn)總值統(tǒng)一核算結(jié)果，前三季度，全省生產(chǎn)總值為64409億元，

2022-10-29 18:31
南昌豐益肛腸醫(yī)院好不好診療服務(wù)平價不平質(zhì)

作為正規(guī)醫(yī)院，南昌豐益肛腸醫(yī)院在改善就醫(yī)環(huán)境、降低就醫(yī)費用、優(yōu)化就醫(yī)流程方面下功夫;實行的無假日醫(yī)院制度，為上班族看病提供便利;通過

2022-10-29 17:53
世界熱文：“動”話山東丨從經(jīng)濟(jì)“三季報”看大省擔(dān)當(dāng)

10月28日，山東發(fā)布了前三季度的全省經(jīng)濟(jì)運行情況。前三季度全省生產(chǎn)總值64409億元，同比增長4 0%。跑贏3 0%的全國大盤，經(jīng)濟(jì)大省山東交出了一

2022-10-29 15:41
全球看點：濟(jì)南地鐵直通機(jī)場再近一步，3號線二期進(jìn)入設(shè)備安裝階段

大眾網(wǎng)·海報新聞記者解強(qiáng)民通訊員姜雁群濟(jì)南報道10月28日，濟(jì)南軌道交通3號線二期設(shè)備工程開工活動在稻香站舉行，標(biāo)志著濟(jì)南軌道交通3號線二

2022-10-29 15:32
【環(huán)球熱聞】2022全國中小企業(yè)數(shù)字化轉(zhuǎn)型大會將于11月9日在濟(jì)南舉行

大眾網(wǎng)·海報新聞記者梁雯濟(jì)南報道11月9日至10日，2022全國中小企業(yè)數(shù)字化轉(zhuǎn)型大會將于山東國際會展中心舉行。本次大會主題為“創(chuàng)新引領(lǐng)發(fā)展數(shù)

2022-10-29 15:36
今日報丨聯(lián)合國秘書長古特雷斯專門向山大承辦的這個大會發(fā)來賀信

大眾網(wǎng)·海報新聞記者孫杰濟(jì)南報道10月28日，由中國聯(lián)合國協(xié)會主辦、外交部國際司支持、山東大學(xué)承辦的第十八屆中國模擬聯(lián)合國大會開幕。此次

2022-10-29 15:42
“貴婦級”護(hù)膚品推薦，鄭明明金致煥顏套拯救干燥暗黃肌

測評每天護(hù)膚一小步變美就更進(jìn)一步啦，因為對于好肌膚，我們不管是化妝還是素顏都會顯得好看，今天想和大家分享一下本人親自測評護(hù)膚品--鄭

2022-10-29 14:12

熱文推薦

焦點資訊

1環(huán)球快看點丨趙匡胤陳橋兵變后，他是怎樣處置柴榮的老婆兒子的！
2全球快資訊丨甘肅有個完顏村，是金兀術(shù)的后代避談岳飛，現(xiàn)在都是漢族
3看熱訊：李自成讓人帶給崇禎三句話，他能聽進(jìn)一句，大明就不會亡！
4三國唯一的女將，趙云魏延都拿她沒轍，卻被諸葛亮以卑鄙手段生擒
5天天觀察：蔣介石曾在日記中寫下生平最恨的三個人, 看過后出乎意料

Siri、小度和小冰 它們是如何做到和你相談甚歡的

特別關(guān)注

焦點資訊

Siri、小度和小冰它們是如何做到和你相談甚歡的