久久精品视频大片国产_亚洲AV无码AV日韩红杏_二区三区四区五区另类在线_又黄又爽免费视频_免费不卡亚洲无码_亚洲成人麻豆精品_中文字幕无码一二区_日韩av观看软件_同性男男gv在线观看播放_伊人久久综合精品欧美

股票代碼:832214(NEEQ)
語音識別結(jié)合應(yīng)用場景 暢想未來新篇章

近二十年來,語音識別技術(shù)取得顯著進(jìn)步,開始從實驗室走向市場。人們預(yù)計,未來10年內(nèi),語音識別技術(shù)走進(jìn)了工業(yè)、家電、通信、汽車電子、消費(fèi)電子產(chǎn)品等各個領(lǐng)域。語音識別作為人工智能發(fā)展最早、且率先商業(yè)化的技術(shù),近幾年來隨著深度學(xué)習(xí)技術(shù)的突破,識別準(zhǔn)確率大幅提升,帶動了一波產(chǎn)業(yè)熱潮。對語音識別未來發(fā)展,各位大咖也有一些精彩論點。

科大訊飛研究院副院長——王士進(jìn)

王士進(jìn)表示,語音識別是人機(jī)交互里很重要的模塊,從PC時代到現(xiàn)在的移動互聯(lián)時代,人機(jī)交互由鼠標(biāo)鍵盤走向智能手機(jī)、Pad等的多點觸摸。到了智能硬件時代,交互則更加多元,不僅有觸摸,還有基于語音、視覺的交互。原本是以機(jī)器為中心的人機(jī)交互,逐漸走向以人為中心的自然交互。

他認(rèn)為,在將來萬物互聯(lián)的浪潮下,以語音為主,鍵盤、觸摸、視覺、手勢為輔的交互時代很快會到來。

提到傳統(tǒng)的語音交互,王士進(jìn)列舉了幾個缺點:第一,交互距離要近;第二,發(fā)音必須標(biāo)準(zhǔn);第三,環(huán)境必須安靜;第四,人機(jī)不能持續(xù)對話。

科大訊飛在2015年提出AIUI,旨在解決上述問題同時期望在人工智能時代提供一種智能的人機(jī)交互界面。AIUI提供遠(yuǎn)場喚醒和識別降噪方案,兼容全國近17種方言,可以進(jìn)行全雙工交互和基于業(yè)務(wù)場景的多輪對話,同時結(jié)合訊飛超腦的認(rèn)知智能使得機(jī)器進(jìn)行更智能的交互。

AIUI實現(xiàn)了軟硬一體化、云端一體化、技術(shù)服務(wù)一體化,通過三個一體化提供人機(jī)智能交互整體解決方案,使得用戶可以快速切換到新的業(yè)務(wù)場景。

在提到基于AIUI交互技術(shù)的一些商業(yè)化嘗試時,王士進(jìn)列舉了幾種:

在交流方面,科大訊飛在05年推出了聽見智能會議這款產(chǎn)品。一般來說,會議場景的同傳準(zhǔn)確率為80%左右,而智能會議轉(zhuǎn)寫準(zhǔn)確率則能達(dá)到90%以上,之后,其在醫(yī)療和司法系統(tǒng)進(jìn)行了應(yīng)用。另外,科大訊飛還推出了便攜翻譯機(jī),易于隨身攜帶,方便遠(yuǎn)程實時交流。

在電視方面,最早的電視是用數(shù)字加上下左右按鍵控制僅有的十幾個臺,而現(xiàn)在的智能電視后臺對接海量資源,通過訊飛智能電視助手可以進(jìn)行方便的語音交互,節(jié)省時間。

在汽車方面,由于人在駕駛時候手不能離開方向盤,故把語音引入代替手進(jìn)行交互會方便許多。實際上相比其他應(yīng)用場景,語音識別由于汽車場景的噪音更強(qiáng),面臨更大挑戰(zhàn),而科大訊飛也在基于車載的語音識別做了許多優(yōu)化,更在寶馬、奔馳、通用舉行的全球車載語音識別比賽取得第一名,有效的支撐了車載場景的交互。

在機(jī)器人方面,機(jī)器人與人的語音交互滿足自然交互、個性化服務(wù)以及基于業(yè)務(wù)場景的整合服務(wù),可以方便的任意打斷,在理解用戶的需求下進(jìn)行精準(zhǔn)的內(nèi)容推薦和服務(wù)。

語音識別和自然語言理解都是基于統(tǒng)計和概率體系,所以商業(yè)化過程建議選擇人受到一定限制(如車載)或者很難做百分之百正確(如會議同傳)的場景,然后隨著技術(shù)的進(jìn)一步成熟,可以進(jìn)入到更多的場景。

最后,王士進(jìn)總結(jié)道,“語音識別和人機(jī)交互技術(shù)在進(jìn)行技術(shù)優(yōu)化的同時更要結(jié)合應(yīng)用場景,最終可使得技術(shù)完善,產(chǎn)業(yè)更好的發(fā)展。”

百度語音技術(shù)部聲學(xué)技術(shù)負(fù)責(zé)人——李先剛

提到這些年對手機(jī)百度語音搜索的不斷優(yōu)化過程,李先剛認(rèn)為要做好這樣一個產(chǎn)品,先要收集相關(guān)數(shù)據(jù),然后將語音識別應(yīng)用推廣到相關(guān)產(chǎn)品線上供用戶使用,用戶使用后反饋回來數(shù)據(jù)形成完整鏈條,最終達(dá)到非常完美的狀態(tài)。

他把輸入法在語音識別中的作用表述為:輸入法這一場景對語音識別性能提升有非常大的幫助。

而今年,百度在語音技術(shù)方面的進(jìn)展包括基于GramCTC的端對端語音識別系統(tǒng)以及端對端說話人識別技術(shù)。

基于CTC的端對端語音識別系統(tǒng)是目前主流的工業(yè)系統(tǒng),在2015年底,百度實現(xiàn)了CTC端對端語音識別系統(tǒng)的上線。而今年,百度進(jìn)一步提出了GramCTC算法。

主流的說話人識別技術(shù)使用經(jīng)典的DNN-IVECTOR技術(shù),其框架基于統(tǒng)計模型,并將DNN引入此框架去學(xué)習(xí)。

可以看到的是,語音識別已走向大數(shù)據(jù)和端對端的道路,百度也將把說話人識別技術(shù)向此發(fā)展,進(jìn)一步提升相關(guān)性能。

李先剛表示,人臉識別與說話人識別有技術(shù)共性,二者之間的差異僅僅只是人臉識別對象可以是固定尺寸的圖片,而語音的時長會有很多變化。因此,百度說話人識別技術(shù)借鑒了目前人臉識別最好的方法——度量學(xué)習(xí),搭建了端對端度量學(xué)習(xí)的說話人識別系統(tǒng)。百度內(nèi)部的實驗顯示,基于端對端的說話人技術(shù)顯著提升了說話人識別的性能。

從商業(yè)化的角度分析語音識別,可將其應(yīng)用分為兩個維度,第一個是近場和遠(yuǎn)場,第二個是人配合機(jī)器說話和人對人說話的不同說話風(fēng)格。經(jīng)過這樣劃分會發(fā)現(xiàn)很多語音場景其實是處在不同的語音象限里面,目前業(yè)界所做的近場人對機(jī)器說話的識別準(zhǔn)確率可達(dá)90%以上,但另外幾個場景所做不盡人意。

在李先剛看來,隨著語音技術(shù)的推進(jìn),輔之商業(yè)化情景必將推動產(chǎn)品和技術(shù)的發(fā)展。

搜狗語音交互技術(shù)中心研發(fā)總監(jiān)——陳偉

從2012年到現(xiàn)在,隨著數(shù)據(jù)和算法的提升,搜狗的語音識別的識別錯誤率是逐年下降的。陳偉分享了一組數(shù)據(jù):到目前為止,搜狗輸入法每天的語音識別請求量高達(dá)2億次,每天產(chǎn)生語料達(dá)到18萬小時。

陳偉表示,搜狗在2016年發(fā)布知音引擎,對外輸出完整的語音交互解決方案,也一直在探索語音識別和交互的不同場景和經(jīng)驗。語音識別可以更好提升輸入、記錄、交流的效率,其可分為聽寫和轉(zhuǎn)寫,聽寫更多要求實時性,轉(zhuǎn)寫則面向客服數(shù)據(jù),不要求實時。另外,語音識別技術(shù)面向不同客戶,除了直接提供給消費(fèi)者,還有一些公司、企業(yè)如法院、醫(yī)院等,語音識別的應(yīng)用場合則更多是在演講、直播、語音分析中。

語音識別不是一個單獨的技術(shù),其需要同其他技術(shù)進(jìn)行融合,比如機(jī)器同傳、語音交互,未來的產(chǎn)品將會是技術(shù)與技術(shù)的組合,產(chǎn)品與產(chǎn)品的組合。

對如何做出一款好的語音交互產(chǎn)品,陳偉認(rèn)為首先是要重視場景和知識。只有技術(shù)(ASR、NLU等)與具體應(yīng)用場景比如車載、智能家具、可穿設(shè)備結(jié)合在一起,才能得到穩(wěn)定的產(chǎn)品。另外,僅僅有技術(shù)是不夠的,還需要技術(shù)創(chuàng)新。在得到良好的使用體驗之后用戶基數(shù)會擴(kuò)大,帶來更多數(shù)據(jù),這些累積的數(shù)據(jù)也是推動技術(shù)提升的關(guān)鍵。只有有了產(chǎn)品的迭代、有了真實的數(shù)據(jù)才能更好的分析出用戶需求,更好的推動產(chǎn)品發(fā)展。

他表示,技術(shù)與產(chǎn)品缺一不可。

“語音交互以技術(shù)為驅(qū)動,加之好的運(yùn)算力帶來大量數(shù)據(jù),以此進(jìn)行迭代,不斷通過技術(shù)和產(chǎn)品的耦合得到更好的產(chǎn)品?!?/span>


文章來源于:中國安防行業(yè)網(wǎng)

2017-04-25