在近期舉行的亞洲消費(fèi)電子展上,汽車廠商成為重頭戲,不少智能概念車首次亮相。但是,智能概念車雖然有新意,其量產(chǎn)和普及卻還有很長的一段路。業(yè)內(nèi)專家表示,讓“智能概念”能夠?qū)崿F(xiàn)“民用級(jí)”,走入車主生活,還是要靠智能車載硬件,才會(huì)讓汽車真正“智能”起來。
車載語音機(jī)器人需要“更強(qiáng)大腦”
不久前,一段關(guān)于“山東糾正哥”進(jìn)行車載電話撥號(hào)的視頻瘋傳網(wǎng)絡(luò)。夾雜方言的山東男子試圖用語音撥打電話號(hào)碼,車載系統(tǒng)的識(shí)別過程笑話百出,糾正多次都無果,人與機(jī)器紛紛無奈。在這則笑話視頻的背后,更多地是反映出了當(dāng)今智能語音技術(shù)的關(guān)鍵短板所在:非配合情況下,人和機(jī)器根本無法用語音順暢交流。
車載硬件的“智能”,在駕駛過程中首推交互智能。駕駛過程中由于導(dǎo)航、電話、信息、車載娛樂和各類車內(nèi)控制,司機(jī)需要與車載硬件進(jìn)行不停的“溝通”。以往,通常需要司機(jī)的視線離開路面,用手操作手機(jī)或車載硬件實(shí)現(xiàn)溝通。人們已經(jīng)廣泛認(rèn)識(shí)到,這種方式的精力分散已經(jīng)成為重要的安全隱患。因此,采用語音操控成為了“智能汽車”的必由之路。國外的蘋果、谷歌、Nuance,國內(nèi)的百度、科大訊飛等公司都紛紛開發(fā)過車載語音系統(tǒng)。
但目前的車載語音系統(tǒng)大都只使用了語音識(shí)別技術(shù),通過抗噪算法一定程度上減輕車載噪聲對(duì)機(jī)器辨識(shí)的影響。但從人機(jī)交互角度,更多地還是停留在“一問一答”的簡單命令控制階段,只是一個(gè)不太靈敏的“耳朵”加上機(jī)械式的流程圖判斷,在出現(xiàn)多個(gè)結(jié)果的情況下,仍需輔助屏幕觸控,這使得現(xiàn)在的車載系統(tǒng)都不具有真正的“人機(jī)智能”。
首先就是語音識(shí)別在非配合的情況下,由于方言、環(huán)境噪聲等的影響準(zhǔn)確率不高。即使達(dá)到了90%以上的準(zhǔn)確率,上述的“山東糾正哥”在撥打11位手機(jī)電話的時(shí)候,還是有1位錯(cuò)誤。而一旦有識(shí)別錯(cuò)誤,機(jī)器就無法準(zhǔn)確理解用戶意圖,電話號(hào)碼錯(cuò)1位也無法撥出,還是要手動(dòng)操作。更嚴(yán)重的是,沒有大腦的語音交互系統(tǒng),只能不停地按照自己的邏輯讓用戶重復(fù)或提供特定信息,對(duì)“打斷”、“糾正”這類深層次的需求束手無策,使得本應(yīng)解決問題的智能交互變成了不斷添加更多累贅的“麻煩制造者”。更不要說由于沒有交互系統(tǒng)的架構(gòu)設(shè)計(jì)、缺乏智能的信息控制與調(diào)度而造成的語音延遲和反應(yīng)滯后的現(xiàn)象了。真正的“車載語音機(jī)器人”需要“更強(qiáng)大腦”。
從“能聽會(huì)說”到“會(huì)聽能做”
“語音交互系統(tǒng)不能再‘有耳無腦’了。”國家青年千人計(jì)劃獲得者、上海市“東方學(xué)者”特聘教授,上海交大—思必馳智能語音技術(shù)聯(lián)合實(shí)驗(yàn)室負(fù)責(zé)人俞凱表示,上海交通大學(xué)智能語音技術(shù)實(shí)驗(yàn)室最新研發(fā)的認(rèn)知型人機(jī)口語對(duì)話系統(tǒng),就已經(jīng)不再是傳統(tǒng)的語音識(shí)別,而是一個(gè) “人性化語音機(jī)器人”。人們可以順暢自由地使用語音,隨時(shí)隨地與能夠理解自然語言的智能交互機(jī)器人進(jìn)行對(duì)話交流,完成任務(wù)。
俞凱介紹說,上海交通大學(xué)智能語音技術(shù)實(shí)驗(yàn)室從人機(jī)交互系統(tǒng)的角度進(jìn)行智能語音技術(shù)的研究,在實(shí)現(xiàn)一系列高性能抗噪語音識(shí)別的基礎(chǔ)上,研發(fā)了具有適應(yīng)和思考能力的認(rèn)知型人機(jī)口語對(duì)話系統(tǒng)。并與蘇州思必馳信息科技有限公司合作,升級(jí)推出了針對(duì)智能車載的一體化智能人機(jī)交互解決方案,使得語音交互系統(tǒng)不再 “有耳無腦”。在近期剛剛發(fā)布的全球首款車載智能抬頭顯示(Head Up Display,HUD)系統(tǒng)——“車蘿卜”(carrobot)中,就使用了這樣的智能對(duì)話系統(tǒng)技術(shù)。
俞凱認(rèn)為,傳統(tǒng)語音識(shí)別只是模擬耳朵的感知功能,但其實(shí)更關(guān)鍵的是解決完整的口語人機(jī)交互問題,這是模擬人腦的全套認(rèn)知功能。認(rèn)知型的智能語音技術(shù)是更高層面的人工智能,與傳統(tǒng)語音識(shí)別和合成相比,它融入了自適應(yīng)、理解糾錯(cuò)、智能反饋的認(rèn)知技術(shù)。這會(huì)使得機(jī)器可以適應(yīng)更多的環(huán)境和口音,具有進(jìn)化調(diào)整的能力,從“能聽會(huì)說”變成“會(huì)聽能做”:即聽得懂說的,懂得聽什么,聽不清楚了能問,搞錯(cuò)了能糾正,最終能成功完成用戶的任務(wù)。
讓機(jī)器“深度理解”“自動(dòng)糾錯(cuò)”
俞凱說,超越傳統(tǒng)語音識(shí)別的“深度理解”以及“自動(dòng)糾錯(cuò)”技術(shù)是新型的人性化智能語音交互技術(shù)的兩個(gè)典型例子。
“深度理解”是把機(jī)器的識(shí)別狀態(tài)(比如識(shí)別結(jié)果的可靠度、環(huán)境嘈雜程度等)、用戶的個(gè)人特點(diǎn)(比如性別、方言地區(qū)、說話快慢等),以及說話的情境(比如談話的領(lǐng)域、常識(shí)、前面談話的歷史等)等因素從大數(shù)據(jù)中提取出來,根據(jù)這些“情境”對(duì)識(shí)別結(jié)果再進(jìn)行二次計(jì)算,使得語義理解的準(zhǔn)確度大大提高。
“因?yàn)檫@些計(jì)算模型的訓(xùn)練都依賴于語音識(shí)別的結(jié)果,采用合理的算法,就能學(xué)習(xí)各種語音識(shí)別錯(cuò)誤模式,使機(jī)器像人一樣能夠從失敗中總結(jié)規(guī)律,在理解的時(shí)候自動(dòng)糾正語音識(shí)別的錯(cuò)誤。”俞凱舉例說,比如用戶在開車的時(shí)候說“導(dǎo)航到車管所”,不幸被識(shí)別成“導(dǎo)航到廁所”,根據(jù)情境和談話歷史信息,這個(gè)語音識(shí)別的錯(cuò)誤很容易就被自動(dòng)糾正回“車管所”。
而對(duì)于“糾正錯(cuò)誤”的問題,不止是深度理解可以進(jìn)行單句的語義適配式糾錯(cuò),機(jī)器還可以像人一樣通過對(duì)話交互糾錯(cuò)或理解意圖。俞凱說,通過邏輯關(guān)聯(lián)和智能對(duì)話,機(jī)器能夠像人一樣允許被“打斷”,以及智能的根據(jù)新信息糾正原先的號(hào)碼,這也就是上海交通大學(xué)智能語音實(shí)驗(yàn)室研發(fā)的基于統(tǒng)計(jì)的認(rèn)知型對(duì)話管理技術(shù)。
語音機(jī)器人會(huì)越來越“聽話”
“以前語音識(shí)別只追求‘聽清’,語義理解也只追求一句話層面的‘聽懂’,而新型的人機(jī)智能交互是追求機(jī)器能夠‘聽話’,成為真正的‘語音機(jī)器人’。而且希望它能夠有進(jìn)化和適應(yīng)的能力,用得越多越聽話。”俞凱說,語音輸入不再局限于呆板簡單的句式限制,語音控制也不需要按照機(jī)器的設(shè)定去命令,在復(fù)雜環(huán)境和噪音影響下,在自由說話方式(例如打斷)下,依然能夠保證良好而穩(wěn)定的語音識(shí)別和語義分析精度。人類的自然口語,或許不完整,或許發(fā)音不準(zhǔn)確,語義不精確,但是通過上下文關(guān)聯(lián)邏輯,以及多輪對(duì)話交互,機(jī)器能夠進(jìn)行智能語義推理而準(zhǔn)確識(shí)別人的意思,大幅度提升使用者的語音交互體驗(yàn)。
對(duì)于自己正在進(jìn)行的研究項(xiàng)目,上海交通大學(xué)智能語音技術(shù)實(shí)驗(yàn)室的研究者們表示,語音交互的智能設(shè)備更容易打動(dòng)消費(fèi)者,這是因?yàn)椤叭诵曰睅Ыo消費(fèi)者更好的使用體驗(yàn)。真正的人工智能語音,要以用戶為中心,在多類環(huán)境下準(zhǔn)確識(shí)別并反饋,以個(gè)性化色彩進(jìn)行交流。語音交互的未來應(yīng)當(dāng)是面向用戶,人性化的智能交互,而非過去模塊化的機(jī)械交互。拋棄過去單一的語音識(shí)別與合成,把識(shí)別、語義理解和人機(jī)對(duì)話連在一起,幫助用戶完成任務(wù),這將是一個(gè)嶄新的劃時(shí)代變革。
“希望‘山東糾正哥’能用上最新的認(rèn)知型人機(jī)口語對(duì)話系統(tǒng),不再鬧笑話;更希望車主們都能與自己的愛車無障礙交流,愉快地行走在路上。”俞凱笑著說。