思必馳：語(yǔ)音、手勢(shì)、觸控、人臉等，多模態(tài)交互開(kāi)啟智能經(jīng)濟(jì)時(shí)代

2021-07-08 09:03:55 作者：來(lái)源：CTI論壇評(píng)論：0 　點(diǎn)擊：

　　人類(lèi)的交互通道有眼耳鼻舌口等器官，他們充當(dāng)著外在世界信號(hào)的“接收器”，將范圍內(nèi)的信號(hào)接收并傳遞給“大腦”。在機(jī)器世界里，從過(guò)去鼠標(biāo)鍵盤(pán)轉(zhuǎn)變成當(dāng)下的觸控、語(yǔ)音、手勢(shì)、視覺(jué)等，多模態(tài)人機(jī)交互技術(shù)正在彼此融合。

　　目前智能語(yǔ)音具備兼顧老人、兒童以及地方方言的能力，語(yǔ)音與視覺(jué)，觸屏，LCD反饋顯示結(jié)合的交互體驗(yàn)，令交互門(mén)檻的不斷降低。國(guó)內(nèi)專(zhuān)業(yè)的對(duì)話式AI企業(yè)思必馳，結(jié)合全鏈路語(yǔ)音交互技術(shù)及自研計(jì)算機(jī)視覺(jué)技術(shù)推出多模態(tài)交互技術(shù)方案，落地白電、黑電智能終端，滿(mǎn)足用戶(hù)智能化需求。

　　01 機(jī)器的“眼耳鼻舌口”

　　機(jī)器能夠聽(tīng)懂人類(lèi)說(shuō)話，產(chǎn)生對(duì)話并提供服務(wù)，大大增強(qiáng)了物聯(lián)網(wǎng)設(shè)備實(shí)際使用價(jià)值。越來(lái)越多搭載語(yǔ)音交互平臺(tái)，能夠?qū)崿F(xiàn)對(duì)話的物聯(lián)網(wǎng)設(shè)備，從電視、冰箱到家居設(shè)備，各種終端不勝枚舉。

　　在實(shí)踐過(guò)程中發(fā)現(xiàn)，語(yǔ)音交互的物聯(lián)網(wǎng)設(shè)備缺乏主動(dòng)服務(wù)的能力，只是換了操作方式，用戶(hù)體驗(yàn)沒(méi)有本質(zhì)提升。這種缺乏主動(dòng)服務(wù)的人機(jī)關(guān)系怎么改變呢？

　　答案也許是讓機(jī)器除了能聽(tīng)和說(shuō)之外，還要能看，能感覺(jué)，能將五感聯(lián)系到一起進(jìn)行思考。

　　在智能語(yǔ)音交互發(fā)展的過(guò)程中，多模態(tài)交互是一個(gè)必經(jīng)階段。擁有各種傳感器的智能設(shè)備，除了能聽(tīng)（耳）會(huì)說(shuō)（嘴），同時(shí)還利用攝像頭（眼）觀察、底盤(pán)云臺(tái)（腳）移動(dòng)等，從而全面的理解用戶(hù)、與用戶(hù)進(jìn)行溝通，從而滿(mǎn)足用戶(hù)的需求。

　　這個(gè)交互過(guò)程模擬了人與人之間的交互方式，使交互更自然、更切合用戶(hù)意圖。這一交互方式打破了傳統(tǒng)的鍵盤(pán)輸入和智能手機(jī)的點(diǎn)觸式交互方式，符合“機(jī)器人”類(lèi)產(chǎn)品的形態(tài)特點(diǎn)和用戶(hù)期待，定義了下一代智能產(chǎn)品和人的專(zhuān)屬交互模式。

　　02 三方面加持，深化多模態(tài)交互

　　智能經(jīng)濟(jì)時(shí)代，人機(jī)交互將全面智能化并帶來(lái)一系列的深度變革。需要不斷升級(jí)產(chǎn)品、內(nèi)容、服務(wù)，才能更好地適應(yīng)用戶(hù)在未來(lái)智能化終端上的需求和習(xí)慣。

　　思必馳作為國(guó)內(nèi)專(zhuān)業(yè)的對(duì)話式人工智能平臺(tái)公司，從信號(hào)處理、識(shí)別到理解到交互，思必馳擁有全面的智能語(yǔ)音語(yǔ)言技術(shù)。思必馳多模態(tài)交互技術(shù)的應(yīng)用，主要為以下三個(gè)方面：

多模態(tài)VAD

　　根據(jù)視覺(jué)和音頻特征，通過(guò)多模態(tài)融合的方式識(shí)別出說(shuō)話人的語(yǔ)音內(nèi)容，拒識(shí)其他說(shuō)話人的聲音，從而實(shí)現(xiàn)輔助降噪、拒識(shí)；

人臉識(shí)別&人臉對(duì)比

　　人臉識(shí)別：人臉關(guān)鍵點(diǎn)、頭部姿態(tài)角、人臉與攝像頭距離角度、性別、年齡、口罩等；

　　人臉對(duì)比：首先進(jìn)行人臉注冊(cè)，提取注冊(cè)人臉的特征；對(duì)需要對(duì)比的人臉提取特征，并與注冊(cè)的人臉特征進(jìn)行對(duì)比，識(shí)別出該人臉是否注冊(cè)及其FaceID；

手勢(shì)識(shí)別

　　當(dāng)用戶(hù)說(shuō)了一天的話，坐在沙發(fā)上想看個(gè)電視卻找不到遙控器換臺(tái)，他抬手在面板前，用手勢(shì)切換臺(tái)；用戶(hù)在聽(tīng)音樂(lè)，此時(shí)電話來(lái)了，他用手勢(shì)示意面板將音樂(lè)暫停。

　　03 從智能家居，到“多模態(tài)”開(kāi)花

　　依托智能語(yǔ)音行業(yè)深耕多年的經(jīng)驗(yàn)及關(guān)鍵技術(shù)優(yōu)勢(shì)，結(jié)合全鏈路語(yǔ)音交互技術(shù)及自研計(jì)算機(jī)視覺(jué)技術(shù)，思必馳的多模態(tài)交互技術(shù)方案已經(jīng)落地眾多智能終端產(chǎn)品，滿(mǎn)足用戶(hù)智能化需求。

　　智能家居領(lǐng)域，針對(duì)空調(diào)、冰箱、爐灶等白電產(chǎn)品，思必馳推出智能白電AI交互解決方案。根據(jù)智能白電的不同組網(wǎng)模式（中控/分布式/單機(jī)），思必馳提供正面喚醒、就近喚醒、語(yǔ)義喚醒以及多模態(tài)綜合喚醒方案。

　　黑電領(lǐng)域，智能電視作為「客廳經(jīng)濟(jì)」中的核心代表產(chǎn)品，占據(jù)客廳場(chǎng)景最大的流量入口。思必馳為智能電視打造流暢自然的語(yǔ)音入口+輸出，同時(shí)背靠DUI平臺(tái)，打通了超過(guò)300家第三方資源接口，為用戶(hù)提供全屋家居控制、交通出行、新聞資訊、生活?yuàn)蕵?lè)等各領(lǐng)域內(nèi)容服務(wù)。

　　針對(duì)周邊嘈雜干擾大、多人密集同時(shí)交互的情況，比如多位用戶(hù)在激烈的玩電子游戲、親朋好友聚會(huì)等。思必馳多模態(tài)交互技術(shù)方案，根據(jù)視覺(jué)和音頻特征，通過(guò)多模態(tài)融合VAD分離出說(shuō)話人的目標(biāo)語(yǔ)音，拒識(shí)其他說(shuō)話人的聲音，實(shí)現(xiàn)輔助降噪、提高聲源定位的精準(zhǔn)度，即使說(shuō)話人在移動(dòng)狀態(tài)下也不受影響。

　　另外，思必馳多模態(tài)交互技術(shù)方案還可以應(yīng)用在會(huì)議大屏、商場(chǎng)顯示大屏、地鐵購(gòu)票機(jī)等商用帶屏顯示設(shè)備中，目前此技術(shù)已在全國(guó)多個(gè)地區(qū)地鐵的購(gòu)票設(shè)備中落地。

　　隨著思必馳旗下深聰智能第二代AI芯片發(fā)布，思必馳在多模態(tài)方面的演進(jìn)路線更加明朗。語(yǔ)音、圖像、手勢(shì)等交互方式的交融能夠極大程度降低用戶(hù)的AI體驗(yàn)門(mén)檻，未來(lái)，思必馳將繼續(xù)發(fā)揮優(yōu)勢(shì)并持續(xù)打造更多滿(mǎn)足AI應(yīng)用場(chǎng)景的產(chǎn)品，為智能經(jīng)濟(jì)時(shí)代提供向上引擎。

【免責(zé)聲明】本文僅代表作者本人觀點(diǎn)，與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立，不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考，并請(qǐng)自行承擔(dān)全部責(zé)任。

相關(guān)熱詞搜索：思必馳智能語(yǔ)音交互智能家居

上一篇:中關(guān)村科金簽約華北石油電力，智能科技高效解決政府單位服務(wù)痛點(diǎn)

下一篇:最后一頁(yè)

相關(guān)閱讀：