
聊天機器人:平穩(wěn)發(fā)展、金融成為應(yīng)用規(guī)模最大領(lǐng)域
聊天機器人主要有兩種,即:任務(wù)式機器人和閑聊式機器人。
任務(wù)式機器人主要目標是幫助用戶解決帶有特定需求的問題,而閑聊式機器人主要目的是陪用戶閑聊,打發(fā)時間。
聊天機器人:檢索式與生成式的內(nèi)在邏輯
任務(wù)式機器人主要目標是幫助用戶解決帶有特定需求的問題,而閑聊式機器人主要目的是陪用戶閑聊,打發(fā)時間。
當前聊天機器人主要有兩種實現(xiàn)方式:(1)檢索式;(2)生成式。
01.基于檢索的chatbot:
檢索式的方法依賴文本匹配技術(shù),在諸多候選回復(fù)中,選擇匹配分數(shù)最高的作為回復(fù)。
對語料檢索匹配
這種檢索在客服問答領(lǐng)域非常常見,只要用戶給到一個query命中知識庫哪個問題,就將其與語料庫中的對話進行匹配,篩選出用戶可能喜歡最優(yōu)解。
考慮上下文進行評分
經(jīng)過上一輪檢索匹配,篩選出幾個候選response,需要將上下文考慮進去,從而使得對話看起來比較智能。
由此看出:基于檢索的bot核心思想是從語料庫中尋找最適合的匹配回答,而bot的效果就會被相似計算的特征設(shè)計以及語料庫的豐富度影響。
02.基于生成的chatbot:
對于閑聊bot來講,生成模型更像是類似機器翻譯的“編碼-解碼”的生成模式,編碼器讀取對話歷史,解碼器直接生成相應(yīng)回復(fù)。
考慮上下文
每一次模型編碼都要考慮前序編碼結(jié)果,每次解碼生成的語句才能考慮了上下文的信息。
考慮情感化
有了情感化的chatbot才更像一個聊天的人而不是bot。這是提高用戶感受的重要因素。
考慮知識/主題
通過查詢數(shù)據(jù)庫、通過槽位追問得到信息來作為條件限制解碼器的輸出。
加入強化學(xué)習(xí)DM
由于傳統(tǒng)機器人對話缺乏情感化元素,chat場景與task一樣需要策略管理系統(tǒng)。
由此看出:機器翻譯的結(jié)果比較肯定,具有客觀性。而在對話任務(wù)上,生成式的輸出結(jié)果有一定的多樣性,類似我們做的閱讀理解題目。所以,評估生成式對話的結(jié)果是否準確,往往也是一件費時且不易判斷的事情。
生成式的聊天機器人:檢索式與生成式的內(nèi)在邏輯
總體上說,生成式的聊天機器人確實還存在一些問題,例如不可控性,語料成本昂貴,缺乏工業(yè)實用性等。但是,優(yōu)點也很明顯,例如可玩性, 生成多樣性,發(fā)展趨勢性等。
在目前主流的實際項目應(yīng)用中,聊天機器人的作用更多地還是增加一些趣味性,彌補任務(wù)型或事實問答型機器人的乏味性。也許,有一天,當自然語言理解的能力足夠強大時,生成式機器人會逐漸替代任務(wù)型和事實型機器人的工作。
說了那么多理論知識,也該看點有趣的事情了。
遠傳生成式聊天機器人基于閑聊對話算法生成模型基于GPT2模型,訓(xùn)練語料50萬以上,響應(yīng)時間不超過300ms,并發(fā)承載200TPS。