語音識別已不是難事下一個挑戰(zhàn)是語音合成

2016-02-17 16:26:15 作者：朱旭冬來源：品玩網(wǎng) 評論：0 　點擊cti：

　　我相信大多數(shù)人對語音助手已經(jīng)不陌生了。很多人也已經(jīng)和 iOS 中的語音助手 Siri 進(jìn)行過對話，不論是逗它玩還是真的需要它的幫助。

　　對 Siri 來說，要聽懂你說的是什么并不難，但真的要和它進(jìn)行一場對話的話，你一定會感到怪怪的。拋開它是否能正確的回答你的問題不說，它回復(fù)你的聲音就會讓你明顯感覺到自己并不是在和一個人聊天。

　　的確，在語音識別這件事上，國內(nèi)外頂尖的公司都已經(jīng)能做到95%左右的準(zhǔn)確識別率。但在語音生成上，幾乎沒有公司能讓機(jī)器人說的話跟人說出來的話一樣，即便是一些簡單的詞組，你也一耳就能聽出是機(jī)器合成的還是真人播報。

　　但隨著人們越來越多的使用語音交互，如何讓電腦的聲音聽起來更具人性化，已經(jīng)成為了擺在很多軟件公司和程序員面前的大挑戰(zhàn)。

　　據(jù)《紐約時報》報道，IBM 曾在世紀(jì)之交花了18個月的時間讓機(jī)器人沃森(Watson)可以說話，但盡管沃森已經(jīng)非常聰明，它說話的本領(lǐng)仍然很差。因為聽起來根本不像人聲。

Michael Picheny，IBM 實驗室資深經(jīng)理。圖片來自《紐約時報》

　　現(xiàn)在電腦語音都是用機(jī)器合成的(除了部分天氣預(yù)報和導(dǎo)航提示是完全人工錄制)，合成最終語音的真人語音數(shù)據(jù)庫通常非常龐大，數(shù)據(jù)庫里有某個單詞的真人發(fā)音，以及這個單詞不同語調(diào)的發(fā)音，甚至這個單詞的部分發(fā)音。一位配音者通常需要花至少10個小時才能完成一個語音數(shù)據(jù)庫的錄入。

　　盡管語音數(shù)據(jù)庫已經(jīng)非常龐大，但是在合成語音的時候，仍然無法做到接近真人發(fā)聲。其中最大的難點是讓合成音帶有人類的感情�？▋�(nèi)基梅隆大學(xué)語言技術(shù)研究院的計算機(jī)科學(xué)家 Alan Black 告訴《紐約時報》，他們并沒有辦法告訴語音合成器說，這段話要帶有感情的去朗讀。

　　當(dāng)然，設(shè)計者也經(jīng)常強調(diào)他們并不希望用合成語音來騙人說這是真人語音。但他們?nèi)匀幌Ｍ麢C(jī)器和人的語音交互能更加自然，更像人和人之間的交流。

　　事實上，如果機(jī)器發(fā)音和真人發(fā)音過于接近，會讓人感到很不舒服。日本機(jī)器人科學(xué)家森政弘曾在1970年發(fā)表了一篇題為《恐怖谷》的文章，核心就是說，當(dāng)機(jī)器人和人的相似程度過于接近的時候，機(jī)器人身上的一點點小瑕疵，都會讓人感到不安。