首頁>>廠商>>語音識別與合成>>得意音通

聲紋識別與數據安全

鄭方 鄧永強 2003/04/17

  自1946年世界上第一臺馮-依曼計算機面世以來,在半個多世紀的時間里,計算機硬件按摩爾定律(芯片產業(yè)每18個月速度增長1倍)迅猛發(fā)展;而微軟公司等軟件生產商所開發(fā)的高質量軟件,相輔相成,給人類使用計算機帶來了很大的方便;這些都使人類的能力得到延伸。網絡技術的飛速發(fā)展又使得人類所生活的地球變成了一個“地球村”,人類的活動空間變大了,在某種意義上講,人類的活動和交流甚至可以跨越時間和空間的障礙。因此可以說,由于計算機及其技術的飛速發(fā)展而推動的信息化進程,極大地改變了人們的生活方式,并提高了人類的生活質量。

  然而,在人們享受著信息化所帶來的好處的同時,人們也面臨著“個人隱私有被信息化吞食的危險”。

  美國計算機安全企業(yè)Cryptography Research公司近日指出,由于計算機性能18個月倍增這一所謂“摩爾定律”的作用,計算機系統越來越脆弱,安全專家稱,這就是摩爾定律的負面影響。

  Cryptography Research公司總裁、安全專家Paul Kocher說,在摩爾定律的作用下,計算機性能提高了,但是系統也日益復雜化,這就為非法入侵者增加了進攻手段和機會。

  2002年11月29日《北京青年報》報道(http://finance.sina.com.cn)“京城第一稅案開審,三稅官玩忽職守損失2.8億”:由于當事人經常把進入系統的專用IC卡隨意放在抽屜里、桌子上,導致罪犯趁機非法操作增值稅防偽稅控系統。

  2003年1月6日,《環(huán)球時報》報道:一伙竊賊躲過美國鳳凰城“三西健康保健公司”的保安系統,進入了這家公司的一座大樓,偷走了數臺筆記本電腦和臺式電腦的硬盤,以及一些文字資料,然后逃之夭夭,從而使50多萬份軍人醫(yī)療保健檔案被盜。日本政府從2002年8月開始建立的全國居民個人資料聯網系統(即我們所說的“電子身份證”),用以存儲日本1.26億國民的個人信息,包括姓名、住址、出生年月、性別和新的身份證號碼,而開始運行僅5個月的電子身份證系統就連續(xù)發(fā)生了2次嚴重的資料泄密事件。

  這些事件的發(fā)生,促使人們考慮這樣一個問題,那就是:在信息化時代如何保護個人隱私。試想在把個人資料加以整合進行集中管理,只用一張IC卡就能完成各種活動,從而可以極大地提高工作效率和生活質量的同時,如何才能防止系統被非法或非授權闖入?如何才能有效地防止被記錄下來的個人資料被竊?

一、用生物特征進行身份認證

  為了有效防止類似事件的發(fā)生,必須嚴格限制系統操作員,防止系統被非授權者非法闖入。而密碼或IC卡等具有先天性安全缺陷的身份認證手段,必將被更為有效的方法所取代,那就是利用生物特征進行身份認證的技術。正如比爾·蓋茨所說:“以人類生物特征(指紋、語音、臉像等)進行身份驗證的生物識別技術,在今后數年內將成為IT產業(yè)最為重要的技術革命!

  那么有那些生物特征可資使用呢?下面舉例說明。

  1.1面孔
  人的面容各異,世界上沒有長得一模一樣的兩個人,即使是雙胞胎,用人類學方法測量也可發(fā)現差異。把人臉面部各個解剖部位間的點、線測繪出來,用紅外線對面部熱相進行掃描,就可以進行人臉識別。

  1.2指紋、手指和掌紋
  指紋(Finger prints)是人手指末端掌面皮膚乳突線隆起形成的花紋;而在人手掌上形成的這種花紋稱為掌紋(palm prints);另外在人的腳掌面上也有類似的花紋。

  指紋可分上百種圖形,每個指紋又由13種不同形狀的點、線等排列組合成近百個特征點,加之各特征點、線間的位置、分布又不同,而使指紋的特異性、穩(wěn)定性、遺傳性"終生不變,萬人不同"。法國有人報告,指紋上的細節(jié)特征按數學方法可以歸納為4種,而每個指紋約有100個細節(jié),經排列組合得出61位數,假定一個世紀內有50億人口,即有500億個指頭,經推算發(fā)現,人類要經過50位數字的世紀才可能出現絕對重復的指紋,故實際上世人中不可能有兩個指紋完全相同的人,所以說,指紋是公認的個人認定絕對可靠的標志,并已在法庭科學中得到很長時間的應用。我國古代一直以指紋畫押證明個人身份,并為世界各國推崇,可見指紋是舉世公認而且是不可仿冒的個人標記。

  另外,美國科學專家對4,000名飛行員的手指逐一測試,結果發(fā)現每個人的手指都不一樣長。這一意外發(fā)現促成了一種用手指長度辨別身份的機器的誕生。

  人手掌紋的形成及其特異性與指紋相同。手掌形根據人類學方法測量,可找出每個人之間的差異,但其準確性遠不如指紋。

  1.3虹膜
  人眼虹膜位于眼角膜之后,水晶體之前,其顏色因含色素的多少與分布不同而不同。透過角膜可見虹膜呈圓盤狀,中央有一小孔稱瞳孔,瞳孔依環(huán)境的明暗,可自動縮小或擴大。圓盤狀的虹膜以中央的瞳孔為中心,向周圍有輻射狀的紋理和小凹,猶如裙子折。瞳孔縮小時紋理變直;瞳孔擴大時紋理呈波浪形,虹膜上的紋理、血管、斑點等細微特征人各不同。

  1.4視網膜
  瑞士科學家發(fā)現每個人的視網膜圖紋也都是不同的。人眼球視網膜的中央動脈,在眼底至視神經乳頭處分為上下兩支,然后在視網膜顳側上下及鼻側上下再分為4支小動脈,各支小動脈再逐級分的更細、更小,以至在視網膜上形成四通八達的毛細血管網,此即臨床醫(yī)生觀察眼底診病的眼底血管圖。這些血管逐級分支以至成網,正如參天大樹逐級分出樹杈形成許多樹葉,絕無完全相同的兩個眼底血管圖。如果某個體眼底血管有先天變異,或后天變異血管或眼底發(fā)生病變,則更增添了鑒別的特殊標志。因此,在法庭科學上將眼底視網膜血管圖視為個人識別的優(yōu)選方法之一。

  1.5氣味
  每個人的身體散發(fā)出的氣味都是不同的。當一個人在一個地點活動時,他散發(fā)出的氣味就會留在周圍的空間內,人離去后氣味不會馬上消失。將氣味收集起來,經濃縮轉移到清潔無味的布上就稱為“味紋”,用電子鼻或警犬能準確區(qū)分不同人的“味紋”。

  1.6 DNA
  DNA(脫氧核糖核酸)存在于一切有核的動、植物中,生物的全部遺傳信息都貯存在DNA分子里。DNA結構中的編碼區(qū),即遺傳基因或稱基因序列部分占DNA全長的1/10~1/30,這部分就是遺傳密碼區(qū)。

  就人來講遺傳基因約有十萬個,每個均由A、T、G、C四種核苷酸按次序排列在兩條互補的螺旋的DNA長鏈上。核苷酸的總數達30億左右,如隨機查兩個人的DNA圖譜,其完全相同的概率僅為三千億分之一,這一概率遠低于目前世界人口總數的倒數,所以其認定個人的價值可看作是100%。

  1.7血管紋路
  美國科達公司工程師喬·萊斯發(fā)現,每個人手背上樹狀血管的脈絡紋路都是不同的,即使是孿生兄弟姐妹也不具備相同的血管紋路,因為這與后天影響有關,其形成及意義與網膜血管相同,但遠不如視網膜血管那么繁雜,而且透過皮膚可視的血管又有限。血管紋路識別儀主要由電腦和紅外攝像機組成。其錄入存儲與檢查的方法均較簡便,只需把緊握拳的手放在攝像機下數秒鐘,經計算機與存儲的圖像比較后即可認定或否定的結論,這不失為更簡便的一種。

  1.8聲紋
  所謂聲紋(Voiceprint),是用電聲學儀器顯示的攜帶言語信息的聲波頻譜。
  人類語言的產生是人體語言中樞與發(fā)音器官之間一個復雜的生理物理過程,人在講話時使用的發(fā)聲器官--舌、牙齒、喉頭、肺、鼻腔在尺寸和形態(tài)方面每個人的差異很大,所以任何兩個人的聲紋圖譜都有差異。每個人的語音聲學特征既有相對穩(wěn)定性,又有變異性,不是絕對的、一成不變的。這種變異可來自生理、病理、心理、模擬、偽裝,也與環(huán)境干擾有關。盡管如此,由于每個人的發(fā)音器官都不盡相同,因此在一般情況下,人們仍能區(qū)別不同的人的聲音或判斷是否是同一人的聲音。

  1.9其他生物特征
  人類還有其他可以進行身份鑒別或確認的生物特征,如指法、筆跡、簽名、步態(tài)、耳形等等。所有這些生物特征在進行身份鑒別或確認時,其普遍性、唯一性、永久性、易獲取性、可區(qū)分性、防偽能力以及用戶接受程度等等,都不盡相同,因此,在不同場合、不同應用環(huán)境下,應選擇不同的特征。目前,在全球用生物特征進行身份鑒別和確認的應用中,各種生物特征的使用比例分別為:手指34.7%,手31%,聲音15.8%,面孔7.1%,AFIS(自動指紋辨認)4.4%,虹膜3.7%,簽名2.7%,視網膜0.6%,等等(1999年底數據)。

二、聲紋識別及其應用

  聲紋識別的應用有一些缺點,比如同一個人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;比如不同的麥克風和信道對識別性能有影響;比如環(huán)境噪音對識別有干擾;又比如混合說話人的情形下人的聲紋特征不易提;……等等。盡管如此,與其他生物特征相比,聲紋識別的應用有一些特殊的優(yōu)勢:(1)蘊含聲紋特征的語音獲取方便、自然,聲紋提取可在不知不覺中完成,因此使用者的接受程度也高;(2)獲取語音的識別成本低廉,使用簡單,一個麥克風即可,在使用通訊設備時更無需額外的錄音設備;(3)適合遠程身份確認,只需要一個麥克風或電話、手機就可以通過網路(通訊網絡或互聯網絡)實現遠程登錄;(4)聲紋辨認和確認的算法復雜度低;(5)配合一些其他措施,如通過語音識別進行內容鑒別等,可以提高準確率;……等等。這些優(yōu)勢使得聲紋識別的應用越來越收到系統開發(fā)者和用戶親睞,聲紋識別的世界市場占有率15.8%,僅次于手指和手的生物特征識別,并有不斷上升的趨勢。

  2.1聲紋識別的分類
  聲紋識別(Voiceprint Recognition, VPR),也稱為說話人識別(Speaker Recognition),有兩類,即說話人辨認(Speaker Identification)和說話人確認(Speaker Verification)。前者用以判斷某段語音是若干人中的哪一個所說的,是“多選一”問題;而后者用以確認某段語音是否是指定的某個人所說的,是“一對一判別”問題。不同的任務和應用會使用不同的聲紋識別技術,如縮小刑偵范圍時可能需要辨認技術,而銀行交易時則需要確認技術。不管是辨認還是確認,都需要先對說話人的聲紋進行建模,這就是所謂的“訓練”或“學習”過程。

  從另一方面,聲紋識別有文本相關的(Text-Dependent)和文本無關的(Text-Independent)兩種。與文本有關的聲紋識別系統要求用戶按照規(guī)定的內容發(fā)音,每個人的聲紋模型逐個被精確地建立,而識別時也必須按規(guī)定的內容發(fā)音,因此可以達到較好的識別效果,但系統需要用戶配合,如果用戶的發(fā)音與規(guī)定的內容不符合,則無法正確識別該用戶。而與文本無關的識別系統則不規(guī)定說話人的發(fā)音內容,模型建立相對困難,但用戶使用方便,可應用范圍較寬。根據特定的任務和應用,兩種是有不同的應用范圍的。比如,在銀行交易時可以使用文本相關的聲紋識別,因為用戶自己進行交易時是愿意配合的;而在刑偵或偵聽應用中則無法使用文本相關的聲紋識別,因為你無法要求犯罪嫌疑人或被偵聽的人配合。

  在說話人辨認方面,根據待識別的說話人是否在注冊的說話人集合內,說話人辨認可以分為開集(open-set)辨認和閉集(close-set)辨認。前者假定待識別說話人可以在集合外,而后者假定待識別說話人在集合內。顯然,開集辨認需要有一個對集外說話人的“拒識問題”,而且閉集辨認的結果要好于開集辨認結果。本質上講,說話人確認和開集說話人辨認都需要用到拒識技術,為了達到很好的拒識效果,通常需要訓練一個假冒者模型或背景模型,以便拒識時有可資比較的對象,閾值容易選定。而建立背景模型的好壞直接影響到拒識甚至聲紋識別的性能。一個好的背景模型,往往需要通過預先采集好的若干說話人的數據,通過某種算法去建立。

  如果技術達到一定的水平,可以把文本相關識別并入文本無關識別,把閉集辨認并入開集辨認,從而提供更為方便的使用方法。比如北京得意音通技術有限公司的“得意”身份證就是文本無關的、開集方式的說話人辨認和確認,“得意”身份證SDK還提供建立背景模型的工具。

  2.2聲紋識別的關鍵問題

  聲紋識別可以說有兩個關鍵問題,一是特征提取,二是模式匹配(模式識別)。

  特征提取的任務是提取并選擇對說話人的聲紋具有可分性強、穩(wěn)定性高等特性的聲學或語言特征。與語音識別不同,聲紋識別的特征必須是“個性化”特征,而說話人識別的特征對說話人來講必須是“共性特征”。雖然目前大部分聲紋識別系統用的都是聲學層面的特征,但是表征一個人特點的特征應該是多層面的,包括:(1)與人類的發(fā)音機制的解剖學結構有關的聲學特征(如頻譜、倒頻譜、共振峰、基音、反射系數等等)、鼻音、帶深呼吸音、沙啞音、笑聲等;(2)受社會經濟狀況、受教育水平、出生地等影響的語義、修辭、發(fā)音、言語習慣等;(3)個人特點或受父母影響的韻律、節(jié)奏、速度、語調、音量等特征。從利用數學方法可以建模的角度出發(fā),聲紋自動識別模型目前可以使用的特征包括:(1)聲學特征(倒頻譜);(2)詞法特征(說話人相關的詞n-gram,音素n-gram);(3)韻律特征(利用n-gram描述的基音和能量“姿勢”);(4)語種、方言和口音信息;(5)通道信息(使用何種通道);等等。

  根據不同的任務需求,聲紋識別還面臨一個特征選擇或特征選用的問題。例如,對“信道”信息,在刑偵應用上,希望不用,也就是說希望弱化信道對說話人識別的影響,因為我們希望不管說話人用什么信道系統它都可以辨認出來;而在銀行交易上,希望用信道信息,即希望信道對說話人識別有較大影響,從而可以剔除錄音、模仿等帶來的影響。

  總之,較好的特征,應該能夠有效地區(qū)分不同的說話人,但又能在同一說話人語音發(fā)生變化時保持相對的穩(wěn)定;不易被他人模仿或能夠較好地解決被他人模仿問題;具有較好的抗噪性能;……。當然,這些問題也可以通過模型方法去解決。

  對于模式識別,有以下幾大類方法:

  (1)模板匹配方法:利用動態(tài)時間彎折(DTW)以對準訓練和測試特征序列,主要用于固定詞組的應用(通常為文本相關任務);
  (2)最近鄰方法:訓練時保留所有特征矢量,識別時對每個矢量都找到訓練矢量中最近的K個,據此進行識別,通常模型存儲和相似計算的量都很大;
  (3)神經網絡方法:有很多種形式,如多層感知、徑向基函數(RBF)等,可以顯式訓練以區(qū)分說話人和其背景說話人,其訓練量很大,且模型的可推廣性不好;
  (4)隱式馬爾可夫模型(HMM)方法:通常使用單狀態(tài)的HMM,或高斯混合模型(GMM),是比較流行的方法,效果比較好;
  (5)VQ聚類方法(如LBG):效果比較好,算法復雜度也不高,和HMM方法配合起來更可以收到更好的效果;
  (6)多項式分類器方法:有較高的精度,但模型存儲和計算量都比較大;
  (7)……

  聲紋識別需要解決的關鍵問題還有很多,諸如:短話音問題,能否用很短的語音進行模型訓練,而且用很短的時間進行識別,這主要是聲音不易獲取的應用所需求的;聲音模仿(或放錄音)問題,要有效地區(qū)分開模仿聲音(錄音)和真正的聲音;多說話人情況下目標說話人的有效檢出;消除或減弱聲音變化(不同語言、內容、方式、身體狀況、時間、年齡等)帶來的影響;消除信道差異和背景噪音帶來的影響;……此時需要用到其他一些技術來輔助完成,如去噪、自適應等技術。
  對說話人確認,還面臨一個兩難選擇問題。通常,表征說話人確認系統性能的兩個重要參數是錯誤拒絕率和錯誤接受率,前者是拒絕真正說話人而造成的錯誤,后者是接受集外說話人而造成的錯誤,二者與閾值的設定相關。在現有的技術水平下,兩者無法同時達到最小,需要調整閾值來滿足不同應用的需求,比如在需要“易用性”的情況下,可以讓錯誤拒絕率低一些,此時錯誤接受率會增加,從而安全性降低;在對“安全性”要求高的情況下,可以讓錯誤接受率低一些,此時錯誤拒絕率會增加,從而易用性降低。前者可以概括為“寧錯勿漏”,而后者可以“寧漏勿錯”。我們把真正閾值的調整稱為“操作點”調整。好的系統應該允許對操作點的自由調整。

  2.3聲紋識別的應用

  聲紋識別可以應用的范圍很寬,可以說聲紋識別幾乎可以應用到人們日常生活的各個角落。比如下面舉幾個例子。

  (1)信息領域。比如在自動總機系統中,把“得意”身份證之聲紋辨認(www.d-ear.com/Technologies&Products/Products-d-Ear%20ID_ch.htm)和“得意”關鍵詞檢出器(http://www.d-ear.com/Technologies&Products/Products-d-Ear%20Word-Spotter_ch)結合起來,可以在姓名自動撥號的同時向受話方提供主叫方的身份信息。前者用于身份認證,后者用于內容認證。同樣,聲紋識別技術可以在呼叫中心(Call Center)應用中為注冊的常客戶提供友好的個性化服務。
  (2)銀行、證券。鑒于密碼的安全性不高,可以用聲紋識別技術對電話銀行、遠程炒股等業(yè)務中的用戶身份進行確認,為了提供安全性,還可以采取一些其他措施,如密碼和聲紋雙保險,如隨機提示文本用文本相關的聲紋識別技術進行身份確認(隨機提示文本保證無法用事先錄好的音去假冒),甚至可以把交易時的聲音錄下來以備查詢。
  (3)公安司法。對于各種電話勒索、綁架、電話人身攻擊等案件,聲紋辨認技術可以在一段錄音中查找出嫌疑人或縮小偵察范圍;聲紋確認技術還可以在法庭上提供身份確認的旁證。
  (4)軍隊和國防。聲紋辨認技術可以察覺電話交談過程中是否有關鍵說話人出現,繼而對交談的內容進行跟蹤(戰(zhàn)場環(huán)境監(jiān)聽);在通過電話發(fā)出軍事指令時,可以對發(fā)出命令的人的身份進行確認(敵我指戰(zhàn)員鑒別)。目前該技術在國外軍事方面已經有所應用,據報道,迫降在我國海南機場的美軍EP-3偵察機中就載有類似的聲紋識別偵聽模塊。
  (5)保安和證件防偽。如機密場所的門禁系統。又如聲紋識別確認可用于信用卡、銀行自動取款機、門、車的鑰匙卡、授權使用的電腦、聲紋鎖以及特殊通道口的身份卡,把聲紋存在卡上,在需要時,持卡者只要將卡插入專用機的插口上,通過一個傳聲器讀出事先已儲存的暗碼,同時儀器接收持卡者發(fā)出的聲音,然后進行分析比較,從而完成身份確認。同樣可以把含有某人聲紋特征的芯片嵌入到證件之中,通過上面所述的過程完成證件防偽。
  (6)……等等。
  北京得意音通技術有限責任公司開發(fā)的“得意”身份證開發(fā)工具,可以很好應用于上述領域中!暗靡狻鄙矸葑C有如下特點:(1)文本和語言無關性。用戶訓練系統和系統對用戶的聲音進行鑒別和確認,可以是完全不同的文本,完全不同的語言。(2)對語音長度沒有特殊要求。用戶訓練系統,讓其記住其聲紋,只需要幾秒種(如8秒)的聲音;而在識別時,系統只要獲得被測試人幾秒(如4秒)的聲音,就可以進行聲紋識別。在某些情況下,比如待識別人語音很難獲取時,系統可以通過一秒一秒不斷累積的漸進方式,來判斷說話人的身份。隨著被測試者說的話的累積長度不斷增加,系統識別的準確性越來越高。(3)很高的精度!暗靡狻鄙矸葑C技術的辨認和確認準確度都很高,可以到達接近100%的準確率。(4)模型小。存儲每個人聲紋的存儲<5KB。(5)操作點調整方便!暗靡狻鄙矸葑C技術允許開發(fā)者方便地調整操作點參數。

三、聲紋S鎖-數據安全的衛(wèi)士

  在本文開頭所談,國際互聯網和無線通信技術的普及和推廣,在給人們帶來極大方便的同時,也給重要數據和個人隱私帶來被信息化吞食的危險。那么是否有解決方案呢?答案是肯定的。
  比如,我們可以設計一種USB接口的聲紋S鎖。對于S鎖持有者計算機上重要數據的存取,必須以下兩個條件同時滿足:
  (1)持有S鎖并將其插入計算機的USB接口;
  (2)由S鎖合法用戶本人口述命令經聲紋鑒證系統確認與S鎖中鎖存的聲紋一致。

  北京得意音通公司在國際上率先推出的“聲紋S鎖”,利用對人類具有唯一性的聲紋這個主要的生物特征,把具有全部自主知識產權和國際領先的聲紋識別技術和數據安全技術緊密結合在一起,對個人電腦甚至服務器中的重要數據進行雙重安全認證,保證了數據的安全性,聲紋和鑰匙同時正確才可以存取數據,即使硬盤丟失數據也不會失竊。還無需記憶密碼,因為聲紋就是密碼,人在密碼在,免除記憶密碼的煩惱,也無需擔心被別人破解或者偷竊密碼。

  從此,人們就可以方便地應用先進的聲紋識別技術,管理自己的電腦和電腦中的信息。你可以象阿里巴巴一樣對著電腦麥克風口述你的命令,只需隨意講出幾句話,就電腦就乖乖地聽話,打開只屬于你自己的信息“保險箱”,實現強有力的Windows安全登錄、身份認證、文件加密存儲、訪問權限控制等功能,有效地保護保存在個人計算機上的個人隱私信息、重要業(yè)務數據和系統中的應用軟件,使其不被偷看、竊取、泄露、篡改或破壞。更重要的是,由于聲紋的唯一性特征,“聲紋S鎖”只認識你的聲音,只給你開門,別人企圖模仿你的聲音和口令、偷窺你的信息也是很難做到的。

  科技不僅在你身邊,還在你身上、嘴邊?萍嫉陌l(fā)展,有時候會帶來很多新的困擾,比如數據安全的問題。因此,科技應該更人性化,為人們創(chuàng)造的輕松和愉快的數字化生活。聲紋識別技術,就是輕松、愉快的數字化生活的阿里巴巴魔咒。

作者供稿 原文刊登于新浪科技《權威學術報告》專欄



相關鏈接:
得意珠三角綜合智能信息增值平臺項目中標 2009-08-20
北京軟件產品質量檢測檢驗中心對《海量語音文件的目標說話人篩選系統》進行測試 2009-06-25
廣東政府和清華大學舉行了全面開展產學研合作協議簽約儀式 2009-06-25
得意中文整句輸入法V1.0開源for Windows Mobile5.0 2009-01-23
得意聲紋識別VPR4.0_b20080808新版本發(fā)布 2008-08-27

分類信息:     文摘   技術_語音識別_文摘