TRS電信行業(yè)114企業(yè)搜索引擎解決方案
2007/03/22
1.概述
1.1方案背景
2006年,隨著中國互聯(lián)網搜索市場的迅猛發(fā)展,百度、Google、雅虎、搜狐搜狗、新浪愛問、中國搜索等國內外搜索引擎在中國市場展開了空前激烈的競爭。在搜索市場的巨大市場價值的吸引下,國內電信運營商紛紛推出向綜合信息服務提供商轉型的戰(zhàn)略舉措,加入爭奪搜索市場份額的行列。
2006年6月,中國電信全面升級114查號業(yè)務,推出了全新的號碼百事通業(yè)務,為將近8億的電話用戶提供方便、快捷的綜合信息服務。號碼百事通立足于百姓的衣、食、住、用、行、樂,著眼于生活的便利、便捷,致力于為公眾提供綜合信息服務。在中國電信瞄準這一巨大的潛力市場的同時,國內另一固網運營巨頭中國網通,也開始在其北方10省推廣類似的電話搜索引擎服務。重量級的電信運營商加入搜索引擎市場的爭奪,預示著2007年搜索市場將產生風起云涌的變化。
目前用戶對互聯(lián)網服務的使用、獲取方式的變化以及服務商為此進行的技術創(chuàng)新,是搜索形態(tài)變遷的關鍵,也是不同搜索服務商競爭的核心。作為互聯(lián)網產業(yè)發(fā)展最重要的方向之一,以Google、百度為代表的第二代搜索服務實際上與互聯(lián)網服務整體發(fā)展的第二個階段是相互對應的。第一階段是網站呈現,目錄分類;第二階段是內容交互,網絡搜索;第三階段是任意聚合,個性搜索;第四階段是自由交互,智能發(fā)布與搜索。第三代互聯(lián)網搜索引擎將在個性化、語義智能分析、搜索結果優(yōu)化等方面取得明顯進步。
雖然電信運營商推出搜索引擎有其本身的品牌和資源優(yōu)勢, 但是常規(guī)的互聯(lián)網搜索模式已經被成熟的搜索引擎深度挖掘,百度、google等搜索巨頭長期積累的競爭優(yōu)勢卻不是短時間就能趕超。那么電信運營商的新搜索引擎如何才能立足搜索市場并在局部勝出呢?其關鍵在于深入整合挖掘電信運營商的企業(yè)內部網絡資源和信息資源優(yōu)勢,側重于特定關鍵領域提供特色搜索服務,為用戶提供真正有價值的信息。
對于中國電信和中國網通而言,114巨大的品牌資源、龐大的用戶群、廣泛的知名度是電信運營商實現信息服務平臺的最佳載體。通過114平臺的發(fā)展,刻意逐步將基于語音的增值服務嫁接到統(tǒng)一的平臺上來,并為客戶提供提供衣、食、住、用、行、樂等方面便利快捷的綜合信息。目前,中國電信的號碼百事通業(yè)務和中國網通的114電話導航業(yè)務,在國內各省區(qū)陸續(xù)展開。而作為該業(yè)務核心的114企業(yè)搜索引擎更是2007年各省市電信公司建設的重中之重。
北京拓爾思(TRS)信息技術有限公司是國內企業(yè)搜索引擎和內容管理軟件的領導廠商, 公司在企業(yè)搜索引擎領域占據著國內企業(yè)級搜索引擎市場的70%。TRS公司結合電信企業(yè)建設114搜索引擎的需求,應用多年來自主開發(fā)的TRS
Database Server作為企業(yè)搜索引擎服務的平臺,配套TRS文本挖掘基礎件、TRS網絡信息雷達和數據內容分發(fā)服務模塊,向電信行業(yè)推出智能、安全、跨平臺、個性化的電信行業(yè)114企業(yè)搜索引擎解決方案。此方案已經在中國電信全國中心114企業(yè)搜索引擎項目和上海電信號碼百事通搜索引擎項目中獲得了成功應用。
1.2 企業(yè)搜索引擎與互聯(lián)網搜索引擎的區(qū)別
搜索引擎的出現,整合了互聯(lián)網上眾多的網頁資源,并提供信息導航和信息查詢服務,使信息的價值得到了網民和廠商的普遍認可。一提到搜索引擎,就自然聯(lián)想到互聯(lián)網搜索引擎,再加上一些廠商刻意的推波助瀾,造成了互聯(lián)網搜索引擎取代所有搜索引擎的概念。而實際上我們可以看到不同搜索引擎之間的差別很大。
TRS電信114搜索引擎是以TRS的企業(yè)級搜索引擎為基礎的。TRS所說的企業(yè)搜索引擎(Enterprise Search Engine,簡稱ESE)中的企業(yè)并非指單純的企業(yè),政府、教育、科研、媒體、醫(yī)療、軍隊、安全部門都有類似的應用需求,這里的“企業(yè)”可以理解為“企業(yè)級”,即企業(yè)級搜索引擎。那么,對于企業(yè)級搜索,我們對“搜索”的訴求又是什么呢?和互聯(lián)網搜索引擎相比,它又有哪些不同呢?
實際上,搜索引擎服務是內容管理技術的一個典型應用。我們不妨從內容管理的框架來看搜索引擎的各個環(huán)節(jié),即從信息內容的采集,加工,管理,到服務,以至到信息內容的“發(fā)現”來比對一下企業(yè)級搜索引擎的不同。
*SEO:搜索引擎優(yōu)化,利用工具或其他手法奪取較好的網絡排名。
1、復雜結構數據的搜索
互聯(lián)網上搜索的數據一般都是網頁形式的,盡管這幾年網上豐富起來的圖片、MP3等信息形式,但其組織形式仍是基于HTML組成的網頁。而企業(yè)級用戶需要搜索的數據既有互聯(lián)網站上的,也有內部網站上的;既有網頁形式的,又有各種數據庫形式的,如SQL
Server、Oracle數據庫等;既有結構化數據,又更多的是各種電子文件格式的非結構化及半結構化數據,如Word、Excel、Lotus
Notes、PDF、XML等;既有文本形式的數據,又有多媒體形式的數據;而且,同一機構的數據還可能分布在不同介質的載體上。
然而,不管數據的形式、來源、位置、平臺如何不同,企業(yè)用戶總是希望內外數據能無縫結合,用一個搜索工具和統(tǒng)一的界面,發(fā)出幾個簡單的檢索請求就能對所有資源進行檢索,并很快就能有滿意的結果。
并且,互聯(lián)網搜索內容對于用戶來說都是未知的,而企業(yè)級搜索的對象基本上是已知信息源,其中包括企業(yè)資料庫、目錄、幫助文本、源代碼信息庫、新聞組等,在對這些信息進行索引時,用戶需要按照內容而不是通過比較源鏈接來進行排列。
2、嚴格的安全搜索
在企業(yè)內部,安全的問題是無法回避的。因為企業(yè)內部的信息不象“人人平等”的互聯(lián)網信息,其信息內容帶有明顯的“等級”安全特性。所以,當搜索技術變得無所不能,人們反而開始擔心,如果搜索的結果泄漏了企業(yè)的機密怎么辦?如果企業(yè)原有的安全架構對新的搜索技術失效了怎么辦?這些疑問都讓用戶感到如鯁在喉,岌岌小心。
很多業(yè)內人士在談到搜索安全的話題就憂心忡忡,他們普遍認為搜索環(huán)境并沒有為企業(yè)級應用做好足夠的準備,未來充滿太多的變數。而在一些實際的應用中,我們看到,即便為數據定義了文檔級和數據庫級的雙重安全保障,搜索引擎的"魔爪"還能透過授權的索引文檔來"搜索"它們。
因此,針對企業(yè)網中不同的用戶對不同的資源,其使用權限都可能不一樣,需要企業(yè)搜索引擎能夠對用戶、資源、權限分級管理和控制,確保系統(tǒng)的安全。
3、高可靠的查全和查準
作為專業(yè)用戶,企業(yè)用戶需要查找的信息專業(yè)性強、概念復雜,而對查詢的查全率和查準率有著非常高的要求。因此,需要利用各種手段來提高搜索引擎的查準率和查全率。
從查全率來看,互聯(lián)網搜索引擎無從談起查全率,因為互聯(lián)網上的信息如此泛濫無邊,任何一個搜索引擎服務商都無法窮盡互聯(lián)網上的每個網頁。而在企業(yè)級的某些應用中,是不允許有所遺漏的檢索。必須對企業(yè)內部每個需要提供服務的信息進行索引。在檢索機制上必須保障效率的前提下達到全面搜索的要求。
同樣的道理,在互聯(lián)網上因為信息自由的特點,決定了搜索只能通過“關鍵詞匹配”這種核心檢索手段去實現。而在企業(yè)內部,信息的組織復雜了許多。企業(yè)級搜索引擎有完善的信息分類體系,元數據,對象數據多層邏輯的組織形式,在查詢上滿足基于對象數據內容和元數據標引體系的精確查詢要求。
4、智能化的檢索服務
企業(yè)內部的搜索服務,帶有鮮明的業(yè)務特性,不像互聯(lián)網搜索引擎僅提供信息參考。在企業(yè)內部的搜索結果將直接參與到企業(yè)的運營、決策中。所以,對于搜索的結果處理,搜索過程中采用相關智能技術以達到迅速、準確、全面定位目標信息非常重要。例如采用相關度分析技術,使相關度較高的結果排在結果列表的前面,相關度較低的結果排在后面,并屏蔽無用和錯誤的信息;構造強大的語義規(guī)則庫,使系統(tǒng)能夠正確地判斷與檢索詞相關的同義詞、近似詞、上位詞、下位詞,幫助用戶判斷結果的相關度,并進行進一步的查詢;支持完善的信息分類體系,對檢索結果自動分類或者信息聚類;提供智能化的概念擴展查詢等,都將有利于企業(yè)對信息資源的高效利用。
5、企業(yè)搜索引擎通常都和企業(yè)其他的IT應用有機結合
以內容管理技術為框架,搜索技術為支撐,企業(yè)搜索引擎通常與數據管理、內容管理、記錄管理、競爭情報、團隊協(xié)同、過程管理、信息門戶等知識管理的各個環(huán)節(jié)密切結合,構成管理企業(yè)知識資產的完整而又靈活的體系。知識內容管理對搜索引擎技術提出了更高的要求,而先進的搜索引擎技術則為知識內容管理提供了工具和保障。在市場上我們也可以看到,國內外企業(yè)級搜索引擎廠商,有許多也是知識內容管理解決方案的提供商。
6、實時的信息搜索服務
正如前所敘,企業(yè)內部的搜索服務,具備業(yè)務特性,需要將搜索結果參與企業(yè)的運營和決策。所以通過搜索引擎提供的服務,必須能夠動態(tài)地反應實際情況,即當內部的信息發(fā)生變化時,必須能夠實時反應。在企業(yè),不允許出現像互聯(lián)網搜索引擎服務那樣信息滯后更新的現象。
1.3 電信114企業(yè)搜索引擎建設需求分析
2007年,要想在搜索市場占領先機,就需要使電信114企業(yè)搜索引擎具備差異化的競爭優(yōu)勢。如何培養(yǎng)用戶使用習慣?如何聚集商業(yè)客戶合作伙伴?如何實現平臺搜索技術的改造升級?這些成為是電信公司建設114搜索引擎需要面對和解決的問題。目前各省市基本都建設了號碼百事通和114電話導航的平臺。
從客戶需求角度分析,114搜索引擎用戶存在前向查詢客戶和后向被查詢客戶兩種角色,這兩種客戶對于號碼百事通業(yè)務有著不同的需求和價值:
從前向查詢客戶角度分析:
首先,前向查詢客戶撥打114是要獲得能夠解決衣食住行各類生活問題的相關線索,具體而言,就是提供各類服務組織的電話號碼。
其次,用戶獲得信息線索后需要進行一定的選擇比較,即客戶為了最終解決某個問題或完成某件事情,需要把獲得的信息、線索進行比較分析,找到最佳路徑。
再次,進行訂單交易,即客戶通過比較選擇后,確定了對象,有直接轉接或者預訂的需求。在現代的信息社會里,“預先確定”已經成為人們享受某項服務之前的必要環(huán)節(jié)。
最后,完成服務,即客戶實現最終消費、解決問題或者完成服務的過程。在這個環(huán)節(jié)中,客戶可能會用到電子支付,也會有服務質量反饋等后續(xù)事務。
由此可見,前向客戶需求鏈的存在,為114搜索引擎業(yè)務提供了良好的發(fā)展空間。正是為了滿足前向客戶需求、最大限度地為客戶提供“一站式”便捷服務,號碼百事通需要建立豐富的本地生活類信息數據庫,為前向客戶提供查詢轉接、短信播報等業(yè)務,從而獲得廣闊的號碼信息增值服務新市場。
從后向被查詢客戶需求角度分析:
與前向查詢客戶的需求環(huán)節(jié)相對應,根據需求層次不同,后向被查詢客戶的需求分為三類:
第一類,后向客戶需要將114平臺作為信息發(fā)布的媒介。中國電信114有著廣泛的客戶群體,像使用電視、報刊、互聯(lián)網這些主流媒體一樣,政企客戶需要盡可能地在114這一語音媒體上發(fā)布更多的信息。中國電信114能夠以其誠信、高品質的品牌形象,為政企客戶提供廣傳播、可信賴的語音信息發(fā)布平臺,能夠讓更多的客戶了解后向客戶的服務能力和企業(yè)形象。
第二類,后向客戶需要114成為企業(yè)的一個營銷渠道。高品質企業(yè)客戶看重中國電信良好的品牌形象和114“一對一”信息傳遞的特性,希望114能夠成為其強有力的營銷渠道。傳統(tǒng)的企業(yè)營銷采用公共媒體廣泛行銷,近來越來越多的企業(yè)開始注重精準信息的分眾傳遞,即根據目標客戶群的年齡、職業(yè)、地域特征,選擇信息投放范圍和信息投放方式,以期把營銷做得快速、準確、有力度。例如,“分眾傳媒”瞄準中國高中端商務人士做專業(yè)樓宇廣告聯(lián)播,在納斯達克成功上市;
第三類,后向客戶需要114成為其業(yè)務交易平臺。企業(yè)使用114進行宣傳、營銷之后,需要進一步延伸服務,盡可能地促成交易。信用卡、電子支付的盛行,為電話支付、在線交易(bizon-line)提供了堅實的基礎,114延伸為業(yè)務交易平臺,可以更大程度地為前后向客戶提供服務。
可見,后向客戶的需求同樣為號碼百事通業(yè)務提供了廣闊的發(fā)展空間,號碼百事通誠信、便捷、廣泛服務的品牌形象,能夠為優(yōu)質政企客戶提供良好的宣傳、營銷和交易平臺。
業(yè)務的豐富也對114企業(yè)搜索引擎提出了更高的建設要求。大致需求有以下幾點:
1.對業(yè)務應用所需的企業(yè)信息庫急需快速補充、整理和完善,才能為前端查詢用戶提供有價值的信息服務
在業(yè)務應用方面,114企業(yè)搜索引擎的業(yè)務應用主要包括優(yōu)先報號、實名查詢、品牌查詢、臨時報號、查詢轉接、短信報號、話務呼轉、企業(yè)名片、企業(yè)廣告、指路服務、個人號簿、企業(yè)總機、簽約客戶分析、注冊客戶分析等14大類。
這些業(yè)務應用推廣的關鍵是必須保證數據庫中的信息必須準確、有效、及時。目前從全國范圍看,各省電信公司的企業(yè)信息庫還需快速補充和完善,以應對日益增長的外部電話和網絡搜索的需求。
2.對于龐大的信息資源庫和數據庫內的信息要進行特定領域的挖掘和搜索
由于基于114轉型的電話搜索業(yè)務,主要是向前端用戶提供準確、及時、深入的衣、食、住、行、樂等相關的綜合信息服務。因此針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務,才能真正獲得目標用戶的青睞。所以需要建立需要具有特色垂直搜索功能的114企業(yè)搜索引擎。
3.跨地域、跨業(yè)務、跨平臺的信息共享不到位,無法發(fā)揮規(guī)模效應
全國各省市的電信公司分布區(qū)域大,業(yè)務應用眾多,公司內部存在各種數據庫和信息平臺。企業(yè)內部的數據和信息沒有進行很有的共享和利用,所以無法發(fā)揮全國電信公司的規(guī)模效應;114企業(yè)搜索引擎應實現對各省本地和跨區(qū)域的信息查詢,并支持對互聯(lián)網信息的查詢。
3.平臺需要聚集并支持大規(guī)模的商業(yè)合作伙伴運營,后臺商務信息的互動發(fā)布,競價排名。
電信行業(yè)114企業(yè)搜索引擎,不僅需要滿足前向查詢用戶查詢需求,而且為后向被查詢企業(yè)客戶創(chuàng)造了優(yōu)先接觸目標消費者和發(fā)布商務廣告的機會。
4.各省電信公司都需要開發(fā)自己的特色業(yè)務,因此要求平臺具有良好的擴展性。
為了解決上述問題,需要各地電信114企業(yè)數據信息庫的數據模型統(tǒng)一并且進行升級改造,建設全國統(tǒng)一搜索引擎以實現全國114信息的共享和全國跨地域信息查詢。
1.3 電信114企業(yè)搜索引擎建設目標
114企業(yè)搜索引擎的建設將會延伸114的功能,豐富114的信息服務內容和形式,力爭把114做成語音搜索領域的Google。
電信企業(yè)建設114搜索引擎建設工程將實現以下目標:
- 幫助電信公司建設全國統(tǒng)一114企業(yè)搜索引擎,實現跨省查詢業(yè)務,并為沒有建設搜索引擎的省份提供省內114企業(yè)搜索引擎。
- 支持對各省市電信公司114業(yè)務應用相關內部數據庫和信息資源庫進行補充完善,并進行個性化服務的信息挖掘和整合。系統(tǒng)支撐大規(guī)模用戶跨地域和跨平臺搜索。
- 114企業(yè)搜索引擎具備開發(fā)特定領域垂直搜索的能力,各地電信公司可以在此平臺上進行二次開發(fā)。
- 聚集商業(yè)客戶及合作伙伴,滿足企業(yè)客戶競價排名、信息發(fā)布、商機獲取、資源共享等的雙向需求。
2.TRS電信114企業(yè)搜索引擎解決方案架構.
TRS公司作為國內企業(yè)級搜索引擎和內管理領域的領導軟件廠商,一直在該領域擁有先進的理念、成熟的產品和先進的信息檢索、內容管理和文本挖掘技術。TRS電信114企業(yè)搜索引擎2006年在中國電信號碼百事通全國中心搜索引擎項目,和上海電信號碼百事通搜索引擎的基礎上得到了成功的應用,積累了豐富的行業(yè)實踐經驗。這些項目實踐對全國各地電信企業(yè)建立或升級114企業(yè)搜索引擎也具有良好的示范意義。
TRS公司結合電信行業(yè)114業(yè)務應用需求,依托自身企業(yè)搜索引擎產品和中文信息處理技術,推出的的電信114企業(yè)搜索引擎解決方案,能夠全面整合索引搜索電信114業(yè)務應用的信息內容,并向用戶提供高效的、準確的、安全的、個性化的搜索體驗。其框架圖如下:
從圖中可以看到,TRS電信114企業(yè)搜索引擎采用TRS高性能的TRS Database Server 6.0集群構作為索引和搜索基礎平臺;TRS數據庫網關作為跨平臺數據導入工具,整合索引電信企業(yè)組織內部各類應用系統(tǒng)、數據庫、外購信息庫、自建信息庫等多種信息資源;TRS網絡信息雷達作為網絡信息采集工具,定向采集特定的網絡信息資源;TRS
CKM作為文本挖掘的工具,應用文本自動分類、自動聚類、信息過濾等中文處理技術對業(yè)務應用信息技術深度挖掘分析;TRS內容分發(fā)服務器作為內容服務模塊,實現內容的個性化搜索服務。并且整個架構擁有很強的擴展性,對用戶開放開發(fā)接口,電信企業(yè)可以自行開發(fā)具有特色的搜索服務。
2.1 系統(tǒng)整合電信多種信息來源,支持內容實時增量索引
在電信企業(yè)內部,許多信息內容的創(chuàng)建和生產都分散在各個應用系統(tǒng)中,而這些應用系統(tǒng)的數據存儲基本上都是采用關系型數據庫或者NOTES系統(tǒng)中。這些外部信息資源可能包括企業(yè)CRM系統(tǒng)、10000號系統(tǒng)、帳務系統(tǒng)等應用系統(tǒng),也可能包括查號數據庫、企業(yè)信息庫、用戶信息庫等業(yè)務應用數據庫,也可能包括外購資源、自建數據庫等其他信息源。
TRS公司推出的企業(yè)搜索引擎解決方案,利用TRS公司多年來自主開發(fā)的TRS Database Server作為企業(yè)搜索引擎服務的平臺?梢詫㈦娦牌髽I(yè)內外部多種格式、多種介質形態(tài)、多種存儲方式的內容信息,以實時的方式將這些信息進行索引。并且在索引的過程中力求能夠做到準確,并配合以相關智能語言技術做信息的去重、自動標引等能力。其框架如圖:
TRS支持包括Oracle、SQL Server、DB2、Sybase和Mysql等業(yè)界主流關系數據庫系統(tǒng),既可以實現數據庫數據一次性向TRS
Server的遷移,實現歷史數據的采集入庫到數據管理平臺;也可以實現增量動態(tài)運行方式,無縫透明支持各種應用數據的數據庫采集。將應用中的數據實時地反映到114企業(yè)搜索引擎平臺服務器中(TRS
Database Server)。
2.2 集群架構支撐大規(guī)模部署應用,支持內容海量安全管理
在電信114企業(yè)搜索引擎應用中,海量信息的管理完全不同于互聯(lián)網搜索引擎。首先在信息總量上,因為114企業(yè)搜索引擎應用是分散在各個電信企業(yè)內部,并且每個地域、每個應用系統(tǒng)的數據量都是海量的。隨著業(yè)務應用的增加,數據量將會成倍增長。TRS電信114企業(yè)搜索引擎平臺服務器在系統(tǒng)架構上,應用集群技術,支持分布式部署,實現在單臺或者數臺機器中實現電信企業(yè)內部海量數據的管理。從信息安全的角度,電信114企業(yè)搜索引擎服務保障業(yè)務信息是按秩序、按組織規(guī)則授權方式的搜索。而不象互聯(lián)網搜索引擎上的人人搜索。
TRS全文數據集群服務器,是架構在多個物理TRS全文數據庫服務器之上的分布式管理系統(tǒng),它支持數據分布及負載均衡兩種方式,并支持兩種方式的組合運用,滿足用戶海量數據和高并發(fā)環(huán)境下的分布式檢索、檢索性能和可靠性要求。
“TRS全文數據庫服務器組”內的數據庫服務器之間負載均衡
組內的數據庫服務器由集群服務器統(tǒng)一調度,一個服務請求只發(fā)往組內的一個數據庫服務器,一個“TRS全文數據庫服務器組”至少包含一個數據庫服務器。
“TRS全文數據庫服務器組”之間實現分布式檢索
用戶一個檢索請求需要根據其所包含目標對象的分布情況,發(fā)往其中部分或全部的數據庫服務器組,TRS全文數據庫集群服務器對檢索結果集歸并處理后返回給用戶。
采用TRS全文數據庫系統(tǒng)V6的集群架構可實現以下目標:
- 海量數據隨需擴展和分布檢索
- 大規(guī)模用戶高并發(fā)條件下保證高性能
- 實現無單點故障的高可靠性應用
TRS企業(yè)搜索引擎平臺服務器(TRS Database Server)除了采用得到業(yè)界廣泛使用全文檢索的全部功能和性能,針對企業(yè)信息內容搜索引擎服務的管理和資源建設的新需求,發(fā)展了包括Native
XML, 集群,Unicode, 自然語言處理及智能檢索等眾多新功能,結合TRS領先的結構化和非結構化聯(lián)合查詢技術,從而滿足了用戶對電信114搜索引擎的廣泛需求。更為重要的是,TRS電信114企業(yè)搜索引擎平臺服務器提供了多種安全機制的管理,涉及到系統(tǒng)安全和內容安全各個方面。為安全的搜索奠定堅實基礎。
- Native XML: 能夠為更精確的檢索提供存儲和檢索手段。
- 集群:滿足海量信息處理和負載均衡的苛刻需求。
- Unicode: 以中文為主,提供多語言支持,實現了國際化。
- 自然語言及智能檢索:實現更加人性化和達到更好的檢索效果。
- 異構:結構化和非結構化異構信息聯(lián)合查詢。
2.3應用垂直搜索實現內容挖掘分析利用,支持電信企業(yè)開發(fā)特色搜索服務
搜索引擎的出現,整合了互聯(lián)網上眾多的網頁資源,并提供信息導航和信息查詢服務,使信息的價值得到了網民和廠商的普遍認可。但是,搜索引擎的發(fā)展格局是多方面的,市場需求的多元化也導致了搜索引擎的行業(yè)化和細分化,從而“垂直搜索引擎”成為了搜索引擎發(fā)展的必然趨勢之一。
TRS認為:垂直搜索引擎是針對某一個行業(yè)或組織,滿足行業(yè)專業(yè)需求、或者組織某項業(yè)務需求的專業(yè)搜索引擎,是搜索引擎的細分和延伸,是對某類網頁資源和結構化資源的深度整合,并為用戶提供符合專業(yè)用戶操作行為的信息服務方式。比如:用戶搜索廣州天河區(qū)的可帶寵物就餐的川菜館的電話、菜單價格、交通指路等這就是一種垂直搜索。
TRS作為國內垂直搜索引擎的領軍企業(yè),全面支持垂直搜索的相關技術,并率先在國內進行了垂直搜索引擎的實踐,為用戶成功實施了包括中央政府門戶網站政府搜索引擎、公安部搜索引擎、專利搜索引擎、企業(yè)經濟情報預警搜索引擎等等成功案例。
在電信行業(yè)建設114企業(yè)搜索引擎的背景下,雖然TRS作為搜索引擎廠商提供了成熟的基于企業(yè)級搜索的搜索引擎產品,但是各地電信企業(yè)對信息內容進行再組織、再開發(fā),特別是應用智能的知識挖掘技術進行內容的挖掘和分析,并根據業(yè)務需求開發(fā)業(yè)務排序和展示,從而為用戶開發(fā)特色搜索服務。如生活搜索、購物搜索、旅游搜索、票務搜索、教育搜索、行路搜索等等特色搜索服務。
2.4搜索高效、準確,向用戶提供智能個性搜索體驗
在搜索性能方面,TRS全文數據庫在普通PC服務器環(huán)境下,在千萬級記錄的數據庫上,也能獲得亞秒級查詢速度。集群架構的TRS電信114搜索引擎可以根據不同用戶的規(guī)模,滿足大規(guī)模座席的查詢速度和并發(fā)數量的要求。
在要滿足高效搜索的同時,TRS企業(yè)搜索引擎平臺服務器熔煉了TRS公司多年在中文智能處理方面的研究成果,并結合十多年來的企業(yè)及搜索引擎的應用經驗。多種中文智能處理技術的應用,如智能分詞,字詞索引結合、主題詞表概念擴展等技術的應用,同時TRS搜索引擎內嵌中文自動分詞系統(tǒng),使得查全率和查準率都得到極大的保障。
在TRS電信114企業(yè)搜索引擎解決方案中。采用了模塊化的內容分發(fā)服務模塊。讓用戶可以方便地通過頁面設計模板封裝等方式來實現個性化的搜索提交,結果個性呈現。并且系統(tǒng)結合多種信息分發(fā)機制,將搜索、瀏覽、訂閱等功能有機集成。而對于信息發(fā)現和評估,系統(tǒng)也提供了很好的支持,并可以根據搜索的統(tǒng)計,來評估信息內容的使用情況及信息用戶的搜索習慣。電信企業(yè)也可以根據自己的需求,開發(fā)符合本地用戶習慣的搜索頁面和結果排序頁面。
3.方案特點和優(yōu)勢
1、軟件產品成熟度高
TRS全文數據庫系統(tǒng)自80年代面向市場以來,有近2000家企業(yè)級用戶的成功案例,特別是新華社多媒體數據庫、公安搜索引擎、中央政府門戶等高端項目的應用。
2、自主、領先的核心技術
TRS軟件產品完全基于自主、領先的核心技術開發(fā),特別是本項目應用的全文檢索技術、網絡信息搜索技術、文本挖掘基礎件,從功能、性能和產品穩(wěn)定性方面都有業(yè)界領先的實力。
3、強大的項目實施開發(fā)力量
TRS公司總部在北京設有研發(fā)中心,軟件產品開發(fā)人員約有130多人,在上海設有分公司和項目實施開發(fā)人員,具有強大的項目實施開發(fā)和服務力量。
4、完善的方案設計、內置的集群架構、良好的擴展能力
本方案根據項目需求,進行了搜索引擎、網絡信息搜索、數據上載同步等各方面的完整設計,并以TRS自身技術實現了分布式負載均衡搜索引擎集群、和網絡信息搜索集群,具有分層集群架構和良好的擴展能力
5、廣泛的高端項目成功案例和良好市場形象
本項目采用TRS業(yè)內領先而成熟的搜索解決方案和產品搭建搜索引擎系統(tǒng),其具備多方面的優(yōu)勢:
4.1“安全”的搜索引擎
TRS搜索引擎技術支持內容安全性控制,可以通過域、IP段、URL等廣域網范圍的控制,實現授權搜索采集,不亂采集。同時,TRS對查詢內容進行分級控制,特定的人只能搜索和查詢特定的內容。
在TRS搜索引擎技術中提供了信息智能過濾和禁用詞典設置,通過這些技術,保障搜索引擎在提供便捷的搜索服務的同時,也保證對不良信息搜索的過濾。
另一方面,TRS搜索引擎技術在安全模塊設計上提供了對PKI/PMI體系支持的開放接口,在未來,很容易將本系統(tǒng)整合到信息安全保障體系之中。
4.2更高的搜索準確性和智能性
TRS搜索引擎技術支持按詞索引、按字索引、按關鍵詞索引,字詞混合索引,適應不同應用環(huán)境的需求,同時TRS搜索引擎內嵌中文自動分詞系統(tǒng)--檢索“北大”,檢索不出“東北大學”。
內嵌歧義處理實例規(guī)則庫,正確識別歧義片斷,提高分詞準確性分詞系統(tǒng)要達到一定的準確率,需要和人一樣不斷積累知識,也就是不斷積累分詞規(guī)則。TRS公司從80年代末就開始積累分詞規(guī)則,
這些規(guī)則是需要從大量的語料中統(tǒng)計產生,如果語料的數量不夠則產生的規(guī)則往往帶有片面性,TRS積累了20~30GB的文本語料, 且這些語料能反應現中文語言的特點。如果一個語句切分時有歧義片段,有適合的規(guī)則則按規(guī)則切分歧義片段,提高查準率;
在查詢方面,TRS提供了基于詞典的智能擴展查詢,可以按同義詞、主題詞等詞典進行智能擴展查詢,例如,在查詢“銳器”時,系統(tǒng)將自動將包括“匕首”“刀”內容的結果提供給用戶參考。
4.3個性化的搜索體驗
TRS搜索引擎內容分發(fā)服務模塊充分考慮了信息搜索過程中工作繁忙、對信息的時效性要求高等工作特點。提供了任務定制查詢、專欄預設查詢、個性化排序等功能。例如:使用者可以定制查詢任務,比如“專項斗爭”、“專題文件”等單項任務,又如可以定制查詢更新時間,查詢系統(tǒng)將根據定制的任務,定期進行相關信息查詢,定期將查詢結果推送到用戶的工作界面,方便信息需求者。
另外,系統(tǒng)還提供了個人檢索歷史記錄、個性化界面設置等等功能,不同的使用者可以選擇適合自己的工作查詢界面,提升系統(tǒng)的易用性和靈活性。
4.4強大的異構資源整合搜索
TRS搜索引擎技術不但能搜索網頁內容,而且能搜索各種RDBMS, 文件系統(tǒng)等多種異構資源數據進行整合搜索,為用戶提供更全面的信息搜索應用。在未來,可以在當前搜索引擎系統(tǒng)上不斷擴展新的搜索應用。
4.5標準、開放的系統(tǒng),提供強大的系統(tǒng)擴展能力
標準、開放是一個應用系統(tǒng)得以發(fā)展和壯大的基礎,通過標準開放的模式,可以保證用戶更多地采用先進的技術搭建個性化的應用。
隨著技術的發(fā)展,各個軟件供應商越來越在某一領域具有專利或優(yōu)勢技術,但是用戶的需求是全方位的,因此,最好的解決方案就是采用統(tǒng)一規(guī)范標準的接口進行應用集成,這也是國際化軟件發(fā)展趨勢。
TRS公司設計的建設方案在很多方面為系統(tǒng)應用集成提供了保證,如支持系統(tǒng)三層體系結構,支持J2EE標準中間件,支持XML數據交換規(guī)范,提供底層數據庫的各種平臺的完善的開發(fā)接口,提供模塊組件,支持二次開發(fā),開放底層數據存儲格式等等。
本系統(tǒng)在架構設計方面,不但滿足了現有的需要,而且為系統(tǒng)未來發(fā)展進行了考慮。首先,數據層采用了TRS集群服務器,實現了TRS全文檢索數據庫的集群和負載均衡應用,在應用層實現了應用服務器的集群和負載均衡設計,在采集方面利用分布式采集和任務集中控制的模式可以進行大規(guī)模采集應用,在未來可以通過增加硬件的方式,就能提供系統(tǒng)的處理能力。
另外,隨著未來負載和訪問量的增加,可以分步建立鏡像中心,滿足大規(guī)模應用需要。
4.6具有充分滿足需求的自主核心技術和產品.
TRS公司在本項目所涉及的眾多方面具有全方位的核心技術和產品,并且公司發(fā)展的戰(zhàn)略定位和本項目的需求完全吻合。
本方案涉及底層數據庫系統(tǒng)、中文知識挖掘、信息搜索等多種技術,是一個大型和復雜的信息系統(tǒng),TRS信息技術有限公司在信息檢索、內容管理和知識管理方面具有領先的產品和技術優(yōu)勢,致力于成為中文內容管理領域的領導者。TRS全文信息檢索系統(tǒng)已經在超過1千家用戶的多個系統(tǒng)和應用中得到成功應用;TRS中文知識管理和自然語言處理方面的研究成果,是業(yè)界第一個實用化的相關產品,其中包括中文自動分類系統(tǒng)、自動聚類系統(tǒng)、網頁內容過濾、內容去重等。這些研究成果來源于公司相關的研究機構-中文信息處理研究中心-承擔的國家自然科學基金、國家863計劃等國家級研究項目。TRS公司致力于成為中國信息檢索和內容管理市場的技術和市場領導者,并且把行業(yè)化應用作為我們的既定戰(zhàn)略,因此在技術研發(fā)的持續(xù)投入上符合用戶對信息系統(tǒng)持續(xù)發(fā)展的需求。
4.7采用先進的搜索引擎技術.
近年來搜索引擎技術得到較大發(fā)展,為本系統(tǒng)的實現提供了技術手段。本系統(tǒng)所涉及的搜索引擎相關技術包括網頁自動采集和更新、網頁自動分析技術。
網頁自動采集和更新
為保證本系統(tǒng)要求功能的順利實現,所采用的搜索引擎技術具備以下功能:
- 支持增量更新的策略,每次采集只采集上次更新后新生成的網頁,而不是全部再采集一遍,從而保證信息更新的效率。增量更新策略是對信息采集非常重要的方法,也是網絡上搜索引擎普遍存在的缺點。
- 支持靈活的采集策略,包括可以指定采集的目錄和層次,以及使用檢索邏輯來定位內容,比如可以采用“自行車-比賽”這樣的檢索邏輯來控制抓取“有關自行車,但并不是關于自行車比賽”的網頁。除了在采集模塊提供檢索邏輯定位內容的方式,我們還在發(fā)布模塊提供專題服務的方式實現同樣的功能,而且我們建議應采用以專題服務為主實現網頁內容定位。具體內容參見設計方案中的專題服務部分。
網頁自動分析技術
采集到的網頁,為了滿足本系統(tǒng)的應用,必須經過以下加工處理:
- 正文內容提。禾蕹龔V告、導航信息、版權等無用信息,只保留正文內容以及必要的圖表;
- 格式自動轉換:自動將HTML格式轉換為TEXT文件,方便再加工;
- 屬性自動標引:對有條件分析出標題、版次、日期、作者、欄目、分類等屬性的網頁,分析并標注這些屬性信息(元數據自動提。;
- 屬性自動提。鹤詣铀阉、記錄網頁中的單位名稱、系統(tǒng)名稱等標識網頁屬性的信息。
4.8基于內容的自動分類和聚類技術
為了對采集到的大量網頁信息進行標注分類,必須采用適當的機器自動分類方法,盡量減少需要人工參與的環(huán)節(jié)。但是,必要的人工干預能夠提供分類的準確率。
在本方案系統(tǒng)應用設計中所提出的機檢分類和自動分類,分別代表了語義規(guī)則分類方法和統(tǒng)計原理分類方法兩種典型的分類技術,為了描述方便,我們分別稱它們?yōu)榛谡Z義規(guī)則的自動分類和基于統(tǒng)計原理的自動分類。
·基于語義規(guī)則的自動分類(機檢分類)
基于語義規(guī)則的自動分類是利用人工定義的語義規(guī)則對信息進行分類,人們通過維護一個規(guī)則表來控制分類的效果。
優(yōu)點:原理簡單,容易實現,控制效果明顯。
缺點:語義規(guī)則的制定和維護需要大量的人工參與,不能利用語料庫的知識資源;不能有效解決對多語言的支持,對多語言需要分別建立對應的規(guī)則表,工作量大;人工制定的語義規(guī)則不可能完全反映分類的內在規(guī)律。
基于語義規(guī)則的自動分類方法比較適合通過簡單的規(guī)則即可明確判定的分類,比如按地區(qū)分類,按事件分類等。
·基于統(tǒng)計原理的自動分類(自動分類)
基于統(tǒng)計原理的自動分類方法是建立在統(tǒng)計學習理論和機器學習方法之上的根據內容進行自動分類的方法,其基本原理是利用概率統(tǒng)計學原理,采用機器在大量語料庫上自動學習的方式,分析出各個分類的內在特征,然后通過對比未知對象與各個分類特征的相關程度來判定其類別歸屬。
基于統(tǒng)計原理的計算方法在近年來得到普及的開發(fā)和應用,并在諸如語音識別、漢字識別、拼音輸入法等領域的應用中表現出良好的實用價值,比基于規(guī)則推理、語義分析等語言學知識的方法表現出更強的靈活性和適應性。
優(yōu)點:學習過程由機器自動進行,不需人工干預;人們對分類質量的控制轉換成提供語料庫的方式,更加符合信息管理員的工作特點;在給定語料庫的前提下,機器對分類特征的提取不會產生遺漏或誤差,計算結果穩(wěn)定。
缺點:基于統(tǒng)計原理的自動分類適合于對內容進行自動分類,而不適合地區(qū)、事件、來源等類型的分類。
在此系統(tǒng)設計、實現中,不但可以先按內容、地區(qū)、來源等多種方式快速標引網頁,而且可以基于內容對采集信息進行自動、準確的分類,這兩種分類方法有機結合為搜索引擎系統(tǒng)提供全面的、準確的、快速的、智能的分類服務。
4.9基于內容的信息去重技術
在該項目中,采用了信息去重、相似性檢索技術,主要應用在網頁的排重過程分析中。雖然簡單的規(guī)則判斷提供了一種可選擇的方式,但合理的方案應是基于網頁內容本身的判斷,基于網頁內容的判斷應該是排重的主要手段。因此我們建議采用基于內容的、成熟的信息去重相似性檢索技術實現內容的排重判斷,在排重判斷的過程中,TRS公司設計、實現的系統(tǒng)將不但處理文字內容,而且要對文中的數字內容進行判斷。
4.10優(yōu)異的全文檢索性能
TRS全文檢索系統(tǒng)在行業(yè)里具有領先的性能,是中文全文檢索的事實上的標準,眾多的全文檢索廠商都以TRS的性能指標作為自己軟件評測的標準和系統(tǒng)發(fā)展方向。
目前國內唯一的商用千萬級數據庫——新華社多媒體數據庫就是采用TRS作為底層檢索平臺,目前,該系統(tǒng)已有將近16T數據量,檢索(包括簡單檢索和復雜檢索)的平均響應時間是秒級。并且,TRS的檢索性能隨著數據的增加不會呈線性下降,可以在一個非常廣的數據規(guī)模范圍內保證用戶的實際應用。
TRS全文數據庫系統(tǒng)V6的性能指標
單機環(huán)境下TRS 全文數據庫系統(tǒng)的性能指標:
集群負載均衡模式下TRS 全文數據庫系統(tǒng)的性能指標:
TRS 全文數據庫系統(tǒng)的性能圖示:
海量數據高并發(fā)環(huán)境下單機、集群訪問性能對比圖示:
(排版時,下面的圖可由上面的圖引導而來,例如:在上圖下面兩根線的位置加一個箭頭)
由上圖我們可以看到,在海量數據高并發(fā)環(huán)境下,TRS全文數據庫服務器集群負載均衡模式可以成倍提高訪問性能。
3.1.1.1索引性能
在技術規(guī)范書中提出了“系統(tǒng)(以2×3.0G CPU、2G內存、2×146G 15KRPM硬盤配置檔次的PC Server為標準)平均創(chuàng)建100萬條記錄索引的時間<
1小時;系統(tǒng)在創(chuàng)建索引時對主機的CPU和內存的占用率不得高于30%。;系統(tǒng)索引膨脹率小于2.5,最多不能超過3.0!钡人饕矫婕夹g和性能的要求。
根據TRS全文數據庫的測試數據,在Dell2850 2xCPU,4G內存,10000轉硬盤,Redhat AS4.0測試環(huán)境下,數據加載和索引速度單機最高可達每小時3.5G。
1、索引創(chuàng)建時間
索引創(chuàng)建時間跟被創(chuàng)建索引的記錄數無關,由記錄大小決定的,普通新聞稿記錄,100萬條基本上是2GB左右,如果按詞索引,用時30分鐘,按字索引用時60分鐘,全冗余(字詞混和)用時120分鐘。據了解,114項目的數據記錄內容較少,100萬條應該在1G以內,若籠統(tǒng)的按半數大小,索引耗時應該在1小時左右。
2、CPU和內存的占有
這個值沒有專門做過檢查,但創(chuàng)建索引主要是對磁盤的讀寫繁忙,沒有過多的計算,所以CPU的占用應該不會多,至于內存,介于內存的讀寫速度比硬盤快很多,所以會占用一定數量的內存緩存,考慮到100萬條記錄的大小不會超過1G,所以影響也不會大
3、索引空間膨脹率
目前測試情況,按膨脹率最高的全冗余(字詞混和)模式創(chuàng)建索引,膨脹率接近3.0。
4.11成功的應用模式和豐富的應用經驗
TRS 公司多年來服務于眾多的關鍵信息系統(tǒng)建設,在應用集成能力和服務能力上得到了用戶的認可。
如國務院新聞辦三網一庫的核心數據庫建設、國家計委縱向網、衛(wèi)生部信息發(fā)布網站,國家統(tǒng)計局綜合網站信息服務系統(tǒng),北京市勞動和社會保障局網站、外交部新聞監(jiān)控采集系統(tǒng)、新華社多媒體數據庫平臺、中央人民廣播電臺網站內容管理平臺、央視在線主持系統(tǒng)、人民日報資料庫、中糧、中國五礦等等,我們對資源庫建設、入庫、編輯、生成、展示等整個信息的生產和服務的應用需求有著深刻的理解,這是領先其他公司的顯著優(yōu)勢,通過這些服務,我們與客戶建立了良好的合作關系,贏得了客戶的信任。特別是我們?yōu)樾氯A社多媒體數據庫進行的提速工作,再次展現了公司在信息檢索技術領域國際化的領先水平,我們通過并行檢索、Bi-Gram索引、服務器群集和數據庫智能化自我管理以及多層次Cache技術等,使得多媒體數據庫在千萬級數據庫記錄的綜合查詢性能獲得了成倍的提高,這是對關鍵業(yè)務的關鍵性突破。
4.12專注的服務
TRS專注于咨詢和開發(fā)服務,采用開放的體系結構、技術和產品,確保用戶的利益,保護現有投資。
TRS公司專注于軟件產品的提供和技術服務,在咨詢和服務能力上居于領先地位,在本項目中,我們在關鍵性平臺上采用了TRS成熟產品,并且保證提供開放的技術體系,提供完整和可擴充性,提供應用集成能力,同時根據用戶需求,推薦針對應用的行業(yè)內具有優(yōu)勢的相關產品,總體設計方案強調系統(tǒng)組件的最佳組合,選擇合適的技術和產品。
企業(yè)•廣東移動搜索引擎服務
在廣東移動搜索引擎服務的系統(tǒng)建設中,TRS重點解決了資源信息的整合和安全問題。
資源信息的整合包括了對辦公自動化數據的整合、對論壇數據的整合、對CM系統(tǒng)數據的整合,通過整合,實現統(tǒng)一的檢索入口,實現統(tǒng)一的Portal服務。此外,各種數據對原有系統(tǒng)中的權限(主要是Notes系統(tǒng)中的權限)得到了很好的繼承,只有相關的授權用戶才能對自己權限范圍內的信息進行瀏覽和檢索。
廣東移動的搜索引擎從技術上可以分為三個部分:Notes業(yè)務平臺,TRS檢索系統(tǒng),權限過濾和顯示模塊。用戶進行全文檢索首先在TRS中命中相應檢索記錄,然后通過權限過濾命中相應的數據集合,最終通過顯示模塊展示給相關人員經過安全驗證的信息內容。
通過這種方式,Notes中的全部業(yè)務權限得到了充分的繼承,有效體現了TRS企業(yè)搜索引擎的開放性和可集成能力,充分體現了TRS安全檢索的概念。
通過共享資源庫的建設,為內部工作人員提供了一個題材豐富的信息資源系統(tǒng),采用TRS企業(yè)搜索引擎系統(tǒng),將各部門信息資源整理加工,形成集公文、政務信息、行業(yè)規(guī)章、地方特色信息等資源的數據庫,為各級領導提供決策服務參考,為相關工作人員提供信息快速查詢平臺。
安全檢索和資源整合服務,使內部的信息得到有序的共享,并進一步優(yōu)化了管理流程,實現“一站式”信息發(fā)布和辦公服務模式。
CTI論壇編輯
相關鏈接: