從呼叫中心通向CRM—數據倉庫必不可少
在呼叫中心業(yè)務系統收集到大量數據之后,要將這些信息進行有效利用,從而為CRM系統提供正確的依據,這個過程中,數據倉庫是必不可少的要素。數據倉庫是一項基于數據管理和利用的綜合性技術和解決方案,它將成為數據庫市場的新一輪增長點,同時也將成為下一代應用系統的重要組成部分。
本文共分三大部分,介紹了數據倉庫及數據集市的概念,并對如何獲取高質量信息、數據倉庫的設計和實現、數據倉庫系統中的三個工具層以及數據倉庫平臺的評測指標進行了較為詳細的闡述,同時分析了數據倉庫的發(fā)展方向。
什么是數據倉庫?
1.數據倉庫概念解析
面對競爭日趨激烈與瞬息萬變的市場,面對不同層次的大量信息,企業(yè)各級管理人員將如何應用,以便在企業(yè)的經營和管理中迅速做出正確的決策?
數據倉庫就是針對上述問題而產生的一種技術方案,它是基于大規(guī)模數據庫的決策支持系統環(huán)境的核心。數據倉庫之父H·W·Inmon是這樣定義數據倉庫的:數據倉庫是一個面向主題的、集成的、不可更新的且隨時間不斷變化的數據集合,用來支持管理人員的決策。
我們常常會認為,數據倉庫是一個或一組產品,可以幫助我們得到問題的答案,或幫助我們提高決策能力。其實數據倉庫并不是這么簡單,它雖然可以幫助我們得到答案以便更好地做出決策,但這只是其全局過程的一部分。數據倉庫中的數據從何而來?數據如何進入數據倉庫?如何維護數據倉庫?數據倉庫中的數據如何組織?這些都是建立數據倉庫之前必須回答的問題。建立數據倉庫包括創(chuàng)建、管理、維護數據倉庫的所有活動。因此,數據倉庫不是產品,而是解決方案。
數據倉庫和數據庫是不一樣的概念。數據倉庫是一個綜合的解決方案,而數據庫只是一個現成的產品。數據倉庫需要一個功能十分強大的數據庫引擎來驅動。與關系數據庫不同,數據倉庫并沒有嚴格的數學理論基礎,它更偏向于工程。由于數據倉庫的這種工程性,在技術上可以根據它的工作過程分為數據的抽取、數據的存儲和管理、數據的表現以及數據倉庫設計的技術咨詢等四個方面。
2.數據倉庫與數據集市的區(qū)別
談到數據倉庫,就不可避免地談到數據集市。由于一些廠商的誤導,很多人往往把這兩個概念混淆了。數據集市也是當前非常熱門的一個術語,一種比較常見的誤解是,認為它與數據倉庫的差別只是數據量的大小而已。事實上,數據倉庫是企業(yè)級的,能為整個企業(yè)各個部門的運行提供決策支持手段: 而數據集市則是一種微型的數據倉庫,它通常有更少的數據,更少的主題區(qū)域,以及更少的歷史數據,因此是部門級的,一般只能為某個局部范圍內的管理人員服務,因此也稱之為部門級數據倉庫。
數據集市有兩種,即獨立的數據集市(Independent Data Mart)和從屬的數據集市(Dependent Data Mart)。所謂從屬,是指它的數據直接來自于中央數據倉庫。顯然,從屬的數據集市的這種結構仍能保持數據的一致性。一般為那些訪問數據倉庫十分頻繁的關鍵業(yè)務部門建立從屬的數據集市,這樣可以很好地提高查詢的反應速度。獨立數據集市,它的數據直接來源于各生產系統。許多企業(yè)在計劃實施數據倉庫時,往往出于投資方面的考慮,最后建成的就是這種結構的獨立數據集市,用來解決個別部門比較迫切的決策問題。從這個意義上講,它和企業(yè)數據倉庫除了在數據量大小和服務對象上有所區(qū)別外,邏輯結構并無多大區(qū)別,這也是有人把數據集市稱為部門數據倉庫的主要原因。
如何建立數據倉庫?
1.獲取高質量的信息
數據倉庫作為決策支持系統(DSS)和聯機分析應用數據源的結構化數據環(huán)境所要研究和解決的問題,就是從數據庫中獲取信息。數據質量差是構建數據倉庫時需要解決的最困難的問題之一,有許多不同的方法可以用于改善數據倉庫中信息的質量。當發(fā)現在源系統中哪些地方存在數據質量問題之后,就需要研究一些方法來改善數據質量。一種改善數據倉庫中數據質量的方法是改善源系統中數據質量: 另一種方法是在將數據從老系統移植到數據倉庫的過程中校正數據。
2.數據倉庫的設計和實現
。1)設計與實現過程
(2)需要注意的問題
數據倉庫的模型設計(包括邏輯模型設計和物理模型設計)是系統的基礎和成敗的關鍵,在實際操作中應對下列問題引起注意:
在數據抽取過程中,應該注意以下幾點:
3.數據倉庫系統的三個工具層
OLAP的查詢分析型工具、DSS的分析預測型工具與數據挖掘型工具共同構成了數據倉庫系統的工具層。它們各自的側重點不同,適用范圍和針對的用戶也不相同。數據倉庫系統具備了這三種工具,人們才能真正高效地利用其中蘊藏的大量寶貴的信息。
。1)聯機分析處理(OLAP)
聯機分析處理主要通過多維的方式對數據進行分析、查詢和報表。它不同于傳統的聯機事物處理(OLTP)應用。OLTP應用主要是用來完成用戶的事務處理,如民航訂票系統、銀行儲蓄系統等,通常要進行大量的更新操作,同時對響應時間要求比較高。而OLAP應用主要是對用戶當前及歷史數據進行分析,輔助領導決策。其典型的應用有對銀行信用卡風險的分析與預測、公司市場營銷策略的制定等,主要是進行大量的查詢操作,對時間的要求不太嚴格。
目前常見的OLAP主要有基于多維數據庫的MOLAP及基于關系數據庫的ROLAP。在數據倉庫應用中,OLAP應用一般是數據倉庫應用的前端工具,同時OLAP工具還可以與數據挖掘工具、統計分析工具配合使用,增強決策分析功能。
。2)決策支持系統(DSS)
決策支持系統(DSS)和數據倉庫的目標用戶相同,都是面向企業(yè)的中高層領導,它們執(zhí)行的都是決策和趨勢分析類的應用。DSS中的一些技術可以很好地集成到數據倉庫中,并使數據倉庫的分析能力更加強大。例如:DSS中的傳統統計分析模型可以幫助用戶對數據倉庫中的數據進行更加有效、更加深入的分析,從而更好地掌握和利用信息。而一些智能決策技術,如人工神經網絡在發(fā)現顧客行為模式、預測金融市場行為等方面顯示了強大的功能。這些DSS的核心技術在數據倉庫中的應用,不但會大大提高數據倉庫的決策支持能力,同時也使DSS的應用范圍更加廣泛。
(3)數據挖掘
數據挖掘是當前業(yè)界的熱門技術,已經在多個應用領域產生了巨大的效益。數據挖掘不一定需要建立在數據倉庫的基礎上,但是如果將數據挖掘和數據倉庫協同工作,則可以簡化數據挖掘過程的某些步驟,從而大大提高數據挖掘的工作效率。由于數據倉庫的數據來源于整個企業(yè),保證了數據挖掘中數據來源的廣泛性和完整性。數據挖掘技術是數據倉庫應用中比較重要且相對獨立的部分。目前,數據挖掘技術正處在發(fā)展當中。數據挖掘涉及到數理統計、模糊理論、神經網絡和人工智能等多種技術,技術含量比較高,實現難度較大。此外,數據挖掘技術還會同可視化技術、地理信息系統、統計分析系統相結合,豐富數據挖掘技術及工具的功能與性能。
4.數據倉庫平臺的評測指標
由于許多數據庫廠商都在大力推廣和宣傳自己的數據倉庫解決方案,使最終用戶無所適從。那么,是否有第三方機構或組織制訂一個比較公正而權威的評測標準呢?回答是肯定的。
目前,專門針對數據倉庫平臺的評測指標主要有兩個:
。1)TPC-D
TPC是一個國際性的組織,由45個會員公司組成,IBM、Microsoft、NCR、NEC、HP、Sun等跨國公司都是其會員。TPC專門負責為各種開放平臺在不同類型的應用上制定一個統一、公正的測試標準。
對于OLTP系統,衡量其數據庫性能的主要指標是TPC-C,這里不做分析。對于數據倉庫系統,衡量其數據庫性能的主要指標則是TPC-D。主要有3方面的數據需要考慮:
顯然,前面兩個指標的數據越大越好,而最后一個則越小越好。當然,首先要考慮的應該是能否滿足業(yè)務上的需求。
各家供應商的TPC-D值以及TPC-D的詳細描述可以從TPC在Internet的主頁上找到。另外,也可以從Microsoft、IDEAS等公司的主頁上找到TPC-D的測試結果。
需要做些說明的是流量測試結果。盡管它描述了系統處理并發(fā)查詢請求的能力,但并非所有廠商的流量測試都是在多用戶狀態(tài)下進行的。TPC-D給了供應商們一個選擇: 直接進行多用戶狀態(tài)下的流量測試; 或者先在單用戶狀態(tài)下進行測試,然后利用測得的處理能力指標QppD和流量指標的計算公式來計算出QthD。
如何區(qū)分這兩種測試結果呢?只要把TPC-D的測試概要下載并打印出來,就可以了解在做流量測試時的Stream數目。Stream數實際上代表了同時遞交查詢請求的用戶個數。如果是單用戶狀態(tài)下的測試,則只能發(fā)現一個Stream,即Stream00。
。2)Data Challenge
由于TPC-D對測試的數據庫模型、數據的加載以及所有查詢都做了非常嚴格的規(guī)定,這樣,參與測試的各廠商有可能預先做許多調整,使其性能更好,致使數據倉庫的實際應用情況與之有較大的區(qū)別。因此,TPC-D的測試結果主要給用戶在做數據倉庫軟硬件平臺選型時提供一個初步的參考。
除TPC-D以外,還有一個于1998年5月宣布的稱為Data Challenge(數據挑戰(zhàn))的測試標準。與TPC-D不一樣的是,它非常注重考察系統的動態(tài)查詢能力,所有查詢都不公開,參與測試的廠商無法做預先的調整。測試前由各廠商按照規(guī)定設置好環(huán)境,然后由Data Challenge公司的技術專家來進行各種性能評測。
當用戶在決定選擇一個廠商為其實施數據倉庫系統時,至少應該考慮以下問題:
當認真考慮了以上各方面的問題后,所投資建立的實際系統一般都能達到預期的效果。
數據倉庫向何處去?
1.技術趨勢
數據倉庫技術的發(fā)展包括數據抽取、存儲管理、數據表現和方法論等方面。
在數據抽取方面,未來的技術發(fā)展將集中在系統集成化方面。它將互聯、轉換、復制、調度、監(jiān)控等納入標準化的統一管理,以適應數據倉庫本身或數據源的變化,使系統更加便于管理和維護。
在數據管理方面,未來的發(fā)展將使數據庫廠商明確推出數據倉庫引擎,并作為服務器產品與數據庫服務器并駕齊驅。在這一方面,帶有決策支持擴展的并行關系數據庫將最具發(fā)展?jié)摿Α?
在數據表現方面,數理統計的算法和功能將被普遍集成到聯機分析產品中,同時與Internet/Web技術緊密結合,推出適用于Intranet、終端免維護的數據倉庫訪問前端。在這個方面,按行業(yè)應用特征細化的數據倉庫用戶前端軟件將形成產品,并作為數據倉庫解決方案的一部分。數據倉庫實現過程的方法論將更加普及,將成為數據庫設計的一個明確分支,成為管理信息系統設計的必備部分。
計算機應用發(fā)展的數據倉庫傾向,是數據倉庫發(fā)展的推動力。傳統的聯機事務處理系統并不單獨考慮數據倉庫,但實際應用對數據倉庫所能提供的功能卻早有需求。因此,許多事務處理系統近年來陷入一個兩難的境地:在現有系統上增加有限的聯機分析功能,包括復雜的報表和數據匯總操作,這樣一方面嚴重影響了事務處理聯機性能,另一方面,統計分析又因系統結構上的種種限制而不能得到充分體現。因此,應用技術是朝著更加細化、更加專業(yè)的方向發(fā)展。
在新一代的應用系統中,數據倉庫在一開始便被納入系統設計的考慮之中,聯機分析將被應用于普遍的事務處理系統之中。在數據管理上,聯機事務處理和數據倉庫在應用中相對獨立,聯機事務處理系統本身將更加簡潔高效,同時分析統計也更為便利。面向行業(yè)的數理統計學向更為普遍的應用發(fā)展,并集成到應用系統的數據倉庫解決方案中。它們將立足于數據倉庫所提供的豐富信息,更好地為業(yè)務決策服務。
2.市場預測
在市場上,可以從廠商和用戶兩個方面看數據倉庫的發(fā)展。對于提供數據倉庫產品和解決方案的廠商來說,嚴酷的市場競爭是永恒的主題,無法提供完整解決方案的廠商,可能被其他公司收購。例如,從事數據抽取、提供專用工具的軟件公司很可能并入大型數據庫廠商。能夠持續(xù)發(fā)展的廠商大致有兩類:一是擁有強大的數據庫、數據管理背景的公司;二是專門提供面向具體行業(yè)的、關于數據倉庫實施的技術咨詢的公司。
從用戶的角度看,數據管理的傳統領域,如金融、保險、電信等行業(yè)中的特定應用,除信用分析、風險分析、欺詐檢測之外,數據倉庫的應用將隨著現代社會商業(yè)模式的變革而進一步普及和深入。
近年來,一場革命正在改變產品制造和服務的提供方式,它就是數字化定制經濟模式。在這個世界里,用戶可以購買一臺根據自己要求組裝的計算機、一條根據自己體形設計的牛仔褲、一種根據自己身體需要而生產的保健藥、一副與自己臉型相配的眼鏡……大規(guī)模的定制不僅是一種制造過程、后勤系統或者推銷策略,它很可能成為企業(yè)生產的組織原則。在未來大規(guī)模定制經濟環(huán)境下,數據倉庫將成為企業(yè)獲得競爭優(yōu)勢的關鍵武器。
計算機世界報 2002/04/19
英橋E-STAR客戶關系管理軟件(CRM) 2002-04-17 |
正邦高科EAI整體解決方案 2002-04-15 |
商網通CRM企業(yè)解決方案 2002-04-10 |
如何用部門級服務器構建分析型CRM應用 2002-04-10 |
金蝶電力行業(yè)解決方案 2002-04-09 |