數據倉庫技術在地鐵交通系統中的應用摘 要:介紹了將數據倉庫技術應用于地鐵交通系統之中,其中采用的技術及數據來源,提出一種地鐵交通數據倉庫的體系結構,探討了該體系結構建立中的數據抽取與轉換、元數據、中央數據庫與數據集市等重要組成部分。并且通過主題、維度、粒度等概念詳細研究了該數據倉庫的數據組織與數據模型的建立。正確的建立地鐵交通數據倉庫,將為決策者制定策略與方案提供數據環境的保障,從而輔助地鐵交通管理者做出正確的管理決策。關鍵詞:數據倉庫;決策支持;地鐵交通;體系結構;數據模型0引 言 隨著2008年奧運會的臨近,北京的城市交通管理和規劃越來越受到政府和社會的重視,交通狀況將直接影響到奧運會的成功與否,同時,城市交通的管理和規劃對城市的總體面貌、居民生活甚至經濟發展都能產生極大的影響。城市地鐵作為城市交通中的重要組成部分,在整個交通規劃中起著舉足輕重的作用。在城市地鐵交通中,地鐵列車信息、客流量等資源的分步情況對地鐵交通中的交通規劃、交通需求管理、交通管理等方面都起著重要的作用。因此,有必要對地鐵交通中的地鐵列車車輛信息、各車站交通流量信息(如候乘數量、下車數量等)等數據進行處理,形成數據庫系統。地鐵交通各車站流量信息的準確分布信息也能給地鐵營運部門做出正確的管理和規劃方面的決策提供依據,而這些信息也正是地鐵運行高效、及時的調度,從而既達到增加效益的經濟目的又更好滿足人們的乘車需求的保證。本文探討的是充分利用現有的信息資源,在源操作型關系數據的基礎上,建立基于地鐵交通數據倉庫的分析決策信息系統,從而輔助地鐵交通管理者做出正確的管理決策。1 采用的技術及數據來源1.1 采用的技術簡介1.1.1 數據倉庫技術(DW) 數據倉庫的精確定義是:在企業管理和決策中面向主題的、集成的、與時間相關的、不可修改的數據集合。它更像一種過程,是分布各處的數據整合、加工和分析的過程。而它的設計思想是建立一種體系化的數據存儲環境,將分析決策所需的大量數據從傳統的操作環境中分離出來,將分散的、難于訪問的操作數據轉換成集中統一、隨時可用的信息,為管理者和決策者提供一致的分析型數據環境。有兩種形式的數據環境:一是操作型數據庫,主要是數據的日常操作,包括數據查詢、修改等等;二是分析型數據倉庫,主要解決了數據庫對于數據的分析處理支持不足的缺陷,實現原有的以單一數據庫為中心的數據環境向數據庫與數據倉庫并存的體系化環境的發展。要從大量的地鐵車站交通流量信息數據中探索業務需要的規律,迫切需要運用數據倉庫這種模式來處理大量數據,把這些雜亂而又繁復的數據變為面向主題的、集成的、與時間相關的,最關鍵就是對決策者做出正確決策提供依據的有價值得信息資源,能夠及時、有效為決策提供科學的決策支持。1.1.2聯機分析處理技術(OLAP) OLAP(On-lineAnalyticalProcess,聯機分析處理)是使分析人員能夠從多種角度,對從原始數據轉化來的、真正為用戶所理解的信息進行分析,并快速獲取信息的軟件技術。OLAP實現了把企業內部數據和外部數據進行有效的集成,為企業的各層決策使用。它針對特定問題進行聯機數據訪問和分析,對數據的一系列交互查詢過程,這些過程要求對數據進行多層次、多階段的分析處理,獲得更高的歸納信息。 OLAP操作模式跟OLTP(聯機事務處理)是不同的。OLTP主要是面向操作人員,支持日常操作,需要同時處理大量事務,每個事務處理數據量都比較小,管理的數據是原始的、細節的、是當前數據,并可隨時更新,而OLAP則面向決策人員,支持管理需要,所以占用大量系統資源,提供多角度不同詳細程度查詢信息,數據都是經過集成導出的、綜合的、歷史的,不可更新,只能周期性刷新。OLAP經常需要相應的底層數據結構支持,它的技術核心是以多維方式來組織數據,以多維方式來顯示數據。1.1.3數據挖掘技術(DM) DM(DataMining,數據挖掘),又稱為數據庫中知識發現(KnowledgeDiscoveryfromDatabase),是一個從大量數據中抽取挖掘出未知的、有價值的模式或規律等知識的復雜過程。從數據倉庫的角度來看,數據挖掘可以被認為是在線分析處理(OLAP)的高級階段,但是基于多種數據理論先進技術的數據挖掘,其數據分析能力要遠超過以數據匯總為主的數據倉庫在線分析處理功能。 利用數據挖掘技術可以幫助獲得決策所需的多種知識。對于一個數據挖掘系統而言,它應該能夠同時搜索發現多種模式的知識,以滿足用戶的期望和實際需要。此外,數據挖掘系統還應能夠挖掘出多種層次(抽象水平)的模式知識。1.2 數據來源 地鐵交通數據倉庫主要以地鐵列車管理檔案數據庫、交通流量信息數據庫為基礎,集成地鐵交通信號控制、電視監控、交通通信、事故報警等子系統的數據,獲取各種動、靜態交通信息,進行調度和決策。但是,這些數據分布管理于異構的數據平臺,數據不易集成,而進行管理決策時,需要有機集合各種數據。為此,在傳統的數據庫管理系統上,將這些數據以統一的格式,集成、存儲在一起,建立地鐵交通數據倉庫。根據主題通過專業模型對不同源數據庫中的原始數據進行抽取和聚集,形成多維視角,為決策人員提供一個綜合的、面向分析的決策支持數據環境。2 相關的數據倉庫模型2.1體系結構 地鐵交通數據倉庫體系結構如圖1所示,從各種源數據出發,到建立集成的綜合數據平臺,需經如下幾步: (1)設計一個包含地鐵數據和信息的數據庫; (2)利用數據管理與建模工具,對數據進行抽取、轉換及裝載; (3)通過中央元數據管理,將整合后數據存放于中心數據倉庫; (4)根據決策管理各種不同任務,建立由本地元數據標明的面向各任務的數據集市; (5)中心數據倉庫及各數據集市的建立基礎為多維數據庫和關系數據庫,用戶通過OLAP及DM工具進行數據訪問與分析。2.2 數據倉庫模型的建立2.2.1 數據抽取和轉換 為優化數據倉庫的分析性能,要從源數據中抽取有用的數據,根據分析需求對之進行轉換,包括檢驗、整理、加工和重新組織等步驟,最終以最適宜的方式存儲于數據倉庫中。源數據分布于不同的數據平臺,因此,要針對不同情況區別對待。對于傳統關系型數據庫,支持一般數據抽取、復制和一定程度上數據重新組織、聚簇和匯總,滿足正常情況下的數據抽取要求;對特定數據源,采用專門數據抽取和轉換工具,與數據庫管理系統相互配合對操作數據進行收集、轉換和修訂,并自動把轉換后數據進行裝載。2.2.2元數據 該數據倉庫中的元數據包括了對整個數據倉庫環境(數據倉庫、多維數據庫及數據獲取系統)的描述。元數據記錄數據倉庫所存儲數據的結構及數據之間的關系,從而保證數據倉庫在邏輯上的一致性。元數據是整個體系結構的核心之一。 數據倉庫中包括兩種類型的元數據:一類是中央元數據,不僅描述源數據的格式、目標數據的格式以及如何把源數據轉換成目標數據,而且還定義了整個數據倉庫的信息模型,說明數據倉庫中的數據結構;另一類是本地元數據,直接來源于中央元數據,通過元數據交換,負責對中央數據倉庫中數據及數據集市的建立加以管理。
2.2.3中央數據倉庫與數據集市 中央數據倉庫是整個體系結構建設的重點,數據從各信息子系統經過綜合整理進入中央數據庫,在中央數據庫中,數據組織的應用邏輯獨立性最強,抽象程度最高。 而數據集市則按照決策任務的分類進行組織,從中央數據倉庫中通過數據再抽取與集成形成不同的數據集市,如地鐵車輛狀況、各站客流量情況、突發事件處理、特勤任務等面向不同決策任務的數據集市。數據集市的數據組織模式可以參照中央數據倉庫的模式,但相對更獨立,數據量小,規模小,所以決策人員能夠快速獲取信息。3數據倉庫中的數據組織 數據倉庫中涉及的數據不僅具有一般操作型數據而且是具備時空特性數據。地鐵交通數據倉庫通過主題、維度、粒度、分割等概念的引入,根據主題從不同源數據中截取多粒度的數據,并以多種維度進行存儲、管理及分析。3.1主題的確立面向主題進行數據組織,即在較高層次上對分析對象的數據進行完整、一致的描述,刻畫各個分析對象所涉及的各項數據,以及數據之間的聯系。地鐵交通中涉及的因素很多,要考慮地鐵交通本身的狀態,還要考慮根據其自身狀態做出的決策,以及這些決策與地鐵交通本身的互相影響和制約關系。所以大致可以把地鐵交通的基本主題確立如下表1所示:
3.2擴展的星型模型 在數據倉庫的數據庫設計中,星型模型是一種基本的數據模式。星型模式是一種多維的數據關系,它由一個事實表(FactTable)和一組維表(DimensionTable)組成。每個維表都有一個維作為主鍵,所有這些維則組合成事實表的主鍵,換言之,事實表主鍵的每個元素都是維表的外鍵。事實表的非主屬性稱為事實(Fact),它們一般都是數值或其他可以進行計算的數據;而維大都是文字、時間等類型的數據。如圖2所示為擴展的星型模型: 采用這種擴展的星型模型,多層分維結構減少了一級分維表的內容,避免一級分維表中出現大量的重復數據,使得復雜的數據模式保持簡潔清晰。
3.3關于數據倉庫中的數據粒度 數據倉庫的粒度描述的是數據倉庫中數據單元的綜合程度。粒度越小,數據就越詳細,綜合度就越低;反之,粒度越大,級別越高,數據綜合度就越高,內容則越模糊。地鐵交通數據倉庫中的數據粒度的劃分是根據數據采集的精度、數據的時間和空間分辨率來實現的。粒度劃分的大小直接關系到數據倉庫中的數據量和所適合的查詢類型。4結束語 地鐵交通數據倉庫的建立,提高了整個地鐵交通系統在城市交通中的重要性,并可解決日益嚴重的交通問題。而只有正確的建立了輔助決策的數據倉庫,才能為決策者提供完整、及時、準確、明了的決策信息,使決策者做出正確決策,真正促進地鐵交通的有效性,緩解城市交通問題。參考文獻:[1]LogiFilippo,RitchieStephenG.Developmentandevaluationofaknowledge-basedsystemfortrafficcongestionmanagementandcontrol[J].TransportationResearchPartC,2001,9(3):433-459.[2]王 珊.數據倉庫技術與聯機分析處理[M].北京:科學出版社,1998.[3]陳文偉.智能決策支持技術[M].北京:電子工業出版社,1998.[4]李書濤.決策支持系統原理與技術[M].北京:北京理工大學出版社,1996.



