基于數據融合的地鐵客流量預測方法
摘 要: 為了更加準確地預測城市地鐵交通中動態變化的客流量,通過分析城市地鐵交通客流量的特點,提出了一種基于神經網絡數據融合的預測方法。這種方法根據預測數據各屬性的特點,將采集的數據提取出多個相關序列。在此基礎上對各序列采取不同的處理、預測方法,再利用神經網絡進行融合。這種方法可用于數據動態預測的各種領域。實驗表明,采用這種方法可以有效地改善數據預測的誤差。關鍵詞: 鐵路交通; 信息預測; 數據融合; 神經網絡
在城市地鐵交通中,各車站交通流量信息(如候乘數量、下車數量等) 的準確預測有利于地鐵運行高效、及時地調度,從而既達到增加效益的經濟目的,又可以更好地滿足人們的乘車需求。傳統的預測方法有回歸分析算法以及Kalman 濾波等。這些方法假定過程是平穩的,系統是線性的,系統的干擾是白噪聲,因此在線性系統平穩的隨機時間序列預測中能夠獲得滿意的結果。然而,交通問題是有人參與的主動系統,具有非線性和擾動性強的特征,前述方法難以奏效,表現為以下缺點: ① 每次采樣的數據變化較小時適用,數據變化大誤差就大; ② 預測值的變化總是滯后于實測值的變化; ③ 無法消除奇異信息的影響。基于小波分析的動態數據預測方法以小波變換后的數據進行預測,克服了傳統預測方法不能消除奇異信息的缺點, 有效地預測動態的流量信息[ 1 ] 。但該方法只能對單個的數據序列進行處理,而事實上能夠用于預測的數據可以是多方面的。
數據融合(Data2Fusion) 技術起源并發展于軍事領域,主要用于目標的航跡跟蹤、定位與身份識別以及態勢評估等[ 2 ] 。傳統的數據融合技術大多采用概率理論(如Bayes 決策理論) 對多種信息的獲取與處理進行研究,從而去掉信息的無用成分,保留有用成分[ 3 ] 。在信息處理中,分別運用各種體現數據不同屬性特征的方法處理(如預測) 后進行融合是一個有待深入研究的問題。為了充分利用各方面已有的數據,獲得可靠的交通流量動態預測,本文借鑒數據融合的基本思想,提出了在數據處理方法上的融合預測方法。
1 流量融合預測模型
1. 1 預測模型的結構
由于預測對象的復雜性,為了表現與預測對象相關聯的其他對象或屬性,每個關聯對象(屬性) 用一個時間序列來表示,作為預測對象的相關序列。所有用于預測的相關序列構成預測對象的相關序列集。由于在預測中具有不同的作用,各相關序列將使用不同的處理和預測方法。在相關序列集上的地鐵客流量融合預測模型結構,如圖1 所示。
下面針對城市地鐵車站客流量的預測進行論述。
1. 2 構造相關序列集
為了預測車站(序號為0)在第i 天t 時刻的流量^F0 i(t) ( 實測值為F0 i(t)) ,設t 時刻^F0 i(t)的相關時間序列集為f(t) = {fj(t) ,1 ≤ j ≤ n} ( 1 ) 式中,fj(t)為t時刻^F0 i(t)的相關時間序列; n 為相關時間序列數。
為了獲得精確的預測,可以根據關聯特性構造任意多個相關時間序列。本文意在闡明本算法的基本思想,將流量數據僅僅構造為3 類相關序列:當前序列、歷史序列和鄰站序列。
當前序列 預測時刻t之前本站最近k次流量按時間先后記錄下來的數據構成的時間序列為當前序列,即
f1 (t) = { F0 i(t -l),1 ≤ l ≤ k} ( 2 )
該序列數據的主要影響因素是時刻,同時還受人為、氣溫、天氣等其他擾動因素的影響,數據分布的非線性特性較大,頻帶較寬。第l 班列車的流量如圖2 所示。
歷史序列 同為工作日或同為節假日的相鄰數天,其流量曲線形狀相對類似,流量曲線相似的日期在預測中具有較大的參考意義。本站最近m 天在時刻t 的流量按日期先后記錄下來的數據構成的時間序列為歷史序列,即f2 (t) = { F0 i-p(t) ,1 ≤ p ≤ m} ( 3 ) 工作日和節假日流量差別較大,可將它們分類處理。該序列整體分布較平穩,有震蕩,但頻帶較窄。第p個工作日在時刻t的流量如圖3 所示。
鄰站序列 圖4 為本站與鄰近2 個車站24 h 的流量曲線經DB2 小波3 層變換后的近似分量,可見各分量關聯性較大。如果根據以前的數據將各鄰近車站相互關系解算出來,就可以利用這種函數關系預測時刻t在本站的流量。最近m天在時刻t 的流量按日期先后記錄下來的各鄰站歷史序列為本站的鄰站序列,即
qf2 +q(t) = { Fi-p(t) ,1 ≤ p ≤ m,1 ≤ q ≤ s} ( 4 )
q式中, Fi-p(t)表示第q個鄰近站的第(i -p)天的流量;s 表示鄰近站數。
1.3 相關序列的預測
由于各相關序列在預測中具有不同的影響,且分布規律和特點差異較大,因而各序列使用不同的預測方法。本文對當前序列進行小波分解后用Kalman 預測,對歷史序列直接進行Kalman 預測,對鄰站序列用冪級數多項式進行擬合。
1.3.1 小波分析
根據設置的分解指數η對序列進行小波N 尺度分解,得到一組低頻信號和N 組高頻信號,對這N + 1 組信號分別用Mallat 塔式算法重構到原尺度上,得到N + 1 組在原始尺度上的經過分解重構處理的信號。分別對信號用Kalman 濾波進行預測,得到N + 1 個預測值,再將這N + 1 個預測值用權系數合成最終的預測值。具體算法請參見文獻[1 ]。
1.3.2 Kalman 濾波離散線性Kalman 濾波方程為
F(t) = Φ(t -1) F(t -1) + W(t -1)( 5 ) 式中,Φ (t) 為系統狀態轉移量; W(t) 為系統誤差。Kalman 濾波通過t -1 時刻的狀態F(t -1)估計t 時刻的狀態F(t) 。具體算法請參見文獻[1 ]。
1.3.3 多項式擬合
分別對各鄰站序列用冪級數多項式擬合本站數據,擬合模型如下
n
i
p
^Fp(t) = αp,i(t) F(t) ( 6 )
i=0
i
6 式中, Fp (t)為對第p個鄰站在時刻t 的流量的i 次i 冪;αp,i(t)為Fp (t)的系數。當n= 2 時,上述擬合算法簡化為線性回歸模型。
1.4 流量的融合預測設預測對象共有n個相關的時間序列fi(t) ,經過預處理分別為fi(t) ,融合預測模型可表示^F(t)在f(t)上的映射,即^F(t) =ζ(f(t)) =ζ(f1 (t) ,f2 (t) ,fn(t)) ( 7 ) 式中,ζ(·)表示映射關系。特別地,式(7)可簡化為如下的線性映射組合^F(t) = αi(t)ξ(fi(t)) ( 8 ) i=16
式中,αi(t)為t 時刻的序列fi (t)的權系數;ξ(fi (t)) 為以fi (t)為依據的局部預測值。為了確定上述算法中映射關系ζ(·),本文采用神經網絡進行解算。
2 模型的神經網絡解算
神經網絡是由大量簡單的神經元以某種拓撲結構廣泛地相互連接而成的非線性動力學系統[4 ]。神經網絡在數據融合技術中具有無法替代的作用,通過神經網絡對各相關序列的局部預測進行最終融合,具體過程如下。
2.1 數據的局部處理
廣州市地鐵某站一個方向的流量數據是以每班列車到站上車的人數記錄的(流量單位:人/班) 。根據2002 年5 月1 日 2003 年3 月2 日的流量數據,運用本文算法進行預測。按照1.2 節的方法構造了4 個相關序列:當前序列f1 (t) 、歷史序列f2 (t)以及相鄰2 個車站的鄰站序列f3 (t)和f4 (t) 。
2.2 神經網絡的設計
因為3 層神經網絡可以一致逼近任何非線性函數[5 ]。采用具有單隱層的3 層神經網絡作為模型,即輸入層、隱層和輸出層。
以各相關序列的局部預測值作為輸入向量,實測值F(t)為期望輸出,有4 個輸入節點,1 個輸出節點。隱層神經元數量關系到網絡的訓練速度和精度問題。對于一定數量的樣本,需要一定數量的隱層神經元數, 神經元少了,不能反映樣本的規律;多了,則神經網絡以過于復雜的非線性關系來擬合輸入輸出之間的關系,使得模型的學習時間大大增加。本例中,8 個隱層神經元數是最好的。以誤差平方和SSE(Sum2Squared Error ) 作為訓練評價標準, SSE = p j (Ypj-Opj)2 ,其中Ypj和Opj分別為輸出層第j個神經元的第p個樣本的期望輸出和實際輸出(本例中j= 1 ,p= 60) 。
用MATLAB 的ANN 工具箱構造神經網絡。隱層神經元的激勵函數為tansig 函數( 正切S 型傳遞函數),輸出層神經元的激勵函數為purelin 函數(線性傳遞函數),這樣整個網絡的輸出可以取任意值。采取批處理學習方式和快速BP 算法訓練。
2. 3 神經網絡的訓練
將網絡的訓練標準SSE 設為64(60 組訓練樣本), 利用上述樣本對神經網絡進行訓練,訓練6 000 次時網絡的權值和閾值將達到最佳值,即達到了訓練目標。神經網絡訓練目標接近過程,如圖5 所示。
從圖5 中可以看出,訓練開始時,網絡收斂速度較快,接近目標時收斂速度會減慢。可見,訓練次數越多,得到的結果越好。當然,這是以訓練時間的增長作為代價的。
3 實驗對比分析
采用本文算法和傳統的Kalman 算法分別對2003 年3 月2 日的各整點時刻的流量進行預測。算法各時刻均通過訓練后的神經網絡預測,預測與實測結果的比較,如圖6 所示。
傳統的Kalman 濾波是直接在當前序列的基礎上進行預測的, 預測與實測結果的比較如圖7 所示。2 種預測方法的誤差指標對比見表1 。
表1 實驗結果對比
比較可得,由于傳統的Kalman 預測方法只能以某一類序列的數據作為預測基礎,無法利用其他序列信息,且對變化大的數據采樣要求較高,因而具有較大的誤差,而本文所述方法有效地克服了這些缺點。
4 結論
通過分析城市地鐵站客流量的相互關系和特點, 在對流量信息進行以預測為目的相關序列集構造的基礎上,提出了一種基于數據融合的預測模型。該預測模型不僅是一個多信息接收和處理的融合模型,而且還是一個動力學系統,網絡的訓練樣本也是動態的,如果訓練的次數適當,預測的精度也可以隨之變化調整。實驗結果表明,基于數據融合的預測與傳統的預測方法相比,由于充分利用了所有預測信息,在預測的準確程度上有較大提高。
參考文獻:
[1 ] 李存軍, 等. 基于小波分析的交通流量預測方法[J ] . 計算機應用, 2003 , 23(12) : 7 —8.
[2 ] 權太范. 信息融合: 神經網絡 模糊推理理論與應用[M] . 北京: 國防工業出版社, 2002.
[3 ]李洪志. 信息融合技術[ M ] . 北京: 國防工業出版社, 1996.
[4 ] 靳蕃. 神經計算智能基礎 原理方法[ M] . 成都: 西南交通大學出版社, 2000.
[ 5 ] RUMELHART D E . Learning representation by back2 propagating errors [J ] .Nature , 1985 , 51(4) :533 —536.