所屬欄目:統計論文 發布日期:2010-08-25 12:03 熱度:
摘要:空間關聯規則知識的發現是空間數據挖掘一個重要的方面,而把空間統計分析技術應用于空間數據庫中的空間關聯規則挖掘,是一種不同于傳統方法的可用技術。該方法首先建立空間對象之間的空間權重矩陣,然后采用Moran‘sI統計量等來發現全局空間相關關系,利用G統計量等來發現局部空間相關關系,并通過實例分析證明了該方法的有效性。
關鍵字:空間統計學;空間數據挖掘;空間關聯規則挖掘
0引言
空間關聯規則知識的發現是空間數據挖掘一個重要的方面,它主要是要找出空間數據庫中空間對象間潛在有用的空間相關關系。有關空間關聯規則挖掘的算法有許多,比如由R.Agrawal等1994年提出的Apriori算法[1,2],J.S.Park等提出的基于Hash表的挖掘方法[3],D.Malerba等提出的ILP(InductiveLogicProgramming)方法[4],J.W.Han等1995年提出的多層次關聯規則挖掘方法[8],這些方法和技術都是從數據庫的事務集中找出頻繁項集而挖掘關聯規則,具有規范的規則形式。
利用空間統計學挖掘空間關聯規則,是一種廣義上的空間關聯規則,它沒有固定的規則形式或格式,一般用自然語言描述。這類空間關聯規則在空間決策支持中具有十分重要的意義。目前,空間統計學已廣泛應用于農業、地質、土壤、水文、環境、經濟、人口統計等領域[10]。不少學者先后對空間統計的一些基本理論和方法進行了廣泛研究,形成了一些新的統計理論和應用方法。
基于空間統計學的空間關聯規則挖掘包括空間權重矩陣的構建、全局與局部空間自相關、空間關聯的度量與檢驗、空間關聯知識的識別與描述等。本文將詳細介紹相關的理論和計算方法,并以湖南省14個市州2004-2006年連續三年的GDP增長率數據為研究對象,說
1空間統計學基本理論和相關性質
1.1空間權重矩陣
空間數據庫中空間對象間的拓撲關系提供了空間對象彼此間的空間連接或空間鄰近的基本度量關系,空間連接或空間鄰近關系廣泛應用于空間數據分析中。通常我們采用一個二維對稱空間權重矩陣W來表達n個空間對象(位置)間的空間鄰近關系,一般采用鄰接標準或距離標準來度量。空間權重矩陣W的形式如(1-1)所示,空間權重矩陣的定義是空間統計學與傳統統計學的重要區別之一。利用空間數據的拓撲關系,可以比較容易地構建空間權重矩陣。
(1-1)
根據鄰接標準,當空間對象j和對象i相鄰時,空間權重矩陣元素wij為1,其它情況均為0。矩陣元素值的表達式形式如(1-2)所示。
(1-2)
根據距離標準,當空間對象j和對象i的距離在給定距離閥值d之內時,空間權重矩陣元素wij為1,否則為0。矩陣元素的取值表達式如(1-3)所示。
(1-3)
上述兩種鄰近關系規則可以分別使用,也可以同時使用。如果兩個對象客觀上空間不相鄰,但它們之間在研究的某一方面存在緊密聯系時,可以將它們視為一種相鄰關系,此時即用到距離規則。所以,基于距離規則建立空間權重矩陣的目的是為了調整合理距離范圍內對象間的空間鄰接關系。
為了便于解釋,通常將空間權重矩陣進行標準化處理(Anselin,1988),以使得每個元素值的范圍界于0~1之間,標準化的形式如(1-4)所示。
(1-4)
1.2全局空間自相關的測度指標一Moran’sI
Moran,sI統計量是一個應用非常廣泛的全局空間自相關統計量,其定義形式如(1-5)所示。
(1-5)
其中,,xi表示在位置i處空間對象的觀測值,wij是空間權重矩陣的元素。
根據空間數據分布狀態可以計算Moran‘sI的期望值和方差[10]。
對于正態分布:
(1-6)
(1-7)
對于隨機分布:
(1-8)
(1-9)
其中,,wi*和w*i分別表示權重矩陣中第i行和第i列之和。
利用式(1-10)可以檢驗n個空間對象間是否存在空間自相關關系。
(1-10)
利用Moran‘sI統計量可以測度空間對象間的自相關性,發現對象觀測值的空間分布差異性和相關性。當Moran‘sI為正時,在距離d范圍內的觀測值之間存在顯著的正相關,即大的觀測值和大的觀測值集聚在一起,小的觀測值和小的觀測值集聚在一起,呈現“物以類集”的分布特征;當Moran’sI為負時,在距離d范圍內的觀測值之間存在顯著負相關,即大的觀測值傾向于和小的觀測值集聚在一起,呈現空間分散格局;當Moran‘sI趨近于零時,觀測值之間不存在空間自相關性,屬于獨立隨機分布。
1.3局部空間自相關的測度指標——G統計量
Getis和Ord(1992)研究了用來衡量空間對象間的局部空間關聯性的G統計量,在空間位置i的G統計量的表達式定義如下:
(1-11)
其期望值和方差分別為:
(1-12)
(1-13)
其中,,xi是對象在位置i的觀測值,wij是空間權重矩陣的元素,n是觀測值的個數。
Getis和Ord在1994年定義了Gi的標準化形式:
(1-14)
其中, 當Z(Gi)為正值時,說明位置i被數值大的屬性值所包圍;當Z(Gi)為負值時,說明位置i被數值小的屬性值所包圍。Z(Gi)統計可用來判斷空間聚類是為大數值型或小數值型。但是,Z(Gi)不能根據其正負號判斷空間類型的相似性[12]。
2實例分析
下面以湖南省各市州2004-2006年的GDP增長率分析為例,利用空間統計學分析方法挖掘各市州GDP增長率之間存在的空間關聯知識的有效性。湖南省各市州2004年、2005年和2006年的GDP增長率見表2-1。
表2-1湖南省各市州2004年一2006年GDP增長率一覽表
說明:數據來自湖南統計信息網[13]。
根據湖南省各市州的拓撲空間相鄰關系建立各市州邊界多邊形的拓撲關系,我們利用相鄰關系圖來直觀的表達(如圖2-1),圖上各節點中的數字代表各市州相應的編號,節點間有邊相連,說明兩市州在空間上具有相鄰關系。根據此相鄰關系圖,建立各市州的空間權重矩陣如表2-2所示。
圖2-1湖南省各市州空間拓撲關系的相鄰關系圖(節點上的數字代表各市州編號)
表2-2各市州基于鄰接標準的空間權重矩陣
利用湖南省各市州2004年到2006年連續3年的平均GDP增長率(見表2-1)這個指標來進行分析。根據空間權重矩陣,計算所得的各市州全局Moran‘sI和局部G統計值分別見表2-3和表2-4。
表2-3全局空間自相關Moran’sI及其Z(I)值
由表2-4可以得到,由于Moran‘sI為正值,說明各市州的GDP增長率在空間上存在明顯的相關性,不是隨機分布的,而是存在必然的內在聯系,GDP增長率高的區域和GDP增長率高的區域有相互鄰接的趨勢,低增長率區域與低增長率區域有相互鄰接的趨勢。
表2-4局部G統計量及其Z(Gi)值
根據表2-5中的G統計量及其Z值,我們可以發現湖南省各市州局部區域之間既存在顯著的正的空間關聯,又存在顯著的負的空間關聯。懷化、湘西、常德、郴州、邵陽、張家界和永州市的Z值為負,說明這些市被平均GDP增長率低的市所包圍;岳陽、婁底、衡陽、湘潭、株洲、長沙和益陽的Z值為正,說明這些市被平均GDP增長率高的市所包圍。
通過分析可以發現,長沙、湘潭、婁底、株洲、岳陽五市州平均GDP增長率較高的地區連成一片,形成湖南省東部地區的經濟高速發展區域;常德和張家界連成一片,形成湖南省北部地區的經濟高速發展區域;從而可以看出,增長率較高的地區有相互鄰接的趨勢;增長率較低的地區有懷化、湘西、衡陽、郴州、邵陽、永州和益陽,即GDP增長率較低的地區有相互鄰接的趨勢,它們形成湖南省西南部的經濟低速發展區域。作為省會城市的長沙,同時也是湖南省經濟發展的中心,其GDP增長率明顯高于省內其它城市,而其它增長率較高的城市大部分都與長沙為鄰,說明長沙的經濟發展對相鄰地市的經濟發展存在一定的帶動作用。
我們可以對上述發現的知識進行整理、加工,為進一步分析奠定基礎,同時為經濟政策決策的制定提供一定的參考和支持。通過上述的例子,說明了空間統計分析方法在確定、量化區域內存在的空間關聯關系的正確性和有效性。
3結論
基于空間統計分析技術進行空間關聯規則挖掘的方法,既考慮了空間對象的空間分布特征,又利用了空間對象的屬性數據,因此是一種結合空間、屬性特征的空間數據挖掘方法。本文的實例證明了該方法所發現的空間關聯知識與實際相吻合,說明空間統計學方法的有效性和實用性。但是,對于非數值型數據而言,空間統計學方法還存在一定的局限性。
參考文獻
[1]AgrawalR,ImielinskiT,SwamiA.Miningassociationrulesbetweensetsofitemsinlargedatabases.InProceedingsofthe1993InternationalConferenceonManagementofData(SIGMOD93),1993:207-216.
[2]AgrawalR,SrikantR.Fastalgorithmforminingassociationrulesinlargedatabases.InVLDB’94,1994:487-499.
[3]JongSooPark,Ming-SyanChen,PhilipS.Yu.AneffectiveHash-BasedAlgorithmforMiningAssociationRules.SIGMOD’95,1995:175-186.
[4]DonatoMalerba,FrancescaA.Lisi.AnILPMethodforSpatialAssociationRuleMining.
[5]H.Mannila,H.Toivonen,A.InkeriVerkamo.EfficientAlgorithmsforDiscoveringAssociationRules.1994:181-192.
[6]A.Savasere,E.Omiecinski,S.Navathe.AnEfficientAlgorithmforMiningAssociationRulesinLargeDatabases.Proceedingsofthe21stVLDBConference.1995:432-444.
[7]M.J.Zaki,S.Parthasarathy,M.Ogiharaetc.NewAlgorithmsforFastDiscoveryforAssociationRules.TechnicalReport,1995:1-24.
[8]J.Han,Yj.Fu.DiscoveryofMultiple-LevelAssociationRulesfromLargeDatabases.Proceedingsofthe21stVLDBConference.1995:420-431.
[9]AnselinL,GetisA.Spatialstatisticalanalysisandgeographicinformationsystem.AnnalsofRegionalScience,1992,26:19-33.
[10]陳斐,杜道生.空間統計分析與GIS在區域經濟分析中的應用[J].武漢大學學報(自然科學版),2002,Vol.27,No.4:391-396.
[11]呂安民.人口空間數據挖掘及其應用方法研究[D].武漢大學博士學位論文,2002.
[12]馬榮華,黃杏元,朱傳耿.用ESDA技術從GIS數據庫中發現知識[J].遙感學報,2002,Vol.6,No.2:102-108.
[13]http://www.hntj.gov.cn/,湖南統計信息網.
文章標題:基于空間統計學的空間關聯規則挖掘方法與應用
轉載請注明來自:http://www.56st48f.cn/fblw/jingji/tongji/1969.html
攝影藝術領域AHCI期刊推薦《Phot...關注:105
Nature旗下多學科子刊Nature Com...關注:152
中小學教師值得了解,這些教育學...關注:47
2025年寫管理學論文可以用的19個...關注:192
測繪領域科技核心期刊選擇 輕松拿...關注:64
及時開論文檢索證明很重要關注:52
中國水產科學期刊是核心期刊嗎關注:54
國際出書需要了解的問題解答關注:58
合著出書能否評職稱?關注:48
電信學有哪些可投稿的SCI期刊,值...關注:66
通信工程行業論文選題關注:73
SCIE、ESCI、SSCI和AHCI期刊目錄...關注:121
評職稱發論文好還是出書好關注:68
復印報刊資料重要轉載來源期刊(...關注:51
英文期刊審稿常見的論文狀態及其...關注:69
經濟論文范文
郵電論文 文化產業論文 特許經營論文 餐飲管理論文 房地產論文 人力資源論文 項目管理論文 工商企業管理論文 家政論文 物業論文 國際貿易論文 電子商務論文 審計論文 財會論文 統計論文 財稅論文 銀行論文 證券論文 保險論文 金融論文 經濟學論文 市場營銷論文 旅游論文
SCI期刊分析
copyright © www.56st48f.cn, All Rights Reserved
搜論文知識網 冀ICP備15021333號-3