所屬欄目:計(jì)算機(jī)信息管理論文 發(fā)布日期:2016-02-25 15:23 熱度:
本文是一篇計(jì)算機(jī)論文投稿范文參考,研究超市事務(wù)數(shù)據(jù)庫挖掘關(guān)聯(lián)規(guī)則設(shè)計(jì),發(fā)表在《信息技術(shù)與信息化》上,雜志從信息技術(shù)的研究、應(yīng)用角度展現(xiàn)IT行業(yè)與科技發(fā)展與進(jìn)步,是全國高校、科研院所、企業(yè)發(fā)表信息科學(xué)研究、技術(shù)應(yīng)用成果的園地。雜志內(nèi)容以科技論文為主,并設(shè)有評論與綜述、信息化論壇、網(wǎng)絡(luò)通訊、信息處理與模式識別、研究與探索、方案與應(yīng)用等欄目。整個(gè)雜志分三個(gè)層次,第一個(gè)層次是評論與綜述,由政府職能部門和專家對技術(shù)、產(chǎn)業(yè)的發(fā)展趨勢,所做的前瞻性的論述和規(guī)劃;第二個(gè)層次是電子信息科技論文,主要刊登高校研究生、科研院所的論文和理論研究成果;第三個(gè)層次是企業(yè)及各行業(yè)中IT技術(shù)的應(yīng)用案例。
摘要:現(xiàn)在全球經(jīng)濟(jì)發(fā)展正在進(jìn)入信息經(jīng)濟(jì)時(shí)代,各種形式的信息大量地產(chǎn)生和收集導(dǎo)致了信息爆炸,如何采用基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)超市事務(wù)數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則是本文所研究和探討的重點(diǎn)。
關(guān)鍵詞:數(shù)據(jù)挖掘,電子商務(wù),關(guān)聯(lián)規(guī)則,計(jì)算機(jī)論文投稿范文參考
1引言
目前,在需要處理大數(shù)據(jù)量的科研領(lǐng)域中,數(shù)據(jù)挖掘受到越來越多的關(guān)注。我們可以利用數(shù)據(jù)挖掘技術(shù)從海量數(shù)據(jù)中發(fā)現(xiàn)有用信息,幫助商家了解客戶以往的需求趨勢,并預(yù)測未來,從而給商家?guī)砭薮蟮睦麧櫋T跀?shù)據(jù)挖掘領(lǐng)域,采用關(guān)聯(lián)規(guī)則在大型事務(wù)數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)挖掘是一個(gè)重要的研究內(nèi)容。關(guān)聯(lián)規(guī)則是美國IBM Almaden Research Center的Rabesh Agrawal等人于1993年首先提出的KDD研究中的一個(gè)重要課題。關(guān)聯(lián)規(guī)則挖掘的一般對象是事務(wù)數(shù)據(jù)庫,這種數(shù)據(jù)庫的主要應(yīng)用在零售業(yè),比如超級市場的銷售管理。關(guān)聯(lián)規(guī)則就是發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫中不同商品(項(xiàng))(Item,指事務(wù)中的內(nèi)容,比如,面包、牛奶等都是項(xiàng)目)之間是否存在某種關(guān)聯(lián)關(guān)系。通過這些規(guī)則找出顧客購買行為模式,如購買了某一商品對購買其他商品的影響。發(fā)現(xiàn)這樣的規(guī)則可以應(yīng)用于商品貨架設(shè)計(jì)、貨存安排以及根據(jù)購買模式對用戶進(jìn)行分類。
2關(guān)聯(lián)規(guī)則描述
目前關(guān)聯(lián)規(guī)則挖掘主要考慮支持度和置信度兩個(gè)閾值。設(shè)X是項(xiàng)集,T是數(shù)據(jù)庫DB中的任意一個(gè)記錄。X的支持度是指支持X的記錄數(shù)與全體記錄數(shù)的比,Support(X)=|{T| T X,T∈DB}|/|DB|。蘊(yùn)涵關(guān)系X==>Y在數(shù)據(jù)庫DB中的置信度是指同時(shí)支持X和Y的記錄數(shù)與支持X的記錄數(shù)之比,即:Confidence(X==>Y)=|{T| T XY,T∈DB}|/|{T| TX,T∈DB}| 支持度可理解為在DB中隨機(jī)抽取一個(gè)記錄,該記錄同時(shí)支持X和Y的概率。置信度可理解為在支持X的記錄全體中隨機(jī)取一個(gè)記錄,該記錄支持Y的概率。
3發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的操作步驟
目前,由于條碼技術(shù)的發(fā)展,顧客在超市中購買商品的信息可以很方便的被存放在數(shù)據(jù)庫中,針對數(shù)據(jù)庫中大量的數(shù)據(jù),我們?nèi)绾伟l(fā)現(xiàn)它們之間存在的關(guān)聯(lián)是本文主要討論的問題。關(guān)聯(lián)規(guī)則的挖掘問題就是在超市事務(wù)數(shù)據(jù)庫DB中找出具有用戶給定的最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的挖掘?qū)κ袌稣{(diào)節(jié)和爭取顧客方面的應(yīng)用是極有價(jià)值的。因此,有必要采用快速算法從超市事務(wù)數(shù)據(jù)庫中挖掘關(guān)聯(lián)規(guī)則。由超市事務(wù)數(shù)據(jù)庫發(fā)現(xiàn)關(guān)聯(lián)規(guī)則挖掘可以分以下兩步完成:
1)找出超市事務(wù)數(shù)據(jù)庫DB中所有大于等于用戶指定最小支持度的項(xiàng)目集,具有最小支持度的項(xiàng)目集稱為頻繁項(xiàng)集。
2)利用頻繁項(xiàng)集生成所期望的關(guān)聯(lián)規(guī)則,即這些規(guī)則必須滿足最小支持度min_supp和最小置信度min_conf。
事實(shí)上,第一步的任務(wù)是迅速高效地找出超市事務(wù)數(shù)據(jù)庫DB中全部頻繁項(xiàng)集,數(shù)據(jù)挖掘所面臨的最大的挑戰(zhàn)是計(jì)算效率問題,解決這一問題的途徑是產(chǎn)生高效的數(shù)據(jù)挖掘算法,但從超市事務(wù)數(shù)據(jù)庫中產(chǎn)生頻繁項(xiàng)集即費(fèi)時(shí)又占用空間,所以說第一步是關(guān)聯(lián)規(guī)則挖掘的核心問題,是衡量關(guān)聯(lián)規(guī)則挖掘算法的標(biāo)準(zhǔn)。當(dāng)找到所有的頻繁項(xiàng)集后,相應(yīng)的關(guān)聯(lián)規(guī)則將很容易生成,目前大多數(shù)的關(guān)聯(lián)規(guī)則挖掘算法研究是針對第一步而提出的,本文重點(diǎn)討論第一個(gè)問題。
4由超市事務(wù)數(shù)據(jù)庫發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的總體設(shè)計(jì)
在現(xiàn)有的不少關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法中,最著名的仍然是R.Agrawal本人在他們自己的AIS算法基礎(chǔ)上于1994年提出的Apriori算法,Apriori算法的基本思想是:利用“頻繁項(xiàng)集的所有非空子集都必須也是頻繁的”這一定理對事務(wù)數(shù)據(jù)庫進(jìn)行多遍掃描。
眾所周知,對數(shù)據(jù)庫的掃描伴隨繁重的磁盤I/O任務(wù),Apriori算法中,掃描次數(shù)較多,這樣就大大限制了挖掘算法的速度。因此,在實(shí)際的應(yīng)用中,減少對事務(wù)數(shù)據(jù)庫的掃描次數(shù),有效地減少數(shù)據(jù)的吞吐,將會有效提高算法的效率。為了高效率的由超市事務(wù)數(shù)據(jù)庫中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,本系統(tǒng)在Apriori算法的基礎(chǔ)上采用基于劃分的算法。該算法只對事務(wù)數(shù)據(jù)庫DB掃描兩次,大大減少了I/O操作,從而提高了算法的效率。
通過劃分方法進(jìn)行數(shù)據(jù)挖掘的過程如下圖所示:
本系統(tǒng)的總體設(shè)計(jì)包含三部分:
(1) 在服務(wù)器端第一次掃描超市事務(wù)數(shù)據(jù)庫中的表,按照超市事務(wù)數(shù)據(jù)庫中不同項(xiàng)集的數(shù)量,以及兼顧客戶端計(jì)算機(jī)硬件配置,對其進(jìn)行數(shù)據(jù)分塊,分塊的大小選擇要使得每個(gè)分塊可以被放入主存。
(2) 在各個(gè)客戶端計(jì)算機(jī)上,利用并行技術(shù)分別訪問服務(wù)器上的數(shù)據(jù)分塊,求出各數(shù)據(jù)分塊所對應(yīng)的局部頻繁項(xiàng)集,并將所求局部頻繁項(xiàng)集存入服務(wù)器的一個(gè)指定表中。
(3) 在服務(wù)器端,匯總各個(gè)分塊數(shù)據(jù)生成的局部頻繁項(xiàng)集,第二次掃描超市事務(wù)數(shù)據(jù)庫中的總表,最終生成全局頻繁項(xiàng)集。
系統(tǒng)的總體設(shè)計(jì)可以如下圖2 應(yīng)用程序總體設(shè)計(jì)所示。
一旦由超市事務(wù)數(shù)據(jù)庫DB中的事務(wù)找出頻繁項(xiàng)集,由它們產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則是直截了當(dāng)?shù)摹K^的強(qiáng)關(guān)聯(lián)規(guī)則是指滿足最小支持度和最小置信度的規(guī)則。
5結(jié)論
隨著計(jì)算機(jī)硬件的降價(jià),利用并行處理的思想,劃分的數(shù)據(jù)塊分給多個(gè)處理機(jī)并行計(jì)算各數(shù)據(jù)塊的局部頻繁項(xiàng)集,然后各分塊所求的局部頻繁項(xiàng)集匯總到服務(wù)器上,再次掃描數(shù)據(jù)庫最終求出全局頻繁項(xiàng)集。這種將關(guān)聯(lián)規(guī)則挖掘算法與并行處理相結(jié)合的方式能更大的提高算法的效率。今后,如何能夠更有效的提高關(guān)聯(lián)規(guī)則算法執(zhí)行的效率,怎樣設(shè)計(jì)更有效、更實(shí)用的算法,是我們進(jìn)一步需要思考的問題。
參考文獻(xiàn)
1.Jiawei Han Micheline Kamber著. 范明,孟小峰等譯 .《數(shù)據(jù)挖掘概念與技術(shù)》(Data Mining Concepts and Techniques).機(jī)械工業(yè)出版社.2001,8
2. Agrawal R,Srikant R.Fast algorithms for mining association rules[Z].Proc. Of the 20th VLDB Conference Santiago,Chile,1994.`
3.鐵治欣, 陳奇, 俞瑞釗. 關(guān)聯(lián)規(guī)則采掘綜述. 計(jì)算機(jī)應(yīng)用研究 . 2000,01.
文章標(biāo)題:計(jì)算機(jī)論文投稿范文參考超市事務(wù)數(shù)據(jù)庫挖掘關(guān)聯(lián)規(guī)則設(shè)計(jì)
轉(zhuǎn)載請注明來自:http://www.56st48f.cn/fblw/dianxin/xinxiguanli/30171.html
攝影藝術(shù)領(lǐng)域AHCI期刊推薦《Phot...關(guān)注:105
Nature旗下多學(xué)科子刊Nature Com...關(guān)注:152
中小學(xué)教師值得了解,這些教育學(xué)...關(guān)注:47
2025年寫管理學(xué)論文可以用的19個(gè)...關(guān)注:192
測繪領(lǐng)域科技核心期刊選擇 輕松拿...關(guān)注:64
及時(shí)開論文檢索證明很重要關(guān)注:52
中國水產(chǎn)科學(xué)期刊是核心期刊嗎關(guān)注:54
國際出書需要了解的問題解答關(guān)注:58
合著出書能否評職稱?關(guān)注:48
電信學(xué)有哪些可投稿的SCI期刊,值...關(guān)注:66
通信工程行業(yè)論文選題關(guān)注:73
SCIE、ESCI、SSCI和AHCI期刊目錄...關(guān)注:120
評職稱發(fā)論文好還是出書好關(guān)注:68
復(fù)印報(bào)刊資料重要轉(zhuǎn)載來源期刊(...關(guān)注:51
英文期刊審稿常見的論文狀態(tài)及其...關(guān)注:69
Web of Science 核心合集期刊評估...關(guān)注:58
電子信息論文范文
智能科學(xué)技術(shù)論文 廣播電視論文 光電技術(shù)論文 計(jì)算機(jī)信息管理論文 計(jì)算機(jī)網(wǎng)絡(luò)論文 計(jì)算機(jī)應(yīng)用論文 通信論文 信息安全論文 微電子應(yīng)用論文 電子技術(shù)論文 生物醫(yī)學(xué)工程論文 軟件開發(fā)論文
期刊百科問答
copyright © www.56st48f.cn, All Rights Reserved
搜論文知識網(wǎng) 冀ICP備15021333號-3