前言:本站為你精心整理了農(nóng)業(yè)網(wǎng)站規(guī)則算法的應(yīng)用范文,希望能為你的創(chuàng)作提供參考價(jià)值,我們的客服老師可以幫助你提供個(gè)性化的參考范文,歡迎咨詢。
1基于關(guān)聯(lián)規(guī)則的APRIORI算法
APRIORI算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法[3]。關(guān)聯(lián)規(guī)則的挖掘分為兩個(gè)過程[4]:找出所有頻繁項(xiàng)集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持記數(shù)一樣;由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,根據(jù)強(qiáng)關(guān)聯(lián)規(guī)則定義,這些規(guī)則必須滿足最小支持度和最小置信度。Apriori算法挖掘頻繁項(xiàng)集,算法使用逐層搜索的迭代方法,k_項(xiàng)集用于探索(k+1)_項(xiàng)集。首先,找出頻繁l_項(xiàng)集的集合,該集合稱作L1。L1用于找出頻繁2_項(xiàng)集的集合L2,L2用于找L3,如此找下去,直到不能找到頻繁k_項(xiàng)集。找每個(gè)Lk需要一次數(shù)據(jù)庫掃描。為提高頻繁項(xiàng)集逐層產(chǎn)生的效率,通常使用Apriori性質(zhì)壓縮搜索空間。可見,頻繁項(xiàng)集的所有非空了集都必須也是頻繁的。根據(jù)定義,如果項(xiàng)集I不滿足最小支持度min_sup,則I不是頻繁的,即P(I)<min_aup。如果項(xiàng)A添加到I,則結(jié)果項(xiàng)集(I∪A)不可能比I更頻繁出現(xiàn)。因此,IA也不是頻繁的,即P(I∪A)<min_sup。Apriori性質(zhì)屬于一種特殊的分類,稱作反單調(diào),意指如果一個(gè)集合不能通過測(cè)試,則它的所有超集也都不能通過相同的測(cè)試。Apriori算法由兩步組成:(1)連接步:為找Lk,通過Lk-1與自己產(chǎn)生候選k_項(xiàng)集。該候選項(xiàng)集的集合計(jì)作Ck。設(shè)l1和l2是Lk-1中的項(xiàng)集。假定事務(wù)或項(xiàng)集中的項(xiàng)按字典次序排列。記號(hào)li[j]表示l1的第j項(xiàng)。執(zhí)行連接(Lk-1聯(lián)合Lk-1),其中Lk-1的元素是可連接的。如果它們前(k-2)個(gè)項(xiàng)相同。即是,Lk-1的元素l1和l2是可連接的,如果(l1[1]=∧l2[1])(l1[2]=l2[2])…(l1[k-2]=l2[k-2])∧(l1[k-1]<l2[k-1]),條件(l1[k=1]<l2[k-1])是簡單保證不產(chǎn)生重復(fù)。l1和l2連接產(chǎn)生的結(jié)果項(xiàng)集是l1[1]l1[2]…l1[k-1]l2[k-1]。(2)剪枝步:Ck是Lk的超集;即是,它的成員可以是也可以不是頻繁的,但所有的頻繁k_項(xiàng)集都包含在Ck中。掃描數(shù)據(jù)庫,確定Ck中每個(gè)候選的計(jì)數(shù),從而確定Lk。然而Ck可能很大,為壓縮Ck,可以使用Apriori性質(zhì),如果一個(gè)候選k_項(xiàng)集的(k-1)_子集不在LK-1中,則該候選也不可能是頻繁的,從而可以由Ck中刪除。
2APRIORI算法在農(nóng)業(yè)網(wǎng)站日志中的應(yīng)用
APRIORI算法針對(duì)不同的應(yīng)用,不同的問題規(guī)模,應(yīng)選擇不同的優(yōu)化方法,甚至在需要準(zhǔn)確性的情況下,可以考慮犧牲性能。如選樣的優(yōu)化方法在問題規(guī)模很大的情況下,可以大大地提高性能,但可能會(huì)遺漏重要的規(guī)則。如上面描述的挖掘網(wǎng)站資源的關(guān)聯(lián)上,在進(jìn)行了概念分層處理后,問題規(guī)模大大減小,我們就可以不考慮采用選樣的優(yōu)化方法。本文采用數(shù)據(jù)挖掘的權(quán)威軟件SAS。SAS的數(shù)據(jù)挖掘方法論稱作SEMMA(抽樣、探索、修改、建模、評(píng)估)。SAS/EM集成了數(shù)據(jù)獲取工具、數(shù)據(jù)取樣工具、數(shù)據(jù)篩選工具、數(shù)據(jù)變量轉(zhuǎn)換工具、數(shù)據(jù)挖掘數(shù)據(jù)庫、數(shù)據(jù)挖掘過程、多種形式的回歸工具,為建立決策樹的數(shù)據(jù)剖分工具、決策樹瀏覽工具、人工神經(jīng)元網(wǎng)絡(luò)、數(shù)據(jù)挖掘的評(píng)價(jià)工具。可利用SAS/EM中具有明確代表意義的圖形化的模塊將這些數(shù)據(jù)挖掘的工具單元組成一個(gè)處理流程圖,并依此來組織用戶的數(shù)據(jù)挖掘的過程。這一過程在任何時(shí)候均可根據(jù)具體情況的需要進(jìn)行修改、更新并將適合用戶需要的模式存儲(chǔ)起來,以便此后重新調(diào)出來使用。對(duì)數(shù)據(jù)集中的變量進(jìn)行模型元類型的更改,將包含IP地址的字段設(shè)置為ID元類型、包含URL用戶訪問頁面地址的字段設(shè)置為Target元類型,然后進(jìn)行關(guān)聯(lián)規(guī)則算法挖掘。
2.1算法分析
結(jié)果窗口,Rules頁面包含了每條規(guī)則的信息。認(rèn)為規(guī)則BoardID=37(農(nóng)產(chǎn)品加工)==>BoardID=21(畜產(chǎn)品加工)是網(wǎng)站用戶一次升錄同時(shí)訪問的2個(gè)欄目,其他的參數(shù)解釋如下:Support(9.6%)forBoardID=37(農(nóng)產(chǎn)品加工)==>BoardID=21(畜產(chǎn)品加工),支持度反映模式的實(shí)用性,關(guān)聯(lián)模式的支持度是模式為真的任務(wù)相關(guān)元組(或事務(wù))所占的百分比。Confidence(62.47%)forBoardID=37(農(nóng)產(chǎn)品加工)==>BoardID=21(畜產(chǎn)品加工),置信度反映模式的確定性,每個(gè)發(fā)現(xiàn)的模式都應(yīng)該有一個(gè)表示其確定性的度量。因此,此關(guān)聯(lián)規(guī)則挖掘訪問網(wǎng)站欄目的用戶一次訪問同時(shí)要訪問的哪些欄目的假定數(shù)據(jù)組成。一個(gè)置信度為62.47%的關(guān)聯(lián)規(guī)則“BoardID=37(農(nóng)產(chǎn)品加工)==>BoardID=21(畜產(chǎn)品加工)”意味訪問BoardID=37(農(nóng)產(chǎn)品加工)的用戶62.47%也要訪問BoardID=21(畜產(chǎn)品加工)欄目。一個(gè)支持度為9.3%的關(guān)聯(lián)規(guī)則BoardID=37(農(nóng)產(chǎn)品加工)==>BoardID=21(畜產(chǎn)品加工)表示訪問網(wǎng)站的全部用戶的9.3%同時(shí)訪問了BoardlD=37(農(nóng)產(chǎn)品加工)和BoardID=21(畜產(chǎn)品加工)兩個(gè)欄目。關(guān)聯(lián)規(guī)則如下:規(guī)則1:BoardID=84(供求信息)==>BoardID=90(供求信息),支持度Support(21.65%),置信度Confidence(65.97%)。規(guī)則2:BoardID=90(供求信息)==>BoardID=84(供求信息),支持度Support(21.65%),置信度Confidence(57.52%)。規(guī)則3:BoardID=37(農(nóng)產(chǎn)品加工)==>BoardID=21(畜產(chǎn)品加工),支持度Support(9.60%),置信度Confidence(62.47%)。規(guī)則4:BoardID=21(畜產(chǎn)品加工)==>BoardID=37(農(nóng)產(chǎn)品加工),支持度Support(9.60%),置信度Confidence(80.077%)。規(guī)則5:BoardID=37(農(nóng)產(chǎn)品加工)==>BoardID=12(國外農(nóng)業(yè)),支持度Support(9.48%),置信度Confidence(61.40%)。規(guī)則6:BoardID=12(國外農(nóng)業(yè)==>BoardID=37(農(nóng)產(chǎn)品加工),支持度Support(9.48%),置信度Confidence(76.52%)。規(guī)則7:BoardID=37(農(nóng)產(chǎn)品加工)==>BoardID=23(食品科學(xué)),支持度Support(9.35%),置信度Confidence(60.86%)。規(guī)則8:BoardID=23(食品科學(xué))==>BoardID=37(農(nóng)產(chǎn)品加工),支持度Support(9.35%),置信度Confidence(83.24%)。
2.2模式評(píng)價(jià)
在評(píng)價(jià)版塊欄目之間聯(lián)系時(shí),如果支持度過小(通常為5%)時(shí),則沒有強(qiáng)規(guī)則被發(fā)現(xiàn),說明網(wǎng)站版塊欄目的獨(dú)立性較強(qiáng),版塊欄目之間聯(lián)系較小、緊密性不強(qiáng),訪問者只對(duì)某個(gè)版塊欄目感興趣。農(nóng)業(yè)專家在線現(xiàn)有咨詢欄目40余個(gè),通過關(guān)聯(lián)規(guī)則挖掘,發(fā)現(xiàn)了以上8條規(guī)則,農(nóng)產(chǎn)品加工與畜產(chǎn)品加工、農(nóng)產(chǎn)品加工與國外農(nóng)業(yè)、農(nóng)產(chǎn)品加工與食品科學(xué)等咨詢欄目存在關(guān)聯(lián),這也反映了網(wǎng)站用戶迫切需要這方面的農(nóng)業(yè)知識(shí),農(nóng)業(yè)專家在線將利用挖掘的結(jié)果加大此類論壇的專家力量、更改論壇導(dǎo)航等內(nèi)容方便廣大用戶訪問,其他農(nóng)業(yè)類網(wǎng)站也可以利用這個(gè)挖掘結(jié)果把網(wǎng)站內(nèi)容多多關(guān)注此類信息。
2.3挖掘農(nóng)業(yè)網(wǎng)站
由于農(nóng)業(yè)專家在線咨詢欄目以論壇形式進(jìn)行組織的,用戶訪問論壇欄目跳轉(zhuǎn)的次數(shù)用線條的粗細(xì)進(jìn)行表示,其中農(nóng)產(chǎn)品加工(BoaidID=37)、植物病害(BoardID=39)、蔬菜(BoaadID=41)、農(nóng)業(yè)機(jī)械(BoaadID=85)是這個(gè)時(shí)間段用戶頻繁訪問的欄目。圖2為詳細(xì)路徑模式,可以清楚看出線條代表用戶訪問網(wǎng)站具體的序列。它是通過論壇主頁(index.asp),依次訪問農(nóng)產(chǎn)品加工(BoardID=37)、植物病害(BoardID=39)、蔬菜(BoaadID=41)、農(nóng)業(yè)機(jī)械(BoaidID=85)等欄目的。在詳細(xì)路徑圖單代表了整體用戶訪問模式。在圖中,可以看到最頻繁訪問的URLs集中在中間部分,由厚厚的紅色和藍(lán)色點(diǎn)點(diǎn)組成。頻繁訪問URLs也顯示用戶是在這些頁面進(jìn)入或離開此網(wǎng)站的。可以通過LINK分析挖掘出任意2個(gè)欄目的最短訪問路徑,以下是用戶從大豆遺傳育種(BoaadID=1)到農(nóng)業(yè)機(jī)械(BoaadID=85)用戶訪問的最短路徑。一共這一時(shí)間段中共有92人選擇了經(jīng)過畜禽傳染病防治(BoardID=31)欄目進(jìn)行路徑選擇。
3結(jié)語
本文研究了關(guān)聯(lián)規(guī)則算法及算法改進(jìn)措施,采用SAS軟件數(shù)據(jù)挖掘模塊,利用關(guān)聯(lián)規(guī)則、鏈接分析等過程挖掘農(nóng)業(yè)專家在線網(wǎng)站日志及信息構(gòu)建。通過挖掘發(fā)現(xiàn)農(nóng)產(chǎn)品加工與畜產(chǎn)品加工、農(nóng)產(chǎn)品加工與國外農(nóng)業(yè)、農(nóng)產(chǎn)品加工與食品科學(xué)等咨詢欄目存在關(guān)聯(lián),農(nóng)業(yè)用戶頻繁訪問的農(nóng)業(yè)欄目為網(wǎng)站首頁,依次訪問農(nóng)產(chǎn)品加工、植物病害、蔬菜、農(nóng)業(yè)機(jī)械等欄目,為網(wǎng)站改進(jìn)及相關(guān)農(nóng)業(yè)網(wǎng)站建設(shè)必將起到重要指導(dǎo)性作用。
農(nóng)業(yè)期刊 農(nóng)業(yè)機(jī)械 農(nóng)業(yè)概論 農(nóng)業(yè)工作意見 農(nóng)業(yè)水利 農(nóng)業(yè)保險(xiǎn) 農(nóng)業(yè)畢業(yè) 農(nóng)業(yè)建設(shè) 農(nóng)業(yè)經(jīng)濟(jì)期刊 農(nóng)業(yè)科普教育 紀(jì)律教育問題 新時(shí)代教育價(jià)值觀